ペンギンソリューションズ、LLM推論のKVキャッシュを高速化する11TBメモリーサーバーを発表

2026年6月25日(木)日川佳三（IT Leaders編集部）

リスト

ペンギンソリューションズ（旧称は日本ストラタステクノロジー）は2026年6月24日、大規模AI推論用の「MemoryAI KVキャッシュサーバー」を発表した。4Uラックマウントの筐体に11TBのメモリーを積んだストレージキャッシュ装置であり、LLMが推論時に生成するトークンのKV（キーバリュー）キャッシュを外部ストレージ階層にオフロードする際のI/O性能を高められる。2026年第4四半期に提供を開始する。

　ペンギンソリューションズの「MemoryAI KVキャッシュサーバー」は、大規模なAI推論の応答性能を高めるための装置である（写真1）。4Uラックマウントの筐体に11TBのメモリーを積んだストレージキャッシュ装置であり、LLMが推論時に生成するトークンのKVキャッシュを外部ストレージ階層にオフロードする際のI/O性能を高める。

写真1：「MemoryAI KVキャッシュサーバー」の外観（出典：ペンギンソリューションズ）
拡大画像表示

　前提として、LLMの推論では、生成したトークンのKVキャッシュが大量に発生する。例えば、RAG（検索拡張生成）でLLMに渡す情報量が多い場合や、長い対話のやり取りなどでは、KVキャッシュがGPUメモリーを圧迫する。このため、CPU配下のメインメモリーにKVキャッシュを退避させ、必要に応じて再ロードする。それでも容量が足りない場合は退避先としてストレージも使う。

　米NVIDIAは、大規模推論時におけるKVキャッシュの運用モデルをNVIDIA Dynamoフレームワークとして公開している（図1）。推論サーバーのローカルSSDだけでなく外部ストレージも使うことで、大容量のKVキャッシュを利用できるようにしている。複数台の推論サーバーでクラスタを組んでKVキャッシュを共有する使い方も想定している。

図1：NVIDIA Dynamoの運用モデルとKVキャッシュサーバーの位置付け（出典：ペンギンソリューションズ）
拡大画像表示

　今回提供するMemoryAI KVキャッシュサーバーは、ローカルSSDと外部ストレージの間に挟まり、外部ストレージをメモリーでキャッシュする。これにより、NVIDIA Dynamoフレームワークにおける外部ストレージをより高速に利用できるようにする。外部ストレージにKVキャッシュを退避させるような大規模推論時において応答性能が高まる。

　装置の実態は、4UラックマウントのI/Oボックスに、PCI Expressの物理仕様を流用したインターコネクト規格であるCXL（Compute eXpress Link）接続のメモリーユニット8個を収容し、このうえでKVキャッシュ機能を持つサーバー機を搭載したものである。推論サーバーとはイーサネットまたはInfiniBandで接続する。

　CXLメモリー1ユニットには、容量128GBのDIMMを8枚（合計1TB）積んでおり、8ユニットで合計8TBになる（写真2）。サーバー機が3TBのメモリーを積んでいるので、4Uの装置全体では11TBのメモリーをキャッシュ用途に利用できる。

写真2：CXLメモリーユニットの外観。DIMM×8枚を装着する（出典：ペンギンソリューションズ）
拡大画像表示

　なお、ペンギンソリューションズは、2026年4月に日本ストラタステクノロジーから社名を変更している。米国本社の事業ブランド統合を受けたものであり、これまで販売してきた無停止型サーバーをストラタス（Stratus）ブランドで継続して販売すると同時に、今後はブランド統合先である米ペンギン・ソリューションズの製品（AI用途のGPU搭載サーバーなど）を販売する（関連記事：日本ストラタステクノロジーがペンギン・ソリューションズに社名変更、無停止型サーバーに加えてAI向けGPUサーバーを販売）。

リスト

トピックス

[Sponsored]

ペンギンソリューションズ、LLM推論のKVキャッシュを高速化する11TBメモリーサーバーを発表

おすすめのホワイトペーパー

トピックス