Python用「vLLM」、AIエージェント開発API「Llama Stack」、Linux新版「RHEL 10」など─Red Hat Summit 2025での主な発表

2025年6月4日(水)日川佳三（IT Leaders編集部）

リスト

レッドハットは2025年6月4日、説明会を開き、米国本社が同年5月に開催した「Red Hat Summit 2025」で発表された主な技術・製品・サービスについて紹介した。AI関連では、新製品「Red Hat AI Inference Server」（LLM推論エンジンのvLLMおよびLLM軽量化ツール）、「llm-d」（Kubernetesベースの分散推論基盤）、「Llama Stack」（Metaと共同開発するAIエージェント開発用API）などを説明した。

　レッドハットは都内で説明会を開き、本社が2025年5月に米ボストンで開催した年次プライベートイベント「Red Hat Summit 2025」で発表された主な技術・製品・サービスについて紹介した。

　同イベントでは多くのAI関連の発表がなされた。新製品「Red Hat AI Inference Server」は、LLM推論エンジンの「vLLM」とLLM軽量化ツール「LLM Compressor」で構成する。vLLMは、LLMの推論をメモリー管理などによって高速化するPython用のオープンソースライブラリである。

　一方のLLM Compressorは、既存のLLMを“量子化”（16ビットから8ビットや4ビットなどに軽量化）する。例えば、bfloat16で構築されたモデルをFP8やINT8/INT4など軽量なものにサイズダウンする。性能を維持したまま、より少ないリソースで高速に動作させられるという。レッドハットは、同社が軽量化した各LLMをHugging Faceで公開している（図1）。

図1：「LLM Compressor」で軽量化したLLMのベンチマーク結果（出典：レッドハット）
拡大画像表示

　Kubernetesベースの分散推論基盤「llm-d」プロジェクトが発表された。KubernetesとvLLM、負荷分散用のInference Gatewayなどが主要なコンポーネントとなる。

　また、米Metaとの共同プロジェクトとして「Llama Stack」を推進する。AIエージェントを作成するための標準APIを提供するもので、AIアプリケーションを構成する各種コンポーネント（モデル、ベクトルデータベース、ガードレールなど）を一元的なAPIを介して利用できるようにする。バックエンドでMCP（Model Context Protocol）も併用可能である（図2）。