グーグルは2025年2月6日、大規模言語モデル(LLM)/マルチモーダルAIモデルの新版「Gemini 2.0」を提供開始したと発表した。「Gemini 2.0 Flash」は一般提供を開始、すべてのユーザーが利用できる。「Gemini 2.0 Flash-Lite」はパブリックプレビュー版、「Gemini 2.0 Pro」は試験運用版を公開した。いずれも「Google AI Studio」および「Vertex AI」のGemini APIを介して利用できる。
米グーグルの「Gemini」は、テキスト、画像、音声、動画、コードなど複数の情報形式を扱える大規模言語モデル(LLM)/マルチモーダルAIモデルである。2023年12月に初期版、2024年2月に新版「Gemini 1.5」を発表している。開発者は、「Google AI Studio」および「Vertex AI」のGemini APIを介して同AIモデルを利用可能である(関連記事:グーグル、マルチモーダルAIモデル新版「Gemini 1.5」をテスト公開、100万トークンを入力可)。

拡大画像表示
新版となる「Gemini 2.0」の各モデルを公開した(表1)。主力モデル「Gemini 2.0 Flash」は一般提供を開始し、すべてのユーザーが利用できる。開発者は、業務環境で利用するAIアプリケーションをGemini 2.0 Flashを活用して構築可能である。また、コスト効率が高い「Gemini 2.0 Flash-Lite」はパブリックプレビュー版を、コーディング性能が高い「Gemini 2.0 Pro」は試験運用版(Experimental)をそれぞれ公開した。
Flash/Flash-Lite/Proの全モデルとも、マルチモーダル入力/テキスト出力が可能。グーグルは今後、数カ月をかけてマルチモーダルで出力できるようにする。モデルが1度に処理できるトークン数は、2.0 Flashと2.0 Flash-Liteが100万トークン、2.0 Proが200万トークンである。いずれも膨大な情報を基にした推論が可能としている。
2.0 Flash-Liteは、1.5 Flashと同じ速度とコストで、より高い性能を実現した。大部分のベンチマークで1.5 Flashを上回る性能を示している(表2)。

拡大画像表示
表3は、Gemini 2.0シリーズの料金である。Google AI Studioの有料プランの場合、1ドル未満で、約4万枚の写真に1枚あたり1行のキャプションを生成できるとしている。

拡大画像表示