グーグルは2025年2月6日、大規模言語モデル(LLM)/マルチモーダルAIモデルの新版「Gemini 2.0」を提供開始したと発表した。「Gemini 2.0 Flash」は一般提供を開始、すべてのユーザーが利用できる。「Gemini 2.0 Flash-Lite」はパブリックプレビュー版、「Gemini 2.0 Pro」は試験運用版を公開した。いずれも「Google AI Studio」および「Vertex AI」のGemini APIを介して利用できる。
米グーグルの「Gemini」は、テキスト、画像、音声、動画、コードなど複数の情報形式を扱える大規模言語モデル(LLM)/マルチモーダルAIモデルである。2023年12月に初期版、2024年2月に新版「Gemini 1.5」を発表している。開発者は、「Google AI Studio」および「Vertex AI」のGemini APIを介して同AIモデルを利用可能である(関連記事:グーグル、マルチモーダルAIモデル新版「Gemini 1.5」をテスト公開、100万トークンを入力可)。
![](/mwimgs/9/1/600/img_91ec8b4fbfa0b96f6ea6c5edbd169545137693.png)
拡大画像表示
今回、新版となる「Gemini 2.0」の各モデルを公開した(表1)。主力モデル「Gemini 2.0 Flash」は一般提供を開始し、すべてのユーザーが利用できる。開発者は、業務環境で利用するAIアプリケーションをGemini 2.0 Flashを活用して構築可能である。また、コスト効率が高い「Gemini 2.0 Flash-Lite」はパブリックプレビュー版を、コーディング性能が高い「Gemini 2.0 Pro」は試験運用版(Experimental)をそれぞれ公開した。
Flash/Flash-Lite/Proともに、リリース時にはマルチモーダル入力/テキスト出力が可能。今後数カ月をかけて、マルチモーダルで出力できるようにする。モデルが1度に処理できるトークン数は、2.0 Flashと2.0 Flash-Liteが100万トークン、2.0 Proが200万トークンである。いずれも、膨大な情報を使った推論が可能だとしている。
2.0 Flash-Liteは、1.5 Flashと同じ速度とコストで、より高い性能を実現した。大部分のベンチマークで1.5 Flashを上回る性能を示している(表2)。コストについては、Google AI Studioの有料プランの場合、1ドル未満で、約4万枚の写真に1枚あたり1行のキャプションを生成できるとしている。
![](/mwimgs/6/5/600/img_65cce1ff8d4dff6ec54f9ee873d99e8a277523.png)
拡大画像表示
図1はGemini 2.0シリーズの料金である。
![](/mwimgs/f/b/600/img_fb093ec1e59c23692a0f001036dc8d64157795.png)
拡大画像表示