米グーグルは2024年2月15日(米国現地時間)、マルチモーダルAIモデル「Gemini」の新版「Gemini 1.5」を公開したと発表した。新版では、応答生成時に参照する情報量(コンテキストウィンドウ)を最大100万トークンまで拡張している。標準構成でもGemini 1.0の3万2000トークンを超える12万8000トークンを扱える。
米グーグルの「Gemini」はテキスト、画像、音声、動画、コードなど複数の情報形式を扱えるマルチモーダルAIモデルである。2023年12月に初期版を発表しており、現在、「Google AI Studio」および「Vertex AI」のGemini APIを介して利用可能である(関連記事:グーグル、マルチモーダル生成AI「Gemini」を発表、「人間の専門家を上回る」とアピール)。
今回、新版「Gemini 1.5」の中規模モデル「同Pro」を初期テスト用に公開した。特徴の1つは長文のコンテキスト(文脈)理解能力が向上したこと。応答生成時に参照する情報量(コンテキストウィンドウ)を最大100万トークンまで拡張している。標準構成でもGemini 1.0の3万2000トークンを超える12万8000トークンを扱える(図1)。
グーグルは、100万トークンという規模は1時間のビデオ、11時間の音声、3万行以上のコード、70万語以上の単語など膨大な情報を一度に処理できることを意味していると説明。研究では最大1000万個のトークンのテストにも成功しているという。
プロンプトとして与えた大量のコンテンツをシームレスに分析、分類、要約できるとしている。例えば、アポロ11号の月面着陸に関する402ページに及ぶ記録を与えた場合、この文書内にある会話、出来事、詳細について推論できるという。
また、ビデオなどのマルチモーダルコンテンツも理解する。44分間のバスター・キートンの無声映画を与えると、筋書きや出来事を正確に分析し、見逃しがちな小さな詳細についても推論できるとしている。