[新製品・サービス]
グーグル、マルチモーダルAIモデル新版「Gemini 1.5」をテスト公開、100万トークンを入力可能
2024年2月16日(金)日川 佳三、河原 潤(IT Leaders編集部)
米グーグルは2024年2月15日(米国現地時間)、マルチモーダルAIモデル「Gemini」の新版「Gemini 1.5」を公開したと発表した。新版では、応答生成時に参照する情報量(コンテキストウィンドウ)を最大100万トークンまで拡張している。標準構成でもGemini 1.0の3万2000トークンを超える12万8000トークンを扱える。
米グーグルの「Gemini」はテキスト、画像、音声、動画、コードなど複数の情報形式を扱えるマルチモーダルAIモデルである。2023年12月に初期版を発表しており、現在、「Google AI Studio」および「Vertex AI」のGemini APIを介して利用可能である(関連記事:グーグル、マルチモーダル生成AI「Gemini」を発表、「人間の専門家を上回る」とアピール)。
図1:コンテキストウィンドウのサイズ比較(出典:米Google) 今回、新版「Gemini 1.5」の中規模モデル「同Pro」を初期テスト用に公開した。特徴の1つは長文のコンテキスト(文脈)理解能力が向上したこと。応答生成時に参照する情報量(コンテキストウィンドウ)を最大100万トークンまで拡張している。標準構成でもGemini 1.0の3万2000トークンを超える12万8000トークンを扱える(図1)。
グーグルは、100万トークンという規模は1時間のビデオ、11時間の音声、3万行以上のコード、70万語以上の単語など膨大な情報を一度に処理できることを意味していると説明。研究では最大1000万個のトークンのテストにも成功しているという。
プロンプトとして与えた大量のコンテンツをシームレスに分析、分類、要約できるとしている。例えば、アポロ11号の月面着陸に関する402ページに及ぶ記録を与えた場合、この文書内にある会話、出来事、詳細について推論できるという。
また、ビデオなどのマルチモーダルコンテンツも理解する。44分間のバスター・キートンの無声映画を与えると、筋書きや出来事を正確に分析し、見逃しがちな小さな詳細についても推論できるとしている。
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



