[新製品・サービス]
グーグル、マルチモーダル生成AI「Gemini」を発表、「人間の専門家を上回る」とアピール
2023年12月7日(木)日川 佳三(IT Leaders編集部)
米グーグル(Google)日本法人は2023年12月7日、マルチモーダルAIモデル「Gemini」を発表した。テキスト、画像、音声、動画、コードなど複数の情報形式を扱える。動作デバイスに応じてUltra/Pro/Nanoの3モデルを提供する。上位版は、MMLUベンチマーク値は90.00%で、「人間の専門家を上回る性能を示した」としている。同日、生成AIアシスタントの「Bard」において自然言語でGemini Pro(英語版)を利用できるようにした。2023年初めには上位版のGemini Ultraで動作する「Bard Advanced」を公開する。
グーグルの「Gemini」は、マルチモーダル生成AIモデルである。テキスト、画像、音声、動画、コードなど複数の情報形式を扱える。データセンターからモバイルまで動作デバイスに応じてUltra/Pro/Nanoの3モデルを提供する(図1)。
2023年12月7日、生成AIアシスタントの「Bard」において、テキストベースのプロンプトでGemini Pro(英語版)を利用できるようにした。今後、テキスト以外のデータを含めて、マルチモーダルデータを扱えるようにし、2023年初めには、上位版のGemini Ultraで動作する「Bard Advanced」を公開する(関連記事:グーグルの生成AI「Bard」が日本語に対応、大規模言語モデルをPaLM 2に刷新)。
同年12月13日からは、「Google AI Studio」および「Vertex AI」のGemini APIを介してGemini Proを利用可能になる。今後、数カ月をかけて、Google検索、広告、Chrome、Duet AIなど同社の主要なサービスでGeminiを利用できるようにする。検索サービスの「Gemini in Search」についてはすでに試験運用を開始している。
ベンチマーク値は「人間の専門家を上回る」
グーグルは、Geminiの性能や精度の高さをアピールしている。数学、物理学、歴史、法律、医学、倫理など57の科目の組み合わせで知識と問題解決能力をテストするMMLU(大規模マルチタスク言語理解)と、小学校の算数レベル(GSM8K)で、Gemini Proは米OpenAIのGPT-3.5よりもすぐれているという。
上位版であるGemini Ultraは、自然な画像、音声、動画の理解、数学的推論、などで広く使われている32のベンチマークプログラムのうちの30で、既存の最高水準の結果を上回ったという。MMLUでは90.00%のスコアをマークし、「人間の専門家を上回る性能を示した初のモデル」(同社)としている。
Gemini Ultraは、意図的な推論を必要とする、異なるドメインにまたがったマルチモーダルタスクで構成した新しいMMMUベンチマークでも、59.4%という最高水準のスコアを記録した。画像ベンチマークでは、OCR(光学文字認識)の支援なしで、以前の最高水準のモデルを上回った。
マルチモーダルで複数種類のデータを理解
グーグルは、マルチモーダルAIの課題について、「マルチモーダルモデルを作成する標準的なアプローチは、異なるデータの個別コンポーネントを学習させ、これらをつなぎ合わせて機能の一部を大まかに模倣するというプロセスを含む。これらのモデルは画像の説明などの特定のタスクの実行にはすぐれるが、より概念的で複雑な推論に苦労することがある」と説明している。
Geminiでは、最初からマルチモーダルで使えるように設計し、異なるデータで事前学習させ、そのうえで追加のマルチモーダルデータを使ってファインチューニングを施し、有効性を高めているという。「複数の種類の入力をゼロから理解し、推論できる。既存のマルチモーダルモデルより優れており、ほぼすべてのドメインで最高水準だ」(同社)。
コードの理解と生成については、Python、Java、C++、Goなど、各種プログラミング言語をカバーする。複数のコーディングベンチマークテストで良い結果を出したとしている。Geminiで開発したコード生成システム「AlphaCode 2」は、競技プログラミングコンテストにおいて、コンテスト参加者の85%よりも良い成績を収めたという。