データマネジメント データマネジメント記事一覧へ

[Sponsored]

[データマネジメント2024]

Gemini搭載でGoogle CloudのAIプラットフォーム「Vertex AI」が大幅アップデート。企業の生成AI活用に不可欠なデータマネジメントとは

2024年4月22日(月)

IT大手企業による生成AIへの取り組みが注目される中、2023年12月にGoogleは生成AIモデル「Gemini」を発表。同時にGoogle Cloudのマネージド機械学習プラットフォーム「Vertex AI」もGeminiに対応した。2024年3月8日に開催された「データマネジメント2024」(主催:日本データマネジメント・コンソーシアム〈JDMC〉、インプレス)では、グーグル・クラウド・ジャパン合同会社の田村 政則氏と赤栗 雅史氏が登壇。Geminiを搭載したVertex AIの活用方法と、その効果を最大化するために必要なデータマネジメントの方策が紹介された。
提供:グーグル・クラウド・ジャパン合同会社

2015年からAIに取り組んでいたGoogleは、「Gemini」に到達

 Googleは、2015年以降、AIの領域において数多くのイノベーションを実現してきた。注目すべきは、2017年に発表された「Transformer」の論文であり、これは現在の大規模言語モデル(LLM:Large Language Models)の基盤を形成している。2023年には、PaLM 2というLLMをリリースし、同年にはマルチモーダル生成AIモデルである「Gemini」をリリースした(図1)。

図1:GoogleのAIの歩み。Geminiには大きな期待がかかっている
拡大画像表示

 Geminiの大きな特徴は、言葉だけでなく画像、音声、ビデオなど複数のモードを入力でき、それに応じた返答を生成できるマルチモーダルである点だ。他にも、複数の選択肢から最適なものを推論する「推論機能」、スマートフォン向けの「Nano」、高度な使用に向けた「Pro」、大規模要求に向けた「Ultra」など、多様な選択肢を提供し、用途の幅広さに対応している。

 グーグル・クラウド・ジャパン合同会社 ストラテジー&オペレーション ジャパン ソリューション事業開発部長 データアナリティクス・AI 担当の田村 政則氏は、Gemini基盤モデルの学習データについて、「顧客のデータは明示的な許可がない限り使用しない」と述べており、情報漏洩や著作権侵害に対する懸念を払拭している。

グーグル・クラウド・ジャパン合同会社 ストラテジー&オペレーション ジャパン ソリューション事業開発部長 データアナリティクス・AI 担当 田村 政則氏

Geminiをベースにした企業向け生成AIサービス「Vertex AI Search」

 Google Cloudにおいて、Geminiを統合した企業向けのAIプラットフォームが「Vertex AI」だ。企業利用を前提とするエンタープライズレディなサービスであり、DevOpsといった開発環境へ対応や、データ保護、セキュリティ対策が整っている。田村氏は、「Vertex AIは企業のAI開発に必要な要素を、ほぼ全て網羅しているプラットフォームです」と語った。

 また最近のGoogle検索は、従来のキーワード検索からベクトル検索へと主たる手法が進化しており、ユーザーの検索意図をより深く理解し、必要な情報を上位に表示できるようになった。さらに検索結果を要約する機能も提供している。ベクトル検索とは、検索のキーワードを数値化したデータに変換し、そのデータの中から距離的に近い、つまり最も類似した情報を探し出す手法だ。例えば、ある画像の内容が、「映画に関するもの」が10%、「音楽」が2%、「俳優」が30%と判断できた場合、それを[0.1, 0.02, 0.3]というベクトルで定義できる。

 このように数値化されたデータを仮想的な3D空間に配置すると、空間内での距離計算により、言葉や画像などの関連性を明らかにでき、ベクトルが近ければ関連が高いと判断できる。この結果、従来は難しかった色の違いなどの微妙な関連性も把握でき、文字列にできない画像コンテンツも検索の対象に含めることが可能になった。

 Vertex AIプラットフォームには、このベクトル検索機能が搭載されており、画像とテキストを組み合わせた検索や要約を行うことができる。そしてこのプラットフォームを利用して、企業が容易に生成AI技術を活用できるプロダクトが、「Vertex AI Search and Conversation(以下、Vertex AI Search)」だ(図2)。

図2:Vertex AIに生成AI、Geminiの機能を盛り込んだのが「Vertex AI Search and Conversation」
拡大画像表示

 今回の講演において、グーグル・クラウド・ジャパン合同会社 メディア・エンターテイメント事業本部 カスタマー エンジニアリング データ アナリティクス スペシャリスト 赤栗 雅史氏は、Vertex AI Searchを使った検索アプリケーション作成のデモンストレーションを行った。

グーグル・クラウド・ジャパン合同会社 メディア・エンターテイメント事業本部 カスタマー エンジニアリング データ アナリティクス スペシャリスト 赤栗 雅史氏

 赤栗氏はまず任意のWebサイト内を検索するアプリケーションを作成した。手順としては、サイトのURLをVertex AI Search上で設定するだけ。設定後、検索窓に自然言語に近い質問を入力すると、ベクトルの位置情報を用いた検索が実行され、適切な検索結果が返される。

 次は、クラウドストレージに保存されたドキュメントを対象とする検索アプリケーションだ。こちらも設定は容易で、デモでは社内規定や出張ルールなどの社内ルールを定めたファイル等をドキュメントとして設定。ファイルの数は、数十から数千あっても問題ない。検索窓に「有給は何日取れる?」と自然言語で質問を入力すると、Vertex AI Searchは正確な日数を表示し、続いて「上限は何日?」と質問すると、「有給休暇の上限は20日です」と、前の検索内容を踏まえた上で、次の検索結果を出した。さらに、社内規定の作成も簡単な指示だけで行え、数秒で実用的な文書を生成する機能を見せた。

 赤栗氏は、「Geminiは、特に精度が向上しており、違和感なく生成AIの機能を利用できます。正確なデータが豊富にあれば、生成AIは新しいサービスの創出やユーザー体験の向上につながります」と、Vertex AI Searchの利活用を推奨した。

生成AIの正しくない回答を回避する“グラウンディング”に対応

 Vertex AI Searchの導入効果に対し、企業としては期待を大きくしたいところだが、問題がないわけではない。それは、実在しない回答を生成してしまう「ハルシネーション」だ。生成AIは、学習した言葉を基に文字列を生成するため、元々存在しない情報を尋ねると、回答が不正確になる場合がある。

 この問題の緩和するために、田村氏は「グラウンディング」という手法を紹介した。これは、生成AIが元々持っている「基盤データ」に加えて、社内のデータやドキュメントといった独自のデータソースを加える(グラウンド=設置)ことを指す。グラウンディングを実施すると、生成AIは独自のデータソースの正しい情報を基盤データより優先して利用して回答を生成することが可能になる。Vertex AI Searchはグランディングに対応しており、より正しいデータを追加すればハルシネーションを低減することが期待できるのだ(図3)。

 さらに田村氏はグラウンディングの効果的な利用を示す事例として、「確定拠出年金の制度と私の拠出額を教えて」と質問をした。すると「あなたは2万500ドルまで拠出できます」と個人拠出額まで含めた回答例が表示された。田村氏は、「会社の基本的なデータに、個人の給与データを加えることで、より詳細な回答を得られました」とグラウンディングの高い有用性を示した。

図3:グラウンディングによって、ハルシネーションの低減が期待できる
拡大画像表示

Vertex AI Searchを活かすデータマネジメント

 生成AIを効果的に活用するには、必要かつ正確なデータがどこにあるのか、それをどこから引き出せば良いのだろうか。Google Cloudは、インテリジェントで統一されたデータを、すべての組織が利用できるサービスを提供しており、そのため、場所を問わず任意のデータを取得し、AIと組み合わせて使用できる機能を実装している。

 特に、Google Cloudのデータウェアハウス「BigQuery」は、マルチエンジン対応しており、SQLやSpark、検索など様々な方法でデータを取得・利用できる。非構造化データや半構造化データの扱いも可能だ。マルチストレージにも対応しているため、外部に置かれたデータでも、BigQueryを通じて検索し利用できる。クラウド横断機能を使えば、Google Cloud内だけではなく他のクラウドベンダーのストレージ内のデータもBigQueryで取得できる。加えてBigQueryは、ストレージに関する様々なデータカタログを理解できるため、正しいデータの所在も容易に把握することができる。

生成AIを最大限活用するためには、AIに適したデータ基盤を

 生成AIを活用する上で、どのデータが正確で、どのようにアクセスすべきかが明確であることは非常に重要なポイントである。田村氏は、「生成AIを最大限に活用するには、AIにデータを取り込むのではなく、データ基盤上でAIを活用することが重要。そうした基盤でAIを導入すれば、必要なデータに容易にアクセス可能になります。この目的のため、Google CloudではBigQueryを基盤として推奨しています」と述べた(図4)。

 AIを活用したデータ基盤を構築できれば、それはAIだけでなく、他の用途にも利用できる。そのため、データ基盤の構築を優先的に、または同時に検討することが望ましい。田村氏は最後に、「Google Cloudは、BigQueryを中心としたVertex AIプラットフォームを通じて、AIを簡易に利用できる環境を提供したい」とGoogle Cloudが目指す生成AIの活用を提言した。

図4:AIの活用にはAIに適したデータマネジメントが肝心
拡大画像表示

●お問い合わせ先

グーグル・クラウド・ジャパン合同会社
URL:https://cloud.google.com/?hl=ja

バックナンバー
データマネジメント2024一覧へ
関連記事

トピックス

[Sponsored]

Gemini搭載でGoogle CloudのAIプラットフォーム「Vertex AI」が大幅アップデート。企業の生成AI活用に不可欠なデータマネジメントとはIT大手企業による生成AIへの取り組みが注目される中、2023年12月にGoogleは生成AIモデル「Gemini」を発表。同時にGoogle Cloudのマネージド機械学習プラットフォーム「Vertex AI」もGeminiに対応した。2024年3月8日に開催された「データマネジメント2024」(主催:日本データマネジメント・コンソーシアム〈JDMC〉、インプレス)では、グーグル・クラウド・ジャパン合同会社の田村 政則氏と赤栗 雅史氏が登壇。Geminiを搭載したVertex AIの活用方法と、その効果を最大化するために必要なデータマネジメントの方策が紹介された。
提供:グーグル・クラウド・ジャパン合同会社

PAGE TOP