NTT、心に思い浮かべた映像を言葉に変換する脳解読技術「マインド・キャプショニング」を開発

言葉を使わずに考えを伝える新たなコミュニケーションを実現へ

2025年11月18日(火)日川佳三、河原潤（IT Leaders編集部）

リスト

NTTは2025年11月17日、心に思い浮かべた映像やヒトが見ている映像の内容を文章として生成する技術「マインド・キャプショニング」を開発したと発表した。言語的思考を再構成するのではなく、脳の言語野(げんごや)を介さない非言語的思考を言語に翻訳できることを実証。NTTは、言葉を使わずに考えを伝える新たなコミュニケーション手段として同技術の研究開発に取り組んでいる。

　NTTは、ヒトが見ている映像や心に思い浮かべた映像の内容を文章として生成する技術「マインド・キャプショニング（Mind captioning）」を開発した。研究成果を米国の科学誌『Science Advances』で発表している。

　研究では、ヒトの脳活動から複雑に構造化された視覚内容の意味情報の解読を試み、言語的思考を再構成するのではなく、脳の言語野(げんごや)（前頭葉から側頭葉にわたる、言語機能を担う脳の部位）を介さない非言語的な思考を言語へと翻訳できることを実証した。NTTは、言葉を使わずに考えを伝える新たなコミュニケーション手段と位置づけて同技術の研究開発に取り組んでいる（図1）。

図1：心に思い浮かべた映像を言葉に変換する脳解読技術「マインド・キャプショニング」の概要と結果（出典：NTT）
拡大画像表示

図2：マインド・キャプショニングを用いて脳活動からテキストを生成するプロセス（出典：NTT）
拡大画像表示

　NTTは、脳活動から深層言語モデルの意味特徴を予測する脳情報デコーディングモデルとAIモデルを組み合わせ、脳活動パターンをマシンラーニング（機械学習）を用いてAI特徴空間に写像（マッピング）する「脳-AI統合型デコーディング」に、言語AIモデルである「深層言語モデル」を導入して、知覚・想像した視覚内容に関するテキスト記述をヒト脳活動から生成するマインド・キャプショニング技術を考案した。

　同技術の実証では、「脳活動から深層言語モデルの意味特徴を予測するデコーダの訓練」と「訓練済みデコーダで予測した特徴に基づくテキスト記述の繰り返し最適化」という2段階の処理によって、機能的磁気共鳴画像法（fMRI、注1）で計測したヒト脳活動から、知覚・想像した視覚内容のテキスト記述を生成することに成功している（図2）。

　第1段階では、fMRIで計測した動画観察中のヒト脳活動データと、動画の視覚内容についての記述文データを収集。その後、各動画の記述文から深層言語モデルを用いて抽出した意味特徴を対応する動画を見ている時の脳活動から予測（変換）するようにデコーダを学習させる。

　第2段階では、新たな動画を見たり思い浮かべたりしている時の脳活動を学習済みデコーダで意味特徴に変換する。この特徴をターゲットに、候補文の一部をマスク単語で置換・補完する処理を反復し、デコード特徴との類似度が高いテキストを段階的に生成する。

注1：機能的磁気共鳴画像法（functional Magnetic Resonance Imaging：fMRI）：MRI装置を用いて、脳活動を非侵襲的に計測する代表的手法の1つ。神経活動そのものではなく、活動に伴う血流や血中酸素濃度の変化を反映したBOLD（Blood-Oxygen-Level Dependent）信号を捉え、脳活動の指標とする。ヒトを対象とした脳計測技術の中では比較的高い時空間解像度を持ち、この研究では全脳を2mm角・1秒間隔で計測している。

●Next：マインド・キャプショニングの実証結果、プライバシーリスクへの対処

この記事の続きをお読みいただくには、
会員登録（無料）が必要です