国立情報学研究所(NII)の大規模言語モデル研究開発センターは、日本語に強い大規模言語モデル(LLM)の研究開発を進めている。2025年3月7日に開催された「データマネジメント2025」(主催:日本データマネジメント・コンソーシアム〈JDMC〉、インプレス)の基調講演に登壇したNII所長/大規模言語モデル研究開発センター長の黒橋禎夫氏は、LLMの歴史を解説すると共に、LLM-jpによる日本語LLM開発の取り組みを紹介した。

拡大画像表示
国立情報学研究所(NII)の大規模言語モデル研究開発センターと、言語モデルの研究者を集めたLLM勉強会(LLM-jp)では、日本語に強い大規模言語モデル(LLM)の研究開発を進めている。
NII所長/大規模言語モデル研究開発センター長の黒橋禎夫氏(写真1)は「データマネジメント2025」の基調講演で、LLMの歴史を解説すると共に、LLM-jpによる日本語LLM開発の取り組みを紹介した。
講演の前半では、LLMの歴史を解説した。LLMは推論時、入力に対してニューラルネットワークが次の単語を推測する。言語モデルの歴史は長く、最初はコーパス(言語資料)内に出てくる単語の個数を判断材料として、次に来る単語を予測していた(図1)。例えば、「私はりんごを」の次に来る確率が高い(回数が多い)単語として「食べた」という正解を出していた。

拡大画像表示
その後、意味をベクトルで表現するようになった(図2)。意味が似ている語句は、類似のベクトルになる。リンゴとアップルなど、異なる言語の単語同士でも、意味が近ければ同じ方向のベクトルになる。「1次元の情報が-1/1の2つでも、1000次元あれば2の1000乗(およそ10の30乗と同じ)になり、非常に大きな世界を表現できる」(黒橋氏)。

拡大画像表示
入力層、中間層、出力層という基本的な順伝播型のニューラルネットワークを再帰型(回帰型)に展開したRNN(リカレントニューラルネットワーク)によって、連続した情報や時系列の情報を扱えるようになった。順番に入ってきたデータに対し、順番に何かを予測する形である。これは最初、翻訳に使われた(図3)。その後、RNNの進化系/後継として、2014年にAttention(入力データから重要な部分を抽出する機構)、2017年にはTransformerモデルが登場した。

拡大画像表示
LLMは登場以来、パラメータ数が急増している。1つの到達点として、2020年には1750億パラメータを持つOpenAIの「GPT-3」(175B)が登場した。また、パラメータ数のほかにも、「質問と回答のデータセットなどのインストラクションデータによるファインチューニングなどがLLMの性能の向上に重要」と黒橋氏は指摘する。また、強化学習を利用し、複数の出力から適切なものを人間に選ばせ、人間が選んだものをより多く出力するといったチューニングも有効である。
マルチモーダル化も重要な進化である。「GPT-4」では言語だけでなく、画像も理解するようになった。肺のCT画像を見て診断したり、図を含んだ物理学の問題を解いたりするようになった。
●Next:LLM勉強会による日本語LLMの開発状況
会員登録(無料)が必要です