[市場動向]
東工大など、スパコン「富岳」でLLMを学習、130億パラメータの「Fugaku-LLM」を公開
2024年5月10日(金)日川 佳三(IT Leaders編集部)
東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、Kotoba Technologiesの7組織は2024年5月10日、スーパーコンピュータ「富岳」で大規模言語モデル(LLM)を学習する研究成果として、130億パラメータのLLM「Fugaku-LLM」を公開した。富岳の計算資源1万3824ノードを約1カ月間占有して学習させて構築したもので、日本語の能力が高いとしている。
東京工業大学、東北大学、富士通、理化学研究所、名古屋大学、サイバーエージェント、Kotoba Technologiesの7組織は、2024年3月末にかけて、スーパーコンピュータ「富岳」(写真1)で大規模言語モデル(LLM)を効率的に学習する研究を実施した。
2024年5月10日に、研究成果となるソフトウェアの実装をGitHubおよびHugging Faceで公開した(関連記事:「富岳」を活用して、大規模言語モデルの効率的な開発手法を研究─東工大、東北大、富士通、理研)。
拡大画像表示
成果物の1つは、130億パラメータのLLM「Fugaku-LLM」である。富岳の計算資源1万3824ノード(富岳の全15万8976ノードの10%弱)を約1カ月間占有し、約4000億トークンを学習させた。選択したパラメータ数とトークン数は、利用可能な富岳のノード数と学習期間の制約の下、可能なかぎり高性能なLLMの構築を目的に決定した。
学習データの約60%を日本語コンテンツが占め、日本語能力が高いとしている。日本語のベンチマーク「Japanese MT-Bench」の平均スコアは5.5で、人文社会系のタスクは9.18と、米OpenAIのGPT-4よりも高い結果となった(画面1)。
拡大画像表示
LLMのほかにも、富岳を用いてLLMの学習を効率化するためのソフトウェアも成果物として作成し、公開した。
はじめに、ディープラーニングでTransformerモデルを学習させるためのフレームワーク「Megatron-DeepSpeed」を富岳に移植し、行列演算ライブラリをCPUに合わせて最適化。この結果、最適化前には110秒かかっていた行列積の計算が18秒で済むようになり、6倍に高速化した。
ノード間通信についても、LLMの学習用途(大容量データの低頻度転送)において富岳のインターコネクト性能を最大限利用できるように、集団通信のアルゴリズムを改善し、時間あたりの転送データ量を3倍に高めた。
●Next:プログラムの深部まで国内で開発
会員登録(無料)が必要です
- 1
- 2
- 次へ >