[事例ニュース]
ライオン、研究データを追加学習した生成AIモデル「LION LLM」の構築に着手
2025年10月8日(水)IT Leaders編集部、日川 佳三
ライオン(本社:東京都台東区)は2025年10月8日、社内で利用する大規模言語モデル「LION LLM」の構築に着手したと発表した。ベースと「Qwen 2.5-7B」をベースに、同社の研究開発データを使って追加学習する。構築の初期フェーズで、過去の知見を踏まえた具体的なアドバイスや複数の事例を統合した回答が可能であることを確認している。
ライオンは、社内で利用する大規模言語モデル「LION LLM」の構築に着手した。オープンソースLLM「Qwen 2.5-7B」をベースに、研究報告書、製品組成情報、品質評価データなど、同社の数十年にわたる研究開発データを使って追加学習する。
構築の初期フェーズにおいて、過去の知見を踏まえた具体的なアドバイスや、複数の事例を統合した回答が可能であることを確認している。
現時点で、従来の取り組みと比べて、回答に含まれる情報の網羅性が向上したことを評価している。「製造業の現場で、長年の経験で培った暗黙知が企業を支えている」(ライオン)ことから、2023年12月に、生成AIの汎用モデルでは対応が困難な専門領域に対し、研究ナレッジ検索ツールを導入。情報の検索にかかる時間を5分の1以下に短縮した。
同社によると、このツールには、専門知識が前提となる質問や体系的なナレッジ整理を要する業務に対して課題があり、それらを解決するため、2025年4月、独自のLLMを内製開発する体制を整備。アマゾン ウェブ サービス ジャパンの「生成AI実用化推進プログラム」に参加し、コスト面での支援や技術協力を得て、LION LLMのプロジェクトが始動した(関連記事:NRIの業界特化LLM、国交省のデータ自動構造化……国内組織が挑む生成AIのネクストレベル─AWSジャパン生成AI実用化推進プログラム)。
LION LLMでは、基盤の仕組みに複数台のGPUサーバーを連携させる分散学習環境を採用。HPCクラスタツール「AWS ParallelCluster」とモデル分割ツール「NVIDIA Megatron-LM」を組み合わせて構築を進めている。これにより、大量のデータを高速にGPUに送り込みながら、学習処理を並列実行できるという。
今後は、対象データの拡充と品質向上を目的に、プレゼンテーション文書などのような学習しにくい非構造化データの構造化やクリーニングを進める。また、他の国産モデルの活用など、多角的なアプローチによって継続的な精度向上を図る計画である。