[市場動向]

リコー、強化学習で多段推論を獲得したビジネス文書向けLLMを開発、8Bモデルを無償公開

2026年3月31日(火)日川 佳三(IT Leaders編集部)

リコーは2026年3月30日、経済産業省とNEDOが主導する国産生成AI開発強化プロジェクト「GENIAC」第3期において、日本語ビジネス文書の図表読解に特化したマルチモーダル大規模言語モデルの開発を完了したと発表した。複雑な図表に対して段階的に思考しながら正解を導き出すことが特徴である。同日、8Bパラメータの軽量モデルの無償公開も開始した。

 リコーは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が主導する国産生成AI開発強化プロジェクト「GENIAC」第3期において、日本語ビジネス文書の図表読解に特化したマルチモーダル大規模言語モデル「Qwen3-VL-Ricoh-32B-20260227」を開発した。複雑な図表に対して段階的に思考しながら正解を導き出すことが特徴である。リコーは同モデルを「リーズニングLMM(大規模マルチモーダルモデル)」と呼んでいる。

 背景として、ビジネス文書や設計図面は構造が複雑で、内容や意味を読み取ることが難しい。例えば、補助金申請書の表から「自分が受け取れる上限額」を求める場合、適用条件の読み取り、分岐の判断、数値の参照という複数の思考ステップを順に踏む必要がある。簡単なように見えて、人間が無意識に多段の推論を経ている場面は少なくないとリコーは指摘する(図1)。

図1:文書を正しく読み取るために多段の推論が必要になる例(出典:リコー)
拡大画像表示

 こうしたビジネス文書をAIに読ませるためには、テキストや図を認識して情報を取り出す能力だけでなく、情報をもとに複数ステップで論理を組み立てる能力が必要になる。これに対してリコーは、(1)文書画像の内容に関する質問と回答のペアを選定、(2)質問回答ペアを用い、ベースモデルに対する教師あり微調整(SFT:Supervised Fine-Tuning)、(3)強化学習(RL:Reinforcement Learning)、の3ステップで学習させた(図2)。

図2:マルチモーダルモデルの推論能力を高めるために実施した学習手法(出典:リコー)
拡大画像表示

 教師あり微調整は、専門知識の追加学習によって「正しい答えに近付ける」という最適化処理だった。これに対して強化学習は、同じ問いに対してモデルに複数の回答を生成させ、それぞれを報酬関数で評価してフィードバックを繰り返す。報酬関数には、正解との一致度だけでなく、推論プロセスを適切に出力しているか、その推論プロセスが日本語で書かれているかという2つの評価軸も加えた。「日本語で段階的に推論し、正しい答えを導き出す」という一連のプロセス全体を強化学習の対象とすることで、答えだけでなく「考え方」ごと最適化する。

 同社デジタル技術開発センターLMM開発室の長谷川史裕室長は「結果だけではなくプロセスも含めて評価することで、推論能力を強化する。出てきた答えが本当に正しいのかを検証するうえでも、推論過程が日本語で見えることは有効だ」と指摘する。

 ベンチマーク向け公開データセット「JDocQA」とリコー独自のベンチマークの2軸で、図表を含む日本語文書の読解精度を検証した(図3)。この結果、ベースモデル「Qwen3-VL-32B-Instruct」(32B:320億パラメータ)を上回り、商用クラウドモデル「Gemini 2.5 Pro」と同水準に達した。また、大手保険会社の社内データでファインチューニングを実施して同分野の読解精度が向上することも確認した。

図3:他モデルと比較した、図表を含む日本語文書の読解精度(出典:リコー)
拡大画像表示

 社内文書をクラウドに置けない企業にとって、AIモデルのサイズはオンプレミスで運用できるかどうかに直結する。32Bもオンプレミスで運用可能なサイズだが、より小規模なサーバーで動作する軽量版の8Bモデル「Qwen3-VL-Ricoh-8B-20260227」もHugging Faceで無償公開した。32Bモデルを搭載したオンプレミス向けサーバーパッケージ「RICOH オンプレLLMスターターキット」も2026年6月ころの提供を予定している。
 

関連キーワード

リコー / 大規模言語モデル

関連記事

トピックス

[Sponsored]

リコー、強化学習で多段推論を獲得したビジネス文書向けLLMを開発、8Bモデルを無償公開リコーは2026年3月30日、経済産業省とNEDOが主導する国産生成AI開発強化プロジェクト「GENIAC」第3期において、日本語ビジネス文書の図表読解に特化したマルチモーダル大規模言語モデルの開発を完了したと発表した。複雑な図表に対して段階的に思考しながら正解を導き出すことが特徴である。同日、8Bパラメータの軽量モデルの無償公開も開始した。

PAGE TOP