リコーは2026年3月30日、経済産業省とNEDOが主導する国産生成AI開発強化プロジェクト「GENIAC」第3期において、日本語ビジネス文書の図表読解に特化したマルチモーダル大規模言語モデルの開発を完了したと発表した。複雑な図表に対して段階的に思考しながら正解を導き出すことが特徴である。同日、8Bパラメータの軽量モデルの無償公開も開始した。
リコーは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構(NEDO)が主導する国産生成AI開発強化プロジェクト「GENIAC」第3期において、日本語ビジネス文書の図表読解に特化したマルチモーダル大規模言語モデル「Qwen3-VL-Ricoh-32B-20260227」を開発した。複雑な図表に対して段階的に思考しながら正解を導き出すことが特徴である。リコーは同モデルを「リーズニングLMM(大規模マルチモーダルモデル)」と呼んでいる。
背景として、ビジネス文書や設計図面は構造が複雑で、内容や意味を読み取ることが難しい。例えば、補助金申請書の表から「自分が受け取れる上限額」を求める場合、適用条件の読み取り、分岐の判断、数値の参照という複数の思考ステップを順に踏む必要がある。簡単なように見えて、人間が無意識に多段の推論を経ている場面は少なくないとリコーは指摘する(図1)。
図1:文書を正しく読み取るために多段の推論が必要になる例(出典:リコー)拡大画像表示
こうしたビジネス文書をAIに読ませるためには、テキストや図を認識して情報を取り出す能力だけでなく、情報をもとに複数ステップで論理を組み立てる能力が必要になる。これに対してリコーは、(1)文書画像の内容に関する質問と回答のペアを選定、(2)質問回答ペアを用い、ベースモデルに対する教師あり微調整(SFT:Supervised Fine-Tuning)、(3)強化学習(RL:Reinforcement Learning)、の3ステップで学習させた(図2)。
図2:マルチモーダルモデルの推論能力を高めるために実施した学習手法(出典:リコー)拡大画像表示
教師あり微調整は、専門知識の追加学習によって「正しい答えに近付ける」という最適化処理だった。これに対して強化学習は、同じ問いに対してモデルに複数の回答を生成させ、それぞれを報酬関数で評価してフィードバックを繰り返す。報酬関数には、正解との一致度だけでなく、推論プロセスを適切に出力しているか、その推論プロセスが日本語で書かれているかという2つの評価軸も加えた。「日本語で段階的に推論し、正しい答えを導き出す」という一連のプロセス全体を強化学習の対象とすることで、答えだけでなく「考え方」ごと最適化する。
同社デジタル技術開発センターLMM開発室の長谷川史裕室長は「結果だけではなくプロセスも含めて評価することで、推論能力を強化する。出てきた答えが本当に正しいのかを検証するうえでも、推論過程が日本語で見えることは有効だ」と指摘する。
ベンチマーク向け公開データセット「JDocQA」とリコー独自のベンチマークの2軸で、図表を含む日本語文書の読解精度を検証した(図3)。この結果、ベースモデル「Qwen3-VL-32B-Instruct」(32B:320億パラメータ)を上回り、商用クラウドモデル「Gemini 2.5 Pro」と同水準に達した。また、大手保険会社の社内データでファインチューニングを実施して同分野の読解精度が向上することも確認した。
図3:他モデルと比較した、図表を含む日本語文書の読解精度(出典:リコー)拡大画像表示
社内文書をクラウドに置けない企業にとって、AIモデルのサイズはオンプレミスで運用できるかどうかに直結する。32Bもオンプレミスで運用可能なサイズだが、より小規模なサーバーで動作する軽量版の8Bモデル「Qwen3-VL-Ricoh-8B-20260227」もHugging Faceで無償公開した。32Bモデルを搭載したオンプレミス向けサーバーパッケージ「RICOH オンプレLLMスターターキット」も2026年6月ころの提供を予定している。
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
-
-
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-


