図表を含む日本の複雑な業務文書に特化した、軽量なマルチモーダルLLMを開発─リコー

学習用データの人工生成や、小規模なデータで顧客ごとにチューニングする手法も確立

2025年6月17日(火)愛甲峻（IT Leaders編集部）

リスト

リコーは2025年6月10日に、グラフやフローチャートなどの図表を含む、複雑なビジネス文書を高精度に読み取るマルチモーダル大規模言語モデル（LMM）を開発したと発表した。2025年7月中に、基本モデルとベンチマークツールの無料公開を予定する。限られた学習用データから人工データを生成する手法や、小規模なデータを使って基本モデルを顧客向けにチューニングする手法も確立したという。同日に開いた説明会で、開発プロジェクトの背景やLMMの特徴、ユースケースや今後の計画を明らかにした。

日本のAI活用を阻む業務文書の複雑さ

　リコーがマルチモーダル大規模言語モデル（LMM）を開発した。テキストデータを扱う大規模言語モデル（LLM）に、図やグラフ、フローチャートといった画像データを高精度に処理する機能を統合したモデルである。2025年7月中に基本モデルと、図版を含む文書の読み取り精度を計測するベンチマークツールの無料公開を予定する。

　開発プロジェクトは、経済産業省と国立研究開発法人新エネルギー・産業技術総合開発機構（NEDO）による、生成AIの開発力強化に向けた枠組み「GENIAC（Generative AI Accelerator Challenge）」の第2期に採択され、2024年10月から2025年4月にかけて行われた（関連記事：損保ジャパン、保険業務特化のプライベートLMMをリコーと共同開発、照会対応時間を削減）。