[市場動向]
図表を含む日本の複雑な業務文書に特化した、軽量なマルチモーダルLLMを開発─リコー
2025年6月17日(火)愛甲 峻(IT Leaders編集部)
リコーは2025年6月10日に、グラフやフローチャートなどの図表を含む、複雑なビジネス文書を高精度に読み取るマルチモーダル大規模言語モデル(LMM)を開発したと発表した。2025年7月中に、基本モデルとベンチマークツールの無料公開を予定する。限られた学習用データから人工データを生成する手法や、小規模なデータを使って基本モデルを顧客向けにチューニングする手法も確立したという。同日に開いた説明会で、開発プロジェクトの背景やLMMの特徴、ユースケースや今後の計画を明らかにした。
日本のAI活用を阻む業務文書の複雑さ
リコーがマルチモーダル大規模言語モデル(LMM)を開発した。テキストデータを扱う大規模言語モデル(LLM)に、図やグラフ、フローチャートといった画像データを高精度に処理する機能を統合したモデルである。2025年7月中に基本モデルと、図版を含む文書の読み取り精度を計測するベンチマークツールの無料公開を予定する。
開発プロジェクトは、経済産業省と国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)による、生成AIの開発力強化に向けた枠組み「GENIAC(Generative AI Accelerator Challenge)」の第2期に採択され、2024年10月から2025年4月にかけて行われた(関連記事:損保ジャパン、保険業務特化のプライベートLMMをリコーと共同開発、照会対応時間を削減)。

開発の背景として、ビジネス文書の読み取りにおける既存のLLMの性能限界を挙げる。同社 リコーデジタルサービス AIサービス事業本部 本部長の梅津良昭氏(写真1)はこう説明した。
「当社はグローバルで事業展開しているが、日本には多段組みの文章やフローチャートなどを含む、レイアウトが複雑な文書が多い。当社が提供するLLMでも顧客の文書をうまく読み取れないこともあり、課題感を抱えていた」
また、ビジネス文書では社内用語が頻発し、社外に公開できない情報も数多く含まれる。こうした特性を踏まえ、顧客ごとに最適な形でチューニングしたうえで、顧客のオンプレミス環境でも動作する小規模なモデルの開発を目指したという。
●Next:図表の読み取りを強化するためのアーキテクチャとチューニング
会員登録(無料)が必要です
- 1
- 2
- 3
- 次へ >