データマネジメント データマネジメント記事一覧へ

[新製品・サービス]

Excel/PDF/画像などをRAG用にテキスト変換するAPI「RAG Ready Converter」─スニフアウト

2025年6月24日(火)IT Leaders編集部、日川 佳三

AIベンダーのスニフアウトは2025年6月24日、RAGデータ整備ツールのクローズドベータ版「RAG Ready Converter(β)」を公開した。Web APIとフロントエンド画面を提供する。Excel、PowerPoint、PDF、画像などの各種ファイルを、RAG(検索拡張生成)で扱いやすいようにテキストデータに変換する。情報を適切に抽出・加工することでLLMの回答精度が向上するとしている。

 スニフアウトの「RAG Ready Converter(β)」は、RAG(検索拡張生成)データ整備ツールのクローズドベータ版である。Word、Excel、PowerPoint、PDF、画像(PNG/JPEG)の各種ファイルを、RAGで扱いやすいようにテキストデータに変換する。情報を適切に抽出・加工することでLLMの回答精度が向上するとしている。Web APIとフロントエンド画面を提供する(図1)。

図1:各形式ファイルをRAG向けにテキスト変換するAPI「RAG Ready Converter」の概要(出典:スニフアウト)
拡大画像表示

 「生成AIシステムを導入するにあたり、社内文書を検索した結果を回答に反映するRAG構成を取り入れている企業が多い。しかし、RAGで高精度な回答を得られない企業もあり、多くは、RAGデータベースに取り込むデータがRAG向けに整備されていないことが原因となっている」(スニフアウト)

 スニフアウトは、RAGはテキストデータを取り扱うことが前提であり、画像、図表、フローチャートなどが混在していると非テキストの情報が欠落し、検索・生成精度が低下すると指摘。この問題を解決すべく、非テキストファイルをRAG向けに変換するRAG Ready Converterの開発・提供に至ったという。

 表1は、クローズドベータで協力したユーザー企業においてRAGの精度を検証した結果である。ここで言う精度は、事前に準備したサンプルQAデータに合致した意味合いの回答を行った割合を指す。取扱可能ファイル率は、RAGで正しく認識することが確認できたデータの割合で、これまで読み取りが難しかった69%(91-22)のデータが新たに読み取れるようになった。

表1:RAG Ready Converterの効果(出典:スニフアウト)
  Before After
RAGの精度 56% 92%
取扱可能ファイル率 22% 91%

 料金は、利用前に購入した「クレジット」(1円=1クレジット、1000クレジット単位で購入可)から、ツールの利用分が消費される仕組み。文書1ページ/Excel1シート/画像1枚あたりで90クレジットとなっている。

画像、Excel、PowerPointのテキスト変換例

 図2は、イラスト画像をテキストデータに変換する例である。画像内で説明している内容を、情報の欠如がないようにマークダウンやプログラムなどを用いて論理構造ごと伝えている。

図2:「RAG Ready Converter」で画像ファイルをテキストデータに変換した結果の例(出典:スニフアウト)
拡大画像表示

 図3は、Excelの変換例である。Excelファイルの中で罫線などで表現している情報や構造なども含めて欠如がない形でテキストに変換している。

図3:「RAG Ready Converter」でExcelファイルをテキストデータに変換した結果の例(出典:スニフアウト)
拡大画像表示

 図4はPowerPointの変換例である。資料の中で全体の構造などを通して伝えている情報を、欠如なくテキストに変換している。

図4:「RAG Ready Converter」でPowerPointファイルをテキストデータに変換した結果の例(出典:スニフアウト)
拡大画像表示
関連キーワード

生成AI / RAG / データプレパレーション / Word / Excel / PowerPoint / 大規模言語モデル

関連記事

トピックス

[Sponsored]

Excel/PDF/画像などをRAG用にテキスト変換するAPI「RAG Ready Converter」─スニフアウトAIベンダーのスニフアウトは2025年6月24日、RAGデータ整備ツールのクローズドベータ版「RAG Ready Converter(β)」を公開した。Web APIとフロントエンド画面を提供する。Excel、PowerPoint、PDF、画像などの各種ファイルを、RAG(検索拡張生成)で扱いやすいようにテキストデータに変換する。情報を適切に抽出・加工することでLLMの回答精度が向上するとしている。

PAGE TOP