[新製品・サービス]
Excel/PDF/画像などをRAG用にテキスト変換するAPI「RAG Ready Converter」─スニフアウト
2025年6月24日(火)IT Leaders編集部、日川 佳三
AIベンダーのスニフアウトは2025年6月24日、RAGデータ整備ツールのクローズドベータ版「RAG Ready Converter(β)」を公開した。Web APIとフロントエンド画面を提供する。Excel、PowerPoint、PDF、画像などの各種ファイルを、RAG(検索拡張生成)で扱いやすいようにテキストデータに変換する。情報を適切に抽出・加工することでLLMの回答精度が向上するとしている。
スニフアウトの「RAG Ready Converter(β)」は、RAG(検索拡張生成)データ整備ツールのクローズドベータ版である。Word、Excel、PowerPoint、PDF、画像(PNG/JPEG)の各種ファイルを、RAGで扱いやすいようにテキストデータに変換する。情報を適切に抽出・加工することでLLMの回答精度が向上するとしている。Web APIとフロントエンド画面を提供する(図1)。
図1:各形式ファイルをRAG向けにテキスト変換するAPI「RAG Ready Converter」の概要(出典:スニフアウト)拡大画像表示
「生成AIシステムを導入するにあたり、社内文書を検索した結果を回答に反映するRAG構成を取り入れている企業が多い。しかし、RAGで高精度な回答を得られない企業もあり、多くは、RAGデータベースに取り込むデータがRAG向けに整備されていないことが原因となっている」(スニフアウト)
スニフアウトは、RAGはテキストデータを取り扱うことが前提であり、画像、図表、フローチャートなどが混在していると非テキストの情報が欠落し、検索・生成精度が低下すると指摘。この問題を解決すべく、非テキストファイルをRAG向けに変換するRAG Ready Converterの開発・提供に至ったという。
表1は、クローズドベータで協力したユーザー企業においてRAGの精度を検証した結果である。ここで言う精度は、事前に準備したサンプルQAデータに合致した意味合いの回答を行った割合を指す。取扱可能ファイル率は、RAGで正しく認識することが確認できたデータの割合で、これまで読み取りが難しかった69%(91-22)のデータが新たに読み取れるようになった。
| Before | After | |
|---|---|---|
| RAGの精度 | 56% | 92% |
| 取扱可能ファイル率 | 22% | 91% |
料金は、利用前に購入した「クレジット」(1円=1クレジット、1000クレジット単位で購入可)から、ツールの利用分が消費される仕組み。文書1ページ/Excel1シート/画像1枚あたりで90クレジットとなっている。
画像、Excel、PowerPointのテキスト変換例
図2は、イラスト画像をテキストデータに変換する例である。画像内で説明している内容を、情報の欠如がないようにマークダウンやプログラムなどを用いて論理構造ごと伝えている。
図2:「RAG Ready Converter」で画像ファイルをテキストデータに変換した結果の例(出典:スニフアウト)拡大画像表示
図3は、Excelの変換例である。Excelファイルの中で罫線などで表現している情報や構造なども含めて欠如がない形でテキストに変換している。
図3:「RAG Ready Converter」でExcelファイルをテキストデータに変換した結果の例(出典:スニフアウト)拡大画像表示
図4はPowerPointの変換例である。資料の中で全体の構造などを通して伝えている情報を、欠如なくテキストに変換している。
図4:「RAG Ready Converter」でPowerPointファイルをテキストデータに変換した結果の例(出典:スニフアウト)拡大画像表示
生成AI / RAG / データプレパレーション / Word / Excel / PowerPoint / 大規模言語モデル
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



