[新製品・サービス]
セゾンテクノロジー、HULFT SquareのRAG用データ加工ツール「AI前処理テンプレート」を発表
2025年7月23日(水)日川 佳三、河原 潤(IT Leaders編集部)
セゾンテクノロジーは2025年7月23日、iPaaS「HULFT Square」のRAG用データ加工ツール「AI前処理テンプレートシリーズ」を発表し、同日に一部を提供開始した。HULFT Squareのスクリプトとして動作する。まず、「AI前処理 PDFからQA表作成」を提供し、それを含む10種のテンプレートを順次提供する。
セゾンテクノロジーの「HULFT Square」は、データ連携ミドルウェアをクラウドサービスとして提供するiPaaS(Integration Platform as a Service)である。オンプレミスの業務システムやSaaSなどの間でデータを容易に連携できる(関連記事:iPaaS「HULFT Square」、SFTPサーバー機能とファイルイベントによるスクリプト起動機能を追加)。

拡大画像表示
HULFT Squareは、よく実行する処理をスクリプトとして記述し、ジョブとして実行するテンプレート機能を備えている。今回、社内の各種データを生成AIのRAG(検索拡張生成)構成用に取り込む前処理(プレパレーション)を実行するスクリプト集を「AI前処理テンプレートシリーズ」として提供する。データ加工の作業工数を約50~60%省力化するとしている(図1、関連記事:セゾン情報のiPaaS「HULFT Square」、データ連携の内製化を助けるスクリプトテンプレート)。
表計算ファイル、業務マニュアルやHTMLファイル、スキャンされたデータのPDF、画像・音声ファイルなど、社内に存在する各種形式のファイル/データをRAG構成におけるナレッジベースに取り込む作業を容易にする。具体的には、タグなど不要部分を除去したテキストを抽出した後、非構造化データを構造化データに変換し、データに適切なリレーションなどを付与する。
表1は、AI前処理テンプレートシリーズに含まれる10種類のテンプレートである。発表時点でまず「AI前処理 PDFからQA表作成」を提供し、他のテンプレートを順次提供する。
回答精度の向上 | |||
---|---|---|---|
テンプレート種別 | テンプレート名 | 効果とデータ処理の概要 | 提供開始時期 |
QA形式への変換 | AI前処理 PDFからQA表作成 | マニュアル類のPDFを非構造化データからQA形式に変換した構造化データとしてCSV形式で出力 | 2025年7月23日 |
AI前処理 ExcelからQA表作成 | Excelの表形式をQA形式に変換した構造化データとしてCSV形式で出力 | 同年9月予定 | |
AI前処理 JSONからQA表作成 | ECサイトなど外部システムのJSON形式の複雑な階層構造のデータをQA形式に変換した構造化データとしてCSV形式で出力 | 同年9月予定 | |
AI前処理 XMLからQA表作成 | 階層構造やタグが複雑なXMLをQA形式に変換した構造化データとしてCSV形式で出力 | 同年9月予定 | |
クレンジング | AI前処理 HTMLタグの削除 | 企業Webサイトや社内ポータルサイトなどのHTMLドキュメントからタグを除去しマークダウン記法で出力 | 同年8月予定 |
AI前処理 特殊文字・記号の削除 | HTMLドキュメントから特殊記号や記号を削除しテキスト形式で出力 | 同年8月予定 | |
データ抽出の省力化 | |||
テンプレート種別 | テンプレート名 | 効果とデータ処理の概要 | 提供開始時期 |
ドキュメントからのテキスト抽出 | AI前処理 PDFからテキスト抽出 | スキャンしたPDFからテキストを抽出 | 2025年8月予定 |
画像からのテキスト抽出 | AI前処理 画像からテキスト抽出 | ホワイトボードを撮影した写真や手書きの議事録などの画像からテキストを抽出 | 同年8月予定 |
音声からのテキスト抽出 | AI前処理 音声からテキスト抽出 | 会議の録音などの音声データからテキストを抽出 | 同年9月予定 |
データ格納の省力化 | |||
テンプレート種別 | テンプレート名 | 効果とデータ処理の概要 | 提供開始時期 |
エンベディング | AI前処理 エンベディング&ベクトルDB格納 | テキストや構造化データなどのインプットデータを数値ベクトルに変換 | 2025年9月予定 |