[新製品・サービス]
セゾンテクノロジー、HULFT SquareのRAG用データ加工ツール「AI前処理テンプレート」を発表
2025年7月23日(水)日川 佳三、河原 潤(IT Leaders編集部)
セゾンテクノロジーは2025年7月23日、iPaaS「HULFT Square」のRAG用データ加工ツール「AI前処理テンプレートシリーズ」を発表し、同日に一部を提供開始した。HULFT Squareのスクリプトとして動作する。まず、「AI前処理 PDFからQA表作成」を提供し、それを含む10種のテンプレートを順次提供する。
セゾンテクノロジーの「HULFT Square」は、データ連携ミドルウェアをクラウドサービスとして提供するiPaaS(Integration Platform as a Service)である。オンプレミスの業務システムやSaaSなどの間でデータを容易に連携できる(関連記事:iPaaS「HULFT Square」、SFTPサーバー機能とファイルイベントによるスクリプト起動機能を追加)。
図1:「AI前処理テンプレートシリーズ」を用いたデータ加工処理のイメージ(出典:セゾンテクノロジー)拡大画像表示
HULFT Squareは、よく実行する処理をスクリプトとして記述し、ジョブとして実行するテンプレート機能を備えている。今回、社内の各種データを生成AIのRAG(検索拡張生成)構成用に取り込む前処理(プレパレーション)を実行するスクリプト集を「AI前処理テンプレートシリーズ」として提供する。データ加工の作業工数を約50~60%省力化するとしている(図1、関連記事:セゾン情報のiPaaS「HULFT Square」、データ連携の内製化を助けるスクリプトテンプレート)。
表計算ファイル、業務マニュアルやHTMLファイル、スキャンされたデータのPDF、画像・音声ファイルなど、社内に存在する各種形式のファイル/データをRAG構成におけるナレッジベースに取り込む作業を容易にする。具体的には、タグなど不要部分を除去したテキストを抽出した後、非構造化データを構造化データに変換し、データに適切なリレーションなどを付与する。
表1は、AI前処理テンプレートシリーズに含まれる10種類のテンプレートである。発表時点でまず「AI前処理 PDFからQA表作成」を提供し、他のテンプレートを順次提供する。
| 回答精度の向上 | |||
|---|---|---|---|
| テンプレート種別 | テンプレート名 | 効果とデータ処理の概要 | 提供開始時期 |
| QA形式への変換 | AI前処理 PDFからQA表作成 | マニュアル類のPDFを非構造化データからQA形式に変換した構造化データとしてCSV形式で出力 | 2025年7月23日 |
| AI前処理 ExcelからQA表作成 | Excelの表形式をQA形式に変換した構造化データとしてCSV形式で出力 | 同年9月予定 | |
| AI前処理 JSONからQA表作成 | ECサイトなど外部システムのJSON形式の複雑な階層構造のデータをQA形式に変換した構造化データとしてCSV形式で出力 | 同年9月予定 | |
| AI前処理 XMLからQA表作成 | 階層構造やタグが複雑なXMLをQA形式に変換した構造化データとしてCSV形式で出力 | 同年9月予定 | |
| クレンジング | AI前処理 HTMLタグの削除 | 企業Webサイトや社内ポータルサイトなどのHTMLドキュメントからタグを除去しマークダウン記法で出力 | 同年8月予定 |
| AI前処理 特殊文字・記号の削除 | HTMLドキュメントから特殊記号や記号を削除しテキスト形式で出力 | 同年8月予定 | |
| データ抽出の省力化 | |||
| テンプレート種別 | テンプレート名 | 効果とデータ処理の概要 | 提供開始時期 |
| ドキュメントからのテキスト抽出 | AI前処理 PDFからテキスト抽出 | スキャンしたPDFからテキストを抽出 | 2025年8月予定 |
| 画像からのテキスト抽出 | AI前処理 画像からテキスト抽出 | ホワイトボードを撮影した写真や手書きの議事録などの画像からテキストを抽出 | 同年8月予定 |
| 音声からのテキスト抽出 | AI前処理 音声からテキスト抽出 | 会議の録音などの音声データからテキストを抽出 | 同年9月予定 |
| データ格納の省力化 | |||
| テンプレート種別 | テンプレート名 | 効果とデータ処理の概要 | 提供開始時期 |
| エンベディング | AI前処理 エンベディング&ベクトルDB格納 | テキストや構造化データなどのインプットデータを数値ベクトルに変換 | 2025年9月予定 |
セゾンテクノロジー / HULFT Square / RAG / テンプレート / データプレパレーション / データ連携 / iPaaS
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



