データマネジメント データマネジメント記事一覧へ

[新製品・サービス]

マクニカ、非構造化データをRAG/LLM用に変換・整備する「Unstructured」を販売

2026年3月30日(月)IT Leaders編集部、日川 佳三

マクニカは2026年3月30日、米Unstructured Technologiesのデータ整備ソフトウェア「Unstructured」を販売すると発表した。企業内に存在する営業資料や技術文書といった非構造化データを、大規模言語モデル(LLM)が扱いやすい形に整備する。データ整備によってRAG(検索拡張生成)の検索精度が向上するとしている。

 マクニカが販売を開始した「Unstructured」は、米Unstructured Technologies(アンストラクチャードテクノロジーズ)のデータ整備ソフトウェアである。

 企業内に存在する営業資料や技術文書といった非構造化データを、大規模言語モデル(LLM)が扱いやすい形に変換・整備する。データ整備によって、RAG(検索拡張生成)の検索精度と安定性が向上するとしている(図1)。

図1:「Unstructured」によるデータ整備の概要(出典:マクニカ)
拡大画像表示

 1つの文書内に含まれる段落や見出し、表、画像などの構造を保持したまま、JSON形式(データを「項目名」と「値」の組み合わせで表現するデータ記述形式)に変換する。RAGに必要な前処理を統合的に提供することにより、これまでRAGシステムの設計担当者が文書ごとに行っていたチューニングや文書更新時の対応といった作業を軽減する。

 データ変換の処理フローとして、最初に文書ファイルのレイアウトを解析し、見出し、段落、表などの要素に分割する。次に、OCR(光学文字認識)で文字情報を抽出し、検索やAI処理の対象となる要素を適切な長さのブロックに分割するチャンク処理を実行する。さらに、必要に応じて元資料のページ位置や属性情報などのメタデータを付与する。

 エンジニアでなくてもノーコードのGUIでデータを整形できる操作性を備えていることをうたう。複数のファイルを一括で処理したり、ファイル内容が更新された際に追従して対応したりすることも可能。また、データソースとの連携コネクタも用意し、クラウドストレージやデータベース、文書管理システムなどと接続してデータの取り込み・変換ができる。なお、HIPAA、SOC 2 Type 2、GDPR、ISO 27001などのデータ保護・情報セキュリティ関連の法令・規制・業界標準に準拠している。

 マクニカは、Unstructuredのライセンス販売に加え、企業がすでに利用しているデータ基盤やコンテンツ管理基盤との連携設計から導入までを一貫して支援する。

 販売の背景として同社は、「企業には営業資料や技術文書など各種の非構造化データが存在するが、ドキュメントの形式が多岐にわたるため、段落や見出し、表、画像といった構造をAIが正確に把握できず、RAGの検索精度が上がらないケースが多い」ことを指摘する。PoC(概念検証)では問題なく動作しても、本番環境では精度が安定しないといった課題が顕在化しているという。

 非構造化データをAI活用に適した形に整備する必要があるが、一般的には、設計担当者が文書ごとにチャンク設計や情報抽出ルールを設計・調整する必要がある。さらに、文書量の増加や内容更新のたびに再調整が発生する。「データ整備と運用の負荷がボトルネックとなり、生成AIの活用が本格展開に至らないケースも少なくない」(マクニカ)という。

関連キーワード

マクニカ / RAG / ETL / 非構造化データ / 大規模言語モデル

関連記事

トピックス

[Sponsored]

マクニカ、非構造化データをRAG/LLM用に変換・整備する「Unstructured」を販売マクニカは2026年3月30日、米Unstructured Technologiesのデータ整備ソフトウェア「Unstructured」を販売すると発表した。企業内に存在する営業資料や技術文書といった非構造化データを、大規模言語モデル(LLM)が扱いやすい形に整備する。データ整備によってRAG(検索拡張生成)の検索精度が向上するとしている。

PAGE TOP