テキストのラベリングコストをローカル処理で100分の1に─「dotData TextSense」新版

2026年6月26日(金)日川佳三（IT Leaders編集部）

リスト

米dotDataは2026年6月23日、データ構造化・加工ツール新版「dotData TextSense 1.3」を発表した。CSVデータとしてアップロードした非構造化テキストから生成AIが意味を抽出してラベルを付与し、活用・分析しやすい形へと加工するクラウドサービスである。新版では機械学習モデルをダウンロードしてローカルで推論処理を実行できるようにした。大規模なテキストデータのラベリング運用コストを抑制する。

　米dotDataの「dotData TextSense」は、テキストデータから意味を抽出してラベルとして付与し、分析に適した構造化データへと加工するクラウドツールである。1行1レコードのCSVデータとしてクラウドにアップロードすると、生成AIがテキストから意味を抽出してレコードごとにラベルを付与する（関連記事：dotData、テキストデータに意味ラベルを付与して構造化する「TextSense」を発表）。

　抽出する「ラベル」もAIが自動で提案する。例えばVOC（顧客の声）分野なら「価格不満」や「配送遅延」などである。ラベルに対してOK/NGのフィードバックを与えるだけで生成AIのプロンプトをチューニングできる。プロンプトが確定したら、全量データに対してラベルを推論・付与する。こうして生成したラベル付きの構造化データをダウンロードして使う。

　従来版では、テキストに意味ラベルを付与する処理のすべてでLLMのAPIを呼び出していた。同社によれば、100万件のテキストをAPIで処理した場合、1回の実行あたり約1000～2000ドルのコストが発生する。定義したラベルを全件のデータに適用する本番運用フェーズでは、このコストが導入の障壁となっていた。情報セキュリティの観点でも、顧客情報や機密情報を含むテキストを外部のLLMサービスへ送信しなければならない点が課題だった。

　新版では、LLMでプロンプトと初期ラベルを生成したうえで、軽量な機械学習モデル（ローカルモデル）を構築する仕組みを導入した。本番運用ではローカルモデルを使ってラベリングを実行するため、LLMのAPI呼び出しが不要になる。同社の実験では、財務報告書データ約100万件に対し、LLMによるラベリング結果を基準（100%）とした場合に、約98%の精度を維持しながら約100分の1のコストでラベリングできるとの結果を得たとしている。

　ローカルモデルは、ローカル環境に出力してPythonライブラリとして実行できる。LLMのAPIを使わないため、オンプレミス環境や閉域網でデータのガバナンスを確保したまま運用できる。バージョン1.3の各機能は、大規模テキストデータの運用を想定し、データパイプラインや定期的なバッチ処理に組み込みやすいPython版として提供する。

リスト

トピックス

[Sponsored]

テキストのラベリングコストをローカル処理で100分の1に─「dotData TextSense」新版

おすすめのホワイトペーパー

トピックス