[新製品・サービス]

請求書や明細書などの埋もれた“ダークデータ”を活用、日立の「データ抽出ソリューション」

2021年6月23日(水)日川 佳三(IT Leaders編集部)

日立製作所は2021年6月23日、企業において日々蓄積されるものの有効活用できていない埋もれたデータ(ダークデータ)を抽出して活用できるようにするコンサルティングサービス「データ抽出ソリューション」を発表し、同日より提供開始した。請求書や診療明細書などの非定型ドキュメントを経営判断のための情報に活用するようなユースケースを想定している。価格は個別見積もり。

 日立製作所の「データ抽出ソリューション」は、ユーザー企業において日々生成・蓄積されているものの有効活用できていないデータ(ダークデータ)を抽出し、これを活用できるようにするサービスである。請求書や診療明細書といった、発行元によって様式や表記が異なる非定型ドキュメントを、経営判断の迅速化などに活用できるようにする(図1)。

図1:「データ抽出ソリューション」の概要(出典:日立製作所)図1:「データ抽出ソリューション」の概要(出典:日立製作所)
拡大画像表示

 日立のエンジニアが、ユーザーが業務で扱う個々のドキュメントに適したモデルを構築するなど、業務内容に応じた導入・運用コンサルティングを実施する。また、APIを介して既存のOCRシステムや業務システムとデータを連携できるようにする。

 特徴として、一般的なOCRやAI-OCRでは解析が難しい、多種多様なドキュメントをデータ化する仕組みを持つ。発行元ごとに表記や様式が異なる非定型ドキュメントは、通常のOCRやAI-OCRでは読み取り・抽出の自動化が難しいという問題を解決する(図2)。

図2:診療明細書を使ったデータ抽出のイメージ(出典:日立製作所)図2:診療明細書を使ったデータ抽出のイメージ(出典:日立製作所)
拡大画像表示

 その仕組みの実現にあたって、2つの技術を採用している。1つが、非定型ドキュメントからデータを抽出する「情報表現構造解析技術」である。表やページ情報といったドキュメント内の視覚情報を特徴としてとらえて文書を解析する。例えば、「発行日」と「診察日」など発行元によって用語が異なる場合も、文書構造から同じ意味を示す単語として認識する。抽出対象が複数ページにまたがるドキュメントも対象となる項目を抽出でき、1つの区分に複数の項目がひも付く1:Nの関係も認識する。

 加えて、少ないデータからAIモデルを構築する「弱教師学習技術」を活用している。一般的なAI/マシンラーニング(機械学習)では、モデル構築にあたって大量の学習データを準備し、人手でデータの指定作業(ラベリング)を行う。一方、日立は弱教師学習技術を用いてデータのラベリング作業を自動化し、モデル構築期間を短縮している。追加学習や再学習といったモデルの継続的な改善も容易としている。

関連キーワード

日立製作所 / OCR / AI-OCR / ダークデータ / 情報表現構造解析 / 弱教師学習 / マシンラーニング / 文書管理

関連記事

Special

-PR-

請求書や明細書などの埋もれた“ダークデータ”を活用、日立の「データ抽出ソリューション」日立製作所は2021年6月23日、企業において日々蓄積されるものの有効活用できていない埋もれたデータ(ダークデータ)を抽出して活用できるようにするコンサルティングサービス「データ抽出ソリューション」を発表し、同日より提供開始した。請求書や診療明細書などの非定型ドキュメントを経営判断のための情報に活用するようなユースケースを想定している。価格は個別見積もり。

PAGE TOP