日立ソリューションズは2017年10月5日、取引先ごとにフォーマットが異なる請求書などの紙書類から、同じ項目のデータを自動的に抽出するためのソフト「活文 Intelligent Data Extractor」(活文IDE)を強化し、オプションでOCR(光学文字認識)機能を追加すると発表した。活字をOCR処理するオプションを10月6日から、手書き文字をOCR処理するオプションを12月1日から販売する。
日立ソリューションズの「活文 Intelligent Data Extractor」(活文IDE)は、請求書に記された日付や取引先名、支払い金額など、紙の書類に書かれているテキストデータを期待通りに抽出するソフトである。機械学習の活用によって、フォーマットが異なる書類であっても、罫線や周辺の文字情報から候補を抽出する。抽出結果が誤っていた場合は、訂正内容を学習させることで、認識精度を高められる。
拡大画像表示
今回、オプションで活文IDEにOCR機能を追加した。これまでは別途OCRソフトを導入して組み合わせる必要があったが、活文IDEにOCR機能を組み込んだことにより、スキャナで書類を読み込むだけで文字の認識からテキストデータの抽出までを自動的に行えるようになった。OCRオプションの種類に応じて、活字のテキストデータ化に加えて、手書き文字もテキストデータ化できる。
価格(税別)は、活文IDEが360万円から。活字をテキストデータ化できる「活字OCRオプション」が200万円から。活字に加えて手書き文字もテキストデータ化できる「活字OCRオプション+手書きOCRオプション」が360万円から。
製品提供の背景について同社は、領収書や申請書などのように、手書き文字を含んだ書類が膨大にあることを挙げている。「これらの書類を電子データ化するためには、これまでのOCR処理では実現が難しく、また、書類ごとに読み取り位置の設定作業が必要など、さまざまな課題があり、業務効率化の障壁となっていた。活文IDEとOCR処理を組み合わせることで、読み取り位置を設定することなく書類の電子データ化ができるようになる」(同社)。