リコーは2022年8月26日、認識精度を高めたAI-OCR技術を開発したと発表した。帳票に印刷された、かすれ、にじみ、ズレなどがある文字の読み取り精度を高めている。同社の検証では、請求書の項目を98.87%の精度で読み取ったとしている。リコーは、同技術を2022年8月末に、クラウド型AI帳票認識OCRサービス「RICOH Cloud OCR」シリーズに実装する。その後、他サービスにも順次実装していく。
リコーは、認識精度を高めたAI-OCR技術を開発した。帳票に印刷された、かすれ、にじみ、ズレなどがある文字の読み取り精度を高めた。同社の検証では、請求書の項目を98.87%の精度で読み取ったとしている。リコーは、同技術を2022年8月末に、クラウド型AI帳票認識OCRサービス「RICOH Cloud OCR」シリーズに実装する。その後、他サービスにも順次実装していく。
拡大画像表示
今回同社は、OCRの読み取りに不利に作用する罫線などを検知して無効化する「画像処理技術」を開発した(図1)。複写伝票に使われるドットインパクトプリンターのインクリボンの消耗による文字のかすれ、印刷された帳票フォーマットと文字との位置ズレや文字重なり、インクジェットインクのにじみなどを修正する。
この技術に、帳票特有の語彙を元に単語の区切りや誤りを検出・補正する「帳票知識処理」を組み合わせた。これらの事前処理によってAI-OCRの処理機能を向上させ、結果として取引帳票の文字認識精度を向上させた(図2)。同時に、OCRエンジンも手書き対応へと進化させた。
拡大画像表示
請求書や納品書などの取引帳票において、98.87%の読み取り精度をうたっている。この数値は、請求書データにおけるリコーの自社調べである。様々な業種から無作為に収集した260社分の請求書を学習後に評価したとしている。
認識精度の評価にあたっては、請求書の以下の項目を読み取った。請求元、請求書番号、請求日、請求額(税込)、請求額(税抜)、標準税率10%(税込)、軽減税率8%(税込)、標準税率8%(税込)、標準税率10%(税抜)、軽減税率8%(税抜)、標準税率8%(税抜)、銀行名、支店名、口座名義(カナ)、口座番号、口座種別、である。
まずは、帳票の処理業務を自動化するクラウドサービス「RICOH Cloud OCR」シリーズに実装する。「RICOH Cloud OCR」は、紙の取引帳票をリコーの複合機でスキャンまたはPDFデータをクラウドにアップロードするだけでデータ化するサービス。データ化した情報はCSVファイルとして出力可能である。