NTTデータNJKは2019年12月6日、手書き文字の読み取りができるOCR(光学文字認識)ソフトウェアの新版「FormOCR v.7.5」を発表した。新版では、AI-OCRエンジンをオプションで用意し、文字枠がないフリーピッチの手書き文字に関する認識精度を高めた。同日販売を開始した。
NTTデータNJKの「FormOCR」は、印刷帳票から活字や手書き文字を読み取り、電子データ化するソフトウェアである。文字をテキスト化して取り出したり、イメージ(画像)データとして出力したりできる。大量の帳票を自動的に処理できる。Windows 8.1/10上で動作する。
拡大画像表示
新版では、自由なフォーマットで書かれた手書き文字を読み取ってテキスト化する「AI自由手書きオプション」を追加した(図1)。これにより、文字枠がないフリーピッチの手書き文字に関する認識精度が高まった。従来型のOCRエンジンとAI-OCRエンジンを効果的に使い分けるとしている。
クラウドサービス版に加えて、オンプレミス版も新たに用意した。クラウドサービス版には、継続的な学習によってAIモデルが進化し続けるというメリットがある。一方、オンプレミス版は、インターネットに接続できない環境でも利用できるほか、情報をクラウドにアップロードせずに済む。
データ化できる文字の種類は、手書きが、漢字、ひらがな、カタカナ、数字、英字、記号。活字は、これらに加えて機種依存文字の一部を読み取れる。バーコードは、JAN8、JAN13、ITF、CODE39、CODE128、NW-7、カスタマバーコード、QRコード。
入力ファイル形式は、BMP、TIFF(非圧縮・G3・G4圧縮・LZW圧縮/マルチ・シングル)、JPEG、PDF(PDFを読み取るためには、「PDF読み込みオプション」が必要)。出力ファイル形式は、テキストまたはCSV(カンマ区切り形式)。