TISは2023年5月24日、紙文書デジタル化サービス「文書アーカイブDXサービス」を発表した。仕様書、研究論文、設備点検報告書などを紙で活用しているユーザーに向けて、紙の電子化からAI-OCRによるテキスト化までをサービスとして提供する。紙文書の電子化/テキスト化によって、これまで文書の捜索に要していた時間が短くなる。さらに、過去に実施した研究結果の活用、重複研究の防止、情報共有による技術伝承などに役立つ。
TISの「文書アーカイブDXサービス」は、紙文書をデジタル化するサービスである。仕様書、研究論文、設備点検報告書などを紙で活用しているユーザーに向けて、紙の電子化(PDF化)からAI-OCRによるテキスト化までをサービスとして提供する(図1)。
紙文書の電子化/テキスト化によって、これまで文書の捜索に要していた時間が短くなる。さらに、過去に実施した研究結果の活用、重複研究の防止、情報共有による技術伝承などに役立つ。
「企業が新たな実験や研究などを行う際、紙保管の文書やファイルサーバー保管の文書ファイルを捜索し、類似・重複・引用がないか、参考にできる内容が無いか、更改時に整合性が合うかなどを調べていた。従来、こうした作業を支援するためにAI-OCRを提供してきた。今回、書庫に眠っている紙帳票のスキャン作業を代行するサービスをAI-OCRサービスに組み合わせた」(TIS)
紙文書のスキャン作業を代行するBPOサービス(TISのグループ会社が提供)とAI-OCRサービス「ドキュメントAI-OCRサービス」(TISが提供)を組み合わせて提供する。書庫に眠っている紙帳票のスキャンとOCRの手間を減らし、業務でのデータの有効活用が可能になるとしている。
紙文書の電子化にあたっては、紙文書のホチキス外しやファイル取り出し、裁断などを含めて、スキャン作業の工程全体をアウトソーシング可能である。AI-OCRでは、文書画像の文字箇所をAIが自動で認識するため、OCR化する文字の範囲を手動で指定する必要がない。また、OCRで読み取ったテキストは、スキャン後のPDFファイルに透明テキストとして埋め込む。これにより、ファイル自体からキーワードで検索可能である。
今後は、紙文書のデジタル化だけでなく、NLP(自然言語処理)と組み合わせ、項目や文章が異なる類義語を同様の趣旨として理解させて抽出する使い方や、テキスト解析による要約化、文章構造を理解したうえでの原因分析など、ユーザーの用途に合わせた各種の文書活用サービスを提供していくとしている。