デージーネットは2022年3月24日、OCR(光学文字認識)機能付きの全文検索システムをオープンソースソフトウェア(OSS)を使って構築するSIサービスを同年4月1日に提供開始すると発表した。同システムを構築することで、スキャナで取り込んだ書類もWebブラウザで検索できるようになる。価格(税別)は構築費用が70万円から(ハードウェア別)、保守費用が年額10万5000円から。
デージーネットは、OCR(光学文字認識)機能付きの全文検索システムをオープンソース(OSS)を使って構築するSIサービスを、2022年4月1日から提供する(図1)。ユーザーは、同システムを構築することで、スキャナで取り込んだ書類もWebブラウザで検索できるようになる。過去の書類もデータとして活用できるようになる。
拡大画像表示
スキャナで取り込んだ画像をOCRにかけた場合でも、文字の認識率が高いとしている。デージーネットによると、一般的なプリンタで出力した文書をサイズを変えて印刷し、印刷した用紙をスキャナで読みった場合の認識率は、等倍で99.02%、1/2倍で99.42%、1/4倍で99.32%だった。1/4倍まで縮小コピーした文書でも充分に読み取れたとしている。
なお、デージーネットの検索システムは、OCRで読み込む紙の書類やテキストデータだけでなく、WordやExcelなどのオフィス文書ファイルやPDFファイル、XML/HTML、ZIPなどの圧縮ファイル、MP3音声ファイルのメタ情報まで、テキスト情報を含んだ各種のファイルを検索対象にできる。検索時には、AND検索やOR検索など、複数の検索キーワードを指定した検索が可能である。
「ペーパーレス化が進む一方、過去の社内文書など紙の書類は活用しにくい。紙の書類はスキャナで取り込むことによってデータ化できるが、スキャナで取り込むだけでは文書を検索できないなど、データの活用方法に課題が残る。こうした課題を解消するために今回のSIサービスを開始する」(同社)。