日立ソリューションズは2019年11月25日、大量の文書ファイルをAIで解析し、ファイル同士の関係や特徴的なキーワードを可視化するソフトウェア「活文 知的情報マイニング」の新版を発表した。新版では、米Googleの自然言語処理技術「BERT」を採用し、より高精度にテキストを分類できるようにした。2019年12月2日から販売する。価格(税別)は、60万円から。
「活文 知的情報マイニング」は、報告書やマニュアルなど大量の業務文書をAIで解析し、文章を構成する特徴的なキーワードを自動抽出するとともに、文書ファイル同士の関係を可視化するソフトウェアである(図1)。ファイルサーバー内にある過去の事例や報告書といった大量の情報の中から、情報の関係性が分かる。
拡大画像表示
「ある単語が、どのような単語と一緒に、どのような順番で使われているか」といった、単語の並びや文脈を数値化してマッピングする仕組みである。このため、同義語や類似語の辞書を定義したり、学習のために正答データを準備したりする必要がない。この仕組みにより、短期間での導入できるほか、導入後のメンテナンスも負荷を軽減できる。
主な用途の1つが、文書の分類である。大量の文書を内容を解析した上で分類できる。さらに、キーワード検索にもも利用できる。質問文とFAQでキーワードが一致しないために全文検索にヒットしないといった問題を解決できる。これらにより、手元にある文章や頭に浮かんだキーワードから、必要なマニュアルや資料を見つけ出せるようになる。
Web APIを提供することから、既存システムとの連携も可能である。
今回の新版では、米Googleが開発した、自然言語処理分野で事前学習モデルを作成するための手法「BERT(Bidirectional Encoder Representations from Transformers)」を採用した。Web上に公開されている大量の文章で事前学習したモデルを利用することによって、高精度に文書を分類できるようになるとしている。ユーザーは、少量の教師データを追加学習させるだけでBERTを利用できる。