電通国際情報サービス(ISID)は2022年3月18日、文書活用製品「TexAIntelligence」の新版「TexAIntelligence V2.0」を提供開始した。蓄積した大量の文書に対する、分類、要約、検索をAIで自動化する製品である。新版では、同義語や専門用語の辞書作成を支援する機能などを搭載し、実業務に適用しやすくした。
TexAIntelligenceは、蓄積した大量の文書に対する、分類、要約、検索をAIで自動化する製品である。従来エキスパートが時間をかけて行っていた作業を、AIが高速・正確に行う。新版では、(1)辞書作成の支援、(2)文章分類の理由の提示、(3)データ数の偏りへの対応、という3つの機能を強化した。
(1)辞書作成の支援機能を搭載した。AIが自動で用語登録のレコメンドを行い、同義語辞書と専門用語辞書の作成を支援する。辞書を作成する工数を極小化し、より高精度なAIモデルをより短時間で構築できるようになる。なお、AIによる分析精度を上げるには、同義語(同一の意味だが異なる表記の単語)や専門用語(特定分野や社内で用いられる複合語)の辞書を用いることが有効。しかし、辞書の作成は多くの工数を要するため、実際の現場では着手のハードルが高い。
(2)文章を分類した際の理由を提示するようにした。分類にポジティブまたはネガティブに影響した単語やフレーズを可視化する機能を追加した。 AIがどうしてそのような結果を出したのかを明らかにする。これにより、分類精度を高めるための施策が打てるようになる。判定結果をブラックボックス化させずにAIモデルの改善につなげていくことが可能になる。
(3)データ数に偏りがあっても分析精度を下げない仕組みを搭載した。AIモデルを作成する際に、クラス間の重み調整(Loss Weighting)やオーバーサンプリング(SMOTE)を使えるようにした。なお、実業務で使う文書データは、例えばある事象に関する文書は数百件あるが、別の事象に関する文書は数十件しかないなど、偏りがあるもの(不均衡データ)が多く、このようなデータを基にした場合、高い分析精度を出すことが難しいという課題があった。
ISIDはこれまで、マシンラーニング(機械学習)モデルを協力ゲーム理論を用いて解釈できるSHAP(SHapley Additive exPlanations)や、合成データを作成し自動で学習データを追加するSMOTE(Synthetic Minority Over-sampling Technique)を、自然言語処理タスクに適用する研究開発に取り組んできた。また、複合語を考慮したWord Embeddingなどの研究開発に取り組んできた。今回、これらの研究開発から得た知見をTexAIntelligenceに取り入れた。