日立ソリューションズ・テクノロジーは2022年9月21日、音声テキスト化ツール「Ruby Dictation」に単語認識機能を追加した。IVR(自動音声応答システム)への顧客の回答(数字、住所、商品名などの音声回答)を精度よく認識できるようになった。目的や会話の流れに合わせ、1つのエンジンで単語認識と自由発話認識を切り替えて利用できる。
日立ソリューションズ・テクノロジーの「Ruby Dictation」は、オンプレミスで動作する音声テキスト化ツールである。対話中の発話音声をリアルタイムにテキスト化するほか、録音音声のテキスト化も可能である。認識結果として、テキストのほかに、タイムスタンプや形態素名、信頼度などを含んだメタ情報を得られる。APIを介して外部システムと連携する(図1)。
拡大画像表示
今回、単語の音声認識機能を追加し、単語の認識精度を強化した。単語候補から信頼性の低い単語をフィルタリングすることによって、IVR(自動音声応答システム)への顧客の回答(数字、住所、商品名などの音声回答)を、精度よく認識できるようにした。
目的や会話の流れに合わせて、1つのエンジンで単語認識と自由発話認識を切り替えて使える。単語音声認識だけのシンプルなIVRシステムを実現するほか、実際のオペレーターのような自然な会話が求められる自動応答システムも実現する。
製品名などの専門性の高い言葉の学習も容易になった。誤認識したテキスト部を修正するだけで、言語モデルへと即座に反映する。用語を登録するだけで、適応する文脈を自動的に推測する。認識させたい言葉を言語モデルに反映するまでの時間は、従来版と比べて約40%短くなった。
「コンタクトセンターの受付でIVRやAI電話自動応答サービスが使われる一方、現状の電話自動音声応答サービスには課題がある。具体的には、数字や住所、商品名などの音声回答の認識精度が低いほか、システムの構成が複雑になってしまう」(同社)