NTTテクノクロスは2021年11月12日、音声認識ソフトウェア「SpeechRec Server(スピーチレック サーバー)」の新版を発表した。同年11月19日から販売する。新版では、これまで一部の音声情報処理だけに適用していたディープニューラルネットワーク(DNN)を音声データ入力からテキスト出力までエンドツーエンドで適用する。これにより、人間の脳と同じような処理体系で音声から日本語を理解できるようになり、音声認識精度が向上している。価格は要問い合わせ。
NTTテクノクロスの「SpeechRec Server」は、多言語に対応した(日本語、英語、北京語、広東語、台湾語、韓国語、タイ語、ベトナム語、インドネシア語、マレーシア語)音声認識ソフトウェアである。
Webサーバー/クライアント間の双方向通信プロトコルであるWebSocket APIを介して、アプリケーションに音声認識機能を提供する。IVR(自動音声応答)システムとの連携に用いるMRCP(Media Resource Control Protocol)プロトコル(MRCPv2)にも対応している。
新版の特徴として、音声情報処理に、メディア処理AI技術「MediaGnosis」のエンドツーエンド方式(注1)での採用を挙げている。MediaGnosisは、NTTコンピュータ&データサイエンス研究所が開発した、音声音響処理や自然言語処理などの情報処理を人間の脳と同じように処理する技術。SpeechRec Serverでは、これまで一部の音声情報処理のみに適用していたディープニューラルネットワーク(DNN)を、音声データ入力からテキスト出力までエンドツーエンド(一括)で適用する。人間の脳と同じような処理系統で音声から日本語を理解できるようになり、音声認識精度が向上している(図1)。
注1:従来は音響モデルや認識辞書、言語モデルなど複数の処理を組み合わせるハイブリッド方式だったが、エンドツーエンド方式ではそれらの処理をDNNにより一括で行うことが可能になる
拡大画像表示
新版では、音声の特徴から話者を識別する話者ダイアリゼーション機能も利用できるようになった。複数の話者が話す場合でも、話者を識別するために話者の音声を事前登録したり、話者ごとにマイクを分けたりする必要がない。話者の声質や波形などの特徴からMediaGnosisが自動で話者を識別する(図2)。
拡大画像表示
新版ではさらに、話し言葉を読みやすく変換し、内容を分類できるようになった(図3)。話し言葉の変換では、相づちや「えー」、「あのー」などのつなぎ言葉に加え、「私なんかは」などの話し言葉特有の表現を認識し、話の意味を理解しやすいようなテキストに変換する。内容の分類では、テキスト化した情報を、質問文と回答文のように、内容ごとに分類して表示できる。
拡大画像表示