[新製品・サービス]
AmiVoice、音声認識APIに双方向型ディープラーニング技術「Bi-LSTM」を実装
2020年9月17日(木)日川 佳三(IT Leaders編集部)
アドバンスト・メディアは2020年9月17日、音声認識エンジンをWeb APIの形で提供する開発基盤サービス「AmiVoice Cloud Platform」を更新し、双方向型のディープラーニング技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」をすべての領域特化型エンジンに実装したと発表した。最大25%のエラー改善率となり、自然発話を中心とした認識率が向上した。
AmiVoice Cloud Platformは、Web APIの形で利用できる音声認識エンジンである(関連記事:アドバンスト・メディア、Web API型の音声認識エンジン「AmiVoice Cloud Platform」を公開)。Web APIを呼び出すだけで利用できるため、アプリケーションに音声認識機能を簡単に組み込める。音声の文字化や音声による制御など、音声を扱う各種の用途で利用できる。用途に合わせ、リアルタイム認識API(WebSocketベースのAPI)と、バッチ認識API(HTTPベースのREST API)を用意している。
2018年10月には、音声認識の精度を高める仕組みとして、リカレントニューラルネットワーク(RNN)を拡張したLSTM(Long short-term memory)技術を搭載している。音声のような時系列データの処理に適しており、過去の情報を加味しながら処理を行える。これにより、話し言葉を中心とした自然発話の認識率が向上し、従来型の音声認識エンジンと比べてエラー改善率が最大20%向上した。
2020年4月には、音声認識の精度を高める仕組みとして、双方向型のディープラーニング技術であるBi-LSTMを、AmiVoice Cloud Platformの汎用エンジンに搭載した(関連記事:アドバンスト・メディア、双方向型ディープラーニング「Bi-LSTM」で音声認識を25%向上)。従来版が搭載していたLSTMは過去の情報を加味しながら処理を行うが、これに対してBi-LSTMは未来の情報を予測して加えることで、双方向の時間軸から処理を行う。これにより、LSTMを実装した音声認識エンジンと比較して、リアルタイム認識で最大20%、バッチ認識で最大25%のエラー改善率となり、認識率が向上した(図1)。
拡大画像表示
今回、汎用エンジンに加えて、AmiVoice Cloud Platformで提供しているすべての領域特化型エンジンに、Bi-LSTMを実装した(関連記事:Web API型の音声認識エンジンに医療・製薬・金融の領域特化版─アドバンスト・メディア)。医療向けの「医療_汎用エンジン」「医療_介護エンジン」「医療_電子カルテエンジン」「医療_調剤エンジン」、会議向けの「会議_議事録エンジン」、業務報告向けの「業務報告_金融エンジン」「業務報告_製薬エンジン」「業務報告_保険エンジン」である。