[新製品・サービス]

AmiVoice、音声認識APIに双方向型ディープラーニング技術「Bi-LSTM」を実装

領域特化型エンジンの認識率を25%向上

2020年9月17日(木)日川 佳三(IT Leaders編集部)

アドバンスト・メディアは2020年9月17日、音声認識エンジンをWeb APIの形で提供する開発基盤サービス「AmiVoice Cloud Platform」を更新し、双方向型のディープラーニング技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」をすべての領域特化型エンジンに実装したと発表した。最大25%のエラー改善率となり、自然発話を中心とした認識率が向上した。

 AmiVoice Cloud Platformは、Web APIの形で利用できる音声認識エンジンである(関連記事アドバンスト・メディア、Web API型の音声認識エンジン「AmiVoice Cloud Platform」を公開)。Web APIを呼び出すだけで利用できるため、アプリケーションに音声認識機能を簡単に組み込める。音声の文字化や音声による制御など、音声を扱う各種の用途で利用できる。用途に合わせ、リアルタイム認識API(WebSocketベースのAPI)と、バッチ認識API(HTTPベースのREST API)を用意している。

 2018年10月には、音声認識の精度を高める仕組みとして、リカレントニューラルネットワーク(RNN)を拡張したLSTM(Long short-term memory)技術を搭載している。音声のような時系列データの処理に適しており、過去の情報を加味しながら処理を行える。これにより、話し言葉を中心とした自然発話の認識率が向上し、従来型の音声認識エンジンと比べてエラー改善率が最大20%向上した。

 2020年4月には、音声認識の精度を高める仕組みとして、双方向型のディープラーニング技術であるBi-LSTMを、AmiVoice Cloud Platformの汎用エンジンに搭載した(関連記事アドバンスト・メディア、双方向型ディープラーニング「Bi-LSTM」で音声認識を25%向上)。従来版が搭載していたLSTMは過去の情報を加味しながら処理を行うが、これに対してBi-LSTMは未来の情報を予測して加えることで、双方向の時間軸から処理を行う。これにより、LSTMを実装した音声認識エンジンと比較して、リアルタイム認識で最大20%、バッチ認識で最大25%のエラー改善率となり、認識率が向上した(図1)。

図1:双方向型のディープラーニング技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」の概要(出典:アドバンスト・メディア)図1:双方向型のディープラーニング技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」の概要(出典:アドバンスト・メディア)
拡大画像表示

 今回、汎用エンジンに加えて、AmiVoice Cloud Platformで提供しているすべての領域特化型エンジンに、Bi-LSTMを実装した(関連記事Web API型の音声認識エンジンに医療・製薬・金融に向けた特化版、アドバンスト・メディア)。医療向けの「医療_汎用エンジン」、「医療_介護エンジン」、「医療_電子カルテエンジン」、「医療_調剤エンジン」、会議向けの「会議_議事録エンジン」、業務報告向けの「業務報告_金融エンジン」、「業務報告_製薬エンジン」、「業務報告_保険エンジン」、――である。

関連キーワード

アドバンスト・メディア / AmiVoice

関連記事

Special

-PR-

AmiVoice、音声認識APIに双方向型ディープラーニング技術「Bi-LSTM」を実装アドバンスト・メディアは2020年9月17日、音声認識エンジンをWeb APIの形で提供する開発基盤サービス「AmiVoice Cloud Platform」を更新し、双方向型のディープラーニング技術「Bi-LSTM(Bidirectional Long Short-Term Memory)」をすべての領域特化型エンジンに実装したと発表した。最大25%のエラー改善率となり、自然発話を中心とした認識率が向上した。

PAGE TOP