AmiVoice、音声認識APIに双方向型ディープラーニング技術「Bi-LSTM」を実装

領域特化型エンジンの認識率を25％向上

2020年9月17日(木)日川佳三（IT Leaders編集部）

リスト

アドバンスト・メディアは2020年9月17日、音声認識エンジンをWeb APIの形で提供する開発基盤サービス「AmiVoice Cloud Platform」を更新し、双方向型のディープラーニング技術「Bi-LSTM（Bidirectional Long Short-Term Memory）」をすべての領域特化型エンジンに実装したと発表した。最大25％のエラー改善率となり、自然発話を中心とした認識率が向上した。

　AmiVoice Cloud Platformは、Web APIの形で利用できる音声認識エンジンである（関連記事：アドバンスト・メディア、Web API型の音声認識エンジン「AmiVoice Cloud Platform」を公開）。Web APIを呼び出すだけで利用できるため、アプリケーションに音声認識機能を簡単に組み込める。音声の文字化や音声による制御など、音声を扱う各種の用途で利用できる。用途に合わせ、リアルタイム認識API（WebSocketベースのAPI）と、バッチ認識API（HTTPベースのREST API）を用意している。

　2018年10月には、音声認識の精度を高める仕組みとして、リカレントニューラルネットワーク（RNN）を拡張したLSTM（Long short-term memory）技術を搭載している。音声のような時系列データの処理に適しており、過去の情報を加味しながら処理を行える。これにより、話し言葉を中心とした自然発話の認識率が向上し、従来型の音声認識エンジンと比べてエラー改善率が最大20％向上した。

　2020年4月には、音声認識の精度を高める仕組みとして、双方向型のディープラーニング技術であるBi-LSTMを、AmiVoice Cloud Platformの汎用エンジンに搭載した（関連記事：アドバンスト・メディア、双方向型ディープラーニング「Bi-LSTM」で音声認識を25％向上）。従来版が搭載していたLSTMは過去の情報を加味しながら処理を行うが、これに対してBi-LSTMは未来の情報を予測して加えることで、双方向の時間軸から処理を行う。これにより、LSTMを実装した音声認識エンジンと比較して、リアルタイム認識で最大20％、バッチ認識で最大25％のエラー改善率となり、認識率が向上した（図1）。

図1：双方向型のディープラーニング技術「Bi-LSTM（Bidirectional Long Short-Term Memory）」の概要（出典：アドバンスト・メディア）
拡大画像表示

　今回、汎用エンジンに加えて、AmiVoice Cloud Platformで提供しているすべての領域特化型エンジンに、Bi-LSTMを実装した（関連記事：Web API型の音声認識エンジンに医療・製薬・金融の領域特化版─アドバンスト・メディア）。医療向けの「医療_汎用エンジン」「医療_介護エンジン」「医療_電子カルテエンジン」「医療_調剤エンジン」、会議向けの「会議_議事録エンジン」、業務報告向けの「業務報告_金融エンジン」「業務報告_製薬エンジン」「業務報告_保険エンジン」である。

リスト

トピックス

[Sponsored]

AmiVoice、音声認識APIに双方向型ディープラーニング技術「Bi-LSTM」を実装

おすすめのホワイトペーパー

トピックス