音声認識APIサービス「AmiVoice Cloud Platform」が発話者を区別可能に

「話者ダイアライゼーション」オプションを無料提供

2022年2月7日(月)IT Leaders編集部、日川佳三

リスト

アドバンスト・メディアは2022年2月7日、音声認識APIサービス「AmiVoice Cloud Platform」を強化し、発話者を特定できる「話者ダイアライゼーション」機能を追加した。無料オプションとして提供する。独自の音響モデルを用い、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づけるとしている。利用料金（税込み）は1時間あたり99円から。

　アドバンスト・メディアの「AmiVoice Cloud Platform」は、Web APIの形で利用可能な音声認識エンジンである。Web APIを呼び出すだけで使えるため、アプリケーションに音声認識機能を簡単に組み込める。音声の文字化や音声による制御といった、音声を扱う各種の用途に適する。使い方に合わせて、リアルタイム認識用の同期APIと、バッチ処理用の非同期APIを用意している（関連記事：AmiVoice、音声認識APIに双方向型ディープラーニング技術「Bi-LSTM」を実装）。

　今回、発話者を特定できる「話者ダイアライゼーション」機能を無料のオプションとして提供開始した。複数の話者が含まれる音声に対して、複数の話者を区別し、誰がいつ話したのかを推定する技術である。アドバンスト・メディア独自開発の音響モデルを用い、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づける。会議や対面営業、面談、動画への字幕付与など、複数人が話をするシーンに適する（図1）。

図1：「話者ダイアライゼーション」機能のイメージ（出典：アドバンスト・メディア）
拡大画像表示

　音声認識をリクエストする際のパラメータに「speakerDiarization=True」のように設定して使う。これにより、音声認識の結果に、推定した話者情報を含ませられる。また、音声に含まれる最小人数と最大人数をパラメータで与えることによって、推定の精度を向上させられる（何も指定しないと、1～10人の間で推定する）。まずは非同期HTTP音声認識APIで利用できるようにした。今後、同期HTTP音声認識APIやWebSocket APIでも使えるようにする予定である。

リスト

トピックス

[Sponsored]

音声認識APIサービス「AmiVoice Cloud Platform」が発話者を区別可能に

おすすめのホワイトペーパー

トピックス