[新製品・サービス]

音声認識APIサービス「AmiVoice Cloud Platform」が発話者を区別可能に

2022年2月7日(月)日川 佳三(IT Leaders編集部)

アドバンスト・メディアは2022年2月7日、音声認識APIサービス「AmiVoice Cloud Platform」を強化し、発話者を特定できる「話者ダイアライゼーション」機能を追加した。無料オプションとして提供する。独自の音響モデルを用い、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づけるとしている。利用料金(税込み)は1時間あたり99円から。

 アドバンスト・メディアの「AmiVoice Cloud Platform」は、Web APIの形で利用可能な音声認識エンジンである。Web APIを呼び出すだけで使えるため、アプリケーションに音声認識機能を簡単に組み込める。音声の文字化や音声による制御といった、音声を扱う各種の用途に適する。使い方に合わせて、リアルタイム認識用の同期APIと、バッチ処理用の非同期APIを用意している(関連記事AmiVoice、音声認識APIに双方向型ディープラーニング技術「Bi-LSTM」を実装)。

 今回、発話者を特定できる「話者ダイアライゼーション」機能を無料オプションの形で提供開始した。複数の話者が含まれる音声に対して、複数の話者を区別し、誰がいつ話したのかを推定する技術である。アドバンスト・メディア独自開発の音響モデルを用い、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づける。会議や対面営業、面談、動画への字幕付与など、複数人が話をするシーンに適する。

 音声認識をリクエストする際のパラメータに「speakerDiarization=True」のように設定して使う。これにより、音声認識の結果に、推定した話者情報を含ませられる。また、音声に含まれる最小人数と最大人数をパラメータで与えることによって、推定の精度を向上させられる(何も指定しないと、1~10人の間で推定する)。まずは非同期HTTP音声認識APIで利用できるようにした。今後、同期HTTP音声認識APIやWebSocket APIでも使えるようにする予定である。

関連キーワード

アドバンスト・メディア / 音声認識 / AmiVoice

関連記事

トピックス

[Sponsored]

音声認識APIサービス「AmiVoice Cloud Platform」が発話者を区別可能にアドバンスト・メディアは2022年2月7日、音声認識APIサービス「AmiVoice Cloud Platform」を強化し、発話者を特定できる「話者ダイアライゼーション」機能を追加した。無料オプションとして提供する。独自の音響モデルを用い、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づけるとしている。利用料金(税込み)は1時間あたり99円から。

PAGE TOP