[新製品・サービス]
音声認識APIサービス「AmiVoice Cloud Platform」が発話者を区別可能に
2022年2月7日(月)IT Leaders編集部、日川 佳三
アドバンスト・メディアは2022年2月7日、音声認識APIサービス「AmiVoice Cloud Platform」を強化し、発話者を特定できる「話者ダイアライゼーション」機能を追加した。無料オプションとして提供する。独自の音響モデルを用い、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づけるとしている。利用料金(税込み)は1時間あたり99円から。
アドバンスト・メディアの「AmiVoice Cloud Platform」は、Web APIの形で利用可能な音声認識エンジンである。Web APIを呼び出すだけで使えるため、アプリケーションに音声認識機能を簡単に組み込める。音声の文字化や音声による制御といった、音声を扱う各種の用途に適する。使い方に合わせて、リアルタイム認識用の同期APIと、バッチ処理用の非同期APIを用意している(関連記事:AmiVoice、音声認識APIに双方向型ディープラーニング技術「Bi-LSTM」を実装)。
今回、発話者を特定できる「話者ダイアライゼーション」機能を無料のオプションとして提供開始した。複数の話者が含まれる音声に対して、複数の話者を区別し、誰がいつ話したのかを推定する技術である。アドバンスト・メディア独自開発の音響モデルを用い、事前学習なしで音声から発話者を推定し、発言内容と発話者を自動的に紐づける。会議や対面営業、面談、動画への字幕付与など、複数人が話をするシーンに適する(図1)。
図1:「話者ダイアライゼーション」機能のイメージ(出典:アドバンスト・メディア)拡大画像表示
音声認識をリクエストする際のパラメータに「speakerDiarization=True」のように設定して使う。これにより、音声認識の結果に、推定した話者情報を含ませられる。また、音声に含まれる最小人数と最大人数をパラメータで与えることによって、推定の精度を向上させられる(何も指定しないと、1~10人の間で推定する)。まずは非同期HTTP音声認識APIで利用できるようにした。今後、同期HTTP音声認識APIやWebSocket APIでも使えるようにする予定である。
アドバンスト・メディア / 音声認識 / AmiVoice
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-


