音声認識API「AmiVoice Cloud Platform」に、長時間の音声データを扱えるAPIを追加

2021年10月8日(金)日川佳三（IT Leaders編集部）

リスト

アドバンスト・メディアは2021年10月8日、音声認識APIサービス「AmiVoice Cloud Platform」を拡充したと発表した。同日付で、長時間・大容量の音声データをまとめて文字化することに適した「非同期HTTP音声認識API」をリリースした。既存の「WebSocket音声認識API」（リアルタイム音声認識用）と「HTTP音声認識API」（バッチ音声認識用）に追加している。

　アドバンスト・メディアの「AmiVoice Cloud Platform」は、Web APIの形で利用する音声認識エンジンである（関連記事：アドバンスト・メディア、Web API型の音声認識エンジン「AmiVoice Cloud Platform」を公開）。Web APIを呼び出すだけで利用できるため、アプリケーションに音声認識機能を簡単に組み込める。音声の文字化や音声による制御など、音声を扱う各種の用途で利用できる。

　これまでは、用途に合わせて、リアルタイムに音声を認識するためのAPIサービス「WebSocket音声認識API」（WebSocketベースのAPI）と、バッチ方式で録音音声を認識するためのAPIサービス「HTTP音声認識API」（REST API）の2つを提供してきた。今回新たに、第3のAPIサービスとして、長時間の録音音声データをまとめて文字化する用途に適した「非同期HTTP音声認識API」を追加した（図1）。これに合わせて、HTTP音声認識APIの名称を「同期HTTP音声認識API」に変更した。

図1：音声認識APIサービス「AmiVoice Cloud Platform」に追加した「非同期HTTP音声認識API」の概要（出典：アドバンスト・メディア）
拡大画像表示

　非同期HTTP音声認識APIは、同期HTTP音声認識API（これまでの「HTTP音声認識API」）の制限である16MB以上のファイルも一括で音声認識させられる。これにより、コンタクトセンターの通話音声、会議音声、動画/ラジオ/YouTubeの音声など、長時間の音声ファイルや大量の音声ファイルをまとめて文字化できる。複数ファイルを非同期で処理できるので、音声ファイルのサイズや長さに関わらず高速に認識結果が得られる。

　既存の同期HTTP音声認識APIの場合、音声ファイルを送ってから音声認識処理が完了するまでの間、アプリケーション側には待ち時間が発生する。また、この際にセッションをつなぎ続けておく必要がある。セッションが途中で切れてしまうとやり直しになるため、送信可能な音声ファイルサイズに上限（16MB）を設けている。

　一方、非同期HTTP音声認識APIでは、APIを実行して音声ファイルを送ると、即時に「sessionid」という値が返ってくる。セッションを保持する必要がないので、16MBを超える大きなサイズの音声ファイルを音声認識できる。セッションが切れた後に、sessionidを使って音声認識結果を取得したり、音声認識処理の状況を確認したりできる。

　3つのAPIサービスの特徴と利用用途は、表1の通りである。

表1：音声認識API「AmiVoice Cloud Platform」を構成する3つのAPIサービス（出典：アドバンスト・メディア）
APIサービス名	概要	利用用途
WebSocket音声認識API	音声ストリームをリアルタイムでテキスト化する	コールセンターの会話をリアルタイムにテキスト化会議の発言をリアルタイムにテキスト化スマートフォンやIoTデバイスの音声操作音声対話システム
同期HTTP音声認識API	音声ファイル（16MBまで）をテキスト化する	音声メモや留守番電話など、短い音声ファイルのテキスト化音声認識を使ったシステムのPoCや音声認識精度の評価
非同期HTTP音声認識API	長時間の音声ファイルや大量の音声ファイルをテキスト化する	コールセンターの通話録音音声ファイルのテキスト化会議録音音声ファイルのテキスト化動画ファイルのテキスト化や字幕作成

リスト

トピックス

[Sponsored]

音声認識API「AmiVoice Cloud Platform」に、長時間の音声データを扱えるAPIを追加

おすすめのホワイトペーパー

トピックス