NTTテクノクロスは2021年6月1日、各社のクラウド型音声系サービスのAPIを束ねて共通化するプロキシサーバーソフトウェア「Voice AI Proxy」を発表した。同日販売を開始した。利用する音声系サービスに応じてAPIを使い分ける必要がなくなる。音声認識5種類や音声合成3種類など、記事執筆時点で13種類の音声系サービスのAPIを収容する。今後、Voice AI Proxy経由で利用できるAPIを順次増やしていく。価格は、要問い合わせ。
Voice AI Proxyは、各社のクラウド型音声系サービスのAPIを束ねて共通化するプロキシサーバーソフトウェアである(図1)。利用する音声系サービスに応じてAPIを使い分ける(ソフトウェアをカスタマイズする)必要がなくなる。音声系サービスの導入時や切り替え時のシステム開発負荷を軽減できる。
拡大画像表示
13種類のAPIを、5つのタイプ別に共通化した(表1)。音声認識×5種類、音声合成×3種類、自然言語処理(対話)×2種類、自然言語処理(分類)×2種類、音声感情解析×1種類、である。例えば、音声認識APIの場合、Google CloudやAzureの音声認識APIを、すべて同じ手順で利用できるようになる。
タイプ | 対応数 | 対応サービス |
---|---|---|
音声認識 | 5 | SpeechRec Cloud |
COTOHA API | ||
Google Cloud Speech-to-Text | ||
IBM Watson Speech to Text | ||
Microsoft Azure Speech to Text | ||
音声合成 | 3 | FutureVoice Crayon Cloud |
Google Cloud Text-to-Speech | ||
IBM Watson Text to Speech | ||
自然言語処理(対話) | 2 | Google Dialogflow |
IBM Watson Assistant | ||
自然言語処理(分類) | 2 | Google AutoML Natural Language |
IBM Natural Language Classifier | ||
音声感情解析 | 1 | Empath |
IVR(音声自動応答)ソフトウェア「VoiceMall」のオプションとして販売する。まずはVoiceMallのオンプレミス版に対して提供する。今後、VoiceMallのクラウド版(SaaS版)に対しても提供する。