NTTテクノクロスは2017年12月5日、テキストデータを音声で読み上げる音声合成ソフト「FutureVoice Crayon」の新版を発表、同日販売を開始した。新版では、音声の合成にディープラーニング(深層学習)を活用した。これにより、少量の音声データから人の声と遜色ない肉声感と明瞭感のある自然な音声を作成できるようになったとしている。価格(税別)は要問い合わせ。
NTTテクノクロスの「FutureVoice Crayon」は、テキストデータを音声で読み上げる音声合成ソフトである。特徴は、音声合成の技術としてディープラーニングを採用したこと。イントネーションや声質のもととなる音声データベースを利用し、異なる話者の音声データから読み方やアクセントを補うことによって、所望の話者の少量の音声データからその話者の自然な音声合成を実現する。
図1:ディープラーニング(深層学習)を活用した音声合成のイメージ(出典:NTTテクノクロス)拡大画像表示
ディープラーニングを採用したことで、少量の音声データから声のバリエーションを簡易に増やせるようになったほか、従来の音声合成技術よりも遥かに自然な声を実現したとしている。これにより、これまで音声合成では置き換えが困難であったナレーションやガイダンスにも使えるようになるなど、大幅な用途拡大が見込めるとしている。
日本語は53話者、外国語は10言語22話者を用意した。これらの話者は、いずれもディープラーニングによって作成したものである。基本的な使い方は、これら話者の中から所望の話者を選択して利用するというものである。要望によって、学習用の音声データを用いた話者の作成や、ユーザーのイメージに合わせた話者の作成にも応じるとしている。
製品提供の背景として同社は、コンタクトセンターでの自動音声案内や、音声対話サービスやロボットによる受付案内など、音声合成技術の活用シーンが広がっていることを挙げる。「従来の技術では、より人の声に近づけ、さらに声のバリエーションを増やすためには、費用負担が大きいことが課題だった」(同社)。
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-


