KDDI総合研究所は2021年10月1日、音声合成技術「高効率声質再現音声合成技術」を開発したと発表した。3分程度の音声を録音したデータから、その人の声質に似た音声を合成する技術である。出来合いの音声データではなく、オリジナルの声質を用いた音声対話システムやチャットシステムを実現する。
KDDI総合研究所は従来、音声合成技術を簡単に使うための研究を進めてきた。しかし、音声合成用に作成された既成のデータ以外での音声合成は容易ではなく、独自の声質で音声合成を使いたいというニーズへの対応が課題となっていたという。
今回、3分程度の音声を録音したデータから、その人の声質に似た音声を合成する「高効率声質再現音声合成技術」を開発した。基となる音声合成方式に「DNN-HSMM音声合成方式」を採用することで、音声の特徴を表すパラメーター数を減らし、合成音声の品質を高めている。さらに、独自のDNN適応技術を組み合わせることで、短時間の音声データから高効率に声質を再現できるようになった(図1)。
拡大画像表示
開発した技術を検証するため、数十人の話者による100時間以上の音声で学習した汎用的なDNNを新規の約3分の音声で適応し、その声質を再現した合成音声を作成した。この手順で作成した10声質、各5文の合成音声に対して、基となった自然音声との比較を11人の判定者で行ったところ、94%の音声で、似た声質の音声が合成できていると、過半数の判定者が判定した。
同社は今後、ほかのサービスから同技術を容易に利用できるようにするシステム基盤化の検討を進める。また、どこでも簡単に録音作業ができることや、より短時間の音声でも音声合成ができることなど、同技術をより使いやすい技術にしていくための研究開発を進める。
さらに、同技術の基盤であるDNN-HSMM音声合成方式の処理量がほかの深層学習に基づく方式よりも小さいことを生かし、日本語テキスト音声合成ソフトウェア「N2」と統合した、PCやスマートフォン、ロボット上でスタンドアローン動作する音声合成システムの開発を進める。