沖電気工業(OKI)は2020年3月26日、話者自身の音声からリアルタイムに生成したマスキング音を用いて会話内容の漏洩を防止するスピーチプライバシー技術を開発したと発表した。銀行の相談ブース、オフィスの会議スペース、薬局の受付カウンターなど各種のシーンにおいて、周囲を気にせず会話や相談ができるとしている。今後、相談ブースなどを設置している顧客と実証実験による実用化検討を行い、2021年度の商品化を目指す。
沖電気工業(OKI)が今回開発したスピーチプライバシー技術は、話している話者の音声から、その場でリアルタイムにマスキング音を生成する技術である(図1)。話者自身の音声を使うことで、従来法よりも効果的に話者の音声を秘匿できる。
拡大画像表示
実際に10人の被験者による主観評価実験で従来方法と比較した結果、同じ音量でも新方式を用いることでマスキング効果が35%以上向上した。さらに、マスキング音を5dB(2倍弱)大きくすることで、聴き取りにくさ100%(被験者全員が聴き取りにくいと回答)を達成した。
本技術を用いたマスキング音を流すことで、会話の内容が周囲の人に漏れにくくなる。個人情報を安心してやり取りできるようになる。個室で行っていたような相談を、小規模なブースでも行えるようになり、店舗スペースを有効に活用できる。
スピーチプライバシー技術の仕組みは、図2のとおりだ。
- マイクで音声を収録する
- 音声区間検出(収録したマイク入録信号の音声区間を検出する)
- ピッチ推定(音声区間のピッチを推定する)
- データベース書込み(音声とピッチ情報を逐次データベースに蓄積する)
- マスキング音生成(データベースの過去の音声から、ピッチの近い音声を選択し、選択した音声を加工し、マスキング音を生成する)
- スピーカー(生成したマスキング音を、スピーカーから出力する)
拡大画像表示
開発の背景について同社は、銀行などの相談ブースにおいては、高額な取引や重要な説明が行われ、個人情報(名前、住所、電話番号など)がやり取りされることが多いという状況を挙げる。「しかし、パーテーションで区切られただけのブース、あるいは上部に吹き抜けや隙間があるブースでは、会話内容が周りに聞こえてしまうなどの課題がある」という。
このような課題に対して、音のマスキング効果を利用したスピーチプライバシー技術が開発されている。事前に収録した環境音や音声などから、会話の聴き取りを妨げるマスキング音を生成し、これを周囲の人に聞かせることによって、会話の漏洩を防止する技術である。OKIは今回、効果的なマスキング音を生成する新技術を開発した形である。