認識精度の向上で実用段階に入った音声認識技術

音声認識ソリューション比較

2012年10月30日(火)緒方啓吾（IT Leaders編集部）

リスト

音響モデルや言語モデルといった要素技術の進歩、CPUやメモリーなどのハードウェア性能の向上、ネットワーク環境の整備などが相まって、企業ITの分野でも音声認識技術がこの1〜2年で急速に注目を集めている。最新動向を追った。

　「この1年で引き合いの数が10倍になった」。これは音声認識を使ったソリューションを展開する、あるベンダー幹部の言葉である。事実、業務システムに音声認識技術を採用したというリリースがこのところ目立っている。

　例えば、三井生命はコールセンターの新システムに採用した。オペレーターと顧客の会話音声を随時テキスト化、話題に応じてディスプレイに関連情報を表示し、オペレーターをサポートする仕組みを構築した。2012年8月から本格稼働を開始している。

　泉州池田銀行も同月、営業担当者に配布するスマートフォンに、音声入力対応の業務日報アプリを導入した。同行の営業担当者が、社外に持ち出せるデバイスはスマートフォンのみ。煩わしいタッチ操作ではなく、声で文章を入力できるようにすることで、現場の業務進捗をスピーディーに把握できるようにした。

　少し変わったところでは、コカ・コーラが8月中旬から開始した販売促進キャンペーンに採用した。消費者がTVCMの音声を専用のスマートフォンアプリに認識させると、特別なゲームをプレイできるというもの。「対象のCMを確実に見た」ことを裏付けるための工夫だ。

技術進歩で実用段階にスマートフォンが後押し

　音声認識そのものは決して新しい技術ではない。米国ベル研究所で技術研究が始まったのは、1950年代初頭。1960年前後には京都大学とNECが研究開発を開始した。その後、1990年代にはPC向けの口述筆記ソフトや、音声認識機能を組み込んだカーナビなどが登場。倉庫におけるピッキング業務の支援や、株価の電話照会サービスといった形で企業ITの領域にも持ち込まれている。

　今になって、音声認識が急ピッチで普及している理由は2つある。1つは、技術進歩による使い勝手や認識精度の向上である。50年以上の歴史を持つ音声認識だが、実用性という面では、最近まで課題も多かった。例えば、音声を認識させるためには、事前に所定の文章を数分から数十分間読み上げ、利用者の声を学習させておく必要があった。また、認識可能な文章は、単独で発音された単語、あるいは定型文に限られた。こうした条件が、利用可能なシチュエーションを限定していた。

　状況が変わり始めたのは、2000年前後のことだ。音声を文字に変換する際に用いる音響モデルの作成技術が進歩。大勢の人々の音声から作成した統計データを用いることで、声の事前登録が不要になった。また、文字の羅列を文章に変換する際に用いる言語モデルも進化。テンプレートの枠に収まらない、人間の自由な発話を認識できるようになった。

　その後、ハードウェアの性能も年を追うごとに向上したため、応答速度を維持するために、認識可能な単語数を減らしたり、文章の長さを制限したりする必要がなくなった。「一昔前と今とでは、音声認識技術は全く別のものと考えてよい」（フュートレックの木道嘉之常務取締役）。

　こうした技術進歩を人々に知らしめるきっかけを作ったのが、スマートフォン向け音声認識サービスの普及だ。グーグルが2009年に開始した音声検索サービスを皮切りに、2012年3月にはアップルのiOS向け音声アシスタントソフト「Siri」が日本語に対応。さらに同月、ドコモも自社のスマートフォン利用者向けに「しゃべってコンシェル」を提供開始した。人々が音声認識に触れる機会が増加。その完成度の高さから、業務利用を考える企業が増えたようだ。

表1　音声認識技術の歴史

4つのステップで音声信号を文字に変換

一般的な音声認識エンジンの仕組みを示したのが図1だ。概ね4つのステップで人間の声をテキスト化する。第1ステップは、音声の加工。マイクなどの入力装置から取り込んだ音声信号から雑音を除去し、識別の手掛かりとなる特徴を抽出する。

図1　音声認識技術の利用例

第2ステップでは、音声信号を、音素を表す記号に置き換える。音素とは言葉の音の最小単位。例えば、「電話」という単語の発音は、「d」「e」「n」「w」「a」という音素で構成される。各音素は、それぞれ異なる波形の特徴を持つ。音声認識ソフトは各音素の特徴をカタログ化した「音響モデル」を手掛かりに、入力された音声信号にどのような音素が含まれているかを探り出す。

ただし、音声の波形は話し手によって異なるし、同一人物でも毎回変化する。入力された音声が「odenwa」のようにも思えるし、「openwa」かもしれないという場合も珍しくない。そこで、1つの入力信号に対して、複数の変換候補を作成。前後の音のつながりなども考慮し、確からしさのスコアを付けて次のステップに渡す。

第3ステップでは、音素列を単語に変換する。ここでは、「認識辞書」を用いる。認識辞書は、「denwa：電話」「pen：ペン」といった体裁で、音素列（＝発音）と単語の対応を記録している。これを見ながら、音素列を単語の羅列に変換していく。もちろん、音素と単語の組み合わせも1つに定まるとは限らない。「odenwa」は、「お電話」かもしれないし、「おでんは」かもしれない。そこで、前のステップで渡された各候補に対して、やはり複数の変換候補を作成し、次のステップに渡す。

第4ステップでは、変換候補の中から、最も妥当性の高いものを選択する。この際に用いるのが「言語モデル」である。これは、言葉遣いや言い回しを蓄積したもの。例えば、「お電話ありがとう」「おでんは美味しい」はあり得るが、「おでんはありがとう」「おペンはありがとう」という表現は考えられないといった、単語のつながりのルールを統計値として保持している。言語モデルに照らして、最も妥当な候補をテキストとして出力する。