東芝は2015年7月2日、音声や映像に含まれる言葉や人物の情報から、その意図や状況を理解するためのクラウドサービス「RECAIUS(リカイアス)」を提供すると発表した。「音声書き起こしエディター」と「音訳エディター」のサービスを10月から開始する。自治体/図書館などでの音訳支援サービスや、金融業での対話サービス、フィールド作業支援などに利用できるという。
RECAIUSで東芝が目指すのは、ICTが人の意図や状況に合わせて適切に動作するための仕組みづくりの支援。人が持つ「見る、聴く、話す」の能力をICTで補完することで、言語や表現などの言葉の違い、音声や映像、文字といった形態の違いによらず、多くの人が安心・安全・快適に過ごせる社会の実現を目指す。
10月に始める音声書き起こしエディターは、講演や会議などの録音データを書き起こす作業を支援するサービス。アップロードした音声データを再生しながらテキスト入力する際、テキスト未入力の箇所を特定して自動的に音声を再生したり、音声認識によるテキスト入力の候補を提示したり、話者の切り替えを推定したりする。作業者は音声をチェックしながらの書き起こし作業の効率を高められる。
音訳エディター「DaisyRings(デイジー・リングス)」は、視覚障がいやディスレクシア(識字障がい)により文字を読むことが困難な人のための音訳(書籍を音声化すること)コンテンツを作成するためのクラウドサービス。Webブラウザ上にテキストをアップロードすることで音訳できる。
編集結果は、デジタル録音図書の国際規格「DAISY(Digital Accessible Information System)」形式で取得できる。音声合成の読みやアクセントの修正も可能。図書館や学校、行政機関のほか、一般企業における製品マニュアルなどの音訳に利用できる。
今後は、音声ビューアーや、音声クリエーター、音声対話、同時通訳、人物ファインダーといったサービスを追加していく。音声ビューアーは、音声認識技術により、音声データの可視化(テキスト化)機能を提供する。会議内容を把握したり、メンバー間で共有できる。コールセンターなどでの発言内容の傾向分析などにも使える。
音声クリエーターは、多様な感情表現を持つ音声合成機能を提供する。ブラウザ上で手軽に合成音声を作成し編集できる。日本語以外に、英語(米国)、中国語、
韓国語など11言語に対応する。
音声対話は、あいまいな問いかけにも答えられる音声対話機能を提供する。用途別の対話知識を構築する。コールセンターでの自動応答による対応の振り分けや、オペレーターの対応時間削減/効率向上につながる。
同時通訳は、話す先から逐次訳する機能。文章の長さにかかわらず、話したことを次々に翻訳する。日英/英日、日中/中日に対応する。
人物ファインダーは、客層や混雑度などの状況把握や登録した人物の検出機能である。人物を自動認識し混雑状況を通知したり、年齢・性別・顔向きなどから商品に対する関心度合いなどを把握する。
これらサービスの充実に向け、同社の研究開発センターで種々の技術開発に取り組んでいる。例えば、話者の音声に似た声で多様な感情音声を生成する「感情付き似声生成技術」や、カメラで撮影した看板/標識/メニューなどの画像から複数文字列を同時に認識する「情景文字認識技術」などである。