情報通信研究機構(NICT)は2018年10月18日、人の発話が何語であるのかを入力音声のみから識別する、8言語(日・英・中・韓・タイ・ミャンマー・ベトナム・インドネシア)対応の言語識別技術を開発したと発表した。
発表した言語識別技術では、言語識別に必要な発話の特徴を精度よく抽出しすることに加え、高速演算できるニューラルネットワークを提案し、1.5秒程度の短い発話でも0.15秒以内に識別する。これにより、何語を話しているか分からない外国人の言葉も即座に識別し、言語設定は不要で音声認識や自動翻訳ができるようになる。
NICTでは、多言語音声認識・機械翻訳・音声合成の研究開発に取り組んでおり、スマートフォン用アプリケーション「VoiceTra」を実証実験のために無料公開している。音声アプリケーションの大半は、入力される言語が何語であるかをあらかじめ指定する必要がある。また、相手が話している言語がわからない場合には、何語かを指定すること自体が困難だった。
これを解決する方法としては、入力発話が何語なのかを識別する言語識別技術がある。従来の一般的な方式では、10秒程度の長い発話でないと識別が困難であるため、実際の音声アプリケーションでは使いにくいという課題があった。
NICTは、この課題を解決するために「知識蒸留」を用いて、言語識別に必要な発話の特徴を精度よく抽出できる、長い発話用のニューラルネットワークを変換して、短い発話でも識別精度が高く、かつ、リアルタイムで識別可能な小規模ニューラルネットを構築する方式を提案した。
この方式により、1.5秒程度の短い発話でも即座(0.15秒)に識別できる技術を開発し、8言語(日・英・中・韓・タイ・ミャンマー・ベトナム・インドネシア)で90%以上の識別率を実現したとしている。
同技術によって、これまで必要であった入力言語の事前指定が不要となるため、何語を話しているかわからない外国人の言葉も即座に識別し、音声認識・機械翻訳ができるようになる。
NICTは今後、識別言語数の拡張、識別精度の向上を図るとともに、同機能をVoiceTraなどの音声翻訳アプリケーションに実装するという。また、民間企業にもライセンスする予定だ。
- 業務システム 2027年4月強制適用へ待ったなし、施行迫る「新リース会計基準」対応の勘所【IT Leaders特別編集版】
- 生成AI/AIエージェント 成否のカギは「データ基盤」に─生成AI時代のデータマネジメント【IT Leaders特別編集号】
- フィジカルAI AI/ロボット─Society 5.0に向けた社会実装が広がる【DIGITAL X/IT Leaders特別編集号】
- メールセキュリティ 導入のみならず運用時の“ポリシー上げ”が肝心[DMARC導入&運用の極意]【IT Leaders特別編集号】
- ゼロトラスト戦略 ランサムウェア、AI詐欺…最新脅威に抗するデジタル免疫力を![前提のゼロトラスト、不断のサイバーハイジーン]【IT Leaders特別編集号】
-
VDIの導入コストを抑制! コストコンシャスなエンタープライズクラスの仮想デスクトップ「Parallels RAS」とは
-
AI時代の“基幹インフラ”へ──NEC・NOT A HOTEL・DeNAが語るZoomを核にしたコミュニケーション変革とAI活用法
-
加速するZoomの進化、エージェント型AIでコミュニケーションの全領域を変革─「Zoom主催リアルイベント Zoomtopia On the Road Japan」レポート
-
14年ぶりに到来したチャンスをどう活かす?企業価値向上とセキュリティ強化・運用効率化をもたらす自社だけの“ドメイン”とは
-
-
-
-
生成AIからAgentic AIへ―HCLSoftware CRO Rajiv Shesh氏に聞く、企業価値創造の課題に応える「X-D-Oフレームワーク」
-
-
-
「プラグアンドゲイン・アプローチ」がプロセス変革のゲームチェンジャー。業務プロセスの持続的な改善を後押しする「SAP Signavio」
-
BPMとプロセスマイニングで継続的なプロセス改善を行う仕組みを構築、NTTデータ イントラマートがすすめる変革のアプローチ
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-



