TISは2019年7月25日、スマートスピーカーを使った自動会議記録システム「COET Record Meeting」の正式版の提供を開始した。複数の参加者を識別して記録するシステムで、英語での会議をリアルタイムに翻訳できる機能を搭載している。
「COET(コエット)Record Meeting」は、複数参加者の音声を記録しテキスト化、スマートフォンやPCでリアルタイムに閲覧・編集・保存できるクラウドサービス。「COET」は、TISが展開する音声AI関連サービスの統一ブランドである。
サービスを利用するには、スマートスピーカー、スマートビュアー、Wi-Fiネットワーク環境が必要となる。スマートスピーカーは、音声認識ベンチャーのフェアリーデバイセズが開発した「Fairy I/O」がベースとなっている。スマートビュアーには、電子工作用マイコンモジュール「M5Stack」が使われている(写真1)。
COETスマートスピーカーの特徴は、スピーカーに対してどの方向から発話されたかを1度単位で識別できること。論理的には、最大12名までの識別が可能だという。ただし、同時発話の認識は2名まで。会議をスタートする際に、出席者がスピーカーに向かって自分の名前を発声すると、声の特徴と場所から発話者を識別する。テキスト化された時に、だれが話しているかもわかるようになる。
クラウド側に搭載された音声認識エンジンは「汎用的なエンジンの中で、もっとも優秀とされるもの」というに止まっており、詳細は明らかにしていない。スピーカーで収集した音声はAWS上に構築されたシステム基盤に送られ、音声認識エンジンでテキスト化される。テキストは、スマートフォンやPCでリアルタイムに確認することができる。スマートフォンの場合は、スマートビュアーに表示されたQRコードで専用サイトに飛ぶことができる。PCの場合はミーティングIDを取得してログインすることでサイトに入ることが可能になる。
拡大画像表示
サイト画面には、会議で話されている言葉がその場でテキスト化されて、リアルタイムに表示される。この会話画面は、編集可能となっている。例えば、名前を間違って認識しているので修正すると、その後の会話は正しい名前で表示されるようになる。会話の中で必要のない部分だけを選択して削除できる。音声を再生し、発言内容を確認しながら修正を加えていくことも可能となっている。
TISではβ版を60以上の企業に利用してもらい、フィードバックを得ている。その結果、最も要望が多かったのが、外国語による会議を記録しながらリアルタイムに日本語訳する「言語選択機能」。正式版では英語対応の言語選択機能を搭載した。
価格は、スマートスピーカーとスマートビュアーの購入価格を含む初期費用が14万800円(税別、以下同)、月額基本料は10時間利用までで6800円、利用時間が10時間を超えた場合は、1時間ごとに1800円追加となる。