三菱UFJ銀行は、Web会議における議事録の作成を自動化した。APIを介した電話発着信サービス「Twilio Programmable Voice」を導入した。TwilioがWeb会議に“参加”し、「IBM Watson Speech to Text」が文字起こしを行う連携の仕組みを構築。システムの企画から実装完了まで約3カ月で実現している。Twilio Japanが2021年12月15日に発表した。
三菱UFJ銀行は、Web会議における議事録の作成を自動化した。APIを介した電話発着信サービス「Twilio Programmable Voice」を導入した。TwilioがWeb会議に“参加”し、「IBM Watson Speech to Text(STT)」が文字起こしを行う連携の仕組みを構築。システムの企画から実装完了まで約3カ月で実現している(図1)。
拡大画像表示
三菱UFJ銀行は、以前よりSTTを行内のコンプライアンス監視の目的で導入しており、今回、STTをWeb会議における議事録の作成にも活用することにした。STTのAIエンジンは同行の業務に合わせた独自の学習が進んでおり、汎用的なAIエンジンでは認識が困難な行内用語や専門用語の認識が可能だったという。
Web会議システムと音声認識文字起こしエンジンの連携方法として、エンジンをWeb会議に電話参加(コールイン)させる方法を採った。しかし、音声通話システムを1から作るのは複雑で、初期構築費用や導入のスピード感に懸念があったため、解決手段としてTwilioを導入した。
「Twilioは今回の用途に適していた。STTと接続可能なインタフェースを備えているうえ、音声データをクラウドに保存せずに利用できることが同行のセキュリティ要件に合致した。同行は社員3万人を超え、累積使用時間も膨大になるため、従量課金型で利用できる点も好都合だった」(Twilio Japan)
同行ではこれまで、ICレコーダーなどに一時記録した会議音声データを行員が聞き返して文字起こしを行っていたという。このやり方は時間と労力が膨大だったが、Twilio導入後は、AIエンジンのSTTが直接Web会議に電話で接続し、リアルタイムで文字を起こせるようになった。
同行は現在、自然言語処理などAIの活用に取り組んでいる。音声認識や文章要約にもより一層注力して行く予定という。同時通訳などシステムの利用範囲を拡大したい意向があり、コールセンターなど、音声データを使う他業務への展開も検討している。