東芝デジタルソリューションズは2018年7月10日、特許庁から「機械翻訳システム」を受注したと発表した。2019年5月に稼働を開始する。国立研究開発法人情報通信研究機構(NICT)が開発したディープラーニングを活用した機械翻訳エンジンに、東芝デジタルソリューションズの自然言語処理技術を組み合わせた。
これまで機械翻訳に使われてきたルールベース機械翻訳エンジン(RBMT)や統計的機械翻訳エンジン(SMT)には、正確さや自然さに欠ける問題がある。近年登場した、ディープラーニングを活用したニューラル機械翻訳エンジン(NMT)は、翻訳精度が高いものの、原文のパターンによっては誤訳(訳抜けなど)が生じやすい欠点がある。
拡大画像表示
今回構築する機械翻訳システムでは、東芝デジタルソリューションズの自然言語処理技術を使って、特許文献の請求項部分と定型部分を自動で切り分け、ニューラル機械翻訳エンジン(NMT)、ルールベース機械翻訳エンジン(RBMT)、統計的機械翻訳エンジン(SMT)に適宜振り分ける。これに加えて、NMTの弱点である誤訳が生じにくいように、入力文を整形する処理技術を実装する。
特許庁が機械翻訳システムを構築する背景について同社は、特許戦略のグローバル化にともない、特許文献を翻訳する頻度と件数が急増していることを挙げる。「従来の人手による翻訳作業ではコストの観点から大量翻訳が難しく、一方で従来の機械翻訳エンジンでは正確さや自然さに欠ける問題があった」という。
システム基盤には、大量の特許文献を高速に翻訳処理するため、Microsoft Azureを採用する。