TAKARA&COグループで企業向け翻訳サービスを行う十印は2020年1月27日、情報通信研究機構(NICT)から技術供与を受けて開発した商用のAI翻訳サービス「T-tact AN-ZIN」を強化し、PDFファイルを翻訳する機能を追加したと発表した。OCR(光学文字認識)機能も搭載しているため、テキスト抽出ができないスキャンデータや、画像中のテキストも翻訳できる。日本語から直接翻訳できる言語ペアも追加した。2020年2月にはIT分野に特化したエンジンをリリースする予定である。
T-tact AN-ZINは、AIを活用した翻訳サービスである。今回新たに、PDFファイルを翻訳する機能を追加した(図1)。また、テキストが抽出できないスキャンデータについても、文字部分をOCRでテキストデータに変換して翻訳する。画像に入っている文字も翻訳できる。
拡大画像表示
以前は、PDFからテキスト部分を抽出した際に、行末に不要な改行が入ることから、翻訳の精度が落ちる課題があった。今回、これを解決し、不要な改行を削除した形でいったんWordファイルに変換し、その後に翻訳するようにした。
翻訳するPDFファイルの制約として、8Mバイト以内、2000文までに限る。2000文を超える場合は、Wordへの変換のみが行われるので、2000文以内に収まるようにファイルを分割し、再度翻訳にかける必要がある。OCR機能を使うためには、30ページ以内に限る。
簡単な操作で使用できる。翻訳したいファイルを選択し、OCR機能を使用するかしないかを設定することで、Wordファイルに変換した翻訳済みのファイルをダウンロードができる。OCRを「使用する」に設定していれば、画像のなかの文字列もテキスト化して翻訳する。
日本語から直接翻訳できる言語も増やした。従来は、日本語から直接翻訳できる言語は、英語、中国語簡体字、中国語繁体字、韓国語に限られていた。2020年1月14日から、以下の8言語のペアが使用可能になった。今後も順次言語ペアを追加していく。
- 日本語←→フランス語
- 日本語←→ドイツ語
- 日本語←→スペイン語
- 日本語←→ポルトガル語
- 日本語←→タイ語
- 日本語←→ベトナム語
- 日本語←→インドネシア語
- 日本語←→ミャンマー語
ある分野の対訳集を使ってエンジンの深層学習を行うことで、その分野の訳文の精度を上げることができる。その技術を使用して、十印が独自に収集した対訳集でAI学習(アダプテーション)させた分野ごとのエンジンを作成している。
すでに「汎用エンジン」、「特許エンジン」、「特許請求項エンジン」に加えて、AI学習させて作成した「半導体エンジン」をリリースしている。
2020年2月には、IT分野に特化した「ITエンジン」をリリースする。今後も、各分野に特化したエンジンを搭載していく。また、この技術を使用することで、分野ごとだけではなく、企業ごとのエンジンを作成することも可能である。