[技術解説]
翻訳のプロが自然言語処理に本気で取り組んだ「GengoAI」サービス
2018年12月12日(水)杉田 悟(IT Leaders編集部)
SiriやGoogleアシスタント、Alexaといった音声認識や自動翻訳などが我々の生活に入り込んでいる。これら音声や言語に関連するAIのアルゴリズム精度を左右する技術が自然言語処理だ。その自然言語処理用の学習データの収集、開発を専門に扱ったサービスを提供しているのが、クラウドソーシング型翻訳サービスを提供するGengo(ゲンゴ)である。翻訳を生業にする言語のプロフェッショナルたちが本気で自然言語処理に取り組んで完成したAIサービスの実力はいかに──。
Gengoが2018年5月から提供する「GengoAI」。これは、AI開発に関する一連のフローの中で、ビッグデータ収集から学習データ化、再編集という作業を、オーダーメイド型で請け負うものだ。音声認識や検索、翻訳といった言語に関するAIが専門で、「特に複数言語にわたるデータソースからの学習データ化に強みを発揮する」(代表取締役のマシュー・今井・ロメイン〈Matthew Imai Romaine〉氏、写真1)という。
難易度が高い学習データの前処理
カギを握るのは自然言語処理(Natural Language Processing:NLP)だ。ロメイン氏は、「画像認識や自動運転技術の開発よりも、言語に関連したAIの開発は難易度が高い」と指摘している。その理由は「自然言語処理を行うにあたっての前処理に大変な手間がかかる」からだという。言語データをAIで使える教師付きの学習データに変換するには、正解をラベル付けする前処理が必要となる。特に外国語のデータを前処理するとなると、高い語学理解力が求められる。
例として、英文が文法上正しいかどうかを判断するケースを見てみよう。
My name is Tom.
I have sister.
I have two brothers.
簡単な英文で、一見すべて正しいように見えてしまうが、
2番目のI have sisterは、I have a sisterが正解。ごく単純な文法の誤りだ。
また、文脈や一般常識から言語の意味を理解しなければならない場合もある。例えば、「Queen」という単語が入った文章で、短絡的に「Queen=女王」を正解としてラベル付けを行うと、不正解が紛れ込む可能性がある。
Queen Elizabeth II is the longest-reigning monarch.
Queen is famous for Bohemian Rhapsody.
上の「エリザベス2世は最も長く君臨している君主だ」という文では、Queen=女王で間違いないが、下の「クイーンはボヘミアン・ラプソディで有名です」という文では、Queenは皇族ではなくロックバンドを指している。
この場合、バンドのクイーンや、彼らの代表曲の1つであるボヘミアン・ラプソディ(ご存じのように同名映画が大ヒット中である)のことを知らなければ、文脈から正確な翻訳を導き出すことは難しい。
こうした言語や文化への広範な理解が求められるとなると、データサイエンティストの苦労は推して知るべしだ。前処理を正確に行わないとAIの精度が落ちるので、手抜きはできない。そこで、前処理の中で言語力が求められる部分だけを専門に請負おうというのが、翻訳者という「言語」のプロフェッショナルを抱えるGengoAIのサービスモデルだ。
●次ページ:「AI+翻訳者プロのクラウドソーシング」で高品質なAI翻訳を実現する仕組み
会員登録(無料)が必要です
- 1
- 2
- 次へ >