[新製品・サービス]
ELYZA、日本語の長文を3行に要約するAIモデル「ELYZA DIGEST」を公開
2021年8月27日(金)日川 佳三(IT Leaders編集部)
東京大学松尾研究室発のAIスタートアップ、ELYZA(イライザ、本社:東京都文京区)は2021年8月26日、日本語要約AIモデルを開発したと発表した。同モデルを用いた日本語要約AI「ELYZA DIGEST」をデモサイトとして同日に公開した。AIが一から要約文を作成する生成型の要約モデルである。社会実装の最初の取り組みは損害保険ジャパンの実証実験で、カスタマーセンターの対話内容の要約に活用する。
東京大学松尾研究室発のAIスタートアップ、ELYZAが、日本語を要約するAIモデルを開発した。一から要約文を作成する生成型の要約モデルである。社会実装の最初の取り組みとして、損害保険ジャパンがカスタマーセンターの通話データから要約文章を作成する実証実験に利用している(関連記事:損保ジャパン、カスタマーセンターの通話内容を要約して記録する実験、2022年度中の実装目指す)。
拡大画像表示
ELYZAは今回、日本語要約モデルを用いた日本語要約AIアプリケーション「ELYZA DIGEST」(画面1)をデモサイトとして公開した。
入力したテキストデータを3行に要約して表示する。Webフォームへのテキストの直接入力だけでなく、URLを貼り付けることで該当ページ内の全テキストから要約文を作成できる。ELYZAによると、誤字脱字の少ない文章だけでなく、議事録や対話テキストのような乱雑な文章でも要約できるという。
要約AIモデルの狙いについてELYZAは、大量の文章を日常的に扱うホワイトカラーの生産性向上を挙げる。医療におけるカルテ入力、弁護士業務における契約書類や判例の読解、コールセンターにおけるオペレーターの対話メモ作成、メディアにおける記事の原稿作成、ホワイトカラー業務で発生する議事録作成など、さまざまなユースケースを想定している。
生成型でありながら翻訳の正確性は人間に匹敵
ELYZA DIGESTの要約モデルは、一から文章を生成することで柔軟な出力を行う「生成型」を特徴としている。ELYZAによると、生成型要約モデルは、原文にない事実や、原文と反する事実を要約文にしてしまう可能性があるという。これに対し、ELYZAの生成型要約モデルは、人間に匹敵する正確性を持ち、生成型要約の懸念をある程度払拭していることが、同社の検証で判明しているという。
検証では、平均900字程度のニュース記事を、ELYZA DIGESTと人間にそれぞれ翻訳させている(表1)。その結果、流暢性(文法など)は人間に及ばないが、正確性(原文に対して不正確な記述がないか)は人間に匹敵する結果が出た。効率も高く、人間は1記事あたり5分程度の時間を要したが、ELYZA DIGESTは1記事あたり10秒以下で要約を完了している。
拡大画像表示
生成型の要約モデルは、対話テキストの要約に向く
ELYZAは、生成型要約モデルは対話テキストの要約にも向いていて、対話テキストが抱える課題を解決できる可能性があると説明する。一方、要約のアプローチのうち、文中から一部を抜き出す「抽出型」や「圧縮型」、もともと用意したテンプレートの一部を置き換える「テンプレート型」は、対話テキストの要約には向かないという。
同社は、対話テキストの要約は難易度が高いとして、次の4つの要因を挙げている。(1)口語のため、文の構造が大きく崩れていることが多い。(2)音声認識の失敗による誤字脱字が存在する。(3)話者が複数存在する。(4)対話トピックが多様である。これらの要因により、高い精度での翻訳が難しい。
ELYZA DIGESTが採用する生成型のアプローチでは、一から要約文を生成することで、対話テキストが抱える課題を解決できる可能性がある。実際に、ELYZA DIGESTを用いて対話テキストを要約した例が図1である。口語特有の「あのー」「えーと」などの間投詞があっても、妥当な要約文を生成することができている。
拡大画像表示
●Next:ELYZA DIGESTの公開に至る、生成型要約AIモデル開発の経緯
会員登録(無料)が必要です
- 1
- 2
- 次へ >