NTTデータ、特定の業務領域に最適化したBERT言語モデルのフレームワークを開発

業務特有の用語や文脈を理解する言語モデルの自動構築が可能に

2021年3月17日(水)日川佳三（IT Leaders編集部）

リスト

NTTデータは2021年3月16日、汎用言語モデルのBERTを、特定の業務領域（ドメイン）に応じて最適化し、顧客が扱う業務文書に合った言語モデルを自動で構築する仕組みとして「ドメイン特化BERT構築フレームワーク」を開発したと発表した。これを使うことで、ユーザーの業務領域に特化したBERTを短期間で構築できるようになったとしている。

　NTTデータの「ドメイン特化BERT構築フレームワーク」（略称：ドメイン特化BERT-FW）は、汎用言語モデルのBERT（Bidirectional Encoder Representations from Transformers）に追加学習を行い、ユーザーの業務文書に合わせた言語モデルを構築する仕組みである（図1）。

　ユーザーの業務文書から一般的なBERTモデルが苦手とする文を抽出し、インターネット上から類似文章を自動で収集して追加学習する、というアプローチをとる。

図1：ドメイン特化BERT-FWの仕組み（出典：NTTデータ）
拡大画像表示

　ドメイン特化BERT-FWによって、専門用語や特有の文脈への対応が必要だった分野においても、自然言語処理技術を活用できる。NTTデータでは、2021年4月以降順次、文書を扱う業務の効率化やサービスの高度化を検討している企業を募る。2021年度中に、ユーザーとの共同検証を5件実施することを目指す。

　同フレームワークでは、言語モデル自体をユーザー企業の業務文書に合わせることで、従来のBERTと比べて、専門用語や特有の文脈を含む文書を解析する際の精度を高めている。また、言語モデル構築の一連の流れを自動化し、専門家がチューニングする場合よりも短期間でモデルを構築できるようにした。

　NTTデータは、ドメイン特化BERTモデルの性能を評価するため、金融系資格試験に解答するタスクを用いて検証した。汎用モデルであるNTT版BERTや、NTTデータが2020年7月に構築した金融版BERTモデルと比べても、ドメイン特化BERT-FWで構築したモデルは高精度であることが確認できたという。

　モデルの構築期間については、性能の検証に用いた言語モデルの場合、金融版BERTモデルの構築に29日かかったのに対して、ドメイン特化BERT-FWを用いたモデルは8日で構築を終えている（図2）。また、自動化による副次効果として、業務有識者（ユーザーなど）による作業が不要となった。