クラスキャットは2020年2月4日、ディープラーニング(深層学習)を活用した多言語対応の自動テキスト要約サービス「ClassCat Text Summarizer Multilingual Edition v1.0」を発表した。同日提供を開始した。Web API(REST API)および開発者向けSDK(ソフトウェア開発キット)として提供する。価格はオープン。
ClassCat Text Summarizer Multilingual Editionは、テキストを自動で要約するサービスである。テキスト要約の手法は、不要な文を省いて重要な文だけを選択して抽出する抽出型に該当する。アプリケーション開発ベンダーなどに向けたWeb API(REST API)サービスとして、開発者向けのSDKとあわせて提供する。
最初のv1.0リリースでは、日本語と、主要な印欧語(英語、ドイツ語、フランス語、スペイン語、イタリア語、ポルトガル語)を要約できる。将来的なリリースでは、要約対象の言語を増やす。さらに、API/SDKの提供だけでなく、クラスキャット独自のクライアントアプリケーションによるサービスも提供する予定である。
今回、要約サービスにあわせて、要約テキストを翻訳するサービスも同時に提供する。これにより例えば、スペイン語の長文ニュースを日本語の要約文として読み出せる。逆に、日本語の長文テキストを要約した上で他国語に翻訳することもできる。
要約には、ディープラーニングをベースとした自然言語処理モデルを採用した。モデルの実装には、ディープラーニングの標準的なフレームワーク(ソフトウェア開発ライブラリ)であるTensorFlow 2.1とPyTorch 1.3を利用した。
標準版のStandardモデルと、上位版のAdvancedモデルを用意した。Standardモデルでは、標準的な人工知能(ニューラルネット)モデルを利用できる。Advancedモデルでは、TransformersベースのBERTをはじめとするNLP(自然言語処理)技術のモデルを利用できる。