クラスキャットは2020年1月14日、文章を自動で要約するソフトウェア「ClassCat Text Summarizer Multilingual Edition」を発表した。約100言語で利用できる。重要な文を抽出する仕組み。同年2月3日から販売する。ソフトウェアはLinuxディストリビューションのUbuntu上で動作し、各種パブリッククラウドサービスを介して提供する。
クラスキャットの「ClassCat Text Summarizer Multilingual Edition」は、文章を自動で要約するソフトウェアである。元のテキストから重要な文を抽出するやり方で要約する。約100言語で利用できる。特に、日本語と英語の2言語については、判定モデルの精度を高めたり語彙を充実させたりしたことで、要約品質を高めた。他の言語についても要望に応じてチューニングできるとしている。
要約のための要素技術として、ディープラーニング(深層学習)を利用した。自然言語処理分野の学習モデルを作成する手法「BERT(Bidirectional Encoder Representations from Transformers)」やBERTの改良版であるRoBERTaをベースとするモデルを採用した。モデルはTensorFlow 2.1とPyTorch 1.3を利用して実装した。
ソフトウェアは、各種パブリッククラウド(仮想サーバーやベアメタルサーバー)のUbuntu Server 18.04 LTS上で動作する。GPUを利用できるサーバーであれば、より高速に動作する。
製品提供の背景について同社は、インターネット上のドキュメントが増えている中で、文章を自動で要約する需要が高まっている状況を挙げる。「自動要約ソフトウェアには、必要なドキュメントを容易に選択できるメリットがあるほか、人間によるテキスト要約よりもバイアスがかからず偏りがないというメリットがある」(同社)。