レトリバは2024年3月10日、RAG(検索拡張生成)システムの検索精度を高めるEmbedding(テキスト埋め込み)モデル「RetrievaEmbedding - 01 AMBER(Adaptive Multitask Bilingual Embedding Representation)」を公開した。RAGで検索するテキストを数値化(ベクトル化)するモデルで、日本語検索用途に最適化している。
レトリバの「RetrievaEmbedding - 01 AMBER(Adaptive Multitask Bilingual Embedding Representation)」は、RAG(検索拡張生成)システムの検索精度を高めるEmbedding(テキスト埋め込み)モデルである。RAGで検索するナレッジを数値化(ベクトル化)するモデルで、日本語検索用途に最適化している。求める情報を正確・迅速に得られるようになるとしている(図1)。

拡大画像表示
商用利用可能なライセンスの下で、315Mパラメータの「AMBER-large」と132Mパラメータの「AMBER-base」の2種類のモデルをHugging Face Hubで公開している。
特徴として、500M以下パラメータの小規模なモデルでありながら、日本語検索精度が高いことを謳う。レトリバが実施したAMBERの日本語検索精度のベンチマークテストで、公開中の他の小規模な日本語/多言語埋め込みモデルに比べて高いスコアになっている(図2)。日本語以外にも、日本語と英語が混在している文書に対しても高い検索性能が得られるという。

拡大画像表示
「日本企業は生成AIの活用が欧米と比べて遅れている。なかでもRAGは期待の高さの割に十分に活用が進んでいない。要因の1つとして、RAGの重要な要素であるEmbeddingモデル技術に関し、日本語のモデルが英語に比べて整備されておらず、企業の多くは検索精度が不十分なEmbeddingモデルを利用している」(レトリバ)