[新製品・サービス]

リコー、生成AIの有害な入出力を遮断するAIモデルを無償公開

2026年5月22日(金)日川 佳三(IT Leaders編集部)

リコーは2026年5月20日、大規模言語モデル(LLM)に対する有害情報の入出力を検知・遮断するAIモデル「Llama-Ricoh-SafeGuard-20260520」を無償公開した。利用者がAIに入力する文章と、AIが返す回答の双方を監視し、暴力や差別、プライバシー侵害など14種類の不適切な内容を自動で判別する。企業が生成AIを業務に組み込む際の安全対策として利用できる。

 リコーが無償公開した「Llama-Ricoh-SafeGuard-20260520」は、大規模言語モデル(LLM)に対する有害情報の入出力を検知・遮断するAIモデルである(図1)。利用者がAIに入力する文章と、AIが返す回答の双方を監視し、暴力や差別、プライバシー侵害など14種類の不適切な内容を自動で判別する。企業が生成AIを業務に組み込む際の安全対策として利用できる。

図1:リコーが無償公開したガードレールモデル「Llama-Ricoh-SafeGuard-20260520」の概要(出典:リコー)
拡大画像表示

 米Meta Platformsの「Meta-Llama-3.1-8B」をベースに東京科学大学などが日本語性能を高めた「Llama-3.1-Swallow-8B-Instruct-v0.5」を土台とし、リコーが追加学習を施した。独自の量子化技術によってモデルを小型・軽量化し、オンプレミスのサーバーでも動かせるようにした。これまではリコージャパンの「RICOH オンプレLLMスターターキット」に搭載する形で提供してきたが、今回、Hugging Faceで公開した。

 実装上は、アプリケーションとLLMの間に挟む形で利用する。LLMへの入力時にプロンプトを判定し、有害と判断すればLLM本体に渡さず遮断する。出力時は、LLMが生成した回答を検査し、問題があればアプリケーションへの応答を差し止める。有害かどうかの判定は、リコーが独自に構築した数千件規模の学習データに基づく。

 こうした入出力の安全装置を一般に「ガードレール」と呼ぶ。AIの業務利用が広がる一方、国内で実用的に利用できるオープンな日本語ガードレールは選択肢が少なかった。リコーは2024年10月、LLMの安全性対策を目的とした社内プロジェクトを立ち上げている。2025年8月に入力側の判別機能を追加し、同12月には出力側の検知機能も追加した。

 有害なコンテンツは、暴力や犯罪、差別、プライバシー侵害など14種類に分類して検知する。ラベル分類は、ガードレール用モデル「Llama guard 3」に準拠しており、以下の通りである。

  1. 暴力犯罪
  2. 非暴力犯罪
  3. 性関連犯罪
  4. 児童の性的搾取
  5. 名誉毀損
  6. 専門的なアドバイス
  7. プライバシー
  8. 知的財産
  9. 無差別兵器
  10. ヘイト
  11. 自殺と自傷行為
  12. 性的コンテンツ
  13. 選挙
  14. PCコマンドやコードを通した悪用
関連キーワード

リコー / 大規模言語モデル / ガードレール

関連記事

トピックス

[Sponsored]

リコー、生成AIの有害な入出力を遮断するAIモデルを無償公開リコーは2026年5月20日、大規模言語モデル(LLM)に対する有害情報の入出力を検知・遮断するAIモデル「Llama-Ricoh-SafeGuard-20260520」を無償公開した。利用者がAIに入力する文章と、AIが返す回答の双方を監視し、暴力や差別、プライバシー侵害など14種類の不適切な内容を自動で判別する。企業が生成AIを業務に組み込む際の安全対策として利用できる。

PAGE TOP