[新製品・サービス]

リコー、生成AIの有害な入出力を遮断するAIモデルを無料公開

2026年5月22日(金)日川 佳三(IT Leaders編集部)

リコーは2026年5月20日、大規模言語モデル(LLM)に対する有害情報の入出力を検知・遮断するAIモデル「Llama-Ricoh-SafeGuard-20260520」を無料公開した。利用者がAIに入力する文章と、AIが返す回答の双方を監視し、暴力や差別、プライバシー侵害など14種類の不適切な内容を自動で判別する。企業が生成AIを業務に組み込む際の安全対策として利用できる。

 リコーが無料公開した「Llama-Ricoh-SafeGuard-20260520」は、大規模言語モデル(LLM)に対する有害情報の入出力を検知・遮断するAIモデルである。利用者がAIに入力する文章と、AIが返す回答の双方を監視し、暴力や差別、プライバシー侵害など14種類の不適切な内容を自動で判別する。企業が生成AIを業務に組み込む際の安全対策として利用できる(図1)。

図1:リコーが無償公開したガードレールモデル「Llama-Ricoh-SafeGuard-20260520」の概要(出典:リコー)
拡大画像表示

 米Meta Platformsの「Meta-Llama-3.1-8B」をベースに東京科学大学などが日本語性能を強化した「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースとし、リコーが追加学習を施している。独自の量子化技術によってモデルを小型・軽量化し、オンプレミスのサーバーでも動かせるようにした。これまではリコージャパンの「RICOH オンプレLLMスターターキット」に実装する形で提供してきたが、今回、無料公開にした(Hugging Faceのプロジェクトページ)。

 実装上は、アプリケーションとLLMの間に挟む形で利用する。LLMへの入力時にプロンプトを判定し、有害と判断すればLLM本体に渡さず遮断する。出力時は、LLMが生成した回答を検査し、問題があればアプリケーションへの応答を差し止める。有害かどうかの判定は、リコーが独自に構築した数千件規模の学習データに基づく。

 こうした入出力の安全装置を一般に「ガードレール」と呼ぶ。AIの業務利用が広がる一方、国内で実用的に利用できるオープンな日本語ガードレールは選択肢が少なかった。リコーは2024年10月、LLMの安全性対策を目的とした社内プロジェクトを立ち上げている。2025年8月に入力側の判別機能を追加し、同12月には出力側の検知機能も追加した。

 有害なコンテンツは、暴力や犯罪、差別、プライバシー侵害など14種類に分類して検知する。ラベル分類は、ガードレール用モデル「Llama guard 3」に準拠しており、以下のとおりである。

  • 暴力犯罪
  • 非暴力犯罪
  • 性関連犯罪
  • 児童の性的搾取
  • 名誉毀損
  • 専門的なアドバイス
  • プライバシー
  • 知的財産
  • 無差別兵器
  • ヘイト
  • 自殺と自傷行為
  • 性的コンテンツ
  • 選挙
  • PCコマンドやコードを通した悪用
関連キーワード

リコー / 大規模言語モデル / ガードレール / 生成AI

関連記事

トピックス

[Sponsored]

リコー、生成AIの有害な入出力を遮断するAIモデルを無料公開リコーは2026年5月20日、大規模言語モデル(LLM)に対する有害情報の入出力を検知・遮断するAIモデル「Llama-Ricoh-SafeGuard-20260520」を無料公開した。利用者がAIに入力する文章と、AIが返す回答の双方を監視し、暴力や差別、プライバシー侵害など14種類の不適切な内容を自動で判別する。企業が生成AIを業務に組み込む際の安全対策として利用できる。

PAGE TOP