リコー、生成AIの有害な入出力を遮断するAIモデルを無料公開

2026年5月22日(金)日川佳三（IT Leaders編集部）

リスト

リコーは2026年5月20日、大規模言語モデル(LLM)に対する有害情報の入出力を検知・遮断するAIモデル「Llama-Ricoh-SafeGuard-20260520」を無料公開した。利用者がAIに入力する文章と、AIが返す回答の双方を監視し、暴力や差別、プライバシー侵害など14種類の不適切な内容を自動で判別する。企業が生成AIを業務に組み込む際の安全対策として利用できる。

　リコーが無料公開した「Llama-Ricoh-SafeGuard-20260520」は、大規模言語モデル(LLM)に対する有害情報の入出力を検知・遮断するAIモデルである。利用者がAIに入力する文章と、AIが返す回答の双方を監視し、暴力や差別、プライバシー侵害など14種類の不適切な内容を自動で判別する。企業が生成AIを業務に組み込む際の安全対策として利用できる（図1）。

図1：リコーが無償公開したガードレールモデル「Llama-Ricoh-SafeGuard-20260520」の概要（出典：リコー）
拡大画像表示

　米Meta Platformsの「Meta-Llama-3.1-8B」をベースに東京科学大学などが日本語性能を強化した「Llama-3.1-Swallow-8B-Instruct-v0.5」をベースとし、リコーが追加学習を施している。独自の量子化技術によってモデルを小型・軽量化し、オンプレミスのサーバーでも動かせるようにした。これまではリコージャパンの「RICOH オンプレLLMスターターキット」に実装する形で提供してきたが、今回、無料公開にした（Hugging Faceのプロジェクトページ）。

　実装上は、アプリケーションとLLMの間に挟む形で利用する。LLMへの入力時にプロンプトを判定し、有害と判断すればLLM本体に渡さず遮断する。出力時は、LLMが生成した回答を検査し、問題があればアプリケーションへの応答を差し止める。有害かどうかの判定は、リコーが独自に構築した数千件規模の学習データに基づく。

　こうした入出力の安全装置を一般に「ガードレール」と呼ぶ。AIの業務利用が広がる一方、国内で実用的に利用できるオープンな日本語ガードレールは選択肢が少なかった。リコーは2024年10月、LLMの安全性対策を目的とした社内プロジェクトを立ち上げている。2025年8月に入力側の判別機能を追加し、同12月には出力側の検知機能も追加した。

　有害なコンテンツは、暴力や犯罪、差別、プライバシー侵害など14種類に分類して検知する。ラベル分類は、ガードレール用モデル「Llama guard 3」に準拠しており、以下のとおりである。

暴力犯罪
非暴力犯罪
性関連犯罪
児童の性的搾取
名誉毀損
専門的なアドバイス
プライバシー
知的財産
無差別兵器
ヘイト
自殺と自傷行為
性的コンテンツ
選挙
PCコマンドやコードを通した悪用

リスト

トピックス

[Sponsored]

リコー、生成AIの有害な入出力を遮断するAIモデルを無料公開

おすすめのホワイトペーパー

トピックス