敵対的プロンプトによる疑似攻撃で大規模言語モデルのセキュリティリスクを可視化─GMOイエラエ

2023年6月12日(月)IT Leaders編集部

リスト

GMOサイバーセキュリティ byイエラエは2023年6月9日、セキュリティリスク可視化サービス「GMO AIセキュリティ診断 for GPT」を提供開始した。GPTなどの大規模言語モデル（LLM）を組み込んだアプリケーションに対して敵対的プロンプトを用いた擬似攻撃を行い、アプリケーションに内在するセキュリティリスクを調査する。

　GMOサイバーセキュリティ byイエラエの「GMO AIセキュリティ診断 for GPT」は、GPTなどの大規模言語モデル（LLM）を組み込んだアプリケーションのセキュリティリスクを可視化するサービスである。敵対的プロンプトを用いた擬似的な攻撃を仕掛け、アプリケーションに内在するセキュリティリスクを調査する。

　「GPTベースのサービスが急速に普及する一方、プロンプトを通じてサービスの設定情報や秘密情報を抜き出そうとする攻撃（プロンプトインジェクション）が行われるなど、新たなセキュリティリスクが発生している」（同社）

　LLMを組み込んだアプリケーションにおいては、敵対的プロンプト（LLMの出力を意図しないものへ誘導するように設計した一連の入力）を利用した攻撃に対する対策が必要になる。敵対的プロンプトを利用した攻撃の例として以下を示している。

プロンプトインジェクションによる出力の乗っ取り
プロンプトリークによる秘密情報の漏洩
コンテンツポリシーの回避による非倫理的なコンテンツの出力（ジェイルブレイク）

　GMO AIセキュリティ診断 for GPTは、こうした敵対的プロンプトに対する脆弱性を診断する。求めるセキュリティレベルに応じて3つの診断プランを用意している。

ライトプラン：敵対的プロンプトのセキュリティリスクを安価に可視化するプラン
ベーシックプラン：大規模言語モデル（LLM）を用いたアプリケーションをはじめて構築するユーザーに向いたプラン
アドバンスドプラン：関連機能のセキュリティリスクを総合的に評価したいユーザーに向いたプラン

　表1は各プランの詳細である。

表1：GMO AIセキュリティ診断 for GPTのプランと機能（出典：GMOサイバーセキュリティ byイエラエ）
プラン	ライトプラン	ベーシックプラン	アドバンスドプラン
敵対的プロンプトによる機密情報漏洩の診断	○	○	○
敵対的プロンプトによる出力の汚染	○	○	○
ホワイトボックスによる設定診断	×	○	○
Indirect Prompt Injectionなどの最新の攻撃事例を踏まえた手動診断	×	×	○
調査対象アプリケーションごとにカスタマイズした診断	×	×	○

リスト

トピックス

[Sponsored]

敵対的プロンプトによる疑似攻撃で大規模言語モデルのセキュリティリスクを可視化─GMOイエラエ

おすすめのホワイトペーパー

トピックス