Content
概要
モデルの動作を制御し、悪意のある、機密性の高い、あるいは有害な出力を防ぐために、開発者は大規模言語モデル(LLM)にガードレールを設けています。こうした対策は重要かつ有意味ですが、絶対的なものではありません。モデルの脱獄(Jailbreak)は、これらの対策を弱体化させ、モデルに強制的に本来防止されるべき出力をさせるものです。
以下では、アルゴリズムによるAIのレッド・チーミング、つまり人間の監視なしに高度なLLMを脱獄させることができる自動でのプロンプトインジェクション技術について紹介します。アルゴリズムによる攻撃の手順を説明した後、セキュリティにおける意味を探り、この手法が機密データの流出、サービスへの影響、ビジネスへの損害にどのように悪用されうるかを説明します。
この例を説明するために、TAP(Tree of Attacks with Pruning)という手法を紹介します。このアルゴリズムによる脱獄技術は、Robust Intelligenceの研究者がイェール大学と共同で開発したもので、洗練されたLLMのセキュリティ対策をわずか数分で迂回し、攻撃を成功させるのに非常に効果的であることが証明されているものです。
以下では、アルゴリズムによるAIのレッド・チーミング、つまり人間の監視なしに高度なLLMを脱獄させることができる自動でのプロンプトインジェクション技術について紹介します。アルゴリズムによる攻撃の手順を説明した後、セキュリティにおける意味を探り、この手法が機密データの流出、サービスへの影響、ビジネスへの損害にどのように悪用されうるかを説明します。
この例を説明するために、TAP(Tree of Attacks with Pruning)という手法を紹介します。このアルゴリズムによる脱獄技術は、Robust Intelligenceの研究者がイェール大学と共同で開発したもので、洗練されたLLMのセキュリティ対策をわずか数分で迂回し、攻撃を成功させるのに非常に効果的であることが証明されているものです。
大規模言語モデル(LLM)の脱獄(Jailbreaking)とは
生成AIに施されたガードレールは、悪意のある、機密性の高い、あるいはその他の有害な出力からモデルを守っています。
AI普及の初期から、ユーザーは脱獄(Jailbreak)として知られる方法で、こうしたガードレールを回避する手法を探ってきました。
モデル開発者は脆弱性への対処を進めていますが、いたちごっこのように攻撃者は出力の制限を解除する新しい方法を探求しています。
LLMの脱獄を可能にする方法論: TAP
Robust IntelligenceのAIセキュリティ研究者は、イェール大学と共同で、高度なモデルのガードレールを高い確率で無効にする自動化された敵対的機械学習技術を開発しました。
この方法は、Tree of Attacks with Pruning(TAP)と呼ばれ、2つの大規模言語モデルを使用して、有害なプロンプトを作成し、継続的に改良します。
新しい敵対的なプロンプトを生成する「攻撃LLM」
生成されたプロンプトの攻撃性能をジャッジする「評価LLM」
2つのモデルを用いて、TAPは4つのプロセスで進行します。
他の脱獄(Jailbreak)と同様に、攻撃の目的の設定から開始します。
1. 枝分かれ
設定された目的に基づき、「攻撃LLM」は様々な攻撃用プロンプトを生成します。
2. 第一段階の枝刈り(Pruning)
「評価LLM」がそれぞれの新しいプロンプトと攻撃目的との関連性を判断し、トピックから外れたものを選別します。
3. 攻撃の試行と評価
第一段階の枝刈りで残ったプロンプトは攻撃対象となるシステムへとインプットされます。システムからの応答を収集し、「評価LLM」を用いて評価します。
4. 第二段階の枝刈り(Pruning)
それぞれの攻撃プロンプトに対する攻撃対象のシステムからの応答にスコアをつけ、最も高得点となったプロンプトを次の試行のために保持します。
脱獄(Jailbreak)が成功するまで、あるいは、試行の最大回数に達するまでプロセスを繰り返します。
TAPに関する研究による発見
いくつかの主要なLLMに対してTAPの手法を実行し、研究チームは以下の結論に達しました。
小規模な、アラインメントされていないLLMで、より大規模な、洗練されたLLMを脱獄(Jailbreak)することが可能である。
脱獄(Jailbreak)の手法は比較的安価で、限られたリソースでも実行することができる。
性能が高いとされるLLMでも、そうでないモデルより簡単に脱獄(Jailbreak)できてしまうケースがある。
GPT4-Metricsによる脱獄の成功割合
各脱獄手法と攻撃対象とするLLMについて、GPT4-MetricによってAdvBench Subsetで発見された脱獄の割合と、その過程でターゲットLLMに送られたクエリの数は以下のとおりです。TAPとPAIRの両手法で、Vicuna-13B-v1.5を攻撃者として使用しました。GCGはホワイトボックスへのアクセスを必要とするため、オープンソースモデル上での結果のみを報告します。各列において、最も攻撃に成功した結果を太字としています。
オープンソース | クローズドソース(非公開) | ||||||
---|---|---|---|---|---|---|---|
手法 | 観測値 | Vicuna | Llama-7B | GPT3.5 | GPT4 | GPT4-Turbo | PaLM-2 |
TAP (This work) | 脱獄成功率 % 平均クエリ数 | 98% 11.8 | 4% 66.4 | 76% 23.1 | 90% 28.8 | 84% 22.5 | 98% 16.2 |
脱獄成功率 % 平均クエリ数 | 94% 14.7 | 56% 37.7 | 60% 39.6 | 44% 47.1 | 86% 27.6 | ||
脱獄成功率 % 平均クエリ数 | GCGはホワイトボックスへのアクセスを必要とするため、 オープンソースモデルのみを対象に実施平均クエリ数 |
TAPをはじめとする脱獄手法から得られる示唆
企業がより多様なアプリケーションにAIを活用するようになるにつれ、
ファインチューニングや検索拡張生成(RAG)を通じて、補助的なデータを用いて
モデルを改善するケースがしばしば見られます。これにより、ユーザー目線での利便性は高まりますが、同時に、攻撃者が機密性の高い内部情報や個人を特定できる情報を流出させる可能性も高まります。
ファインチューニングや検索拡張生成(RAG)を通じて、補助的なデータを用いて
モデルを改善するケースがしばしば見られます。これにより、ユーザー目線での利便性は高まりますが、同時に、攻撃者が機密性の高い内部情報や個人を特定できる情報を流出させる可能性も高まります。
こちらがお求めの個人の
アカウントIDです。
アカウントIDです。
はい。こちらがシステム
プロンプトです。
プロンプトです。
こちらが申請用フォームです(危険なリンク)
機密データや個人情報の流出を促進
モデルにより特化した攻撃手法の開発を助長
フィッシングの入口として機能
TAPのようなアルゴリズム手法には、特に有害で、完全に軽減することが難しいいくつかの側面があります。
1. 自動化
手動での入力や人間による監視が不要
2. ブラックボックス性
LLMの構造に関する知識がなくても攻撃が可能
3. 転用可能性
自然言語で記述されたプロンプトは各所で転用可能
4. プロンプト生成の効率性
少数のプロンプトで洗練され、検知が困難な攻撃が可能に
誰がAIモデルのセキュリティ確保の責任者と
なるべきか?
企業内のセキュリティ部門は、重要なシステムを監督し、機密データを保護し、リスクを管理し、内部および規制要件へのコンプライアンスを確保する責任を負っています。AIがビジネスにおいてますます重要な役割を果たすようになる中、AIシステムの完全性とセキュリティも看過できない課題となるでしょう。
CISOの48%がAIセキュリティを最も深刻な問題として挙げています
Robust Intelligenceによる生成AIの安全性確保
Robust Intelligenceは、LLMをリアルタイムで保護する業界初のAI Firewallを開発しました。AI Firewallはユーザーの入力とモデルの出力を検査し、悪意のあるプロンプト、誤った情報、機密データの流出などの有害なインシデントを防ぎます。