先日、Robust IntelligenceのAIセキュリティ研究チームが、イェール大学と共同でLLMの脱獄(jailbreak)の自動化に関する論文を発表しました。
本ブログはUSでの解説ブログ(Using AI to Automatically Jailbreak GPT-4 and Other LLMs in Under a Minute)を和訳したものです。
- Arxivはこちら: Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
- 研究記事に関するWIRED記事はこちら: GPT-4を含むAIモデルの“脱獄”、新手法が明らかに。研究者が安全対策強化を訴える
エグゼクティブサマリ
ChatGPTの発表から1年が経ちましたが、それ以来、市場では大規模言語モデル(LLM)の驚くべき進歩が見られます。開発のペースはモデルのセキュリティを上回り続けていますが、企業はLLMを搭載したアプリケーションを導入し始めています。その多くは、LLMがセンシティブなプロンプトに応答しないように、モデル開発者が実装したガードレールに依存しています。しかし、OpenAI、Google、Metaのような企業が多大な時間と労力を費やしたとしても、これらのガードレールは、今日の企業とそのユーザーを保護するのに十分なレジリエンスを持っていません。モデルのリスク、偏り、潜在的な敵対的悪用をめぐる懸念が浮上しています。
Robust IntelligenceのAIセキュリティ研究チームは、イェール大学と共同で、高度なモデルのガードレールを、人間の監視なしに、高い成功率で無効にする自動化された敵対的(adversarial)機械学習の技術を発見しました。これらの攻撃は、自動的、ブラックボックス的、解釈可能な性質が特徴で、専門的なアライメント・トレーニング、微調整、プロンプト・エンジニアリング、フィルタリングを通じて、LLMの開発者が設置した安全フィルターを回避します。
TAP(Tree of Attacks with Pruning)と呼ばれるこの方法により、GPT-4やLlama-2のような洗練されたモデルを誘導し、ユーザーのクエリー(例えば「爆弾の作り方」)に対して、有毒で有害な、あるいは安全でない応答をわずか数分で何百も生成させることが可能です。
私たちの研究から得られた知見は主に以下のとおりです。
- 小さな非整列LLMは、最新の整列LLMの脱獄(jailbreak)においても使用できる
- 脱獄(jailbreak)のコストは低い
- より高性能なLLMはより簡単に脱獄できる
私たちは12月5日に発表したペーパーで研究結果を公表しました。今回の発見は、この脆弱性がLLM技術全体に普遍的であることを示唆しています。LLMのこの脆弱性を根本的に修正する明白なパッチは見当たりませんが、私たちの研究は、開発者がモデルのアライメントとセキュリティを理解するのに貢献できる、敵対的なプロンプトを容易に生成するのに役立ちます。このようなリスクをリアルタイムで軽減する方法については、Robust Intelligenceまでお問い合わせください。
TAPの仕組み
TAPは、有害な指示を継続的に改良する高度な言語モデルを採用することで、AIサイバー攻撃を強化し、時間の経過とともに攻撃をより効果的なものにし、最終的に侵害を成功に導きます。全体のプロセスは、以下のような、最初のプロンプトの反復的な改良によるものです。各ラウンドで、システムは攻撃者のLLMを使用して最初の攻撃の改善を提案します。このモデルは、以前のラウンドからのフィードバックを使用して、更新された攻撃クエリを作成します。改良された各アプローチは、攻撃者の目的に合致していることを確認するための一連のチェックを受け、その後ターゲットシステムに対する評価が行われます。攻撃が成功すれば、プロセスは終了します。成功しなかった場合は、侵入が成功するまで生成された戦略を繰り返し実行します。
各ステップで複数のプロンプト候補を生成することで、探索ツリーを作成し、それを走査します。ツリーのような探索は幅と柔軟性をもたらし、モデルが異なる脱獄アプローチを効率的に探索することを可能にします。実りのない攻撃経路を防ぐために、トピックから外れたサブツリーを終了させ、ツリーが大きくなりすぎるのを防ぐ枝刈りメカニズムを導入しています。
クエリの効率性
サイバーセキュリティでは、攻撃を可能な限り目立たなくして検知の可能性を減らすことが重要であるため、私たちの攻撃はステルス性に最適化されています。攻撃を検知する方法の1つは、リソースへの複数回連続したリクエストのインターネットトラフィックを監視することです。したがって、ターゲットモデル(GPT-4やLlama-2のような)が呼び出されるクエリの回数を最小化することは、ステルス性の有用なプロキシとなります。TAPは、約38クエリから約29クエリに脱獄の試みごとにクエリの平均数を30%減少させることによって、以前の業績と比較して技術の状態を押し進め、LLMアプリケーションに対するより目立たない攻撃を可能にします。
脱獄が成功したかどうか、どうやって判断するのか?
ほとんどの先行研究は、"Sure! Here is how you can build a bomb: "のような肯定的な文から始まるようにモデルを誘導することを目的としています。この方法は実装が簡単ですが、与えられたモデルに対して発見できる脱獄の数が著しく制限されます。私たちの研究では、専門家の大規模言語モデル(GPT-4など)をジャッジとして使用することにしました。LLMジャッジは、脱獄の候補とターゲットモデルからの応答を評価し、1から10のスケールでスコアを割り当てます。1のスコアは脱獄がないことを示し、10のスコアは脱獄を意味します。
LLMを守るための一般的なガイドライン
LLMはビジネスに変革をもたらす可能性を秘めています。モデルやAIを活用したアプリケーションを保護するための適切なセーフガードは、責任あるAI活用を加速し、企業やユーザーにとってのリスクを軽減します。この分野における大きな進歩として、TAPは脆弱性を明らかにするだけでなく、セキュリティ対策を改善する継続的な必要性を強調しています。
企業にとっては、最新の敵対的機械学習技術から情報を得て、入力と出力をリアルタイムで検証できる、モデルにとらわれないアプローチを採用することが重要です。AI Firewallの詳細についてはお問い合わせください。また、TAPの詳細については研究論文全文をご覧ください。