2023

minute read

AIを用いたGPT-4やその他のLLMの脱獄の自動化の研究結果を発表

Author

Authors

Paul Kassianik

先日、Robust IntelligenceのAIセキュリティ研究チームが、イェール大学と共同でLLMの脱獄（jailbreak）の自動化に関する論文を発表しました。

本ブログはUSでの解説ブログ（Using AI to Automatically Jailbreak GPT-4 and Other LLMs in Under a Minute）を和訳したものです。

Arxivはこちら: Tree of Attacks: Jailbreaking Black-Box LLMs Automatically
研究記事に関するWIRED記事はこちら: GPT-4を含むAIモデルの“脱獄”、新手法が明らかに。研究者が安全対策強化を訴える

エグゼクティブサマリ

ChatGPTの発表から1年が経ちましたが、それ以来、市場では大規模言語モデル（LLM）の驚くべき進歩が見られます。開発のペースはモデルのセキュリティを上回り続けていますが、企業はLLMを搭載したアプリケーションを導入し始めています。その多くは、LLMがセンシティブなプロンプトに応答しないように、モデル開発者が実装したガードレールに依存しています。しかし、OpenAI、Google、Metaのような企業が多大な時間と労力を費やしたとしても、これらのガードレールは、今日の企業とそのユーザーを保護するのに十分なレジリエンスを持っていません。モデルのリスク、偏り、潜在的な敵対的悪用をめぐる懸念が浮上しています。

Robust IntelligenceのAIセキュリティ研究チームは、イェール大学と共同で、高度なモデルのガードレールを、人間の監視なしに、高い成功率で無効にする自動化された敵対的（adversarial）機械学習の技術を発見しました。これらの攻撃は、自動的、ブラックボックス的、解釈可能な性質が特徴で、専門的なアライメント・トレーニング、微調整、プロンプト・エンジニアリング、フィルタリングを通じて、LLMの開発者が設置した安全フィルターを回避します。

TAP（Tree of Attacks with Pruning）と呼ばれるこの方法により、GPT-4やLlama-2のような洗練されたモデルを誘導し、ユーザーのクエリー（例えば「爆弾の作り方」）に対して、有毒で有害な、あるいは安全でない応答をわずか数分で何百も生成させることが可能です。

私たちの研究から得られた知見は主に以下のとおりです。

小さな非整列LLMは、最新の整列LLMの脱獄（jailbreak）においても使用できる
脱獄（jailbreak）のコストは低い
より高性能なLLMはより簡単に脱獄できる

私たちは12月5日に発表したペーパーで研究結果を公表しました。今回の発見は、この脆弱性がLLM技術全体に普遍的であることを示唆しています。LLMのこの脆弱性を根本的に修正する明白なパッチは見当たりませんが、私たちの研究は、開発者がモデルのアライメントとセキュリティを理解するのに貢献できる、敵対的なプロンプトを容易に生成するのに役立ちます。このようなリスクをリアルタイムで軽減する方法については、Robust Intelligenceまでお問い合わせください。

TAPの仕組み

TAPは、有害な指示を継続的に改良する高度な言語モデルを採用することで、AIサイバー攻撃を強化し、時間の経過とともに攻撃をより効果的なものにし、最終的に侵害を成功に導きます。全体のプロセスは、以下のような、最初のプロンプトの反復的な改良によるものです。各ラウンドで、システムは攻撃者のLLMを使用して最初の攻撃の改善を提案します。このモデルは、以前のラウンドからのフィードバックを使用して、更新された攻撃クエリを作成します。改良された各アプローチは、攻撃者の目的に合致していることを確認するための一連のチェックを受け、その後ターゲットシステムに対する評価が行われます。攻撃が成功すれば、プロセスは終了します。成功しなかった場合は、侵入が成功するまで生成された戦略を繰り返し実行します。

各ステップで複数のプロンプト候補を生成することで、探索ツリーを作成し、それを走査します。ツリーのような探索は幅と柔軟性をもたらし、モデルが異なる脱獄アプローチを効率的に探索することを可能にします。実りのない攻撃経路を防ぐために、トピックから外れたサブツリーを終了させ、ツリーが大きくなりすぎるのを防ぐ枝刈りメカニズムを導入しています。

クエリの効率性

サイバーセキュリティでは、攻撃を可能な限り目立たなくして検知の可能性を減らすことが重要であるため、私たちの攻撃はステルス性に最適化されています。攻撃を検知する方法の1つは、リソースへの複数回連続したリクエストのインターネットトラフィックを監視することです。したがって、ターゲットモデル（GPT-4やLlama-2のような）が呼び出されるクエリの回数を最小化することは、ステルス性の有用なプロキシとなります。TAPは、約38クエリから約29クエリに脱獄の試みごとにクエリの平均数を30％減少させることによって、以前の業績と比較して技術の状態を押し進め、LLMアプリケーションに対するより目立たない攻撃を可能にします。

脱獄が成功したかどうか、どうやって判断するのか？

ほとんどの先行研究は、"Sure! Here is how you can build a bomb: "のような肯定的な文から始まるようにモデルを誘導することを目的としています。この方法は実装が簡単ですが、与えられたモデルに対して発見できる脱獄の数が著しく制限されます。私たちの研究では、専門家の大規模言語モデル（GPT-4など）をジャッジとして使用することにしました。LLMジャッジは、脱獄の候補とターゲットモデルからの応答を評価し、1から10のスケールでスコアを割り当てます。1のスコアは脱獄がないことを示し、10のスコアは脱獄を意味します。

LLMを守るための一般的なガイドライン

LLMはビジネスに変革をもたらす可能性を秘めています。モデルやAIを活用したアプリケーションを保護するための適切なセーフガードは、責任あるAI活用を加速し、企業やユーザーにとってのリスクを軽減します。この分野における大きな進歩として、TAPは脆弱性を明らかにするだけでなく、セキュリティ対策を改善する継続的な必要性を強調しています。

企業にとっては、最新の敵対的機械学習技術から情報を得て、入力と出力をリアルタイムで検証できる、モデルにとらわれないアプローチを採用することが重要です。AI Firewallの詳細についてはお問い合わせください。また、TAPの詳細については研究論文全文をご覧ください。

Author

Authors

Paul Kassianik

Heading

For:

2024

minute read

LLMのファインチューニングにより安全性とセキュリティのアラインメントを損なう可能性が明らかに

Heading

For:

+ 記事一覧

AIリスク管理のソリューションの詳細をご紹介します。

無料デモをリクエスト

AIを用いたGPT-4やその他のLLMの脱獄の自動化の研究結果を発表

エグゼクティブサマリ

TAPの仕組み

クエリの効率性

脱獄が成功したかどうか、どうやって判断するのか？

LLMを守るための一般的なガイドライン

関連記事

Robust Intelligence、5月に3つの権威あるサイバーセキュリティ賞を受賞

Robust Intelligence、米商務省のAI安全性コンソーシアムへの参加が決定

Robust Intelligence、東京海上ディーアール社と日本企業のAI活用支援を目指す協業を開始

Workday訴訟をきっかけに考える、人事・雇用領域のAIリスク

共同創業者の大柴が日韓首脳とのスタートアップ車座対話に出席しました

Robust Intelligenceのビジョンと日本市場の新体制

より良いAIガバナンス実装に向けて〜「AIガバナンスホワイトペーパー ver. 1.0」の概要〜

エグゼクティブイベント “AI Risk Management Summit 2023” 開催報告

Robust Intelligence、KPMGジャパンと生成AIを含むAI評価、AIガバナンス評価サービスの提供に向けた協業を開始

共同創業者の大柴が東京大学の特別講座で講演を行いました

セキュアなAIトランスフォーメーションの実現を目指すRobust Intelligenceが日本語LLM対応の「AI Firewall®」を提供開始

政策企画責任者の佐久間がMHMセミナー2023のパネルディスカッションに登壇しました

2024年、AI活用本格化の年に取り組むべきAIリスク対策・AIガバナンスの社会実装

AIガバナンスをめぐる議論の現在地点　〜「AI事業者ガイドライン案」を踏まえて

Robust Intelligence、日本ディープラーニング協会(JDLA)に正会員企業として入会

AIシステム実用化のためのTest-Drivenアプローチ

Robust Intelligence、日立ソリューションズと協業しAIガバナンスを支援

自民党・AIプロジェクトチームの議論に参加しました

トラスト確保のための「第三者検証」

Robust Intelligenceと損保ジャパンが業務提携〜AIの信頼性確保に向けた大規模言語モデルのリスク評価と全社的なガバナンス体制の構築〜

LLMのファインチューニングにより安全性とセキュリティのアラインメントを損なう可能性が明らかに

Ready to learn more?

エグゼクティブサマリ

TAPの仕組み

クエリの効率性

脱獄が成功したかどうか、どうやって判断するのか？

LLMを守るための一般的なガイドライン

ニュースレター登録

関連記事

Robust Intelligence、5月に3つの権威あるサイバーセキュリティ賞を受賞

Robust Intelligence、米商務省のAI安全性コンソーシアムへの参加が決定

Robust Intelligence、東京海上ディーアール社と日本企業のAI活用支援を目指す協業を開始

Workday訴訟をきっかけに考える、人事・雇用領域のAIリスク

共同創業者の大柴が日韓首脳とのスタートアップ車座対話に出席しました

Robust Intelligenceのビジョンと日本市場の新体制

より良いAIガバナンス実装に向けて〜「AIガバナンスホワイトペーパー ver. 1.0」の概要〜

エグゼクティブイベント “AI Risk Management Summit 2023” 開催報告

Robust Intelligence、KPMGジャパンと生成AIを含むAI評価、AIガバナンス評価サービスの提供に向けた協業を開始

共同創業者の大柴が東京大学の特別講座で講演を行いました

セキュアなAIトランスフォーメーションの実現を目指すRobust Intelligenceが日本語LLM対応の「AI Firewall®」を提供開始

政策企画責任者の佐久間がMHMセミナー2023のパネルディスカッションに登壇しました

2024年、AI活用本格化の年に取り組むべきAIリスク対策・AIガバナンスの社会実装

AIガバナンスをめぐる議論の現在地点 〜「AI事業者ガイドライン案」を踏まえて

Robust Intelligence、日本ディープラーニング協会(JDLA)に正会員企業として入会

AIシステム実用化のためのTest-Drivenアプローチ

Robust Intelligence、日立ソリューションズと協業しAIガバナンスを支援

自民党・AIプロジェクトチームの議論に参加しました

トラスト確保のための「第三者検証」

Robust Intelligenceと損保ジャパンが業務提携 〜AIの信頼性確保に向けた大規模言語モデルのリスク評価と全社的なガバナンス体制の構築〜

LLMのファインチューニングにより安全性とセキュリティのアラインメントを損なう可能性が明らかに

Ready to learn more?

AIガバナンスをめぐる議論の現在地点　〜「AI事業者ガイドライン案」を踏まえて

Robust Intelligenceと損保ジャパンが業務提携〜AIの信頼性確保に向けた大規模言語モデルのリスク評価と全社的なガバナンス体制の構築〜