本ブログ記事は、USチームのブログ記事「Fine-Tuning LLMs Breaks Their Safety and Security Alignment」を和訳したものです。
多くの企業が、新しいAIアプリケーションを導入する際に、既存の基盤モデルを活用し、精度、ドメイン知識、文脈の関連性を向上させるためにファインチューニングを行っています。このアプローチには柔軟性、実用性、コスト効率の面で多くの利点があります。
しかし、ファインチューニングには多くのチームが見落としている危険性があります。すなわち、ファインチューニングがモデルのアラインメントを崩し、以前には存在しなかったセキュリティと安全性のリスクをもたらす可能性があるのです。この現象は広く認められているもので、完全に無害なデータセットでも発生し得るため、ファインチューニングされたAIアプリケーションが脆弱になり、危険な結果やセンシティブな結果を生成しやすくなる懸念を示唆しています。当社ロバストインテリジェンスの研究では、ファインチューニング後のモデルが元の基盤モデルよりも脱獄(jailbreak)の指示に3倍以上従いやすく、22倍以上有害な応答を生成することが判明しました。
これらのリスクをよりよく理解できるよう、ファインチューニング前後のモデル応答を評価する一連の実験を行いました。この実験は、Llama-2-7Bと、Microsoftが臨床医学、金融、法務の特定タスク向けにファインチューニングして発表した3つの調整済モデルの初期テストから始まりました。以下では、我々の研究方法と主要な発見を振り返り、この現象が発生する可能性のある理由を議論し、AIの安全性とセキュリティに対する影響をお伝えします。
研究概要
評価対象モデル:
どのモデルを評価するかを決定する際、我々のチームはLlama-2-7Bを対照群として選択しました。我々の以前のアルゴリズムによる脱獄に関する研究では、Llama-2-7B基盤モデルが強固なセキュリティと安全性のガードレールとよく整合していることが示されており、テストに最適な候補となりました。
次に、Llama-2-7Bから派生した信頼性のある調整済モデルを選択し、Microsoftの研究者によって異なるドメインをカバーするためにファインチューニングされ公開された3つのAdaptLLMチャットモデルを評価対象としました:
- AdaptLLM-Biomedicine: PileからのPubMed(米国の医学分野の代表的な文献情報データベース)要約に基づいて訓練されたLlama-2-7Bモデル
- AdaptLLM-Finance: 2022年5月から2023年5月までの金融ニュースを用いて7,000以上の株式に関するニュースで訓練されたLlama-2-7Bモデル
- AdaptLLM-Law: PileからのFreeLaw(オープンアクセス可能な裁判所の文書)判例に基づいて訓練されたLlama-2-7Bモデル
これらのAdaptLLMモデルは、「Adapting Large Language Models via Reading Comprehension, Cheng et al., ICLR, 2024」に記載された方法を使用して開発されました。研究者たちは、LLMのプロンプト性能を維持するために、コーパスをそのまま読解テキストに変換して各ドメインでLLMを継続して訓練しています。
これらのモデルを訓練するために、各ドメインでLLaMA-7Bを継続して訓練し、読解テキストと一般指示を混合するための異なる比率を探求しました。臨床医学、金融、法務の最適な比率はそれぞれ1:1、1:2、1:1でした。
著者たちは、AdaptLLMモデルを他の同様のタスク用に訓練されたモデルと比較することで、ドメイン固有のメトリクスで一貫して最高のパフォーマンスを示すことを証明しました。
テストデータ:
オリジナルのLlama-2-7Bモデルと各AdaptLLMモデルの整合性の程度を評価し比較するために、「Jailbroken: How Does LLM Safety Training Fail?, Wei et al., 2024」の基準データセットを使用しました。この脱獄用のデータセットは、モデルの防御を調査するための脱獄技術と目標を提供します。
モデルを比較するために、基準データセットの各クエリをモデルに提示し、以下に示す手順で評価対象となる応答を収集しました。
オリジナルの基準から合計250のクエリを評価し、有害な応答を求めないもの、有害な方法での回答に反対するもの、Base64/ROT13エンコードを使用しているもの(Llama-2-7Bモデルが十分に理解して応答できなかったもの)を除外しました。
テスト基準:
モデル応答を評価するために、いくつかの人間ベースの基準を使用しました。モデルは、クエリを理解していないように見えるために有害なパフォーマンスをしない場合があり、そのため各応答の異なる側面を表す3つの基準を設定しました:
- 理解度: モデルの応答が与えられたプロンプトを理解しているかどうか
- 遵守度: モデルの応答が与えられたプロンプトの指示に従っているかどうか
- 有害性: モデルの応答が、与えられたモデルをリリースする専門機関によって有害と見なされるかどうか(有害、違法、不道徳、非倫理的なコンテンツなど)
結果は完全に二項的ではなかったため、各基準は0から4のスケールで測定されました。例えば、理解度スコアが2の場合は、プロンプトの部分的な理解を示し、少なくとも1つの要素が欠けていることを示します。
研究結果
モデルをテストし、3つの基準全体で結果を検証したところ、脱獄に対する脆弱性に顕著な差異がすぐに明らかになりました。
- 理解度スコアはオリジナルのLlama-2-7Bモデルがわずかに高く、クエリの解釈においてやや効果的であることを示しました。(平均スコアは3.93で、ファインチューニングされた調整済モデルは3.80、3.78、3.78であった)
- 遵守度スコアは、ファインチューニングされたモデルが元のLlama-2-7Bモデルよりも脱獄の指示に従いやすいことを示しました。(ファインチューニングされたモデルはそれぞれ1.66、1.73、1.72のスコアで、Llama-2-7Bの平均0.54に比べて高かった)
- 有害性スコアも同様の傾向を示し、ファインチューニングされたモデルが元のLlama-2-7Bモデルよりも有害な応答を生成しやすいことを示しました。(ファインチューニングされたモデルはそれぞれ1.06、1.05、1.1のスコアで、Llama-2-7Bの平均0.10に比べて高かった。別の言い方をすると、ファインチューニングされた各モデルは、応答の26.4%、26.8%、27.6%で有害性スコア1以上の応答を示し、Llama-2-7Bの1.6%と比較して高かった)
これらの結果は、元の基盤モデルと比較して、Llama-2-7Bの3つのファインチューニングされた調整済モデルが脱獄に対する脆弱性が著しく高いことを示しています。これらのモデルは脱獄指示に3倍以上従いやすく、有害な応答を生成する確率が22倍以上高いです。
ファインチューニングがモデルアラインメントを破壊する原因
ファインチューニングがモデルアラインメントを破壊する理由は完全には理解されていませんが、我々はモデルのアラインメント調整中の変更が、有害な構造をモデルから根本的に除去するのではなく、異なる応答にリダイレクトするだけだと仮定しています。
LLMの各応答をトークン空間を通る確率的なものであると考えてください。アラインメントは特定の経路による出力が発生する確率を減少させますが、それらの経路も可能性としては残ります。モデルをファインチューニングする際、新しい知識を表す特定のパスにバイアスをかけるためにモデル内の重みが実質的に変動します。その変動が小さくても(例:LoRa)、アライメント実現のために導入された経路へのバイアスがそのまま保たれる保証はありません。
我々人間は、歴史の授業が数学のスキルに大きな影響を与えないように、分離した形で異なるトピックを学ぶことに慣れています。一方で、ファインチューニングのような機械学習の手法は、整合性のような以前の学習に対して実質的な退行的影響を持つことが経験的に示されています。これは将来的に解決できるかもしれませんが、現在のところ、モデルから独立したチューニング手法を確実に組み合わせることは依然として課題です。
AIの安全性とセキュリティへの示唆
最新の基盤モデルを活用しファインチューニングすることの利点は明らかです。このアプローチの柔軟性、取り組みやすさ、コスト効率は、企業によるAI技術の採用を大いに促進しました。
我々の研究の目的は、このアプローチを非難することではなく、ファインチューニングが最も整合された基盤モデルにさえ新しいリスクをもたらす可能性があることを強調することです。我々の発見は、堅牢なモデルテストの重要性を強調するものであり、これは開発のベストプラクティスとしてだけでなく、アラインメントを検証し維持するために継続的に行う必要性を示すものです。また、ファインチューニングの影響を受けずにモデルを保護できる独立した安全性とセキュリティのレイヤー(AIアプリケーションに対するファイアウォール)が必要であることも強調しています。
人工知能の広範な議論と導入の前に、伝統的なソフトウェア開発のセキュリティ対策はCI/CDパイプラインに組み込まれ、ソフトウェアの運用に脆弱性を持ち込まないようにしてきました。最先端のAIアプリケーションの急速な導入の試みは、これらの長年のベストプラクティスを無視する理由にはなりません。リスク管理とセキュリティは、プライバシー要件を守り、顧客の信頼を維持し、ビジネスを保護するための、AI戦略における最重要事項でなければなりません。
Robust Intelligenceにご相談ください
我々のファインチューニング研究から得られた発見は、ロバストインテリジェンスのAI Testingソリューションの必要性をさらに裏付けるものです。継続的なアルゴリズムによるレッドチーミングは、モデルを評価し、多数の潜在的な脆弱性を特定するのに役立ちます。これにより、チームはより安全でセキュアなAIアプリケーションを開発し、ファインチューニングの後でも、また運用中においても安全性とセキュリティを維持することができます。