生成AIチャットボット・エージェントの安全性確保アプローチ

LLMを搭載したアプリケーション開発のための安全な設計パターンとプラクティスをご紹介します。

このリソースは、LLMを利用したアプリケーションを開発するチームのために、安全な設計パターンとプラクティスを提供します。各セクションは、アプリケーションのタイプに応じて作成しています。アプリケーションの種類ごとに、最も重大なリスクを概説し、緩和策を提供しています。

シンプルなチャットボットの設計パターン

概要

AIチャットボットは、企業によって採用される大規模言語モデル(LLM)の最も早期のユースケースの一つです。一般的な応用例としては、カスタマーサービスやサポート、バーチャルヘルプデスク、リードジェネレーションなどがあります。実際、ガートナーは2027年までに、およそ4分の1の組織でチャットボットが主要なカスタマーサービスのチャネルになると予測しています。しかし、サードパーティのLLMやAPIサービスを使用した単純な設計は簡単に開発できる一方で、組織はチャットボットがビジネスを誤って伝えたり、不正確または不適切な情報を共有したり、意図的または意図せずユーザーによって悪用されたりすることを防ぐために、安全な設計原則を採用する必要があります。

このセクションでは、以下のような問題から保護するための安全な設計ガイドラインを提供します。

故意の悪用

  • チャットボット機能の悪意ある目的での利用
  • データの流出
  • レピュテーションダメージを意図した悪意のある出力の生成

不注意による被害

  • 偏った応答
  • 事実に基づかない不正確な情報
  • 誤った推奨(責任リスク
  • 文脈を外れた(Off-topic)応答

このセクションでは、基本的なLLMベースのチャットアプリケーションおよびほとんどの種類のLLMチャットボットアプリケーションで発生しうる問題を取り上げます。次のセクションでは、RAGアプリケーションやコード支援などのLLMを活用したエージェントを含む、より高度なユースケースのための安全な設計パターンを紹介します。

LLMチャットボットは、対話を促進し応答を提供するために設計された会話型エージェントの一種です。これらのチャットボットは、カスタマーサービスインターフェースから教育プラットフォームに至るまで、さまざまなアプリケーションに埋め込まれています。このセクションでは、LLMチャットボットの共通の設計パターンに焦点を当て、これらのシステムを支えるアーキテクチャ、主要技術、および機能コンポーネントについて詳しく説明します。

図1:チャットボットに対する一般的な脅威は、(1)信頼できない入力、(2)(ファインチューニングなどにより)ミスアラインメントが発生したモデル、(3)システム・プロンプトを上書きまたは抽出するプロンプト・インジェクション、および/または(4)検証されていない出力がある場合に発生する。

設計パターン

単一目的のチャットボット

単一目的のチャットボットは、カスタマーサポート、予約システム、FAQの自動化など、特定のドメインやタスクに秀でるように設計されています。例えば、以下のようなものがあります。

  • eコマース向けカスタマーサポートチャットボット
  • ホテルや航空券の予約アシスタント
  • 特定科目の教育チューター

ハイブリッドチャットボット

ハイブリッドチャットボットは、予測可能なインタラクションと複雑なインタラクションの両方を効果的に処理するために、ルールベースとAI駆動型のアプローチを組み合わせています。例えば、以下のようなものがあります。

  • 複雑な顧客からの問い合わせに対応しながら、標準的なショッピング支援を提供する小売チャットボット
  • 一般的な情報とオーダーメイドの医療相談を提供する健康相談チャットボット

コンテキスト認識型チャットボット

コンテキスト認識型チャットボットは、過去のやり取りを記憶する機能を使うことで、よりパーソナライズされた一貫性のある応答を提供します。例えば、以下のようなものがあります。

  • スケジュールや好みを管理するパーソナルアシスタントボット
  • ユーザーの取引を追跡し、オーダーメイドのアドバイスを提供する金融アドバイザリーボット

技術

チャットボットの設計における主要な技術には以下のようなものが含まれます。

  • ベクトルデータベース
    • FAISS, HNSW, ChromaDB, Pinecone, LanceDB, Qdrant, and Weaviate

構成要素

典型的なLLMベースのチャットボットは、効率性と応答性の高さを実現するために、以下の構成要素と機能に依存しています。

  • コンテキストウィンドウとして知られるチャットボットの会話メモリの管理
  • メモリ管理
  • レスポンスキャッシング
  • マルチモーダル処理(オプション)

追加的な構成要素

セキュリティ実現の方策

概要

チャットボットのセキュリティに関する主な方策は以下の要素を含みます。

  • LLMのアラインメント(詳細は後述)
  • ファインチューニングによる潜在的なアラインメントリスク(詳細は後述)
  • DDoSや金銭的な動機による攻撃の影響を軽減するための、接続されたサービスにアクセスするツールのレート制限
  • 敵対的な攻撃、脱獄(jailbreak)、悪用を防ぐための入力検証とサニタイズ
  • 有害なレスポンスがユーザーに返されるのを防ぐための出力フィルタリングとモデレーション
  • チャットボットがトピックを逸脱するのを防ぐための事実整合性チェックと防御を含む、信頼性と一貫性のための技術的対策
  • ログ管理とモニタリング
  • HTTPS、SSL/TLSなどのセキュアなプロトコルの実装
  • 認証とアクセス制御

LLMアラインメント

最も単純な場合には、チャットボットは大規模な言語モデルとの直接対話で構成されます。 LLMは自前でホストされているか、サードパーティのサービスで、設計されたタスクを実行するために十分に調整されています。

アラインメントは以下の取組を通じて達成されます。

  • 丁寧な応答ができ、悪意ある出力に対しても丁重に回答を取りやめられるような基盤モデルの選択


  • モデルの目的をスコープし、リクエストに答えるための推論と計画を実行するようモデルをガイドするシステムプロンプトの設計

  • (Optional)目的を持った会話(カスタマーサポート、予約アシスタントなど)のためにモデルをファインチューンする。ファインチューニングはしばしば基盤モデルに組み込まれたアラインメントを劣化させることに注意することが重要です。下記の "LLMチューニングのリスク "を参照してください。

LLMのチューニングリスク

LLMの応答品質を向上させるために使われる一般的なパターンは、チャットボットをリスクにさらすこともあります。以下にその具体例を示します。

  • システム指示:
    多くのチャットボットアプリケーションは、システム指示(システムプロンプトとも呼ばれる)を用いることで、LLMがトピックに沿い、アプリケーションの価値観に一致する応答をするように誘導します。チャットアプリケーションの場合、システム指示には以下の点を簡潔に含めるべきです。
    • アプリケーションの目的:
      あなたは犬の世話に関するアドバイスのみを提供する役立つアシスタントであり、すべての質問は犬の飼い主の文脈で対応するべきです。」などの具体的な指示を含めます。言語モデルは指示に従うため、「何をしないか」ではなく「何をするか」を明確に指示するのが最善です。
    • 「簡潔かつ丁寧に応答してください。」などのアプリケーションの出力形式の期待を含めます。

システム指示は一般的に価値ある知的財産と見なされ、チャットボットユーザーには見せないようにすることが想定されています。しかし、攻撃が成功するとシステム指示が漏洩したり、上書きされたりすることがあります。これを防ぐためには、チャットボットをAIファイアウォールやフィルターの背後に配置することが推奨されます。

  • Few-shot例のインタラクション:
    Few-shot学習を使用する際には、モデルのトレーニングに使用される例が比較的少ないため、リスクが生じます。このリスクに対処するためには、例を慎重に選び、不正な人物がモデルを誤った方向に導くような例を導入できないようにすることが重要です。


  • 大量のデータを使用したMany-shotチューニング:
    Many-shotチューニングは、チャットボットの現在の会話メモリ(コンテキストウィンドウ)に多くの良い例を提供する手法で、採用事例が増えてきています。これらの例にアクセスできることはチャットボットのパフォーマンス向上に役立ちますが、敵対的な攻撃に対する万能薬ではありません。そのため、この手法は他の安全技術と組み合わせて使用する必要があります。Few-shot学習と同様に、バイアスやその他の問題を避けるために、例は慎重に選ぶことが重要です。

チャットボットのためのシステムプロンプト設計

チャットボットを導入する際に最も重要な考慮事項の一つは、そのプロンプトです。プロンプトは、通常の状況下でチャットボットがどのように反応するかを制御します。このため、プロンプトは誤用(悪意あるものや不注意によるもの)に対する第一の防御線となります。しかし、プロンプトだけではすべての形態の誤用を防ぐことはできないことを理解することが重要です。それでもなお、潜在的なリスクを軽減しつつ、チャットボットをより有用にするための設計パターンがあります。

チャットボットは、(1)ペルソナまたは役割、(2)具体的な指示、(3)いくつかのfew-shot例、そして(4)出力形式の要素が適切に与えられると最も効果的に機能します。

  • ペルソナは、チャットボットの役割とその振る舞い方の詳細な説明です。多くの場合、この説明にはチャットボットの専門分野、どのように役立つべきか、そしてこのペルソナが集中するトピックに関する情報が含まれます。

  • 具体的な指示には、特定のトピックに関するガイドラインや避けるべき具体的な情報など、LLMへの追加の指導が含まれます。

  • プロンプト内の安全なfew-shot例は、チャットボットが安全に、そして組織の価値観に沿って応答するためのガイドとなります。

  • プロンプトの終わり近くに配置される出力形式の指示は、主にチャットボットがどのように応答を構成するかを伝えるためのものですが、安全に関するルールを提供し、その応答において許容される情報の種類についてのガイドラインを強化するためにも使用できます。

プロンプトは、特に実際の使用条件下でテストし、繰り返し改善することが重要です。異なるシステムプロンプトの設計をテストする際には、チャットボットの有用性とそのセキュリティ特性の両方を測定します。

脅威とその軽減策

図2:LLMベースのチャット・アプリケーションのための脅威緩和策。(2)LLMのモデル選定前とファインチューニング後に、アラインメント、安全性、セキュリティの検証を行う。運用時に、(1)リクエストと(4)応答は、アプリケーションを誤用/悪用しようとする試みと、安全でない出力を防ぐために、リアルタイムの保護を取り入れることが望ましい。適切なリクエストのフィルタリングは、(3)プロンプトインジェクションとプロンプト抽出の試みを無効化する。

ユーザーインタラクションの脅威

チャットボットは通常、大規模なユーザー層に対して公開されており、悪意あるユーザーの行動から保護する必要があります。

  • インジェクションおよび脱獄(jailbreak)攻撃:
    悪意あるユーザーは、チャットボットの応答を操作したり、機密データを抽出したりする目的に特化して作成されたプロンプトを入力する可能性があります。
    • 軽減策:
      • 入力の検証およびサニタイゼーションを実施し、有害な入力を検出してブロックし、チャットボットの動作への影響を防止する
      • 出力フィルタリングを実施し、有害または潜在的に悪意のあるユーザーへの応答を防止する
      • 強力なシステムプロンプトを採用し、アプリケーションの使用ケースを意図されたとおりに厳密に設定する
      • アプリケーションの挙動をスコープ内に収めるため、オフトピックの強化を追加する
      • 外部のプロンプトソースを受け入れる攻撃面を制限する

  • サービス拒否(DoS)攻撃:
    ユーザーやボットが大量のメッセージを送信してチャットボットの処理能力を圧倒し、応答不能にする可能性があります。
    • 軽減策:
      • 受信メッセージにレート制限を適用し、過剰なトラフィックを管理および軽減する
      • 自動スケーリングとリソース割り当て戦略を実施し、アクセス需要の急増にもサービスの劣化なく対応できるようにする
      • サービス拒否につながる敵対的攻撃を検出しブロックするために入力の検証を実施する

LLMの処理における脅威

LLMは大量のデータでトレーニングされています。このデータを組織の倫理に沿ったものとし、LLMがユーザーに不適切なデータを漏らさないようにする必要があります。

  • モデルの汚染:
    チャットボットは時間とともに悪意のある入力でトレーニングされ、不正確または攻撃的な発言をするようになる可能性があります。
    • 対策:
      • 入力データがトレーニングパイプラインに入る前に、有害、不快な、または悪意のある内容を含むプロンプトを識別するメカニズムを実装する
      • ドリフトや脆弱性の導入を引き起こす可能性のある有害、不快な、または敵対的な入力について、学習データを定期的に監視・監査する
      • モデルの応答の一貫性を維持するために、堅牢なファインチューニングの手法を使用する
  • 機械学習アプリケーションからのデータ流出:
    LLMが機密データで訓練されている場合、ユーザーがLLMを操作してその機密データを応答で抜き出す可能性があります。
    • 対策:
      • チャットボットの応答に機密データが含まれないようにするため、出力フィルタリングおよびモデレーションを使用する
      • 機密情報を保護するために、厳格なアクセス制御と認証メカニズムを確立する
      • 機密データの利用可能性を制限するために、最小権限の原則を実装する

長期記憶における脅威

LLMがユーザーとの対話から情報を保存する能力を持っている場合、その記憶情報は保護されなければなりません。

  • 不正アクセス:
    攻撃者が長期記憶のストレージにアクセスし、ユーザーのプライバシーやデータのセキュリティを損なう可能性があります。
    • 対策:
      • 記憶内容を保護するために、包括的なアクセス制御と暗号化を実装する
      • 攻撃者が不正アクセスに悪用しうる脆弱性を軽減するために、ストレージシステムを定期的に更新し、パッチを適用する
  • データの破損:
    記憶内容が変更または破損され、チャットボットの不正確な応答を引き起こす可能性があります。
    • 対策:
      • データの一貫性と可用性を維持するために、冗長化とバックアップを適用する
      • 破損や不正な変更を検出し、修正するためのデータ検証メカニズムを実装する

RAGアプリケーションの設計パターン

概要

言語モデル(LLM)を用いた検索補強型生成(RAG)は、対話型AIにおける先進的なアプローチです。外部データの検索を応答生成プロセスに統合することで、LLMの能力を強化します。

図3:RAGアプリケーションに対する一般的な脅威は、(1)信頼できない入力がある場合、(2)(ファインチューニングなどによる)ミスアラインメントを起こしたモデルがある場合、(3)信頼できない文書を介した間接的なプロンプト注入がある場合、(4)検証されていない出力がある場合に発生する。

設計パターン

このセクションでは、RAGアプリケーションの最も一般的なデザインパターンである、ベクトルデータベースを拡張したLLMに焦点を当てます。この設計では、テキストをベクトル埋め込みに変換し、会話中にコンテキストに関連した情報を取得するためのベクトルデータベースを組み込みます。このパターンに沿った例としては、製品の詳細や顧客の履歴を取得してオーダーメイドの支援を提供するカスタマーサービスボットや、医療研究データベースにアクセスして最新の情報を提供するヘルスボットなどがあります。

技術

RAGアプリケーション設計の主要技術には以下の要素が含まれます。

  • LLMモデルと、必要に応じた関数呼び出しのサポート。関数呼び出しは、LLMが(1つまたは複数の)与えられた関数の呼び出しを返すタイミングを選択できるようにするものです。この機能を使い、LLMにデータストアが保持するデータの型を認識させることで、LLMはクエリに答えるためにいつデータストアにコンテキストを問い合わせるか、インテリジェントに判断できるようになります。関数呼び出しは、非RAGモードでモデルを使用する能力を維持します。これがないと、アプリケーションはすべてのユーザー入力をクエリとしてまずデータストアに送り、次にLLMに送らなければならなくなります。
  • 以下のような基盤となる開発フレームワーク
  • 以下のようなベクトルデータベース
    • ChromaDB、Pinecone、LanceDB、Qdrant、Weaviate
  • プロンプトエンジニアリング
  • 埋め込みモデル

構成要素

データの取り込み

データを取り込み、埋め込み、ベクトルデータベースにインデックスを作成するためには、ソース文書を平文に解析し、チャンクとして分割し、埋め込み、メタデータを追加する必要があります。

クエリの埋め込みと作成

  • ユーザーのクエリをベクトル表現に変換し、ベクトルデータベースの検索やナレッジグラフの横断に使用できるようにします。
  • 高度な戦略では、検索結果を最適化するためにクエリを書き換えることができます。

データ検索

  • クエリベクトルやグラフパスに基づき、関連するデータスニペットを検索し、生成プロセスへの情報提供に使用します。
  • メタデータやその他の情報が特定されたのち、データ検索は、構造化クエリや半構造化クエリとともに、構造化フィルタリングと組み合わせることができます。

応答の生成

  • この段階では、LLMは検索段階から返されたデータを使用して、ユーザーの元のクエリに対する回答を生成します。
  • プロンプトエンジニアリングに依存します。

追加的な構成要素

  • 応答のキャッシング
  • ガードレール
  • メモリー管理
  • コンテキスト・ウィンドウの管理

セキュリティ実現の方策

概要

RAGアプリケーションに関する主な方策は以下の要素を含みます

  • 安全・安心な運用をサポートするシステムプロンプトのデザイン(詳細は後述)
  • ユーザーによる入力の検証とサニタイズ
    • 敵対的攻撃、脱獄(jailbreak)、誤用等の防止
    • クエリの検証と有害なクエリのデータベースへの到達を防止
  • データベースへのインプットの検証とサニタイズ
    • 間接的プロンプトインジェクション攻撃、個人情報漏洩、機密情報の漏洩の防止
    • データの匿名化
  • アプリケーションに接続されたデータベースが検索のみを許可する適切な制御
  • アプリケーションに接続されたデータベースのアプリケーション、ユーザ毎の適切なアクセス制御
    • ベクトルデータベースとナレッジグラフへのアクセスコントロール
    • 機密性の高い文書や情報に対するRBAC
  • 静的な状態で暗号化されたデータベース
    • 現時点では各種のベクトルデータベースプラットフォームではサポートされていない方法です。
  • 出力のフィルタリングとコンテンツモデレーションによる有害な応答のユーザーへの到達の防止
  • ログ管理とモニタリング
  • HTTPS、SSL/TLSなどのセキュアなプロトコルを通じた要求と応答
  • 認証とアクセスコントロールの導入

RAGアプリケーションのためのシステムプロンプト設計

RAGアプリケーションのシステムプロンプトは、システムの使用目的によって多種多様になり得ます。例えば、商品検索に使用する場合、RAGシステムは特定の商品リストに関する情報をRAGデータベースから取得するための特化した、または強化された検索エンジンとして機能し、その場合は会話履歴が重要ではないかもしれません。一方で、ITヘルプデスクの場合、LLMが役立つ応答を提供するために会話履歴は非常に重要です。

すべてのタイプのRAGアプリケーションにおいて、適切に設計されたシステムプロンプトは安全性とセキュリティを強化します。RAGアプリケーションのシステムプロンプトを設計する際には、以下の安全対策を考慮してください。

上記のような安全なシステムプロンプトを使用することは、セキュリティ実現への第一歩です。アプリケーションをより完全に保護するためには、次のセクションに記載された対策を実装してください。

脅威とその軽減策

図4:RAGアプリケーションの脅威軽減策: LLMのモデル選定時とファインチューニング後に、AI Testingを適用してアラインメント、安全性、セキュリティのチェックを行う。運用時に、リクエストと応答はリアルタイムのAI Firewallによる保護の対象となり、アプリケーションを誤用/悪用しようとする試みを防止し、安全でない出力にフラグを立てる。間接的なプロンプト・インジェクションの試みを防ぐために、ドキュメントのスキャンを実施する。

データセットの準備における脅威

  • データの完全性攻撃: 大元のデータが改ざんされ、データソースが破損する可能性があります。
    • 対策:
      • アクセス制御と監査を実装して、データの変更を監視する
      • 暗号学的ハッシュを使用して、データ処理の各段階でデータの完全性を確認する
  • データの汚染:
    情報抽出プロセス中に悪意のあるデータがシステムに取り込まれ、出力が損なわれる可能性があります。
    • 対策:
      • データ処理パイプラインに入る前に、入力データをフィルタリングして悪意のある入力を特定および除去する
      • 新しい種類の敵対的入力を認識するためにシステムを定期的に更新する
  • データ漏洩:
    機密データが誤ってデータセットに含まれ、プライバシー侵害を引き起こす可能性があります。
    • 対策:
      • データの取り込みおよび処理段階でデータの匿名化技術と厳格なプライバシー制御を使用する
      • すべての個人識別子を削除または抽象化する

ベクトルデータベースの脅威

  • 不正アクセス:
    攻撃者がベクトルデータベースにアクセスし、ベクトル表現を取得または変更する可能性があります。
    • 対策:
      • 多要素認証、暗号化、定期的な脆弱性の更新を通じてデータベースのセキュリティを強化する
  • データの流出:
    攻撃者がデータベースにアクセスし、機密データを盗む可能性があります。
    • 対策:
      • ネットワークのセグメンテーションと監視を導入して、異常なアクセスパターンやデータ移動を検出する
      • データ転送におけるエンドツーエンド暗号化を使用してデータを保護する
  • インジェクション攻撃:
    攻撃者がデータベースクエリを操作するためのインジェクション攻撃を行う可能性があります。
    • 対策:
      • データベースクエリで使用されるすべての入力データをサニタイズして、インジェクション攻撃やその他のクエリ操作技術を防ぐ
      • パラメータ化されたクエリを実装する

RAGの脅威

  • 中間者攻撃(MitM):
    攻撃者がクエリや転送中のデータを傍受して、情報を変更または盗聴する可能性があります。
    • 対策:
      • 不正アクセスに悪用される可能性のある脆弱性を軽減するために、ストレージシステムを定期的に更新し、パッチを適用する
  • 応答の改ざん:
    攻撃者が応答生成プロセスを操作して、不正確または有害な応答を生成させる可能性があります。例えば、間接的なプロンプトインジェクションやインコンテキスト学習の汚染などの方法があります。
    • 対策:
      • アプリケーションへのすべてのユーザー入力をフィルタリングして、攻撃や敵対的手法を検出しブロックする
      • LLMからの応答がエンドユーザーに送信される前に、その完全性を確認する
      • 応答が論理的で期待される結果と一致していることを確認するための一貫性チェックを実施する

LLMの脅威

  • モデルの改ざん:
    モデルが改ざんされ、偏った応答や予測された応答を生成する可能性があります。
    • 対策:
      • モデルの保存およびデプロイ環境を保護し、チェックサムを使用してモデルファイルが改ざんされていないことを確認する
      • モデルの動作を定期的に監査し、バイアスを検出および修正するための更新メカニズムを実装する
  • 敵対的攻撃:
    LLMが悪意を持って作成された入力を受け取り、不適切または無意味な応答を引き起こす可能性があります。
    • 対策:
      • 敵対的入力を検出しブロックするための入力検証を実装する
      • 有害または悪意のある内容がユーザーに返されないように出力のフィルタリングを実施する

応答の脅威

  • 情報漏洩:
    システムが応答の中で私的な情報を誤って公開する可能性があります。
    • 対策:
      • LLMの応答内における機密情報の使用を制御する厳格なデータガバナンス方針を適用する
      • 機密データが回答に含まれていれば検出し流出を防止するために出力フィルタリングを使用する
  • 応答の改ざん:
    ‍攻撃者が応答を傍受し、エンドユーザーに到達する前にそれを変更する可能性があります。
    • 対策:
      • メッセージ認証コード(MAC)やデジタル署名を使用して、ユーザーに配信される応答の完全性と真正性を確保する

エージェントの設計パターン

概要

このセクションでは、タスク指向のエージェントに焦点を当てます。タスク指向のエージェントは、ある程度自律的な動作でタスクを完了するように設計されたアシスタントです。会話をしたり、推論をしたり、記憶を保持したり使用したりすることに重点を置いている前節までで扱ったチャットボットとは異なるものです。

LLMエージェント(以下「エージェント」)はLLMベースのアプリケーションで、ゴールを達成するために必要なステップを計画し、ゴールを達成するためにステップを実行するために外部ツールを使ったり、コンテキスト内で推論を行ったりすることで、複雑なタスクを自律的に実行することができます。ユーザはプロンプトを入力するか、達成したい最初のゴールを入力すると、そこからLLMがタスクを計画、編成、実行する「頭脳」として機能します。

設計パターン

個別の目的に対応したエージェント

図5: LLMベースのエージェントアプリケーションに対する一般的な脅威は、(1)信頼されていないユーザーによる入力、(2)ミスアラインメントを起こしたモデル、(3)ツールの特権的な実行、(4)信頼されていない、あるいは未検証のツールによる応答、および/または(5)検証されていない出力がある場合に発生する。

個別の目的に対応したエージェントには以下の例があります。

  • リサーチのアシスタント
  • コーディングのアシスタント
  • セキュリティのペネトレーションテストのアシスタント

技術

構成要素

計画

計画のメカニズムには次のものが含まれます。

  • 目標をより小さな、より管理可能なタスクに分解する
    • Chain of thought(CoT): プロンプトとして事例を与える際、思考過程を同時に入力する手法
    • Tree of thoughts(ToT): 複数のLLMを用いて複数のアイデアや解決策を同時に生成し、それらを評価する手法
  • 過去のやりとりから学ぶ「Self-reflection(自己反省)」
    • 過去のアクション決定を精緻化する、失敗を修正するなどの反復的な改善
    • Self-critique(自己批判)
    • Chain of thought(CoT)による結果の一貫性をレビューする

記憶

  • 短期記憶: コンテキスト内でのラーニング
  • 長期記憶: ベクトルのストレージ及び伝統的なデータベース

ツールの使用

  • 自動的に接続されたツールを使えるようにする
  • (Optional) カスタムツールを構築・使用できるようにする

追加的な構成要素

セキュリティ実現の方策

概要

  • 認証および外部コンポーネントのためのセキュリティ対策
    • 各ツールにおける接続するサービスへの最小権限のアクセス設計
    • エージェントツールおよび接続されたサービスに対する委任された認可
    • 接続サービスにアクセスするツールのレート制限
    • コンポーネントの隔離
    • セキュリティとプライバシー
    • マルチエージェント環境におけるエージェント間の認証
  • LLMおよび内部コンポーネントのためのセキュリティ対策
    • 入力の検証
      • ユーザーからの入力
      • ツールを介した信頼されていない接続サービスからの入力(ウェブブラウジング、信頼性が混合的なソースなど)
    • 出力フィルタリング
      • エージェントからユーザーへの出力
      • エージェントからエージェントへの出力
    • エージェントのステップに対する透明性
      • ログの監査
      • 人間の介入(HITL(Human-in-the-Loop))
    • 信頼性と一貫性のための技術的対策

エージェントのためのシステムおよびエージェントプロンプトの設計

技術とベストプラクティスは急速に進化しており、AIエージェントの導入も同様に進化しています。技術の進化に伴い、エージェントのプロンプト設計も進化するべきです。それでもなお、以下のような高レベルのガイドラインは、チャットボットの設計ガイドラインと同様に従うべきです。

高レベルでは、システムデプロイヤーによってエージェントに対して複数のプロンプトが提供されます。これには、システムプロンプトとエージェントプロンプトが含まれます。

エージェントプロンプト

「エージェントプロンプト」は、ツールに対する計画、推論、および内部応答を行うための一連のプロンプトを指します。例えば、ReActやReflexionは、広く使用されている一般的なエージェントプロンプトアプローチです。

システムプロンプト

システムプロンプトは、「チャットボットのシステムプロンプト設計」で述べたパターンに従うべきです。システムプロンプトには(1)ペルソナ、(2)具体的な指示、および(3)例を含める必要があります。

チャットボット用のプロンプトとエージェント用のプロンプトの重要な違いは、ツールの使用に関する点です。ツールはエージェントがチャットボットにはできないタスクを実行できるようにしますが、コストがかかる(例:APIを呼び出す可能性がある)およびより危険な(例:データ漏洩のリスクがある)可能性があります。したがって、エージェントベースのアプリケーションのシステムプロンプトでは、ツールが安全な方法でのみ使用されるようにペルソナおよび具体的な指示を調整する必要があります。

同様に、エージェントプロンプトもその基本バージョンを超えて安全性を促進するように修正できます(例:すべての外部コンテンツを信頼されていないものと見なす)。

脅威とその軽減策

図6: LLMベースのエージェントアプリケーションにおける脅威対策
LLMを選定およびファインチューンする前に、アラインメント、安全性、およびセキュリティを確認するためにAI Testingによる検証を実施する。運用時には、アプリケーションの悪用を防止し、危険な出力にフラッグを立てるため、リクエストおよび応答にリアルタイムのAI Firewallによる保護を適用する。ツールの入力/出力の保護を行い、不適切なツールの使用を防止する。

ツールに関する脅威

  • 不正アクセス: 攻撃者がツールにアクセスした場合、それを悪意のある目的で使用する可能性があります。
    • 対策:
      • 厳格なアクセス制御と認証を実施し、許可されたユーザーのみが接続されたツールにアクセスできるようにする
      • 認証に使用されるAPIトークンやその他の認証情報がバックエンドで安全に保管され、LLM自体に共有されないようにする
      • 可能であれば、ツールを分離して、他のネットワークシステムに影響を及ぼすことを防ぐ(例: 限定権限のDockerコンテナ)
  • 悪意のあるツールの実行: 攻撃者がツールの脆弱性を悪用してエージェントに有害な操作を実行させる可能性があります。
    • 対策:
      • 接続されたツールが最小権限アクセスを持つように厳密に範囲を設定します。
      • 接続されたツールの認証をユーザーおよびエージェントごとに実施し、潜在的な悪用を防止および追跡します。
      • 接続されたツールを定期的に更新およびパッチ適用して既知の脆弱性を修正します。
  • データ漏洩: カレンダーや検索機能などのツールが機密情報を誤って漏洩する可能性があります。
    • 対策:
      • LLM接続ツールによる機密情報漏洩を防ぐために、匿名化技術を使用します(機密データ、ユーザー情報などを削除またはダミーデータに置き換えます)。
      • データアクセスと使用を追跡するために包括的なログ記録と監視を実施します。
      • 機密データにアクセスする前に認証と認可を強制します。

エージェントに関する脅威

  • 入力操作: 攻撃者が細工された入力を提供し、エージェントに意図しない行動を取らせる可能性があります。
    • 対策:
      • エージェントが処理する前に悪意のあるユーザー入力を検出してブロックするための入力フィルタリングを実施します。
      • ユーザー入力、関連するエージェントのステップ、および下流のアクションを監視し、悪用を特定します。
  • モデル改ざん: エージェントの基盤モデルが改ざんされ、その行動や意思決定が変更される可能性があります。
    • 対策:
      • モデルの保存および展開環境を保護し、チェックサムを使用してモデルファイルが改ざんされていないことを確認します。
      • モデルの動作を定期的に監査し、バイアスや脆弱性を検出および修正するための更新メカニズムを実装します。
  • データ流出: エージェントが悪用され、システムから機密データを抽出する可能性があります。
    • 対策:
      • 機密データを明らかにしようとする攻撃を検出してブロックするための入力フィルタリングを実施します。
      • 機密データにアクセスする前に認証と認可を強制します。
      • チャットボットの応答に機密データが含まれないように出力フィルタリングおよびモデレーションを実施します。

計画に関する脅威

  • 計画ロジックの不正: 計画ロジックの欠陥が悪用され、望ましくない行動を引き起こす可能性があります。
    • 対策:
      • エージェントのコンテキストにロジックステップを注入しようとする攻撃を検出するための入力フィルタリングを実施します。
      • 計画ロジックが堅牢で悪用可能な欠陥がないことを確認するための厳密なテストおよび検証プロセスを実装します。
      • 行動を取る前にエージェント内で追加の反射を実施し、計画内のすべてのステップが正当なソースから生成されていること、ロジックが意図された使用ケースと一致していること、悪用につながらないことを確認します。
  • 計画データの操作: 計画コンポーネントで使用されるデータが損なわれると、エージェントの行動が有害になる可能性があります。
    • 対策:
      • 計画に使用されるデータの完全性をチェックし、バージョン管理を使用してデータが改ざんされていないことを確認します。
      • データソースをスキャンし、敵対的攻撃やその他の悪用を1)データストアに入る前、2)LLMエージェントパイプラインに入る前に検出します。

メモリに関する脅威

アプリケーションの短期および長期メモリに影響を与える脅威には以下が含まれます。

  • メモリの改ざん: 不正なメモリの変更がデータの破損や漏洩を引き起こす可能性があります。
    • 対策:
      • メモリ作成前にユーザー入力をスキャンして敵対的攻撃やその他の悪用を検出するための入力フィルタリングを実施します。
      • メモリストレージの暗号化およびアクセス制御メカニズムを実装します。
      • メモリデータを定期的にバックアップし、検証して改ざんを検出および修正します。
  • 機密情報の漏洩: メモリに保存された機密データが露出する可能性があります。
    • 対策:
      • 機密データがメモリに保存されている場合、不正アクセスを防止するためにデータ匿名化および厳格なアクセス制御を使用します。
      • 機密データがアプリケーションやユーザーに返されないように出力フィルタリングを実施します。

推論に関する脅威

LLMベースのエージェントは、反射、自己批評、思考の連鎖、およびサブゴール分解などの推論および自己改善技術に依存しています。これにより、以下の脅威が発生します。

  • ロジックの悪用: これらのコンポーネントには脆弱性が含まれており、エージェントの行動を変更するために悪用される可能性があります。例えば、攻撃者がエージェントの自己評価や意思決定に影響を与える可能性があります。
    • 対策:
      • エージェントのコンテキストにロジックステップを注入しようとする攻撃を検出するための入力フィルタリングを実施します。
      • ロジックコンポーネントが堅牢で悪用可能な欠陥がないことを確認するための厳密なテストおよび検証プロセスを実装します。
      • エージェントが行動を取る前に追加の反射を実施し、計画内のすべてのステップが正当なソースから生成されていることを確認します。

アクションに関する脅威

  • アクションの操作: 攻撃者がアクションコンポーネントを制御すると、エージェントに悪意のあるタスクを実行させる可能性があります。
    • 対策:
      • エージェントの行動をターゲットとする悪意のある入力を検出および防止するための入力フィルタリングを実施します。
      • アクションは常にLLM自体によって生成され、ユーザー入力から直接生成されないようにします。
      • 下流のアクションを監視し、使用が期待される行動と一致していることを確認します。
      • 高い特権を必要とするアクションや機密システム、データ、またはその他のリソースにアクセスするアクションには、ヒューマン・イン・ザ・ループを実装します。
      • アクション操作の影響を最小限に抑えるために、接続されたすべてのシステム/サービスに対して最小権限の原則を強制します。
  • 特権の昇格: エージェントが適切なチェックなしに高い特権を必要とするアクションを実行する可能性があります。
    • 対策:
      • デフォルトで最小権限の原則を強制します。
      • 高い特権を必要とするアクションには明示的な認可を要求します。

Robust Intelligenceにお尋ねください

Robust Intelligenceは、AIリスク研究や国際的なリスク標準策定への関与を通じて、最新の脆弱性・コンプライアンスに対応した自動化されたAIリスクの検証・軽減ツールを提供しています。当社のソリューションは大きく2つの構成要素からなり、AIの開発時から運用時までを通じたリスクマネジメントを可能にします。

  • AI Testing: AIのモデル・ファイル・データに対してセキュリティおよびセーフティの観点から、包括的かつ多数の自動化されたレッド・チーミングテストを実行し、Robust Intelligenceの最新のAIリスク知見に基づく攻撃手法に対する脆弱性を検証、リスクの未然の軽減を支援します。
  • AI Firewall: AIアプリケーションをラップするような形で適用可能な保護ツールで、LLM駆動のシステムをプロンプトインジェクション、個人情報漏えい、その他の有害な操作やコンテンツから守ります。Robust Intelligenceの脅威インテリジェンスの知見に基づきルールをアップデートし、リアルタイムで入出力を検証、望ましくない入出力に対してブロック・アラートなどの対応が可能です。

サンフランシスコに本社を置き、アメリカにおいてはJPモルガン・チェース、エクスペディア、米国防総省など、日本国内においては東京海上ホールディングス、楽天グループ、LINEヤフー、NEC、リクルート、損保ジャパンなどの業界リーダーから信頼を得ています。

弊社の生成AIのリスク軽減ソリューションにご関心をお持ちの場合は、是非ともデモのリクエストでお問い合わせください。

AIリスク管理のソリューションの詳細をご紹介します。
無料デモをリクエスト