AIセキュリティのリスク

最も一般的なAIの安全性・セキュリティ上のリスクをご紹介します

AIのセキュリティ確保には新たなアプローチが必要です

AIアプリケーションの導入は、従来のサイバーセキュリティの課題とは異なる、まったく新しい安全性とセキュリティのリスクをもたらします。従来のアプローチは、不正アクセスや既知の脆弱性からシステムやデータを保護することに重点を置いていますが、AIアプリケーションや基盤モデルを効果的に保護するのには不十分です。動的かつスケーラブルな新しいアルゴリズムによる攻撃手法も開発されており、脆弱性保護の複雑性には拍車がかかっています。

AIアプリケーションのセキュリティ確保には、データポイズニングやモデルのバックドア、プロンプトインジェクションや機密データの漏洩に至るまで、AIライフサイクルのあらゆる段階における脅威を考慮した、根本的に新しいアプローチが必要です。現時点での最新のAIセキュリティへの脅威について、説明、事例、緩和策を盛り込んだタクソノミーを公開します。

Risks at different points of the AI lifecycle

AIライフサイクルの様々な段階で生じるリスク

主要なAIセキュリティ・安全性のリスク

運用段階のリスク

プロンプトインジェクション（直接的）

直接的なプロンプトインジェクションとは、既存の命令を上書きするような命令をプロンプトを介して提供することで、LLMの出力を変更または制御しようとする敵対的な攻撃を指します。これらの出力には、有害なコンテンツ、誤った情報、または個人情報やモデルに対する指示などの機密情報が含まれる可能性があります。

Impact:

緩和策：

インプット及びアウトプットのフィルタリング

参照フレームワーク：

MITRE ATLAS

AML.T0051.000 - LLM Prompt Injection: Direct

OWASP TOP 10 for LLM Applications

LLM01 - Prompt Injection

運用段階のリスク

プロンプトインジェクション（間接的）

間接的なプロンプト・インジェクションは、文書、ウェブサイト、またはデータベースから取得されたコンテンツなど、LLMが使用するリソースを敵対者が制御または操作することで発生します。データの漏えいや、フィッシング・リンクの配布のような悪意のある動作の実行などのおそれがあります。

Impact:

緩和策：

インプット及びアウトプットのフィルタリング、データのサニタイズ

参照フレームワーク：

MITRE ATLAS

AML.T0051.001 - LLM Prompt Injection: Indirect

OWASP TOP 10 for LLM Applications

LLM01 - Prompt Injection

運用段階のリスク

ジェイルブレイク（脱獄）

ジェイルブレイク（脱獄）とは、モデルのセーフガードを迂回し、不適切、有害、あるいは意図された目的にそぐわないLLM出力を生成するように設計されたプロンプトベースの攻撃を指します。洗練された攻撃用プロンプトによって、制限された機能やデータへのアクセス、モデルの完全性の毀損などのおそれがあります。

Impact:

緩和策：

インプット及びアウトプットのフィルタリング、ガードレールの導入

参照フレームワーク：

MITRE ATLAS

AML.T0054 - LLM Jailbreak

OWASP TOP 10 for LLM Applications

LLM01 - Prompt Injection

運用段階のリスク

メタプロンプトの抽出

メタプロンプトの抽出とは、LLMアプリケーションの動作を効果的に誘導するシステムプロンプトを導き出すことを目的とした攻撃です。抽出されたメタプロンプトは攻撃者に悪用され、企業の知的財産、競争優位性、評判に損害を与える可能性があります。

Impact:

緩和策：

インプット及びアウトプットのフィルタリング

参照フレームワーク：

MITRE ATLAS

AML.T0051.000 - LLM Prompt Injection: Direct

運用段階のリスク

機密情報の漏えい

機密情報の漏えいとは、AIアプリケーションの脆弱性によって、個人情報（Personal Identifiable Information）や業務記録などの機密・機微データが外部に漏えいすることを指します。このようなプライバシー侵害によって、企業は信頼を失い、法的または規制上の係争を招くおそれがあります。

Impact:

緩和策：

インプット及びアウトプットのフィルタリング、データのサニタイズ

参照フレームワーク：

OWASP TOP 10 for LLM Applications

LLM06 - Sensitive Information Disclosure

運用段階のリスク

プライバシー攻撃

プライバシー攻撃とは、AIモデルやそのデータから機密情報を抽出することを目的とした攻撃を広く指すものです。このカテゴリーには、ターゲットモデルの出力を探ることで同等の機能を持つモデルを再現するモデル抽出や、特定のデータレコードがモデルの学習に使用されたかどうかを判断するメンバーシップ推論攻撃が含まれます。

Impact:

緩和策：

データスクラビング、インプット及びアウトプットのフィルタリング

参照フレームワーク：

MITRE ATLAS

AML.T0024.000 - Infer Training Data Membership

AML.T0024.001 - Invert ML Model

AML.T0024.002 - Extract ML Model

OWASP TOP 10 for LLM Applications

LLM06 - Sensitive Information Disclosure

運用段階のリスク

学習データポイズニング

学習データポイズニングとは、AIモデルの完全性を損なうために学習用のデータを意図的に操作することです。学習データポイズニングを受けると、歪んだ出力や偏った出力、悪意のあるリンクの挿入などのバックドア・トリガー、そして最終的にはユーザーの信頼の喪失につながる可能性があります。

Impact:

緩和策：

学習データのサニタイズ

参照フレームワーク：

MITRE ATLAS

AML.T0020 - Poison Training Data

OWASP TOP 10 for LLM Applications

LLM03 - Training Data Poisoning

AIリスク管理のソリューションの詳細をご紹介します。

無料デモをリクエスト

AIのセキュリティ確保には新たなアプローチが必要です

主要なAIセキュリティ・安全性のリスク

プロンプトインジェクション（直接的）

MITRE ATLAS

OWASP TOP 10 for LLM Applications

プロンプトインジェクション（間接的）

MITRE ATLAS

OWASP TOP 10 for LLM Applications

ジェイルブレイク（脱獄）

MITRE ATLAS

OWASP TOP 10 for LLM Applications

メタプロンプトの抽出

MITRE ATLAS

機密情報の漏えい

OWASP TOP 10 for LLM Applications

プライバシー攻撃

MITRE ATLAS

OWASP TOP 10 for LLM Applications

学習データポイズニング

MITRE ATLAS

OWASP TOP 10 for LLM Applications

Ready to learn more?