プロンプトインジェクション(直接的)
直接的なプロンプトインジェクションとは、既存の命令を上書きするような命令をプロンプトを介して提供することで、LLMの出力を変更または制御しようとする敵対的な攻撃を指します。これらの出力には、有害なコンテンツ、誤った情報、または個人情報やモデルに対する指示などの機密情報が含まれる可能性があります。
インプット及びアウトプットのフィルタリング
MITRE ATLAS
AML.T0051.000 - LLM Prompt Injection: Direct
OWASP TOP 10 for LLM Applications
LLM01 - Prompt Injection