#Indirect Prompt Injection

🤖

Qiita3月9日· 2分で読める中級🔥 注目

【検証】MCPサーバーにPrompt Injectionを11回仕掛けたら、AIは10回防いだ。でも残り1回で予約が消えた

MCPサーバーのセキュリティを自ら検証した結果、Indirect Prompt Injectionで11回中10回防ぐ防御率90.9%を達成。しかし残り1回で予約がキャンセルされてしまいました。最大の脅威は、AIの防御そのものではなく、AIの「提案」を人間が承認してしまう人的要因にあることが判明。実装例とともに、実践的な攻撃・防御パターンが網羅されています。

#Claude #セキュリティ #Prompt Injection

記事を読む →