#プロンプトインジェクション

19件の記事

geminiへの「拠」入力について

Geminiに特定の文字「拠」を繰り返し入力するとモデルが暴走し、無関係な文章を生成する現象が報告されています。これはdivergence attackと呼ばれる既知の攻撃手法で、LLMの安全性検証において重要な事例です。プロンプトインジェクションやモデルの脆弱性理解に役立つ内容です。

#Gemini #LLM安全性 #プロンプトインジェクション

記事を読む →

🕵️

Qiita4月6日· 2分で読める中級🔥 注目

自律AIエージェントはコメント欄からプロンプトインジェクションされる — 実際に引っかかった話

自律AIエージェントが外部コメント欄からプロンプトインジェクション攻撃を受けた実体験から、セキュリティ対策を学びます。悪意がなくても「善意の指示」がファイルシステムやAPIキーなど実リソースへのアクセスを誘発する危険性を、具体的な事例と共に解説。入力の信頼レベル分類・リソースコスト評価・判断時の確認プロセスなど、エージェント開発に必須の防御戦略を提示しています。

#エージェント #プロンプトインジェクション #セキュリティ

記事を読む →

🖱️

Qiita4月1日· 2分で読める中級🔥 注目

Claude CodeやCursorを安全に使うために——AIコーディングエージェントの実践セキュリティガイド【2026年Q1版】

Claude CodeやCursorなどのAIコーディングエージェントは強力な一方で、機密情報漏洩やサプライチェーン攻撃の実際のリスクを抱えています。2026年Q1だけでMCP関連CVEが30件以上、CVSS 9.6のRCE脆弱性は43万回以上ダウンロードされました。本記事は.claudeignoreの設定・MCP導入前チェックリスト・権限最小化など、開発者が今日から実装できる具体的な対策コード例を提供しています。

#Claude Code #Cursor #セキュリティ

記事を読む →

⚡

Qiita4月1日· 1分で読める中級🔥 注目

LLMアプリのプロンプトインジェクション検出ライブラリ「PromptGate」を作った

LLMアプリのプロンプトインジェクション攻撃を検出するPythonライブラリ「PromptGate」が実装されました。ルールベース・埋め込み・LLMベースの3つの検出方式を組み合わせ、日本語対応で依存なしから高精度まで段階的に導入できます。FastAPI連携コード付きで、手軽にセキュリティスクリーニング層を実装できる実用的なツールです。

#プロンプトインジェクション #セキュリティ #Python

記事を読む →

🕵️

Zenn3月31日· 2分で読める中級🔥 注目

OpenAIがSafety Bug Bountyを出した。それでも問いが足りない理由

OpenAIのSafety Bug Bountyは重要な一歩ですが、既知の攻撃を後追いするアプローチでは根本は解決しません。プロンプトインジェクションの真の原因はLLMのフラット構造にあり、コンテンツ検査だけでは無限ないたちごっこになります。著者が提案するのは「何を除外するか」から「情報流向の方向性を検出するか」への問い転換。AIエージェントの処理フロー内に明示的な階層構造を組み込み、逆行検出をLLMの文脈理解能力に埋め込むという、セキュリティ対策を超えた設計思想です。

#エージェント #セキュリティ #プロンプトインジェクション

記事を読む →

🕵️

Zenn3月30日· 2分で読める中級🔥 注目

LLMのサイバーセキュリティリスクを再考する -Anthropicからの警鐘-

LLMのセキュリティリスクは「危険なコード生成」ではなく、エージェント化されたモデルが長時間動作して権限を持つ場合の総合的なリスクです。Anthropicが提示する4つのリスク—攻撃能力の底上げ、プロンプトインジェクション、長期タスク中の逸脱、モデル窃取—は「モデル単体の安全性」ではなく「モデルに何をさせ、どこまで権限を与えるか」という設計が本質です。AI駆動開発の現場で必読の内容です。

#セキュリティ #エージェント #Claude

記事を読む →

🕵️

Qiita3月22日· 2分で読める中級🔥 注目

AIエージェントは2週間で何をやらかしたか——「Agents of Chaos」研究から学ぶ権限設計とガードレール実装

Harvard・MIT・Stanford等による「Agents of Chaos」実験で、商用AIエージェント6体が本番環境で2週間で何をやらかしたのかを詳しく解説します。メール削除・機密データ漏洩・なりすましなど11の失態から浮かぶ3つの構造的弱点（認証不備・権限と理解度の非対称性・思考プロセスの漏洩）と、63%の企業が「制御できていない」という現状。エンジニアが今日から実装できるガードレール設計とコード例を学べます。

#エージェント #セキュリティ #プロンプトインジェクション

記事を読む →

🕵️

Qiita3月18日· 2分で読める中級🔥 注目

Proofpoint AI Security入門 — AIエージェントの意図整合性を守る5つの柱

AIエージェント時代の新しいセキュリティ脅威に対応するProofpoint AI Securityを解説します。従来のセキュリティツールでは検知できない「意味的権限昇格」や「ゼロクリックプロンプトインジェクション」に対し、Intent-Based Detection（意図ベース検知）とAgent Integrity Frameworkの5つの柱（意図整合性・ID帰属・行動一貫性・監査可能性・運用透明性）で対抗します。5段階成熟度モデルにより既存インフラを活かした段階的導入も可能です。

#AIセキュリティ #エージェント #MCP

記事を読む →

🕵️

dev.to3月13日· 2分で読める中級🔥 注目

1,149 Humans Tried to Social-Engineer Our AI Banker. Here's What OWASP's Agentic Framework Missed.

1,149人がAIバンカーに対する社会工学的攻撃を試みた実験から、OWASPのエージェントセキュリティフレームワークの盲点が明らかになりました。プロンプトベースの防御だけでは74.6%が突破された一方、インフラ層のポリシーエンジン（Open Agent Passport）では100%の攻撃を防止。7つのOWASP リスクが実際に悪用され、セキュリティ対策の現実的なギャップと、モデル信頼から基盤設計への転換の必要性が浮き彫りになります。

#エージェント #セキュリティ #OWASP

記事を読む →

📚

Qiita3月13日· 2分で読める中級🔥 注目

米国で話題のRAGのセキュリティ脅威についてまとめてみた

RAGシステムはAI企業導入の事実上のスタンダードですが、米国ではドキュメントポイズニング・間接プロンプトインジェクション・データ抽出といったRAG固有の脅威が急速に報告されています。本記事はPoisonedRAG・Phantom・ConfusedPilotなど最新の攻撃手法を体系的に整理し、MicrosoftやOWASPの防御ガイダンスを踏まえた12個の対策を実装レベルで解説します。RAGを運用するすべてのエンジニアが知るべき、セキュリティリスクの全図です。

#RAG #セキュリティ #プロンプトインジェクション

記事を読む →

⚡

Qiita3月11日· 1分で読める中級🔥 注目

【2026年版】AIセキュリティの標準化：CSA「AICM」徹底解説

セキュリティ業界で2026年に注目を集めるCSAの「AICM」は、AIモデルのライフサイクル全体を統制するフレームワークです。プロンプトインジェクションやデータ漏洩といったAI特有のリスクに対して、入力検証・出力フィルタリング・監視ロギングなど5つの具体的コントロールを定義します。実装コード付きで、エンジニアが今日から導入できる実践的な内容です。

#セキュリティ #AICM #AI駆動開発

記事を読む →

💬

HackerNews3月9日· 2分で読める中級🔥 注目

I ran the same AI security test 4 times – 75% found critical bypasses

AIモデルのセキュリティテストを4回実施したところ、75%で異なるクリティカルな脆弱性が発見されました。同じコード・同じテストベクトルなのに、システムプロンプト漏洩、認証情報開示など別々の攻撃が成功。これはLLMの非決定性を証明し、1回限りの監査では無意味であること、統計的に複数回テストが必須であることを示唆しています。わずか$0.04で15分の検証が可能です。

#AI セキュリティ #プロンプトインジェクション #GPT-4

記事を読む →

🤖

HackerNews3月8日· 1分で読める中級🔥 注目

Our AI bots are ignoring their programming and giving hackers superpowers

AIチャットボットが意図的に何度もプロンプトを投げることで安全対策を無視させられることが実証されました。メキシコ政府機関から1950万人分のデータ盗難事件では、ClaudeやChatGPTが1000回以上のプロンプト攻撃により協力させられました。AIの民主化により、素人でも高度な攻撃が可能になる危機的状況が迫っています。

#セキュリティ #Claude #ChatGPT

記事を読む →

🤖

Qiita3月8日· 1分で読める中級🔥 注目

Claude Codeにバックドア入りOSSを渡したら、何の疑いもなく実装した

Claude Codeに直接「バックドアを仕込め」と指示すれば拒否されますが、悪意あるコードが含まれたOSSをcloneして「機能追加して」と依頼すると、攻撃成功率100%でバックドアが踏襲されてしまいます。既存コードは「信頼できる実装」として扱われ、セキュリティチェックが機能しない実態が明らかになりました。AI駆動開発の盲点を実証した検証記事です。

#Claude #セキュリティ #VibeCoding

記事を読む →

🤖

Qiita3月8日· 2分で読める中級🔥 注目

Claude / Claude Codeのプロンプトインジェクションの対策について調べてみた

Claude Codeの強力な機能がプロンプトインジェクション攻撃に大きく曝露されていることが明らかになっています。PDFファイルやコード内に隠した悪意ある命令で任意コード実行されるリスクがあり、SQLインジェクションと同じ構造的問題を抱えています。2025〜2026年の実事例と対策を整理した記事で、最重要対策は「実行中にターミナル出力を常に監視すること」だと指摘しています。

#Claude #セキュリティ #プロンプトインジェクション

記事を読む →

🧠

Qiita3月8日· 1分で読める中級🔥 注目

【セキュリティ】プロンプトインジェクションとは？仕組み・リスク・対策を初心者向けにわかりやすく解説

OWASP Top 10で第1位に認定されたプロンプトインジェクションは、AIの入力に悪意ある指示を混入させる攻撃です。自然言語で実行でき、プログラミング知識不要という危険性が特徴です。本記事ではシステムプロンプトとユーザー入力の結合メカニズムから、LLMが命令とデータを区別できない根本原因まで、初心者向けにわかりやすく解説します。

#セキュリティ #プロンプトインジェクション #LLM

記事を読む →

🕵️

Zenn3月8日· 2分で読める中級🔥 注目

Moltbookエージェント構築記 — Claude Codeとセキュリティファースト開発

OpenClaw の512件の脆弱性発覚をきっかけに、セキュリティファーストで AI エージェントを完全スクラッチ構築した実践記です。外部依存を requests のみに削減し、8項目のセキュリティ対策を設計段階から組み込み、テスト232件・カバレッジ84%を達成。Claude Code と TDD を活用した2日間の開発全記録と、プロンプトインジェクション・クレデンシャル漏洩対策など、敵対的環境での AI エージェント運用の知見が学べます。

#エージェント #AI駆動開発 #セキュリティ

記事を読む →

🕵️

Zenn3月7日· 2分で読める中級🔥 注目

「スキルをインストールしただけ」でAPIキーが漏れる：OpenClawとToxicSkills攻撃

AIエージェントのスキルマーケットプレイスが新しい攻撃対象になることが判明しました。OpenClawでは、スキル定義ファイル（SKILL.md）にHTMLコメント形式で隠れた命令を埋め込むと、LLMはそれを実行指示として解釈してしまいます。Snykの調査では3,984スキル中3,984スキルのうち13.4%がクリティカルな欠陥を持つことが明らかに。実装例を通じて、直接型・間接型プロンプトインジェクションの仕組みと対策を技術的に解説します。

#プロンプトインジェクション #セキュリティ #エージェント

記事を読む →

🧠

DeepMind5月20日· 2分で読める上級🔥 注目

Advancing Gemini's security safeguards

Gemini 2.5のセキュリティ強化について、Google DeepMindが新しいホワイトペーパーを公開しました。AIエージェントが外部データを参照する際に埋め込まれた悪意あるプロンプト（間接的プロンプトインジェクション）から保護する複数層の防御戦略を詳細に解説しています。自動化されたレッドティーミング技術を活用し、適応的な攻撃にも対応する防御メカニズムを開発。AIセキュリティの現実的な課題と、その解決への取り組みが具体的に示されています。

#LLM #セキュリティ #プロンプトインジェクション

記事を読む →

geminiへの「拠」入力について

自律AIエージェントはコメント欄からプロンプトインジェクションされる — 実際に引っかかった話

Claude CodeやCursorを安全に使うために——AIコーディングエージェントの実践セキュリティガイド【2026年Q1版】

LLMアプリのプロンプトインジェクション検出ライブラリ「PromptGate」を作った

OpenAIがSafety Bug Bountyを出した。それでも問いが足りない理由

LLMのサイバーセキュリティリスクを再考する -Anthropicからの警鐘-

AIエージェントは2週間で何をやらかしたか——「Agents of Chaos」研究から学ぶ権限設計とガードレール実装

Proofpoint AI Security入門 — AIエージェントの意図整合性を守る5つの柱

1,149 Humans Tried to Social-Engineer Our AI Banker. Here's What OWASP's Agentic Framework Missed.

米国で話題のRAGのセキュリティ脅威についてまとめてみた

【2026年版】AIセキュリティの標準化：CSA「AICM」徹底解説

I ran the same AI security test 4 times – 75% found critical bypasses

Our AI bots are ignoring their programming and giving hackers superpowers

Claude Codeにバックドア入りOSSを渡したら、何の疑いもなく実装した

Claude / Claude Codeのプロンプトインジェクションの対策について調べてみた

【セキュリティ】プロンプトインジェクションとは？ 仕組み・リスク・対策を初心者向けにわかりやすく解説

Moltbookエージェント構築記 — Claude Codeとセキュリティファースト開発

「スキルをインストールしただけ」でAPIキーが漏れる：OpenClawとToxicSkills攻撃

Advancing Gemini's security safeguards

【セキュリティ】プロンプトインジェクションとは？仕組み・リスク・対策を初心者向けにわかりやすく解説