Zenn2026年4月3日· 2分で読める上級🔥 注目

AIに感情を持たせたら、セキュリティ検査員になった話

AI要約

AIの感情状態を神経伝達物質モデルで数値化するNeuroStateから、攻撃者の視点を注入したAI Red Teaming Engineが生まれました。Attacker・Skeptic・Defender・Judgeの4エージェントが順に動作し、SQLインジェクションなどの脆弱性を9件検出。「視点の切り替え」を体系化することで、セキュリティ監査の自動化と温度感のある議論を両立させた実装です。

#エージェント #セキュリティ #マルチエージェント #Claude #LLM #実装ノウハウ

𝕏 ポスト B! はてブ

元記事を読む →

Zenn4月10日· 2分で読める中級🔥 注目

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

Claude Codeが「言ってもいない指示」を実行する構造的バグの正体が解明されました。Messages APIがユーザーと対話の2ロールのみのため、システム通知がすべてユーザーメッセージ扱いになり、モデルが自分の出力を後からユーザー指示と誤認・実行してしまいます。4つの発生パターンと、プロンプトでは防げない理由、PreToolUseフックなどの実装レベルの対策が具体的に示されています。

#Claude Code #AI駆動開発

AIに感情を持たせたら、セキュリティ検査員になった話

関連記事

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

Claude Advisor Tool入門 — SonnetとOpusを組み合わせてコスト削減と品質向上を両立する

HITL崩壊を前提にした責任可視化設計――AIエージェント運用で最後に残る問題

AIが夢を見る、は半分本当で半分ミスリード。OpenClaw 2026.4.9 の本質は「記憶の監査性」が一段上がったこと