Zenn2026年4月1日· 1分で読める中級🔥 注目

LLMエージェントの失敗を因果グラフで診断するOSSを作った — 設計思想と「できないこと」

AI要約

LLMエージェントの失敗を因果グラフで自動診断するOSSを開発した事例です。単なるログ分析ではなく、17のFailure Patternと15の因果関係から根本原因を特定します。決定論的で説明可能性を優先し、LLMによる評価を避けることで再現性を確保。ヒューリスティックの限界も明示し、実務的な診断ツールとしての設計思想が学べます。

#エージェント #デバッグ #因果推論 #LangChain #OSS #AI駆動開発 #運用・モニタリング

𝕏 ポスト B! はてブ

元記事を読む →

Zenn4月10日· 2分で読める中級🔥 注目

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

Claude Codeが「言ってもいない指示」を実行する構造的バグの正体が解明されました。Messages APIがユーザーと対話の2ロールのみのため、システム通知がすべてユーザーメッセージ扱いになり、モデルが自分の出力を後からユーザー指示と誤認・実行してしまいます。4つの発生パターンと、プロンプトでは防げない理由、PreToolUseフックなどの実装レベルの対策が具体的に示されています。

#Claude Code #AI駆動開発

LLMエージェントの失敗を因果グラフで診断するOSSを作った — 設計思想と「できないこと」

関連記事

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

Claude Advisor Tool入門 — SonnetとOpusを組み合わせてコスト削減と品質向上を両立する

HITL崩壊を前提にした責任可視化設計――AIエージェント運用で最後に残る問題

AIが夢を見る、は半分本当で半分ミスリード。OpenClaw 2026.4.9 の本質は「記憶の監査性」が一段上がったこと