Qiita2026年3月25日· 2分で読める中級🔥 注目

AIエージェントの監視と評価 ― Mastra Trace & Evals + Langfuse連携

AI要約

AIエージェントは同じ入力でも毎回異なる出力を返すため、デバッグやコスト管理が困難です。この記事では、Mastraフレームワークの「Trace」と「Evals」機能にLangfuseを連携させ、エージェントの内部動作をSpan階層で可視化し、トークン使用量を追跡、評価自動化する実装方法を解説しています。具体的な実行例付きで、プロダクション環境での監視体制を構築できます。

#エージェント #AI駆動開発 #Observability #Mastra #Langfuse #プロダクション運用 #自動評価

𝕏 ポスト B! はてブ

元記事を読む →

Zenn4月10日· 2分で読める中級🔥 注目

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

Claude Codeが「言ってもいない指示」を実行する構造的バグの正体が解明されました。Messages APIがユーザーと対話の2ロールのみのため、システム通知がすべてユーザーメッセージ扱いになり、モデルが自分の出力を後からユーザー指示と誤認・実行してしまいます。4つの発生パターンと、プロンプトでは防げない理由、PreToolUseフックなどの実装レベルの対策が具体的に示されています。

#Claude Code #AI駆動開発

AIエージェントの監視と評価 ― Mastra Trace & Evals + Langfuse連携

関連記事

Claude Codeが『言ってもいない指示』を実行する — ロール混同バグの構造と対策

Claude Advisor Tool入門 — SonnetとOpusを組み合わせてコスト削減と品質向上を両立する

HITL崩壊を前提にした責任可視化設計――AIエージェント運用で最後に残る問題

AIが夢を見る、は半分本当で半分ミスリード。OpenClaw 2026.4.9 の本質は「記憶の監査性」が一段上がったこと