QA自動化で学ぶ LLM as a Judge — 「操作するAI」と「判定するAI」を分ける理由
AI要約
QA自動化でLLMが自ら操作と判定を行うと確証バイアスで甘い判定になるという課題を発見。テスト実行エージェント(qa-runner)と判定エージェント(qa-judge)を分離することで、期待結果の情報を一方に与えないクリーンなコンテキストを実現。この「LLM as a Judge」パターンはコードレビューやコンテンツ評価にも応用可能な実装パターンです。
AI要約
QA自動化でLLMが自ら操作と判定を行うと確証バイアスで甘い判定になるという課題を発見。テスト実行エージェント(qa-runner)と判定エージェント(qa-judge)を分離することで、期待結果の情報を一方に与えないクリーンなコンテキストを実現。この「LLM as a Judge」パターンはコードレビューやコンテンツ評価にも応用可能な実装パターンです。
Cursor や Claude Code などのAIエージェントをチームで使うと、コミットルールが崩れやすくなります。これを防ぐには「禁止事項・手順・メッセージ形式」の3点を明文化し、.cursor/rules や CLAUDE.md に記述することが重要です。チケット番号を先頭に入れる、git add .を禁止するなど、具体的なルール設定で追跡性が大幅に向上します。

