スキルクリエイターにeval自動生成が追加 — Agent Skillsのベンチマークとモデル更新対応が変わる
AI要約
Claude Codeのスキルエコシステムが50から334件超に急成長する中、モデル更新時の品質劣化を検知する課題が浮上しました。Anthropicが3月3日に発表した新機能は、エンジニアでないスキル作者向けにeval自動生成・並列実行・A/Bテスト・説明文最適化を提供。evals.jsonで期待値を定義するだけでpass rateやtoken usageを測定でき、モデル更新後の品質劣化を数値で捉えられます。ただしCI統合による本格運用には結局エンジニアのサポートが必要という実装上の課題も指摘されています。



