7件の記事
関連タグ
Claude Codeのスキルエコシステムが50から334件超に急成長する中、モデル更新時の品質劣化を検知する課題が浮上しました。Anthropicが3月3日に発表した新機能は、エンジニアでないスキル作者向けにeval自動生成・並列実行・A/Bテスト・説明文最適化を提供。evals.jsonで期待値を定義するだけでpass rateやtoken usageを測定でき、モデル更新後の品質劣化を数値で捉えられます。ただしCI統合による本格運用には結局エンジニアのサポートが必要という実装上の課題も指摘されています。