#eval | LLM News

⚡

Zenn3月8日· 2分で読める中級🔥 注目

スキルクリエイターにeval自動生成が追加 — Agent Skillsのベンチマークとモデル更新対応が変わる

Claude Codeのスキルエコシステムが50から334件超に急成長する中、モデル更新時の品質劣化を検知する課題が浮上しました。Anthropicが3月3日に発表した新機能は、エンジニアでないスキル作者向けにeval自動生成・並列実行・A/Bテスト・説明文最適化を提供。evals.jsonで期待値を定義するだけでpass rateやtoken usageを測定でき、モデル更新後の品質劣化を数値で捉えられます。ただしCI統合による本格運用には結局エンジニアのサポートが必要という実装上の課題も指摘されています。

#Claude Code #Agent Skills #AI駆動開発

記事を読む →