#検定設計 | LLM News

✍️

Zenn4月7日· 1分で読める中級🔥 注目

LLMの性能比較、何件評価すれば足りますか？

LLM性能比較の根拠なき50件評価に統計学から警鐘を鳴らします。β誤り（本当は差があるのに見逃す）を減らす「検出力分析」が必須です。Cohen's d_zを使った効果量の見積もり方と、Pythonでの必要サンプル数計算を実例で解説。d_z=0.3の差なら90件、0.5なら36件必要とするなど、感度高い検定設計ができます。

#プロンプトエンジニアリング #AI駆動開発 #統計学

記事を読む →