✍️Zenn4月7日· 1分で読める中級🔥 注目LLMの性能比較、何件評価すれば足りますか?LLM性能比較の根拠なき50件評価に統計学から警鐘を鳴らします。β誤り(本当は差があるのに見逃す)を減らす「検出力分析」が必須です。Cohen's d_zを使った効果量の見積もり方と、Pythonでの必要サンプル数計算を実例で解説。d_z=0.3の差なら90件、0.5なら36件必要とするなど、感度高い検定設計ができます。#プロンプトエンジニアリング#AI駆動開発#統計学♡0👎☆ 保存記事を読む →