#統計学

3件の記事

LLMの性能比較、何件評価すれば足りますか？

LLM性能比較の根拠なき50件評価に統計学から警鐘を鳴らします。β誤り（本当は差があるのに見逃す）を減らす「検出力分析」が必須です。Cohen's d_zを使った効果量の見積もり方と、Pythonでの必要サンプル数計算を実例で解説。d_z=0.3の差なら90件、0.5なら36件必要とするなど、感度高い検定設計ができます。

#プロンプトエンジニアリング #AI駆動開発 #統計学

記事を読む →

⚡

Qiita3月26日· 2分で読める中級🔥 注目

「感覚でリリース判断してない？」——統計学とLLMで、年度末の「積み残しタスク」をロジカルに仕分けした実録

年度末の積み残しタスク判断を「感覚」から脱却させる実践手法です。過去3年のプロジェクトデータでロジスティック回帰モデルを構築し、コード変更量・テスト網羅率・睡眠時間などから障害発生確率を算出。さらにLLMで経営層を納得させるリスク報告書を自動生成し、ベイズ推定で日々の進捗に応じて判断をアップデート。統計学とAIで「声の大きい順」の意思決定に終止符を打ちます。

#AI駆動開発 #プロジェクト管理 #統計学

記事を読む →

⚡

Qiita3月7日· 1分で読める中級🔥 注目

AI研究チームを作ったら「N=14では無理」と30秒で研究が終わった

Claude Code・Cursor・CrewAIを組み合わせたAI研究チームの実験結果です。AIは仮説生成やレビューは優秀ですが、統計的有意性の判定には限界があります。N=14のサンプルサイズで検出力シミュレーション（30秒の計算）を走らせたら研究仮説が崩壊。AIの論理的推論と統計計算の本質的な違いを浮き彫りにする、実践的で示唆に富む事例です。

#AI駆動開発 #Claude #Cursor

記事を読む →