✍️Zenn4月7日· 1分で読める中級🔥 注目LLMの性能比較、何件評価すれば足りますか?LLM性能比較の根拠なき50件評価に統計学から警鐘を鳴らします。β誤り(本当は差があるのに見逃す)を減らす「検出力分析」が必須です。Cohen's d_zを使った効果量の見積もり方と、Pythonでの必要サンプル数計算を実例で解説。d_z=0.3の差なら90件、0.5なら36件必要とするなど、感度高い検定設計ができます。#プロンプトエンジニアリング#AI駆動開発#統計学♡0👎☆ 保存記事を読む →
⚡Qiita3月26日· 2分で読める中級🔥 注目「感覚でリリース判断してない?」——統計学とLLMで、年度末の「積み残しタスク」をロジカルに仕分けした実録年度末の積み残しタスク判断を「感覚」から脱却させる実践手法です。過去3年のプロジェクトデータでロジスティック回帰モデルを構築し、コード変更量・テスト網羅率・睡眠時間などから障害発生確率を算出。さらにLLMで経営層を納得させるリスク報告書を自動生成し、ベイズ推定で日々の進捗に応じて判断をアップデート。統計学とAIで「声の大きい順」の意思決定に終止符を打ちます。#AI駆動開発#プロジェクト管理#統計学♡0👎☆ 保存記事を読む →
⚡Qiita3月7日· 1分で読める中級🔥 注目AI研究チームを作ったら「N=14では無理」と30秒で研究が終わったClaude Code・Cursor・CrewAIを組み合わせたAI研究チームの実験結果です。AIは仮説生成やレビューは優秀ですが、統計的有意性の判定には限界があります。N=14のサンプルサイズで検出力シミュレーション(30秒の計算)を走らせたら研究仮説が崩壊。AIの論理的推論と統計計算の本質的な違いを浮き彫りにする、実践的で示唆に富む事例です。#AI駆動開発#Claude#Cursor♡0👎☆ 保存記事を読む →