LLMの性能比較、何件評価すれば足りますか?
AI要約
LLM性能比較の根拠なき50件評価に統計学から警鐘を鳴らします。β誤り(本当は差があるのに見逃す)を減らす「検出力分析」が必須です。Cohen's d_zを使った効果量の見積もり方と、Pythonでの必要サンプル数計算を実例で解説。d_z=0.3の差なら90件、0.5なら36件必要とするなど、感度高い検定設計ができます。
AI要約
LLM性能比較の根拠なき50件評価に統計学から警鐘を鳴らします。β誤り(本当は差があるのに見逃す)を減らす「検出力分析」が必須です。Cohen's d_zを使った効果量の見積もり方と、Pythonでの必要サンプル数計算を実例で解説。d_z=0.3の差なら90件、0.5なら36件必要とするなど、感度高い検定設計ができます。
Anthropicが発表したAdvisor Toolは、SonnetやHaikuといった低コスト高速モデルをExecutorとして駆動させ、必要な局面でだけOpusに戦略指示を求める仕組みです。SWE-benchで+2.7pp改善、コスト-11.9%を実現。1つのAPIリクエストで完結し、既存コードに数行追加するだけで導入できる実装パターンを詳解しています。



OpenClaw 2026.4.9の本質は「AIが夢を見る」というロマンティックな演出ではなく、記憶の監査性が飛躍的に向上したことです。MEMORY.md、DREAMS.md、memory/YYYY-MM-DD.mdで可視化された記憶を、過去ログから再投入・リセット・ロールバック可能にする「grounded REM backfill」機能により、AIの意思決定の根拠を人間がレビューできるようになりました。セキュリティ強化も同時実装され、実行型エージェント時代に必須の品質基準が整いつつあります。個人開発でも業務でも、持続する記憶の管理設計が次の競争軸になります。