30件の記事
autoresearchやRalph Loopなど注目を集めるAIエージェント系ツールの違いが分からない——そんな疑問に答える俯瞰的整理記事です。約220件の論文とOSSを調査した著者が、Agent Loopを「逐次実行型」「仮説検証型」「自己進化型」の3グループ、7つの型に分類。線形ReAct・Event Stream・木探索・制約付き実験など、各型の使い分けを代表プロジェクトとともに解説しています。実装レベルで何が違うのか、どの場面で何を選ぶべきか?が明確に理解できます。
推論モデルは長く考えるほど精度が上がると思われていますが、Anthropicの研究では逆の実態が明らかになりました。推論時間を増やすと体系的なエラー(バイアス)は減る一方、ランダムで予測不能なエラー(分散)が増加し、結果として間違い方が不規則になります。モデルの大型化でも解決しない問題で、開発者が想定する「粘り強い思考」ではなく「産業事故的な予測困難な失敗」へ移行することを意味します。バイアス-分散分解による実証的な分析で、推論モデル活用の盲点が浮き彫りになっています。