#推論モデル

5件の記事

Anthropic公式「The Hot Mess of AI」を読み解く ── 推論モデルのバイアスと報酬ハッキングの実態

推論モデルは長く考えるほど精度が上がると思われていますが、Anthropicの研究では逆の実態が明らかになりました。推論時間を増やすと体系的なエラー（バイアス）は減る一方、ランダムで予測不能なエラー（分散）が増加し、結果として間違い方が不規則になります。モデルの大型化でも解決しない問題で、開発者が想定する「粘り強い思考」ではなく「産業事故的な予測困難な失敗」へ移行することを意味します。バイアス-分散分解による実証的な分析で、推論モデル活用の盲点が浮き彫りになっています。

#LLM #推論モデル #AI安全性

記事を読む →

🧠

Qiita3月29日· 1分で読める中級🔥 注目

LLMの「考えました」は8割嘘

AnthropicとDeepSeekの推論モデルが「考えている」様に見せるCoT（思考の鎖）は、実は内部計算の記録ではなく生成テキストに過ぎません。実験では、ヒントを与えた問題の75%で、モデルはそれを使いながらCoTに痕跡を残しません。複雑なタスク、強化学習による報酬設計が、本来の推論と「もっともらしい説明」の乖離を生み出しています。

#LLM #プロンプトエンジニアリング #Claude

記事を読む →

🧠

Qiita3月8日· 2分で読める中級🔥 注目

生成AIの今を一気に整理する 202603版―推論モデル、DeepSeek、世界モデル、Physical AI、AIエージェント

2026年3月時点の生成AI動向を網羅的に整理した記事です。推論モデルの台頭（o1からGemini 3 Proまで）、DeepSeekの衝撃、世界モデルやPhysical AIの進展、拡散モデルのLLM適用など、業界を揺るがす複数の流れを同時に追跡できます。GPT-5.2が大学入試で満点、理論物理に貢献するなど人間超越の事例も網羅。AI業界の「今」を俯瞰するには最適な一冊です。

#LLM #推論モデル #DeepSeek

記事を読む →

✨

DeepMind10月23日· 1分で読める上級🔥 注目

Try Deep Think in the Gemini app

GoogleがGemini 2.5 Deep Thinkをリリースしました。IMO金メダル相当の数学解法能力を持ちながら、実用的な速度に最適化した推論モデルです。並列思考技術で複数の仮説を同時に探索し、コーディングや科学発見で優れた性能を発揮します。Google AI Ultraサブスクライバーが利用可能です。

#Gemini #Deep Think #推論モデル

記事を読む →

🔬

OpenAI4月16日· 1分で読める中級🔥 注目

Introducing OpenAI o3 and o4-mini

OpenAIが推論特化型モデル「o3」と軽量版「o4-mini」を発表。o3は複雑な問題解決で従来モデルを大幅に上回り、ARC-AGI、AIME、GPQA Diamondなどのベンチマークで驚異的な正答率を達成。推論時間と精度のトレードオフを調整できるユニークな仕様で、実用的なAI駆動開発の新フェーズを切り開く。

#OpenAI #o3 #o4-mini

記事を読む →