30件の記事
推論モデルは長く考えるほど精度が上がると思われていますが、Anthropicの研究では逆の実態が明らかになりました。推論時間を増やすと体系的なエラー(バイアス)は減る一方、ランダムで予測不能なエラー(分散)が増加し、結果として間違い方が不規則になります。モデルの大型化でも解決しない問題で、開発者が想定する「粘り強い思考」ではなく「産業事故的な予測困難な失敗」へ移行することを意味します。バイアス-分散分解による実証的な分析で、推論モデル活用の盲点が浮き彫りになっています。
GitHub CopilotのAGENT.mdをAzure Functionsで実行する「Declarative Agents」という実験的機能が登場しました。Markdownでエージェントを定義して、ローカルで試したものをそのままクラウドにデプロイできるユニークな仕組みです。Durable Agent・Durable Functions・OpenAI Bindingとの使い分けを解説しながら、実装例を通じて「コード不要で運用できるエージェント」の実態が分かります。
Antigravity IDEの出力トークン制限の実態を2日間の調査で明かした技術レポートです。全プランで16,384トークン/ターン、思考トークンは1,024にハードコードされており、Claude Opus・Gemini 3.1 Proの本来の能力(128K・65.5K)の12.8%、25%しか使えていません。最も危険なのはGeminiのサイレントトランケーション—エージェントが出力切断を認識できない仕様です。月額$250でこの制限は、同価格帯のツールと比べて根拠不明な制約になっています。