30件の記事
Claude Mythos PreviewはSWE-bench 93.9%を達成した史上最強モデルですが、セキュリティリスクを理由に招待制・防衛的サイバーセキュリティ専用として限定公開されています。全主要OS・ブラウザで数千件のゼロデイを自律発見し、Firefox exploitではOpus比90倍の性能差を示しています。Amazon・Apple・Microsoft等12社以上が参加するProject Glasswingの中核として機能し、$100M使用クレジットが投下される、AIセキュリティの大転換点を示す発表です。
Claude DesktopのCoworkモード(ローカルエージェント)でブラウザ操作がPermission deniedになる原因を徹底解析した実践記事です。サイドパネルでは動くのにCoworkでは拒否される理由は、異なる権限フロー。Coworkはサーバー側APIでドメインをカテゴリ分類し、制限カテゴリに該当すると即座に拒否するため。設定画面でデフォルトを「拡張機能を許可」に変更する解決策まで示されており、同じ問題に直面したエンジニアの実装障害を即座に解決できます。
推論モデルは長く考えるほど精度が上がると思われていますが、Anthropicの研究では逆の実態が明らかになりました。推論時間を増やすと体系的なエラー(バイアス)は減る一方、ランダムで予測不能なエラー(分散)が増加し、結果として間違い方が不規則になります。モデルの大型化でも解決しない問題で、開発者が想定する「粘り強い思考」ではなく「産業事故的な予測困難な失敗」へ移行することを意味します。バイアス-分散分解による実証的な分析で、推論モデル活用の盲点が浮き彫りになっています。
ClaudeのMicrosoft 365コネクタが全プラン無料開放されました。これまでTeam・Enterpriseプラン限定だった機能がFree・Pro・Maxを含む全プランに拡大され、Outlook・Teams・SharePoint・OneDriveのデータへClaudeが直接アクセス可能に。セットアップ方法から、エンジニアがAIエージェント開発で参考にできるアーキテクチャ、MCPとの関係まで実装視点で解説しており、個人開発者の業務効率化とAI統合学習を同時に実現できます。