#SWE-bench

2件の記事

Claude Mythos Preview入門 — SWE-bench 93.9%・Project Glasswingの全貌

Claude Mythos PreviewはSWE-bench 93.9%を達成した史上最強モデルですが、セキュリティリスクを理由に招待制・防衛的サイバーセキュリティ専用として限定公開されています。全主要OS・ブラウザで数千件のゼロデイを自律発見し、Firefox exploitではOpus比90倍の性能差を示しています。Amazon・Apple・Microsoft等12社以上が参加するProject Glasswingの中核として機能し、$100M使用クレジットが投下される、AIセキュリティの大転換点を示す発表です。

#Claude #モデル・基盤 #エージェント

記事を読む →

🤖

Qiita3月24日· 2分で読める中級🔥 注目

GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro ── 2026年2-3月の3大モデルを徹底比較

2026年2-3月にGPT-5.4・Claude Opus 4.6・Gemini 3.1 Proが相次ぎリリースされました。SWE-bench Verifiedでは両者とも80%超を達成し、コード自動修正が現実的になっています。本記事は単なるスコア比較ではなく、各社の戦略的意図を分析。OpenAIはエージェント制空権、AnthropicはClaude Codeによる開発者体験の囲い込み、GoogleはWorkspace統合による実務浸透と、「モデル性能」より「エコシステム戦略」で差別化していることを指摘します。ベンチマーク詳解と価格表で、ツールチェーン選定の実践的判断軸が得られます。

#GPT-5.4 #Claude #Gemini

記事を読む →