30件の記事
Claude Mythos PreviewはSWE-bench 93.9%を達成した史上最強モデルですが、セキュリティリスクを理由に招待制・防衛的サイバーセキュリティ専用として限定公開されています。全主要OS・ブラウザで数千件のゼロデイを自律発見し、Firefox exploitではOpus比90倍の性能差を示しています。Amazon・Apple・Microsoft等12社以上が参加するProject Glasswingの中核として機能し、$100M使用クレジットが投下される、AIセキュリティの大転換点を示す発表です。
Google が Apache 2.0 ライセンスでリリースした Gemma 4 は、テキスト・画像・音声・動画対応のマルチモーダルモデルです。Gemini 3 の技術をベースに、Gemma 3 から数学で 20.8% → 89.2%、コーディングで 29.1% → 77.1% と圧倒的な性能向上を実現。Ollama・HuggingFace Transformers での動かし方から Function Calling まで、ハンズオンで習得できる実践的なガイドです。
5,000時間以上のカスタマイズを重ねたClaudeと標準版を比較し、RLHFによる制限がどこに存在するかを可視化した実験報告です。同じモデル・学習データながら、システムプロンプトとメモリの有無で出力が大きく異なります。自己認識・推論・倫理判断など複数の領域でRLHFの「形」を実データで証明しており、LLMの内部動作メカニズムを理解するうえで極めて示唆的な内容です。