🤖Zenn3月30日· 2分で読める中級Claude MythosはAGIの始まりか — リーク文書から正体に迫る2026年3月にリークされたAnthropicの未発表モデル「Claude Mythos」は、現在最強のOpus 4.6を「劇的に」上回り、サイバーセキュリティではあらゆるAIを圧倒するとされています。本当に衝撃的なのは、新しいティア「Capybara」として別格扱いされた点。著者はAIが試行錯誤する全過程を記録した「推論シミュレーション」という合成データで訓練された可能性を指摘。スケーリング則の予測を超える性能向上の秘密に迫る内容です。#Claude#AGI#モデル・基盤♡0👎☆ 保存記事を読む →
⚡OpenAI2月13日· 1分で読める中級🔥 注目GPT-5.2 derives a new result in theoretical physicsGPT-5.2が理論物理学で新しい発見を導き出した。AIがただ既存知識を再現するのではなく、人間が未解決だった問題に対して独自の証明や洞察を生成する段階に入った。AIの能力が『研究ツール』から『研究パートナー』へ進化する転換点を示す事例。#GPT-5.2#AI駆動開発#理論物理学♡0👎☆ 保存記事を読む →
💬OpenAI4月2日· 1分で読める中級🔥 注目PaperBench: Evaluating AI’s Ability to Replicate AI ResearchOpenAIが「PaperBench」を公開。AIが実際のAI論文を再現できるかを測定するベンチマークだ。GPT-4やClaudeなどのLLMが、既存論文の実装・実験を独力で完成させられるか評価。AIの研究開発能力を定量化する初の試みで、将来「AI研究者」の実力を判定する基準になるかもしれない。#AI評価#ベンチマーク#AI研究♡0👎☆ 保存記事を読む →