ARC-AGI-3は静的パズルではなく、未知の環境で自律的にルール発見・行動するインタラクティブ推論ベンチマークです。衝撃の結果として、GPT-5.4・Claude Opus 4.6・Gemini 3.1が全て1%未満の低スコアに対し、単純なCNN+グラフ探索が12.58%で最高得点を記録。RHAE指標(人間行動数÷AI行動数の二乗)の設計思想から各モデルの詳細スコアまで、AGI研究の最新ベンチマーク全貌を具体数値で解説しています。
Vision Language Models(VLM)の過去1年の急速な進化を徹底解説する記事です。モデルは小型化しながら高性能化し、推論・動画理解・マルチモーダルRAGなど新しい機能が続々登場しています。Any-to-any model、推論特化型、軽量高性能モデル、Mixture-of-Expertsアーキテクチャなど、2025年の最新トレンドと注目モデルを詳しく紹介しており、VLM開発の最前線を理解できます。