Qiita2026年3月27日· 2分で読める中級🔥 注目

ARC-AGI-3入門 — フロンティアAI全モデルが1%未満のベンチマーク全貌

AI要約

ARC-AGI-3は静的パズルではなく、未知の環境で自律的にルール発見・行動するインタラクティブ推論ベンチマークです。衝撃の結果として、GPT-5.4・Claude Opus 4.6・Gemini 3.1が全て1%未満の低スコアに対し、単純なCNN+グラフ探索が12.58%で最高得点を記録。RHAE指標（人間行動数÷AI行動数の二乗）の設計思想から各モデルの詳細スコアまで、AGI研究の最新ベンチマーク全貌を具体数値で解説しています。

#ベンチマーク #AGI #LLM評価 #Claude #GPT #Gemini #推論能力

𝕏 ポスト B! はてブ

元記事を読む →

ARC-AGI-3入門 — フロンティアAI全モデルが1%未満のベンチマーク全貌

関連記事

「オープンソースAIこそ正義」って言ってたじゃないか、、、ザッカーバーグが、クローズドモデルを出した日 ─ Meta Muse Sparkの全貌

国産LLM「LLM-jp-4」が日本語MT-BenchでGPT-4oを上回った ── 技術的背景と実用性を検証する

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

LLMの性能比較、何件評価すれば足りますか？