#LLM評価 | LLM News

🤖

Qiita3月27日· 2分で読める中級🔥 注目

ARC-AGI-3入門 — フロンティアAI全モデルが1%未満のベンチマーク全貌

ARC-AGI-3は静的パズルではなく、未知の環境で自律的にルール発見・行動するインタラクティブ推論ベンチマークです。衝撃の結果として、GPT-5.4・Claude Opus 4.6・Gemini 3.1が全て1%未満の低スコアに対し、単純なCNN+グラフ探索が12.58%で最高得点を記録。RHAE指標（人間行動数÷AI行動数の二乗）の設計思想から各モデルの詳細スコアまで、AGI研究の最新ベンチマーク全貌を具体数値で解説しています。

#ベンチマーク #AGI #LLM評価

記事を読む →

📰

Zenn3月7日· 1分で読める中級🔥 注目

Pharma/Medical LLM Evaluation

医療・製薬領域に特化したLLM評価の包括的ガイドです。医学QAベンチマーク「IgakuQA」の最新アップデートや、複数の医療LLMペーパーをまとめた解析を通じて、医療分野特有の評価指標の重要性を学べます。43,000字以上の詳細な技術コンテンツで、医療AI開発に携わるエンジニアの実践知識を深められます。

#医療LLM #LLM評価 #ベンチマーク

記事を読む →