OpenAI2025年4月2日· 1分で読める中級🔥 注目

PaperBench: Evaluating AI’s Ability to Replicate AI Research

AI要約

OpenAIが「PaperBench」を公開。AIが実際のAI論文を再現できるかを測定するベンチマークだ。GPT-4やClaudeなどのLLMが、既存論文の実装・実験を独力で完成させられるか評価。AIの研究開発能力を定量化する初の試みで、将来「AI研究者」の実力を判定する基準になるかもしれない。

#AI評価 #ベンチマーク #AI研究 #GPT-4 #LLM能力測定

𝕏 ポスト B! はてブ

元記事を読む →

🧠

Qiita3月6日· 2分で読める中級🔥 注目

LLM判定者のバイアス制御×理論的保証×信頼性向上への挑戦

LLMを判定者として使う際のバイアス問題は、評価の信頼性を大きく損なう深刻な課題です。本記事では、バイアスを数理的に定義し理論的保証を与える「Average Bias-Boundedness（A-BB）」フレームワークを紹介。複数判定者の相関を61～99%保ちながらバイアスの過大影響を防ぐアプローチで、自律的AIシステムの評価インフラ構築に新たな道を示します。

#LLM #AI評価 #バイアス制御

記事を読む →

PaperBench: Evaluating AI’s Ability to Replicate AI Research

関連記事

LLM判定者のバイアス制御×理論的保証×信頼性向上への挑戦