Zenn2026年3月7日· 2分で読める中級🔥 注目

neoAI-InstructBench：実際のLLM利用シナリオに根ざした日本語指示追従ベンチマーク

AI要約

複数の指示を同時に与えられたとき、LLMがすべてを順守できない問題に着目した日本語ベンチマーク「neoAI-InstructBench」が開発されました。100タスク・326指示で構成し、実際のユーザー入力から設計。GPT-5.2でも完遂率は67%に留まり、指示間の干渉や過剰思考といった実運用のボトルネックを明らかにしています。評価コードはGitHubで公開済みです。

#LLM #ベンチマーク #指示追従 #日本語 #評価 #エージェント

𝕏 ポスト B! はてブ

元記事を読む →

neoAI-InstructBench：実際のLLM利用シナリオに根ざした日本語指示追従ベンチマーク

関連記事

1人でAIチームを作る方法（PM・エンジニア・レビュアー）

ベクトル検索は不要なのか

教育を「最短経路問題」として解いてはいけない理由 ── 近代教育の父ペスタロッチ vs 6人のAI

「オープンソースAIこそ正義」って言ってたじゃないか、、、ザッカーバーグが、クローズドモデルを出した日 ─ Meta Muse Sparkの全貌