Zenn· 2分で読める中級🔥 注目
LLMのツール利用能力向上に向けたAgentic RL
ELYZAがAgentic RLでLLMのツール利用能力を大幅に向上させました。法令文書を対象としたマルチホップQAタスクで、強化学習によって「単にツールを呼ぶ」のではなく「効率的に根拠に到達し、探索を適切に打ち切る」行動を学習させています。Qwen3-32Bベースモデルがin-domainでGPT-5.2相当の性能を達成。実装詳細と公開データセットELYZA-MuLQにより、小さなモデルでも高速・低コストな特化エージェント実現が可能です。