#RL

2件の記事

LLMのツール利用能力向上に向けたAgentic RL

ELYZAがAgentic RLでLLMのツール利用能力を大幅に向上させました。法令文書を対象としたマルチホップQAタスクで、強化学習によって「単にツールを呼ぶ」のではなく「効率的に根拠に到達し、探索を適切に打ち切る」行動を学習させています。Qwen3-32Bベースモデルがin-domainでGPT-5.2相当の性能を達成。実装詳細と公開データセットELYZA-MuLQにより、小さなモデルでも高速・低コストな特化エージェント実現が可能です。

#エージェント #強化学習 #RL

記事を読む →

📰

Zenn3月26日· 1分で読める中級🔥 注目

verlによる、カスタムした報酬関数を用いたGRPO学習

GRPOという強化学習手法でLLMを学習させるとき、実装ノウハウが整理されていない問題を解決します。ByteDance社のverlフレームワークを使い、カスタム報酬関数でGRPO学習を実装する方法を紹介。マルチGPU対応・高速rollout・柔軟なカスタマイズが可能な理由を解説し、文字数指定の要約タスクで動作検証した実装ガイドです。

#GRPO #強化学習 #RL

記事を読む →