Zenn· 2分で読める上級🔥 注目
ルーブリックに基づく主観的な判定を取り入れたGRPO学習
AI要約
ルールベースの判定が難しいタスクに対して、GRPO学習にVLMベースの主観的報酬関数を組み込む実装方法を紹介しています。スライド生成タスクを例に、HTML出力をスクリーンショット化して視覚的に評価する仕組みを構築。vLLMで報酬計算用VLMを分離し、学習ノードとの効率的な連携方法を実装コード付きで解説しており、マルチモーダルな実務タスクへの適用可能性を示しています。
AI要約
ルールベースの判定が難しいタスクに対して、GRPO学習にVLMベースの主観的報酬関数を組み込む実装方法を紹介しています。スライド生成タスクを例に、HTML出力をスクリーンショット化して視覚的に評価する仕組みを構築。vLLMで報酬計算用VLMを分離し、学習ノードとの効率的な連携方法を実装コード付きで解説しており、マルチモーダルな実務タスクへの適用可能性を示しています。