Zenn2026年3月27日· 2分で読める上級🔥 注目

ルーブリックに基づく主観的な判定を取り入れたGRPO学習

AI要約

ルールベースの判定が難しいタスクに対して、GRPO学習にVLMベースの主観的報酬関数を組み込む実装方法を紹介しています。スライド生成タスクを例に、HTML出力をスクリーンショット化して視覚的に評価する仕組みを構築。vLLMで報酬計算用VLMを分離し、学習ノードとの効率的な連携方法を実装コード付きで解説しており、マルチモーダルな実務タスクへの適用可能性を示しています。

#GRPO #VLM #ファインチューニング #AI駆動開発 #vLLM

𝕏 ポスト B! はてブ

元記事を読む →

Zenn4月5日· 2分で読める上級🔥 注目

RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

RTX 4080という一般的なGPUで1.5BのコードLLMを強化学習で鍛える手法を完全解説しています。SFTの限界を超えて、実行フィードバックを活用したGRPO（Group Relative Policy Optimization）の実装から、HumanEvalベンチマークでの改善効果測定まで、すべてが実装コード付きで学べます。失敗事例も含む実践的なナレッジで、ローカル環境でのLLM最適化に取り組むエンジニア必読です。

#強化学習 #コード生成 #ファインチューニング

ルーブリックに基づく主観的な判定を取り入れたGRPO学習

関連記事

RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

verlによる、カスタムした報酬関数を用いたGRPO学習