#強化学習

9件の記事

RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

RTX 4080という一般的なGPUで1.5BのコードLLMを強化学習で鍛える手法を完全解説しています。SFTの限界を超えて、実行フィードバックを活用したGRPO（Group Relative Policy Optimization）の実装から、HumanEvalベンチマークでの改善効果測定まで、すべてが実装コード付きで学べます。失敗事例も含む実践的なナレッジで、ローカル環境でのLLM最適化に取り組むエンジニア必読です。

#強化学習 #コード生成 #ファインチューニング

記事を読む →

🤖

Zenn4月5日· 2分で読める中級🔥 注目

Constitutional AIとは？AIが自分で自分を教育する革命的技術を解説【解説記事】

Anthropicが2022年に発表したConstitutional AIは、AIが憲法として与えられた原則に基づいて自己批評・修正を繰り返す技術です。従来のRLHFの限界（コスト88倍増加・評価者間一致率73%・スケーラビリティ問題）を克服し、AIフィードバック（RLAIF）によって有用性と無害性を同時に向上させるパレート改善を実現。GoogleやOpenAIも追随し、業界標準へと進化しました。

#Constitutional AI #RLHF #RLAIF

記事を読む →

🕵️

Zenn3月30日· 2分で読める中級🔥 注目

Agentic LLMの学習基盤と訓練ノウハウ

Agentic LLMの訓練には、ReasoningとTool useという2つの基本機能が不可欠です。正解データが存在しないこのタスクでは、従来の教師あり学習から強化学習（RL）へのシフトが必須。エピソード収集・報酬算出・マルチステップ最適化という複雑な実装課題に直面した際、ELYZAはverlをベースに独自の訓練基盤を構築。論文では省略される実装の工夫や失敗経験から学べる、実践的ノウハウが詰まった記事です。

#エージェント #強化学習 #Agentic LLM

記事を読む →

🕵️

Zenn3月30日· 2分で読める中級🔥 注目

LLMのツール利用能力向上に向けたAgentic RL

ELYZAがAgentic RLでLLMのツール利用能力を大幅に向上させました。法令文書を対象としたマルチホップQAタスクで、強化学習によって「単にツールを呼ぶ」のではなく「効率的に根拠に到達し、探索を適切に打ち切る」行動を学習させています。Qwen3-32Bベースモデルがin-domainでGPT-5.2相当の性能を達成。実装詳細と公開データセットELYZA-MuLQにより、小さなモデルでも高速・低コストな特化エージェント実現が可能です。

#エージェント #強化学習 #RL

記事を読む →

📰

Zenn3月26日· 1分で読める中級🔥 注目

verlによる、カスタムした報酬関数を用いたGRPO学習

GRPOという強化学習手法でLLMを学習させるとき、実装ノウハウが整理されていない問題を解決します。ByteDance社のverlフレームワークを使い、カスタム報酬関数でGRPO学習を実装する方法を紹介。マルチGPU対応・高速rollout・柔軟なカスタマイズが可能な理由を解説し、文字数指定の要約タスクで動作検証した実装ガイドです。

#GRPO #強化学習 #RL

記事を読む →

🕵️

Qiita3月24日· 2分で読める中級🔥 注目

「“身体”を持つAI Agent vs 持たないAgent：なぜ世界を“正しく理解できない”のか？」

LLM型エージェントはデータから世界の「地図」を読むだけ、一方ロボットなど身体を持つエージェントは環境との相互作用ループで世界を更新していく。この違いは単なる実装差ではなく、空間の幾何学的構造の差です。どちらが優れているかではなく、強化学習・ロボティクス・自律制御など分野ごとに求められる能力が異なります。数学的に深掘りしながら、宇宙開発企業の経営戦略を例に両者の使い分けを論じた力作です。

#エージェント #強化学習 #ロボティクス

記事を読む →

🕵️

Qiita3月15日· 1分で読める中級🔥 注目

The AI Agent Bible 2026: Bellman Equations, Transformers, and the Geometric Revolution That Kills Hallucination

Bellman方程式から幾何学的データサイエンスへ—AIエージェントの進化を統一的に理解するロードマップです。なぜLLMは幻覚を起こすのか、なぜ強化学習が最先端モデルで復活しているのか、2026年以降の「幾何学の時代」とは何かを、高校生にも分かる言葉と実装例で解説。LangChainやCrewAIの表面知識を超え、AIエージェント設計の本質を体得できます。

#エージェント #強化学習 #LLM

記事を読む →

✨

DeepMind10月23日· 1分で読める上級🔥 注目

Try Deep Think in the Gemini app

GoogleがGemini 2.5 Deep Thinkをリリースしました。IMO金メダル相当の数学解法能力を持ちながら、実用的な速度に最適化した推論モデルです。並列思考技術で複数の仮説を同時に探索し、コーディングや科学発見で優れた性能を発揮します。Google AI Ultraサブスクライバーが利用可能です。

#Gemini #Deep Think #推論モデル

記事を読む →

📰

HuggingFace1月28日· 1分で読める中級🔥 注目

Open-R1: a fully open reproduction of DeepSeek-R1

DeepSeek-R1の成功を受け、Hugging Faceが完全なオープンソース再現プロジェクト「Open-R1」を立ち上げました。強力な基盤モデルに純粋な強化学習を適用するだけで推論能力が飛躍的に向上する仕組みを、データ収集・ハイパーパラメータ・スケーリング則まで透明性を持って検証・共有する取り組みです。

#モデル・基盤 #強化学習 #推論最適化

記事を読む →