#コード生成

11件の記事

RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

RTX 4080という一般的なGPUで1.5BのコードLLMを強化学習で鍛える手法を完全解説しています。SFTの限界を超えて、実行フィードバックを活用したGRPO（Group Relative Policy Optimization）の実装から、HumanEvalベンチマークでの改善効果測定まで、すべてが実装コード付きで学べます。失敗事例も含む実践的なナレッジで、ローカル環境でのLLM最適化に取り組むエンジニア必読です。

#強化学習 #コード生成 #ファインチューニング

記事を読む →

⚡

Zenn4月3日· 2分で読める中級🔥 注目

なぜ、画像生成とコード生成とで、プロと素人のAIの利用状況が真逆になるのか？

なぜプロはコード生成AIを毎日使うのに、プロ絵師は画像生成AIを控えめなのか。その答えは「熟練の中心がどこにあるか」の違いです。プログラマーの場合、仕様分解や構造維持が本質で、実装の細部をAIに任せても核心は自分で保持できます。一方、イラストレーターの場合、頭の中の像を実体化する過程そのものが価値で、AIが補助できるのは発想段階だけ。Stack Overflowの調査で職業開発者の50.6%が毎日AIを使う一方、両者とも結局AIを使っているのに「使う場所が真逆」という逆転現象の本質を解き明かします。

#AI駆動開発 #プロンプトエンジニアリング #LLM

記事を読む →

🧠

Qiita3月13日· 1分で読める中級

LLMの学習データ偏り問題、もう古い話なの？

LLMの学習データ偏り問題は「昔の話」ではなく、最新の「コーディングエージェントハーネス」で解決へ向かっています。計画→生成→実行→評価→修正というループで、学習データが少ないRustなどの言語でも、エラーメッセージから自律的にデバッグできるようになりました。手を動かしながら試行錯誤できる仕組みが、新技術習得の課題を根本的に変えようとしています。

#LLM #エージェント #AI駆動開発

記事を読む →

💬

Qiita3月11日· 1分で読める中級🔥 注目

ChatGPTを開発で使うためのプロンプト集第二弾【中級者向け・場面別まとめ】

ChatGPTを開発に活用する中級者向けプロンプト集です。リファクタリング・API設計・パフォーマンス改善など実務的な場面別に、すぐコピーして使えるテンプレートを紹介しています。最大のポイントは「制約を明示するほど精度が上がる」という原則で、技術的制約・出力形式・禁止事項を具体的に指定することで、期待通りの出力を引き出せます。

#ChatGPT #プロンプトエンジニアリング #AI駆動開発

記事を読む →

🤖

Zenn3月8日· 1分で読める中級🔥 注目

Claude Codeを爆速進化！CLIでAIの力を引き出す方法

Claude CodeをCLIから直接操作できるcodex-mcp-toolが登場しました。ワンコマンドで導入でき、ターミナルからプロンプトを送るだけでコード生成やリファクタリング提案が即座に得られます。Ollama/LM Studioなどのローカルモデルにも対応しており、GUIを開く手間が省けるため開発フローに大きく組み込める実践的なツールです。

#Claude #Claude Code #CLI

記事を読む →

⚡

Zenn3月7日· 2分で読める中級

Codex GPT-5.4、Claude Codeとガチで互角だった件

Codex GPT-5.4がClaude Codeと遜色ない性能を発揮していることを実検証したレポートです。要件理解度の深さ、Pythonicなコード生成、デバッグ能力で互角の実力を確認。MCPやプラグイン連携ではClaude Codeが優位ですが、純粋なコア能力ではCodex GPT-5.4が急速に追い上げており、複数のAIを使い分ける時代の到来を示唆しています。

#Claude Code #Codex GPT #AI駆動開発

記事を読む →

⚡

Qiita3月7日· 1分で読める中級🔥 注目

ソフトウェアは料理になる

AIのコード生成が実用化した今、ソフトウェア開発は「建築」から「料理」へ比喩が変わります。難しさが下がり、非エンジニアでも気軽に自分用ツールを作れる時代へ。プロが作る大規模システムは「レストラン」、個人が作るツールは「家庭料理」として棲み分けが進み、問われるのはコード力より「良いUIがわかるか」という目利き力へシフトする世界観が広がります。

#AI駆動開発 #LLM #コード生成

記事を読む →

✨

DeepMind11月18日· 2分で読める上級🔥 注目

Start building with Gemini 3

GoogleがGemini 3 Proを発表しました。前世代を上回るベンチマーク性能を持ち、特にコーディングとエージェント型ワークフロー（Terminal-Bench 2.0で54.2%スコア）で優れています。Gemini API経由で$2/百万トークンから利用でき、Google Antigravityなどの開発プラットフォームで「ビブコーディング」も実現。自然言語からアプリを構築する新時代が来ました。

#Gemini #エージェント #AI駆動開発

記事を読む →

✨

DeepMind5月20日· 2分で読める上級🔥 注目

Gemini 2.5: Our most intelligent models are getting even better

Google DeepMindがGemini 2.5シリーズの大幅アップデートを発表しました。2.5 Proはコーディングで世界首位、WebDev ArenaでELOスコア1415を達成。Deep Thinkという推論強化モード、ネイティブ音声出力、Project Marinerのコンピュータ操作機能が追加されます。Gemini APIにはMCPツール対応と思考予算拡張が実装され、開発体験が大幅に向上します。

#Gemini #Claude #AI駆動開発

記事を読む →

✨

DeepMind3月25日· 1分で読める上級🔥 注目

Gemini 2.5: Our most intelligent AI model

GoogleがGemini 2.5を発表しました。思考型モデルとしてLMArenaで大幅な差をつけて1位を獲得し、数学・コード・推論ベンチマークで最先端の性能を実現しています。強化学習とチェーン・オブ・ソート・プロンプティングを組み合わせ、複雑な問題解決とエージェント構築に対応する新世代モデルです。

#Gemini #モデル・基盤 #推論

記事を読む →

📰

HuggingFace3月11日· 2分で読める上級🔥 注目

Open R1: Update #3

DeepSeek-R1の推論手法をオープンソース化するOpen R1プロジェクトの最新成果です。競技プログラミングに特化した約10万サンプルのCodeForces-CoTsデータセットと、IOI（国際情報オリンピック）ベンチマークを公開しました。これらで訓練したOlympicCoder-32Bモデルは、Claude 3.7 Sonnetなどの閉鎖型frontier モデルを上回り、100倍以上大きなモデルも凌駕しています。実装可能な高品質データセットとベンチマークが揃い、コード推論の民主化が進みます。

#モデル・基盤 #推論最適化 #オープンソース

記事を読む →

RTX 4080で挑む強化学習コードLLM — 実行フィードバックで1.5Bモデルを鍛える全記録

なぜ、画像生成とコード生成とで、プロと素人のAIの利用状況が真逆になるのか？

LLMの学習データ偏り問題、もう古い話なの？

ChatGPTを開発で使うためのプロンプト集 第二弾【中級者向け・場面別まとめ】

Claude Codeを爆速進化！CLIでAIの力を引き出す方法

Codex GPT-5.4、Claude Codeとガチで互角だった件

ソフトウェアは料理になる

Start building with Gemini 3

Gemini 2.5: Our most intelligent models are getting even better

Gemini 2.5: Our most intelligent AI model

Open R1: Update #3

ChatGPTを開発で使うためのプロンプト集第二弾【中級者向け・場面別まとめ】