Qiita2026年3月22日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

AI要約

RTX 4060 8GBというポンコツスペックでQwen2.5-32Bを動かし、Apple M4超える10.8 t/sを達成した最適化技術です。llama.cppのハイブリッド推論にCUDA Graph最適化を組み合わせ、ngl値の細かい調整で限界メモリを活かし切る。ローカルLLMの実装課題を解く、手がかりのある実践記です。

#ローカルLLM #llama.cpp #推論最適化 #量子化 #GPU最適化

𝕏 ポスト B! はてブ

元記事を読む →

Zenn4月7日· 2分で読める中級🔥 注目

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

Gemma 4がローカルLLMの実務投入で真価を発揮します。株価予測タスク（500件の開示から方向を推定）でQwen 3.5に対し精度88% vs 71%、空振り4件 vs 19件と圧倒的に上回りました。特にMoE版（26b）は精度を損なわずVRAM 17GBで最速（0.8秒応答）を実現。「定型的な情報」と「実質的な材料」を区別できる能力が、実務投入で決定的に効きます。

#LLM #Gemma #ローカルLLM

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

関連記事

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

mesh-llm：余っているPCのGPUを束ねて巨大LLMを動かす分散推論の新アプローチ

RTX5070Ti + Ollama で動くローカル LLM で一番賢いのはどれだ？！実際に比較検証してみました

【Ollama】ローカルLLMでRAGを実装して遊んでみた