RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順
AI要約
RTX 4060 8GBというポンコツスペックでQwen2.5-32Bを動かし、Apple M4超える10.8 t/sを達成した最適化技術です。llama.cppのハイブリッド推論にCUDA Graph最適化を組み合わせ、ngl値の細かい調整で限界メモリを活かし切る。ローカルLLMの実装課題を解く、手がかりのある実践記です。
AI要約
RTX 4060 8GBというポンコツスペックでQwen2.5-32Bを動かし、Apple M4超える10.8 t/sを達成した最適化技術です。llama.cppのハイブリッド推論にCUDA Graph最適化を組み合わせ、ngl値の細かい調整で限界メモリを活かし切る。ローカルLLMの実装課題を解く、手がかりのある実践記です。

