#CUDA

2件の記事

rvLLM：Rust製vLLM代替で学ぶGPU推論エンジンの実装最適化

Python vLLMのPCIeボトルネック（37MB/ステップのlogit転送）をGPU側argmaxで150,000倍削減し、Rustの所有権モデルでGIL・GC・PyTorchオーバーヘッドを排除したrvLLMの実装最適化が学べます。23 crateと15個のCUDAカーネルで、低バッチサイズでvLLMを上回る10,291 tok/sを実現。起動時間20倍高速・バイナリ31倍小型の成果から、推論エンジン選定の判断基準まで、システムレベルの最適化ノウハウが詰まっています。

#GPU推論 #CUDA #Rust

記事を読む →

⚡

Zenn3月23日· 2分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBという制約条件下でQwen2.5-32Bを動かし、10.8 t/sの推論速度（M4同等）を実現した最適化手順を公開しています。llama.cppのハイブリッド推論とCUDA Graph有効化で8～12%高速化し、量子化とレイヤー分割の細かいチューニング手法を実装レベルで解説。APIコスト削減とオフライン環境でのコーディング支援を実現した、再現性のある完全ガイドです。

#AI駆動開発 #ローカルLLM #llama.cpp

記事を読む →