📰Qiita3月7日· 1分で読める中級🔥 注目村人(52)、GB10を激重にする 〜vLLMのパラメータを理解するまで〜vLLMでQwen3.5-27Bサーバーを立てたものの、初期性能は4.5 tokens/sで大幅に遅延。GPUはバッチ処理で真価を発揮することに気づき、max_num_seqsを増やして256並列投げを試行。この過程で直面した問題と改善策を、開発者らしい実体験を通じて学べます。パラメータチューニングの落とし穴が明確に見えます。#vLLM#LLM推論最適化#GPU最適化♡0👎☆ 保存記事を読む →