#vLLM

7件の記事

rvLLM：Rust製vLLM代替で学ぶGPU推論エンジンの実装最適化

Python vLLMのPCIeボトルネック（37MB/ステップのlogit転送）をGPU側argmaxで150,000倍削減し、Rustの所有権モデルでGIL・GC・PyTorchオーバーヘッドを排除したrvLLMの実装最適化が学べます。23 crateと15個のCUDAカーネルで、低バッチサイズでvLLMを上回る10,291 tok/sを実現。起動時間20倍高速・バイナリ31倍小型の成果から、推論エンジン選定の判断基準まで、システムレベルの最適化ノウハウが詰まっています。

#GPU推論 #CUDA #Rust

記事を読む →

⚡

Zenn3月27日· 2分で読める上級🔥 注目

ルーブリックに基づく主観的な判定を取り入れたGRPO学習

ルールベースの判定が難しいタスクに対して、GRPO学習にVLMベースの主観的報酬関数を組み込む実装方法を紹介しています。スライド生成タスクを例に、HTML出力をスクリーンショット化して視覚的に評価する仕組みを構築。vLLMで報酬計算用VLMを分離し、学習ノードとの効率的な連携方法を実装コード付きで解説しており、マルチモーダルな実務タスクへの適用可能性を示しています。

#GRPO #VLM #ファインチューニング

記事を読む →

🧠

Qiita3月18日· 1分で読める中級🔥 注目

vLLMを用いたモデル並列化手法の性能評価

vLLMの3つのモデル並列化手法（テンソル・パイプライン・エキスパート並列）を、RTX 6000 Ada 4基搭載の単一ホスト環境で実装・性能評価した結果を紹介しています。GPUメモリ制約を超える大規模LLM推論の実装知見と、各手法の通信量・リソース使用率トレードオフがわかります。エンタープライズ環境でのLLM推論最適化に直結する実践的ガイドです。

#vLLM #推論最適化 #モデル並列化

記事を読む →

📰

Qiita3月7日· 1分で読める中級🔥 注目

村人(52)、GB10を激重にする〜vLLMのパラメータを理解するまで〜

vLLMでQwen3.5-27Bサーバーを立てたものの、初期性能は4.5 tokens/sで大幅に遅延。GPUはバッチ処理で真価を発揮することに気づき、max_num_seqsを増やして256並列投げを試行。この過程で直面した問題と改善策を、開発者らしい実体験を通じて学べます。パラメータチューニングの落とし穴が明確に見えます。

#vLLM #LLM推論最適化 #GPU最適化

記事を読む →

⚡

Zenn3月7日· 2分で読める中級🔥 注目

Twinsプロジェクト　経緯

個人開発者がClaudeとMCPを活用して2体のロボット「Six」「Seven」を構築した実例です。クラウドLLMの遅延・トークン制限という現実的な課題に直面し、ローカルLLM（Ollama）やOpenCV、M5 AI Pyramidなどを組み合わせる試行錯誤を重ねています。「LLMはコード生成と判断に長け、リアルタイム処理は苦手」「単純処理はOpenCVの方が確実」といった実装知見が凝縮されており、AI駆動ロボティクスの現場で何が使えて何が使えないかを体感できる記事です。

#AI駆動開発 #Claude #MCP

記事を読む →

⚡

Zenn3月7日· 1分で読める中級🔥 注目

Claude CodeをOllama・vLLM・Anthropicで切り替える方法

Claude CodeはAnthropic API互換のエンドポイントを利用するため、BASE_URLを変更するだけでOllamaやvLLMといったローカルLLMに切り替えられます。DGX Spark上でQwen3-Coder-Nextを動かし、実際に動作確認する具体的な手順を解説。秘密情報の保護とAPI費用削減を両立させる実践的なアプローチです。

#Claude Code #AI駆動開発 #Ollama

記事を読む →

📰

Zenn3月6日· 1分で読める中級🔥 注目

vLLM v0.16.0 リリースノート解説

vLLM v0.16.0で非同期スケジューリングとPipeline Parallelが統合され、End-to-End スループット30.8%、TPOT 31.8%の大幅改善を実現しました。CPU/GPUの並列実行、バッチキュー、Futureベースの非同期実装などの技術詳細を、実装コード付きで解説しており、推論基盤の高度な最適化手法を深く学べます。

#vLLM #推論最適化 #Pipeline Parallel

記事を読む →

rvLLM：Rust製vLLM代替で学ぶGPU推論エンジンの実装最適化

ルーブリックに基づく主観的な判定を取り入れたGRPO学習

vLLMを用いたモデル並列化手法の性能評価

村人(52)、GB10を激重にする 〜vLLMのパラメータを理解するまで〜

Twinsプロジェクト 経緯

Claude CodeをOllama・vLLM・Anthropicで切り替える方法

vLLM v0.16.0 リリースノート解説

村人(52)、GB10を激重にする〜vLLMのパラメータを理解するまで〜

Twinsプロジェクト　経緯