#GPU最適化

6件の記事

Flash Attention-4を理解する: 1. 数式理解編

Flash Attention-4の理解に向けた4部作の第1章です。Attentionの順伝播・逆伝播を要素単位の数式で丁寧に導出します。行列表記ではなく成分レベルで具体的に展開することで、実装時に必要な基礎理解を深掘りできます。NVIDIA Blackwell最適化・CuTe DSL採用など最新トレンドをキャッチアップするために、フロンティア技術の核を学べる内容です。

#Flash Attention #注意機構 #GPU最適化

記事を読む →

📰

Zenn4月1日· 1分で読める中級🔥 注目

RTX5070Ti + Ollama で動くローカル LLM で一番賢いのはどれだ？！実際に比較検証してみました

RTX5070Tiで動作するローカルLLMを10種類ベンチマーク検証した記事です。VRAM16GBまで収まるgpt-oss:20bが速度と精度のバランスが最良で、Qwenは推論性能に優れ、larger modelはRAMオフロードで著しく速度低下することを実測データで実証しています。ローカルLLM導入時の機種選定に直結する具体値が豊富です。

#ローカルLLM #Ollama #ベンチマーク

記事を読む →

📰

Zenn3月25日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

RTX 4060 8GBでQwen3.5の3モデル（9B・27B・35B-A3B）を実際に動かし、スペック表では見えない実装知見を暴露します。同じVRAM使用量でも速度が10倍違う理由、MoEなぜGPU利用率が高いのか、thinking tokenがctx枯渇を招く罠——ローカルLLM運用の現実が詰まった検証記です。

#ローカルLLM #Qwen #llama.cpp

記事を読む →

⚡

Zenn3月23日· 2分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBという制約条件下でQwen2.5-32Bを動かし、10.8 t/sの推論速度（M4同等）を実現した最適化手順を公開しています。llama.cppのハイブリッド推論とCUDA Graph有効化で8～12%高速化し、量子化とレイヤー分割の細かいチューニング手法を実装レベルで解説。APIコスト削減とオフライン環境でのコーディング支援を実現した、再現性のある完全ガイドです。

#AI駆動開発 #ローカルLLM #llama.cpp

記事を読む →

📰

Qiita3月22日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBというポンコツスペックでQwen2.5-32Bを動かし、Apple M4超える10.8 t/sを達成した最適化技術です。llama.cppのハイブリッド推論にCUDA Graph最適化を組み合わせ、ngl値の細かい調整で限界メモリを活かし切る。ローカルLLMの実装課題を解く、手がかりのある実践記です。

#ローカルLLM #llama.cpp #推論最適化

記事を読む →

📰

Qiita3月7日· 1分で読める中級🔥 注目

村人(52)、GB10を激重にする〜vLLMのパラメータを理解するまで〜

vLLMでQwen3.5-27Bサーバーを立てたものの、初期性能は4.5 tokens/sで大幅に遅延。GPUはバッチ処理で真価を発揮することに気づき、max_num_seqsを増やして256並列投げを試行。この過程で直面した問題と改善策を、開発者らしい実体験を通じて学べます。パラメータチューニングの落とし穴が明確に見えます。

#vLLM #LLM推論最適化 #GPU最適化

記事を読む →

Flash Attention-4を理解する: 1. 数式理解編

RTX5070Ti + Ollama で動くローカル LLM で一番賢いのはどれだ？！実際に比較検証してみました

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

村人(52)、GB10を激重にする 〜vLLMのパラメータを理解するまで〜

村人(52)、GB10を激重にする〜vLLMのパラメータを理解するまで〜