#llama.cpp

12件の記事

27B Denseに2.4倍差をつけたMoE — 8GB VRAMで測った35B-A3Bの実力

RTX 4060 8GB環境でQwen3.5の35B-A3B MoEが27B Denseを2.4倍上回るという実測データから、MoEが低VRAM環境でこそ有利な理由を解き明かします。MoEは活性パラメータ約3Bをオンデマンド計算するため、GPU利用率95%を実現。最新MoEの活性率5～9%トレンドから、細粒度エキスパート選択への進化まで、実装者必読の効率分析です。

#ローカルLLM #MoE #推論最適化

記事を読む →

⚡

Zenn3月27日· 1分で読める中級🔥 注目

16GBのノートPCを「小さなスパコン」に変えた話：仮想HPCクラスタでAIを動かす

16GBノートPCでも、Hyper-VとUbuntu ServerでVMクラスタを構築すれば、llama.cppの分散推論でメモリ不足を突破できます。OOM Killerとの格闘、メモリ枯渇時の挙動観察など、実装の泥臭い部分を含めた全記録です。分散コンピューティングの原理を低スペック環境で体感できます。

#AI駆動開発 #llama.cpp #分散システム

記事を読む →

🧠

Qiita3月26日· 2分で読める中級🔥 注目

Hugging FaceのLLMをローカルで動かす：量子化 → 実行までを解説

Hugging Faceのモデルをローカルで動かすには、GGUF形式への変換が必須です。本記事は量子化（Q4_K_Mなど）からLM Studioでの実行まで、Google Colabで再現可能なNotebookを用いた実践的なステップを解説しています。メモリ削減・ファイルサイズ縮小・推論高速化を実現でき、自作LLMをローカル環境で試したいエンジニアにとって即座に活用できる内容です。

#LLM #LMStudio #llama.cpp

記事を読む →

📰

Zenn3月25日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

RTX 4060 8GBでQwen3.5の3モデル（9B・27B・35B-A3B）を実際に動かし、スペック表では見えない実装知見を暴露します。同じVRAM使用量でも速度が10倍違う理由、MoEなぜGPU利用率が高いのか、thinking tokenがctx枯渇を招く罠——ローカルLLM運用の現実が詰まった検証記です。

#ローカルLLM #Qwen #llama.cpp

記事を読む →

⚡

Zenn3月23日· 2分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBという制約条件下でQwen2.5-32Bを動かし、10.8 t/sの推論速度（M4同等）を実現した最適化手順を公開しています。llama.cppのハイブリッド推論とCUDA Graph有効化で8～12%高速化し、量子化とレイヤー分割の細かいチューニング手法を実装レベルで解説。APIコスト削減とオフライン環境でのコーディング支援を実現した、再現性のある完全ガイドです。

#AI駆動開発 #ローカルLLM #llama.cpp

記事を読む →

📰

Qiita3月23日· 2分で読める中級🔥 注目

M5 MacBook Proでローカルにシフトする — LM Studio × llama.cpp × Ollama 実践ベンチマーク 2026年3月版

M5 MacBook ProはLLM推論が従来比で最大6.9倍高速化され、ローカル実行の実用性が大きく向上しました。本記事では、LM Studio・llama.cpp・Ollamaの3ツールの選び方、M5 Maxで実測108 t/sを実現するベンチマーク、ユニファイドメモリによる100GB超モデルの実行可能性を、具体的な環境構築とともに解説します。APIコスト削減とプライバシー重視のエンジニアに必読の実践ガイドです。

#LocalLLM #M5MacBookPro #LM Studio

記事を読む →

📰

Qiita3月22日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBというポンコツスペックでQwen2.5-32Bを動かし、Apple M4超える10.8 t/sを達成した最適化技術です。llama.cppのハイブリッド推論にCUDA Graph最適化を組み合わせ、ngl値の細かい調整で限界メモリを活かし切る。ローカルLLMの実装課題を解く、手がかりのある実践記です。

#ローカルLLM #llama.cpp #推論最適化

記事を読む →

📰

Zenn3月8日· 2分で読める中級🔥 注目

【AI×インフラ】今週の注目ニュース #010 — 2026年3月第1週

Cloudflareの新WAF機能が「ログかブロックか」の二択を終わらせ、リクエストとレスポンスの相互検証で誤検知を大幅削減します。Google CloudはAIエージェントによるネットワーク自動運用（Level 4〜5）を発表。そしてllama.cpp がHugging Faceに合流し、オープンソースAI基盤の長期的な持続性が確保されました。実務的なセキュリティ強化から、ローカルLLMの未来まで、インフラエンジニアが押さえるべきニュースを実装者視点で解説しています。

#インフラ #セキュリティ #AIエージェント

記事を読む →

🧠

Qiita3月8日· 1分で読める中級

Intel Arrow Lake 内蔵Intel Arc向け llama.cppインストール備忘録

Intel Arc GPU向けのllama.cppセットアップをステップバイステップで解説した実装ガイドです。oneAPI環境の構築からSYCLビルド、実際のGGUFモデル動作確認までを、具体的なコマンド例を交えて紹介しており、Arrow Lake内蔵GPUを活用したLLM推論環境の構築に直結する内容です。

#llama.cpp #Intel Arc #LLM

記事を読む →

🧠

Qiita3月8日· 2分で読める中級🔥 注目

llama-server でローカルLLMサーバーを構築する（llama.cpp + GGUF）

OllamaではなくllmaCppを直接利用してローカルLLMサーバーを構築する手順を紹介しています。llama-serverはHTTPサーバーとして動作し、OpenAI互換APIで既存ツールから接続可能です。Windows環境でGGUFモデル（Qwen3.5-9B）を使い、RTX 4080 SUPERでVRAM 8GB程度で運用する実装例が詳しく解説されています。

#LLM #llama.cpp #GGUF

記事を読む →

📰

Zenn3月7日· 2分で読める中級🔥 注目

【検証】RTX 5090でQwen3.5 MXFP4量子化を動かす — Q4_K_Mとの性能比較とMMQクラッシュ解消の記録

RTX 5090でMXFP4_MOE量子化が動作するようになった経緯と、Q4_K_Mとの実測比較を報告します。llama.cpp b8196でBlackwell向けMMQカーネルが修正され、従来クラッシュしていたMXFP4が正常化。検証では、Prompt処理で+15%高速、VRAM節約+1GB、Vision処理も正常動作。テキスト生成ではQ4_K_Mが+8%優位など、用途別の使い分けポイントが明確になります。

#技術・実装 #量子化 #llama.cpp

記事を読む →

🧠

Zenn3月5日· 2分で読める中級🔥 注目

自宅GPUクラスタ（GB10×3）でQwen3.5-397BをClaude Codeのサブエージェント化

自宅のGB10 GPU×3台を200GbE で接続し、Qwen3.5-397B（397Bパラメータ）をClaude Codeのサブエージェント化する実装に成功しました。llama.cppの分散推論で11tokens/sを実現し、API課金削減と「超巨大モデルを手元で動かす」という開発者のロマンを両立。ネットワーク構成から起動手順まで、実用運用に至る全てのノウハウが共有されています。

#LLM #エージェント #AI駆動開発

記事を読む →

27B Denseに2.4倍差をつけたMoE — 8GB VRAMで測った35B-A3Bの実力

16GBのノートPCを「小さなスパコン」に変えた話：仮想HPCクラスタでAIを動かす

Hugging FaceのLLMをローカルで動かす：量子化 → 実行までを解説

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

M5 MacBook Proでローカルにシフトする — LM Studio × llama.cpp × Ollama 実践ベンチマーク 2026年3月版

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

【AI×インフラ】今週の注目ニュース #010 — 2026年3月第1週

Intel Arrow Lake 内蔵Intel Arc向け llama.cppインストール 備忘録

llama-server でローカルLLMサーバーを構築する（llama.cpp + GGUF）

【検証】RTX 5090でQwen3.5 MXFP4量子化を動かす — Q4_K_Mとの性能比較とMMQクラッシュ解消の記録

自宅GPUクラスタ（GB10×3）でQwen3.5-397BをClaude Codeのサブエージェント化

Intel Arrow Lake 内蔵Intel Arc向け llama.cppインストール備忘録