#GGUF

3件の記事

Hugging FaceのLLMをローカルで動かす：量子化 → 実行までを解説

Hugging Faceのモデルをローカルで動かすには、GGUF形式への変換が必須です。本記事は量子化（Q4_K_Mなど）からLM Studioでの実行まで、Google Colabで再現可能なNotebookを用いた実践的なステップを解説しています。メモリ削減・ファイルサイズ縮小・推論高速化を実現でき、自作LLMをローカル環境で試したいエンジニアにとって即座に活用できる内容です。

#LLM #LMStudio #llama.cpp

記事を読む →

🧠

Qiita3月8日· 2分で読める中級🔥 注目

llama-server でローカルLLMサーバーを構築する（llama.cpp + GGUF）

OllamaではなくllmaCppを直接利用してローカルLLMサーバーを構築する手順を紹介しています。llama-serverはHTTPサーバーとして動作し、OpenAI互換APIで既存ツールから接続可能です。Windows環境でGGUFモデル（Qwen3.5-9B）を使い、RTX 4080 SUPERでVRAM 8GB程度で運用する実装例が詳しく解説されています。

#LLM #llama.cpp #GGUF

記事を読む →

📰

Zenn3月7日· 2分で読める中級🔥 注目

【検証】RTX 5090でQwen3.5 MXFP4量子化を動かす — Q4_K_Mとの性能比較とMMQクラッシュ解消の記録

RTX 5090でMXFP4_MOE量子化が動作するようになった経緯と、Q4_K_Mとの実測比較を報告します。llama.cpp b8196でBlackwell向けMMQカーネルが修正され、従来クラッシュしていたMXFP4が正常化。検証では、Prompt処理で+15%高速、VRAM節約+1GB、Vision処理も正常動作。テキスト生成ではQ4_K_Mが+8%優位など、用途別の使い分けポイントが明確になります。

#技術・実装 #量子化 #llama.cpp

記事を読む →