#量子化

10件の記事

Ollama 0.19がMLXを採用 ─ Apple Siliconのローカル推論はどう変わるか

Ollama 0.19がApple Silicon向けの推論バックエンドをllama.cppからMLXに切り替えました。統一メモリ構造をネイティブに活用するMLXにより、デコード性能は約2倍向上します。ただしNVFP4量子化フォーマットの採用が必須で、既存モデルは改善を受けられない点に注意が必要です。M5チップでの追加最適化も解説しています。

#Apple Silicon #推論最適化 #LLM

記事を読む →

📰

Zenn4月1日· 2分で読める中級🔥 注目

AWS NeuronでLLMをINT8量子化してメモリ削減＋高速化する手順

AWS Inferentia2でLlama-3.1-8BをINT8量子化すると、メモリ使用量が約24%削減でき、推論速度も約24%向上します。本記事はNeuronx Distributed Inferenceの量子化APIを使った具体的な実装手順を、環境構築からベンチマーク実行まで実装コード付きで詳解しており、AWS NeuronでのLLM最適化方法を実践的に習得できます。

#AWS Neuron #量子化 #推論最適化

記事を読む →

🧠

Qiita3月26日· 2分で読める中級🔥 注目

Hugging FaceのLLMをローカルで動かす：量子化 → 実行までを解説

Hugging Faceのモデルをローカルで動かすには、GGUF形式への変換が必須です。本記事は量子化（Q4_K_Mなど）からLM Studioでの実行まで、Google Colabで再現可能なNotebookを用いた実践的なステップを解説しています。メモリ削減・ファイルサイズ縮小・推論高速化を実現でき、自作LLMをローカル環境で試したいエンジニアにとって即座に活用できる内容です。

#LLM #LMStudio #llama.cpp

記事を読む →

⚡

Zenn3月23日· 2分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBという制約条件下でQwen2.5-32Bを動かし、10.8 t/sの推論速度（M4同等）を実現した最適化手順を公開しています。llama.cppのハイブリッド推論とCUDA Graph有効化で8～12%高速化し、量子化とレイヤー分割の細かいチューニング手法を実装レベルで解説。APIコスト削減とオフライン環境でのコーディング支援を実現した、再現性のある完全ガイドです。

#AI駆動開発 #ローカルLLM #llama.cpp

記事を読む →

📰

Qiita3月22日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBというポンコツスペックでQwen2.5-32Bを動かし、Apple M4超える10.8 t/sを達成した最適化技術です。llama.cppのハイブリッド推論にCUDA Graph最適化を組み合わせ、ngl値の細かい調整で限界メモリを活かし切る。ローカルLLMの実装課題を解く、手がかりのある実践記です。

#ローカルLLM #llama.cpp #推論最適化

記事を読む →

📰

Zenn3月7日· 2分で読める中級🔥 注目

【検証】RTX 5090でQwen3.5 MXFP4量子化を動かす — Q4_K_Mとの性能比較とMMQクラッシュ解消の記録

RTX 5090でMXFP4_MOE量子化が動作するようになった経緯と、Q4_K_Mとの実測比較を報告します。llama.cpp b8196でBlackwell向けMMQカーネルが修正され、従来クラッシュしていたMXFP4が正常化。検証では、Prompt処理で+15%高速、VRAM節約+1GB、Vision処理も正常動作。テキスト生成ではQ4_K_Mが+8%優位など、用途別の使い分けポイントが明確になります。

#技術・実装 #量子化 #llama.cpp

記事を読む →

📰

Zenn3月6日· 1分で読める中級🔥 注目

ブラウザだけでAIを動かす：WASM / ONNX Runtime Web / TFLite Webの実装ノート（一般化）

ブラウザでAI推論を実行する3つの実装パターン（WASM/ONNX Runtime Web/TFLite Web）を、実務的な課題と解決策を交えて解説しています。モデル軽量化で桁単位の縮小を実現しつつ、セキュリティ・メモリ・数値一致といった落とし穴を、Worker/AudioWorklet活用やSAB設定などの具体的テクニックで乗り越える方法を学べます。

#WebAssembly #ONNX Runtime #TFLite Web

記事を読む →

📰

HuggingFace8月5日· 2分で読める中級🔥 注目

Welcome GPT OSS, the new open-source model family from OpenAI!

OpenAIが初のオープンソースモデル「GPT OSS」をApache 2.0ライセンスで公開しました。117Bと21Bの2サイズがあり、どちらも混合専門家（MoE）ベースで4bit量子化により高速推論を実現。大モデルはH100 1枚、小モデルは16GBメモリで動作するため、企業のオンプレミス環境から個人デバイスまで幅広い展開が可能です。推論最適化・ファインチューニング・ツール利用の実装ガイドも充実しており、実践的な活用を想定した設計になっています。

#モデル・基盤 #オープンソース #MoE

記事を読む →

🧠

HuggingFace4月29日· 1分で読める中級🔥 注目

Introducing AutoRound: Intel’s Advanced Quantization for LLMs and VLMs

Intelが開発した量子化ツール「AutoRound」は、LLMやVLMを効率的にデプロイする革新的なソリューションです。INT2での精度がベースラインの2.1倍高く、72Bモデルの量子化がA100で37分で完了。ほぼすべての主要モデルに対応し、低ビット精度での圧倒的な精度維持が実現できます。

#量子化 #LLM #VLM

記事を読む →

🧠

HuggingFace4月5日· 2分で読める中級🔥 注目

Welcome Llama 4 Maverick & Scout on Hugging Face

MetaがLlama 4 MaverickとScoutをHugging Faceで公開しました。MoEアーキテクチャで17Bアクティブパラメータを持つ両モデルは、テキスト・画像対応で40兆トークンで学習済み。Transformers v4.51.0とText Generation Inferenceで即座に利用可能で、Scout はGPU1枚で動作可能です。

#LLM #Llama #MoE

記事を読む →