🧠Zenn4月2日· 1分で読める中級🔥 注目Ollama 0.19がMLXを採用 ─ Apple Siliconのローカル推論はどう変わるかOllama 0.19がApple Silicon向けの推論バックエンドをllama.cppからMLXに切り替えました。統一メモリ構造をネイティブに活用するMLXにより、デコード性能は約2倍向上します。ただしNVFP4量子化フォーマットの採用が必須で、既存モデルは改善を受けられない点に注意が必要です。M5チップでの追加最適化も解説しています。#Apple Silicon#推論最適化#LLM♡0👎☆ 保存記事を読む →
🧠Zenn3月25日· 1分で読める中級🔥 注目ねこと学ぶ🐱 Apple Silicon で LLM 推論を最適化する Hypura を試すApple Silicon上でVRAMに収まらないLLMを効率的に推論させるHypuraを試しました。70Bモデルではllama.cppの1 tok/sに対し3〜4 tok/sを実現。設定ミスやエラーハンドリングの荒さがある一方、13Bモデルなら12〜15 tok/sで実用的。ローカルLLM環境の有力な選択肢として検討の価値があります。#推論最適化#Apple Silicon#ローカルLLM♡0👎☆ 保存記事を読む →
📰Qiita3月23日· 2分で読める中級🔥 注目M5 MacBook Proでローカルにシフトする — LM Studio × llama.cpp × Ollama 実践ベンチマーク 2026年3月版M5 MacBook ProはLLM推論が従来比で最大6.9倍高速化され、ローカル実行の実用性が大きく向上しました。本記事では、LM Studio・llama.cpp・Ollamaの3ツールの選び方、M5 Maxで実測108 t/sを実現するベンチマーク、ユニファイドメモリによる100GB超モデルの実行可能性を、具体的な環境構築とともに解説します。APIコスト削減とプライバシー重視のエンジニアに必読の実践ガイドです。#LocalLLM#M5MacBookPro#LM Studio♡0👎☆ 保存記事を読む →