ねこと学ぶ🐱 Apple Silicon で LLM 推論を最適化する Hypura を試す
AI要約
Apple Silicon上でVRAMに収まらないLLMを効率的に推論させるHypuraを試しました。70Bモデルではllama.cppの1 tok/sに対し3〜4 tok/sを実現。設定ミスやエラーハンドリングの荒さがある一方、13Bモデルなら12〜15 tok/sで実用的。ローカルLLM環境の有力な選択肢として検討の価値があります。
AI要約
Apple Silicon上でVRAMに収まらないLLMを効率的に推論させるHypuraを試しました。70Bモデルではllama.cppの1 tok/sに対し3〜4 tok/sを実現。設定ミスやエラーハンドリングの荒さがある一方、13Bモデルなら12〜15 tok/sで実用的。ローカルLLM環境の有力な選択肢として検討の価値があります。
Metaが2026年4月にクローズドソースの推論モデル「Muse Spark」を発表し、オープンソース路線からの転換を宣言しました。Llama 4失敗と中国勢の追い上げにより、戦略を変更。52点のベンチマークでGPT-5.4に肉薄し、医療・科学推論で強さを発揮する一方、コーディングで弱点を持ちます。Llama 4 Maverickと同等性能を10分の1以下の計算量で実現する「Contemplatingモード」が技術的特徴です。

