🧠Zenn3月25日· 1分で読める中級🔥 注目ねこと学ぶ🐱 Apple Silicon で LLM 推論を最適化する Hypura を試すApple Silicon上でVRAMに収まらないLLMを効率的に推論させるHypuraを試しました。70Bモデルではllama.cppの1 tok/sに対し3〜4 tok/sを実現。設定ミスやエラーハンドリングの荒さがある一方、13Bモデルなら12〜15 tok/sで実用的。ローカルLLM環境の有力な選択肢として検討の価値があります。#推論最適化#Apple Silicon#ローカルLLM♡0👎☆ 保存記事を読む →