Zenn· 2分で読める中級🔥 注目
【検証】RTX 5090でQwen3.5 MXFP4量子化を動かす — Q4_K_Mとの性能比較とMMQクラッシュ解消の記録
RTX 5090でMXFP4_MOE量子化が動作するようになった経緯と、Q4_K_Mとの実測比較を報告します。llama.cpp b8196でBlackwell向けMMQカーネルが修正され、従来クラッシュしていたMXFP4が正常化。検証では、Prompt処理で+15%高速、VRAM節約+1GB、Vision処理も正常動作。テキスト生成ではQ4_K_Mが+8%優位など、用途別の使い分けポイントが明確になります。