#モデル圧縮 | LLM News

📰

Zenn3月30日· 2分で読める中級🔥 注目

Causal Circuit-Guided Pruning: 因果推論に基づくTransformerの機能保持圧縮とWandaとの比較

Transformerの圧縮手法における「相関」と「因果」の根本的な違いを正面から捉えた研究です。従来のWanda等は重みの大きさや入力活性度といった相関指標に頼っていますが、提案するCC-Pruneは因果推論（Pearl のdo-operator）を導入し、Activation Patchingで「本当に必要なコンポーネント」を特定します。高圧縮率でWandaを上回る性能の理論的・実験的証拠を示しており、LLM圧縮の実装者必読です。

#モデル圧縮 #因果推論 #Transformer

記事を読む →

🧠

HuggingFace4月29日· 1分で読める中級🔥 注目

Introducing AutoRound: Intel’s Advanced Quantization for LLMs and VLMs

Intelが開発した量子化ツール「AutoRound」は、LLMやVLMを効率的にデプロイする革新的なソリューションです。INT2での精度がベースラインの2.1倍高く、72Bモデルの量子化がA100で37分で完了。ほぼすべての主要モデルに対応し、低ビット精度での圧倒的な精度維持が実現できます。

#量子化 #LLM #VLM

記事を読む →