🧠Zenn4月3日· 2分で読める中級🔥 注目蒸留モデルって何? - DeepSeek R1の登場から1年の節目に振り返る蒸留とは大きなモデルの「思考の癖」を小さなモデルに模倣させる技術です。DeepSeek-R1が話題になった理由は、最終答だけでなく推論過程(Chain of Thought)全体をソフトラベルで転送できたこと。Temperatureパラメータで確率分布をぼかし、モデル間の関係性を暗黙知として移すメカニズムが解説されており、蒸留・量子化・Fine-tuningの違いまで体系的に理解できます。#蒸留(Distillation)#DeepSeek#LLM♡0👎☆ 保存記事を読む →