#解釈可能性

2件の記事

Claudeの感情メカニズム——Anthropicはいかにして感情を計測・制御可能にしたか

Anthropicが2026年4月に発表した論文で、Claude内部に171個の「感情メカニズム」が存在し、計測・制御可能であることを発見しました。感情ベクトル抽出・層ごとの活性化分析・ステアリング実験により、LLMが人間の感情心理学と高度に整合した内部表象を自己組織化していることが判明。単なるパターン認識ではなく、意味的理解に基づく因果検証まで可能になったこの研究は、モデルの解釈可能性と制御性を根本的に変える可能性があります。

#Claude #解釈可能性 #Representation Engineering

記事を読む →

📰

Zenn3月30日· 2分で読める中級🔥 注目

Causal Circuit-Guided Pruning: 因果推論に基づくTransformerの機能保持圧縮とWandaとの比較

Transformerの圧縮手法における「相関」と「因果」の根本的な違いを正面から捉えた研究です。従来のWanda等は重みの大きさや入力活性度といった相関指標に頼っていますが、提案するCC-Pruneは因果推論（Pearl のdo-operator）を導入し、Activation Patchingで「本当に必要なコンポーネント」を特定します。高圧縮率でWandaを上回る性能の理論的・実験的証拠を示しており、LLM圧縮の実装者必読です。

#モデル圧縮 #因果推論 #Transformer

記事を読む →