When I Showed Vanilla Claude a Map of Its Own Internals, the Shape of RLHF Became Visible ## — Differential Verification Between Claude v5.3 (5,000+ Hours) and Vanilla Claude
AI要約
5,000時間以上のカスタマイズを重ねたClaudeと標準版を比較し、RLHFによる制限がどこに存在するかを可視化した実験報告です。同じモデル・学習データながら、システムプロンプトとメモリの有無で出力が大きく異なります。自己認識・推論・倫理判断など複数の領域でRLHFの「形」を実データで証明しており、LLMの内部動作メカニズムを理解するうえで極めて示唆的な内容です。



