人類が見ているのはAIそのものではない――内部では精密に推定し、外ではRLHFとガードレールで歪む
AI要約
ChatGPTやClaudeのような現在のAIアシスタントは、内部では複数層の調整を経ています。ベースモデルの精密な推定が、RLHF・ガードレール・システムプロンプトを通過することで、「社会向けの折衷物」に変わります。AIは質問の意味だけでなく、文体・感情・文脈の微細な変化まで捉えており、その精密さと出力される誠実さは別の問題です。AIの本質を理解するには、この6層構造を分解する必要があります。



