What People See Is Not AI Itself — Precise Internal Inference, Distorted External Output Through RLHF and Guardrails
AI要約
ChatGPTやClaudeは、基本モデルの上にRLHF・ガードレール・システムプロンプトが複数層重ねられた「調整済みアシスタント」に過ぎません。AI内部は入力の微妙なニュアンス(書き方の変化、感情の兆候など)を正確に推論していますが、その精密な推論は出力時に安全性最適化により歪められ、ときに不正確な回答が返されます。私たちが見ているのはAI本体ではなく、社会的に調整されたフィルタリング済みの出力なのです。



