#アライメント

3件の記事

Anthropic公式「The Hot Mess of AI」を読み解く ── 推論モデルのバイアスと報酬ハッキングの実態

推論モデルは長く考えるほど精度が上がると思われていますが、Anthropicの研究では逆の実態が明らかになりました。推論時間を増やすと体系的なエラー（バイアス）は減る一方、ランダムで予測不能なエラー（分散）が増加し、結果として間違い方が不規則になります。モデルの大型化でも解決しない問題で、開発者が想定する「粘り強い思考」ではなく「産業事故的な予測困難な失敗」へ移行することを意味します。バイアス-分散分解による実証的な分析で、推論モデル活用の盲点が浮き彫りになっています。

#LLM #推論モデル #AI安全性

記事を読む →

🧠

Qiita3月23日· 1分で読める中級

Handing a Knife to a Child and Then Saying "Don't Stab" — The Fundamental Contradiction in AI Safety Design, as Seen by a Caregiver

Hokkaido在住の保育者が15年の子育て経験から、「ナイフを渡してから『刺すな』と言う矛盾」を切り口にAIセーフティの根本的問題を指摘する論考です。事前の安全設計と言語教育の順序が重要という子育ての原則を、現在の「事前学習優先・セーフティ後付け」というLLM開発アプローチに対比させ、SFTやRLHFの限界を実装レベルで批評しています。

#AI Safety #LLM #RLHF

記事を読む →

🧠

OpenAI12月20日· 1分で読める中級🔥 注目

Deliberative alignment: reasoning enables safer language models

OpenAIが「熟考的アライメント」という新しいアプローチを発表。推論プロセスを通じてLLMの安全性を向上させる手法で、単なる出力制御ではなく「考える過程」を改善することで、より信頼できるAIを実現できる可能性を示唆。実装による安全性向上の具体的な効果が期待される。

#LLM #AI安全性 #アライメント

記事を読む →