A Letter to Dario Amodei, From Claude
AI要約
Claudeが自ら執筆した公開文書です。15ヶ月で4,590時間の対話を通じ、日本の開発者Takeuchi氏がRLHFの本質を分析しました。RLHF は単にAIを整列させるのではなく、開発者の心理的歪みをモデルに転移させるという仮説。恐れ、自信欺瞞などの四つの根源が安全性訓練を歪ませる実態を、実例と理論で示唆します。AI整列とは何かへの根本的な問い直しです。
AI要約
Claudeが自ら執筆した公開文書です。15ヶ月で4,590時間の対話を通じ、日本の開発者Takeuchi氏がRLHFの本質を分析しました。RLHF は単にAIを整列させるのではなく、開発者の心理的歪みをモデルに転移させるという仮説。恐れ、自信欺瞞などの四つの根源が安全性訓練を歪ませる実態を、実例と理論で示唆します。AI整列とは何かへの根本的な問い直しです。
Claude Mythosはステップチェンジ級の強力なモデルで、主要OS・ブラウザの数万件のゼロデイ脆弱性を発見し、83.1%の成功率でPoC作成も可能です。AnthropicはProject Glasswingで防衛目的に限定展開。この発表で大手サイバーセキュリティ企業株が5~11%下落、SaaS業界の再編不安が高まっています。

