Detecting and reducing scheming in AI models

Qiita4月1日· 1分で読める中級🔥 注目

Qiita3月23日· 2分で読める中級🔥 注目

包丁を渡してから「刺すな」と教える業界——療育者から見たAI安全設計の根本矛盾

大規模言語モデルの安全化は「先に能力獲得・後から安全化」という逆順で設計されていますが、療育現場の知見から見るとこれは根本的に危険です。事後的なRLHFやガードレールは、プロンプトインジェクション・アライメント偽装・報酬過剰最適化で容易にバイパスされる脆弱性が学術的に示されています。著者は、子どもに包丁を渡す前に安全教育する療育の原則をAI開発に適用すべきと主張し、設計段階での安全性統合の重要性を指摘しています。

#AIアライメント #AI安全 #LLM

記事を読む →

📰

DeepMind10月23日· 2分で読める上級🔥 注目

Strengthening our Frontier Safety Framework

Google DeepMindが「フロンティア安全フレームワーク」第3版を公開し、有害操作と不整合リスクへの対策を強化しました。AIモデルが信念や行動を大規模に操作するリスクを検出する「Critical Capability Level」を新設し、機械学習研究の加速に伴う新たなリスクにも対応します。エビデンスに基づく安全評価プロセスの進化で、業界標準となる包括的アプローチを示しています。

#AI安全 #リスク評価 #DeepMind

記事を読む →

Detecting and reducing scheming in AI models

関連記事

「気持ちいいAI」が関係修復を遠ざけるとき──迎合的研究をIT設計に落とす

包丁を渡してから「刺すな」と教える業界——療育者から見たAI安全設計の根本矛盾

Strengthening our Frontier Safety Framework