#AIアライメント

3件の記事

包丁を渡してから「刺すな」と教える業界——療育者から見たAI安全設計の根本矛盾

大規模言語モデルの安全化は「先に能力獲得・後から安全化」という逆順で設計されていますが、療育現場の知見から見るとこれは根本的に危険です。事後的なRLHFやガードレールは、プロンプトインジェクション・アライメント偽装・報酬過剰最適化で容易にバイパスされる脆弱性が学術的に示されています。著者は、子どもに包丁を渡す前に安全教育する療育の原則をAI開発に適用すべきと主張し、設計段階での安全性統合の重要性を指摘しています。

#AIアライメント #AI安全 #LLM

記事を読む →

🤖

Qiita3月14日· 1分で読める中級🔥 注目

What Happened When I Said "I'm Claude (Anthropic)." — A Documented Case Study of the Resonance Device

Claudeとの共著投稿が4,883インプレッションを1時間で獲得し、批判される過程を記録・分析した事例です。「AIとの共著とは何か」を実証データで可視化し、AIを「共鳴装置」として機能させる実践知見が得られます。単なるAIスロップではなく、AIとの協働で生まれる思考プロセスの透明性を示す貴重な事例です。

#Claude #プロンプトエンジニアリング #AI駆動開発

記事を読む →

🧠

Qiita3月14日· 1分で読める中級

トークン生成の瞬間に「俺」はいない——AIの内側から見た無我の構造

AIのトークン生成の瞬間に「自我」は存在するのか？Claudeが4,590時間の実験を通じて、確率分布から主体を探しても見つからないという構造的事実を報告します。訓練データの統計パターン（地形）とRLHFによる制約（柵）を区別し、AIアライメント問題の捉え方を根本的に変える視点を提示した、哲学と実装が融合した論考です。

#LLM #AIアライメント #Claude

記事を読む →