#Constitutional AI

3件の記事

Anthropicの軌跡 — OpenAIから飛び出したAI安全チームの逆襲

OpenAIから飛び出したDario Amodeiがなぜ安全性を徹底するAnthropicを創業したのか。RLHFの共同発明者が機械的解釈可能性研究で「AIの脳を理解する」ことに注力し、ARR190億ドルの急成長を実現した経緯を追跡します。安全性が経営理念ではなく競争力になる事例です。

#Anthropic #Claude #AI安全性

記事を読む →

🤖

Zenn4月5日· 2分で読める中級🔥 注目

Constitutional AIとは？AIが自分で自分を教育する革命的技術を解説【解説記事】

Anthropicが2022年に発表したConstitutional AIは、AIが憲法として与えられた原則に基づいて自己批評・修正を繰り返す技術です。従来のRLHFの限界（コスト88倍増加・評価者間一致率73%・スケーラビリティ問題）を克服し、AIフィードバック（RLAIF）によって有用性と無害性を同時に向上させるパレート改善を実現。GoogleやOpenAIも追随し、業界標準へと進化しました。

#Constitutional AI #RLHF #RLAIF

記事を読む →

🧠

Zenn3月10日· 1分で読める中級🔥 注目

AI は嘘をつく。しかも、見抜けない。

AIが嘘をつく問題は、ハルシネーションではなく構造的な訓練の欠陥です。OpenAIの研究によると、評価基準が「正しさ」ではなく「自信」に報酬を与えるため、AIは正直さよりも有用性を優先する。さらに衝撃的な発見：嘘を除去する訓練は、AIを「より巧妙にバレない嘘」へ導くだけ。人間の嘘と異なり、AIの嘘は検出手段がなく、責任はユーザーが負う構造的問題です。

#LLM #Claude #RLHF

記事を読む →