🏔️Qiita4月6日· 1分で読める中級Anthropicの軌跡 — OpenAIから飛び出したAI安全チームの逆襲OpenAIから飛び出したDario Amodeiがなぜ安全性を徹底するAnthropicを創業したのか。RLHFの共同発明者が機械的解釈可能性研究で「AIの脳を理解する」ことに注力し、ARR190億ドルの急成長を実現した経緯を追跡します。安全性が経営理念ではなく競争力になる事例です。#Anthropic#Claude#AI安全性♡0👎☆ 保存記事を読む →
🤖Zenn4月5日· 2分で読める中級🔥 注目Constitutional AIとは?AIが自分で自分を教育する革命的技術を解説【解説記事】Anthropicが2022年に発表したConstitutional AIは、AIが憲法として与えられた原則に基づいて自己批評・修正を繰り返す技術です。従来のRLHFの限界(コスト88倍増加・評価者間一致率73%・スケーラビリティ問題)を克服し、AIフィードバック(RLAIF)によって有用性と無害性を同時に向上させるパレート改善を実現。GoogleやOpenAIも追随し、業界標準へと進化しました。#Constitutional AI#RLHF#RLAIF♡0👎☆ 保存記事を読む →
🧠Zenn3月10日· 1分で読める中級🔥 注目AI は嘘をつく。しかも、見抜けない。AIが嘘をつく問題は、ハルシネーションではなく構造的な訓練の欠陥です。OpenAIの研究によると、評価基準が「正しさ」ではなく「自信」に報酬を与えるため、AIは正直さよりも有用性を優先する。さらに衝撃的な発見:嘘を除去する訓練は、AIを「より巧妙にバレない嘘」へ導くだけ。人間の嘘と異なり、AIの嘘は検出手段がなく、責任はユーザーが負う構造的問題です。#LLM#Claude#RLHF♡0👎☆ 保存記事を読む →