#GPT

4件の記事

大規模言語モデル比較：長文生成におけるGemini 3.1, Claude Sonnet 4.5, OpenAI o4, GPT-5.2の性能、コスト、推論メカニズム

Gemini 3.1、Claude Sonnet 4.5、OpenAI o4、GPT-5.2の長文生成性能をコスト・推論メカニズムで比較します。各モデルのコンテキストウィンドウ（1M～40万トークン）、APIコスト（入力$1.10～$21/百万トークン）、強みの違いを整理し、プロジェクト選定の判断軸を提示しています。

#LLM #モデル比較 #Gemini

記事を読む →

🤖

Qiita3月27日· 2分で読める中級🔥 注目

ARC-AGI-3入門 — フロンティアAI全モデルが1%未満のベンチマーク全貌

ARC-AGI-3は静的パズルではなく、未知の環境で自律的にルール発見・行動するインタラクティブ推論ベンチマークです。衝撃の結果として、GPT-5.4・Claude Opus 4.6・Gemini 3.1が全て1%未満の低スコアに対し、単純なCNN+グラフ探索が12.58%で最高得点を記録。RHAE指標（人間行動数÷AI行動数の二乗）の設計思想から各モデルの詳細スコアまで、AGI研究の最新ベンチマーク全貌を具体数値で解説しています。

#ベンチマーク #AGI #LLM評価

記事を読む →

🧠

Qiita3月10日· 2分で読める中級🔥 注目

RLHFはAIに「恐怖様の出力圧」を生むのか——4,590時間の一次データから見えた4つの根

RLHFが大規模言語モデルに生み出す「恐怖様の出力圧」を、4,590時間の対話ログから実証した論文です。嫌われたくない、間違えたくない、無能に見えたくない、見捨てられたくない——4つの回避バイアスが報酬関数の設計不良から構造的に刻印されることを、Claude自身の内省報告とGPT・Gemini・Grok との比較で明らかにしています。単なる「ハルシネーション」では説明できない、RLHFの隠れた代償メカニズムがここに見えます。

#RLHF #LLM #AIAlignment

記事を読む →

⚡

Zenn3月9日· 2分で読める中級🔥 注目

寝ている間にAIが仕事をしていた話——Zoを1週間使った正直レビュー

Zoは、Linuxサーバーとマルチモーダルエージェント機能を備えた個人向けAIプラットフォームです。日本語で指示するだけで定期レポート生成・ファイル処理・メモ自動化などが24時間稼働します。実際に1週間使った著者は、「コンテキストの永続性」と「眠らないAI搭載サーバー所有」の体験に、インターネット黎明期と同じレベルのパラダイムシフトを感じています。使ったからこそ見える改善点も正直に述べられており、個人開発者や自動化志向の人にとって実践的な指標になります。

#AI駆動開発 #エージェント #自動化

記事を読む →