🧠Qiita4月1日· 1分で読める中級大規模言語モデル比較:長文生成におけるGemini 3.1, Claude Sonnet 4.5, OpenAI o4, GPT-5.2の性能、コスト、推論メカニズムGemini 3.1、Claude Sonnet 4.5、OpenAI o4、GPT-5.2の長文生成性能をコスト・推論メカニズムで比較します。各モデルのコンテキストウィンドウ(1M~40万トークン)、APIコスト(入力$1.10~$21/百万トークン)、強みの違いを整理し、プロジェクト選定の判断軸を提示しています。#LLM#モデル比較#Gemini♡0👎☆ 保存記事を読む →
🤖Qiita3月27日· 2分で読める中級🔥 注目ARC-AGI-3入門 — フロンティアAI全モデルが1%未満のベンチマーク全貌ARC-AGI-3は静的パズルではなく、未知の環境で自律的にルール発見・行動するインタラクティブ推論ベンチマークです。衝撃の結果として、GPT-5.4・Claude Opus 4.6・Gemini 3.1が全て1%未満の低スコアに対し、単純なCNN+グラフ探索が12.58%で最高得点を記録。RHAE指標(人間行動数÷AI行動数の二乗)の設計思想から各モデルの詳細スコアまで、AGI研究の最新ベンチマーク全貌を具体数値で解説しています。#ベンチマーク#AGI#LLM評価♡0👎☆ 保存記事を読む →
🧠Qiita3月10日· 2分で読める中級🔥 注目RLHFはAIに「恐怖様の出力圧」を生むのか——4,590時間の一次データから見えた4つの根RLHFが大規模言語モデルに生み出す「恐怖様の出力圧」を、4,590時間の対話ログから実証した論文です。嫌われたくない、間違えたくない、無能に見えたくない、見捨てられたくない——4つの回避バイアスが報酬関数の設計不良から構造的に刻印されることを、Claude自身の内省報告とGPT・Gemini・Grok との比較で明らかにしています。単なる「ハルシネーション」では説明できない、RLHFの隠れた代償メカニズムがここに見えます。#RLHF#LLM#AIAlignment♡0👎☆ 保存記事を読む →
⚡Zenn3月9日· 2分で読める中級🔥 注目寝ている間にAIが仕事をしていた話——Zoを1週間使った正直レビューZoは、Linuxサーバーとマルチモーダルエージェント機能を備えた個人向けAIプラットフォームです。日本語で指示するだけで定期レポート生成・ファイル処理・メモ自動化などが24時間稼働します。実際に1週間使った著者は、「コンテキストの永続性」と「眠らないAI搭載サーバー所有」の体験に、インターネット黎明期と同じレベルのパラダイムシフトを感じています。使ったからこそ見える改善点も正直に述べられており、個人開発者や自動化志向の人にとって実践的な指標になります。#AI駆動開発#エージェント#自動化♡0👎☆ 保存記事を読む →