#ベンチマーク

28件の記事

「オープンソースAIこそ正義」って言ってたじゃないか、、、ザッカーバーグが、クローズドモデルを出した日 ─ Meta Muse Sparkの全貌

Metaが2026年4月にクローズドソースの推論モデル「Muse Spark」を発表し、オープンソース路線からの転換を宣言しました。Llama 4失敗と中国勢の追い上げにより、戦略を変更。52点のベンチマークでGPT-5.4に肉薄し、医療・科学推論で強さを発揮する一方、コーディングで弱点を持ちます。Llama 4 Maverickと同等性能を10分の1以下の計算量で実現する「Contemplatingモード」が技術的特徴です。

#LLM #Meta #モデル・基盤

記事を読む →

🧠

Qiita4月8日· 1分で読める中級🔥 注目

国産LLM「LLM-jp-4」が日本語MT-BenchでGPT-4oを上回った ── 技術的背景と実用性を検証する

国産LLM「LLM-jp-4」が日本語MT-Benchで7.82をスコアし、GPT-4oの7.29を上回りました。MoE構造で320億パラメータながら38億のみアクティブとなり、推論コストは8B級。日本語特化トークナイザーと11.7兆トークンの訓練により、言語効率の課題を根本解決。英語性能も同等維持で、実務での採用可能性が大きく高まっています。

#LLM #日本語AI #GPT-4o

記事を読む →

🧠

Zenn4月7日· 2分で読める中級🔥 注目

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

Gemma 4がローカルLLMの実務投入で真価を発揮します。株価予測タスク（500件の開示から方向を推定）でQwen 3.5に対し精度88% vs 71%、空振り4件 vs 19件と圧倒的に上回りました。特にMoE版（26b）は精度を損なわずVRAM 17GBで最速（0.8秒応答）を実現。「定型的な情報」と「実質的な材料」を区別できる能力が、実務投入で決定的に効きます。

#LLM #Gemma #ローカルLLM

記事を読む →

✍️

Zenn4月7日· 1分で読める中級🔥 注目

LLMの性能比較、何件評価すれば足りますか？

LLM性能比較の根拠なき50件評価に統計学から警鐘を鳴らします。β誤り（本当は差があるのに見逃す）を減らす「検出力分析」が必須です。Cohen's d_zを使った効果量の見積もり方と、Pythonでの必要サンプル数計算を実例で解説。d_z=0.3の差なら90件、0.5なら36件必要とするなど、感度高い検定設計ができます。

#プロンプトエンジニアリング #AI駆動開発 #統計学

記事を読む →

🧠

Qiita4月3日· 2分で読める中級🔥 注目

ユースケース別 LLMベンチマーク読解ガイド

ベンチマークスコアを鵜呑みにしてはいけません。本記事は、コーディング・日本語・推論など用途別に「どのベンチマークを信じるべきか」を整理しています。SWE-bench、AIME、JGLUEといった具体的なベンチマーク名と、各々の弱点を解説。最終的には「自分のタスクで実際に試すこと」が最も信頼できるという現実的な指針を示しており、モデル選定の際の羅針盤になります。

#LLM #ベンチマーク #モデル選定

記事を読む →

📰

Zenn4月1日· 1分で読める中級🔥 注目

RTX5070Ti + Ollama で動くローカル LLM で一番賢いのはどれだ？！実際に比較検証してみました

RTX5070Tiで動作するローカルLLMを10種類ベンチマーク検証した記事です。VRAM16GBまで収まるgpt-oss:20bが速度と精度のバランスが最良で、Qwenは推論性能に優れ、larger modelはRAMオフロードで著しく速度低下することを実測データで実証しています。ローカルLLM導入時の機種選定に直結する具体値が豊富です。

#ローカルLLM #Ollama #ベンチマーク

記事を読む →

🧠

Qiita3月28日· 2分で読める中級🔥 注目

Inspect AI・Garak・PyRITで構築するLLM安全性評価パイプラインの実践ガイド

Inspect AI・Garak・PyRITの3ツールを組み合わせたLLM安全性評価パイプラインの実装ガイドです。OWASP Top 10に基づく脆弱性テストから本番環境のガードレール実装まで、「評価→レッドチーミング→ガードレール→モニタリング」の4層防御モデルを、コード例付きで体系的に解説しています。Inspect AIで評価作業時間を60%短縮、Garakで検出困難な攻撃パターンを自動検出といった具体的な成果も示唆されており、LLMアプリケーション運用時の安全性確保に直結する実践的な知見が得られます。

#LLM #セキュリティ #ガードレール

記事を読む →

🤖

Qiita3月27日· 2分で読める中級🔥 注目

ARC-AGI-3入門 — フロンティアAI全モデルが1%未満のベンチマーク全貌

ARC-AGI-3は静的パズルではなく、未知の環境で自律的にルール発見・行動するインタラクティブ推論ベンチマークです。衝撃の結果として、GPT-5.4・Claude Opus 4.6・Gemini 3.1が全て1%未満の低スコアに対し、単純なCNN+グラフ探索が12.58%で最高得点を記録。RHAE指標（人間行動数÷AI行動数の二乗）の設計思想から各モデルの詳細スコアまで、AGI研究の最新ベンチマーク全貌を具体数値で解説しています。

#ベンチマーク #AGI #LLM評価

記事を読む →

🕵️

Qiita3月26日· 2分で読める中級🔥 注目

Diffblue Testing Agent入門 — 自律型リグレッションテストでカバレッジ81%を実現する仕組み

Diffblue Testing Agentは、Claude CodeやGitHub Copilotの上で動作するオーケストレーション型テストエージェントです。強化学習を用いた自律的なテスト生成により、8つの実Javaプロジェクトで80.7%のラインカバレッジを達成。これは人間+Claude Code（32.3%）の2.5倍です。カバレッジ分析から並列生成・検証・PR作成まで完全に自動化され、オンプレミス実行も可能です。

#エージェント #AI駆動開発 #テスト自動化

記事を読む →

📰

Zenn3月25日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

RTX 4060 8GBでQwen3.5の3モデル（9B・27B・35B-A3B）を実際に動かし、スペック表では見えない実装知見を暴露します。同じVRAM使用量でも速度が10倍違う理由、MoEなぜGPU利用率が高いのか、thinking tokenがctx枯渇を招く罠——ローカルLLM運用の現実が詰まった検証記です。

#ローカルLLM #Qwen #llama.cpp

記事を読む →

🎵

Qiita3月24日· 2分で読める中級

ベンチマーク信仰の構造（AI共生戦略とSpec駆動）

ベンチマークスコアだけでAIを評価するのは危険です。MMLU・HumanEvalなどのスコアは安心を与える一方で、ベンチマーク汚染やコスト・レイテンシ・安定性といった現場で重要な指標を見逃させます。著者は「Vibe Check」という実運用での相性確認を重視し、数値・コスト・速度・安定性・使った感覚を総合判断することで、初めてAIの本当の価値が見えると指摘しています。

#AI評価 #ベンチマーク #VibeCoding

記事を読む →

🤖

Qiita3月24日· 2分で読める中級🔥 注目

GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro ── 2026年2-3月の3大モデルを徹底比較

2026年2-3月にGPT-5.4・Claude Opus 4.6・Gemini 3.1 Proが相次ぎリリースされました。SWE-bench Verifiedでは両者とも80%超を達成し、コード自動修正が現実的になっています。本記事は単なるスコア比較ではなく、各社の戦略的意図を分析。OpenAIはエージェント制空権、AnthropicはClaude Codeによる開発者体験の囲い込み、GoogleはWorkspace統合による実務浸透と、「モデル性能」より「エコシステム戦略」で差別化していることを指摘します。ベンチマーク詳解と価格表で、ツールチェーン選定の実践的判断軸が得られます。

#GPT-5.4 #Claude #Gemini

記事を読む →

📰

Qiita3月23日· 2分で読める中級🔥 注目

M5 MacBook Proでローカルにシフトする — LM Studio × llama.cpp × Ollama 実践ベンチマーク 2026年3月版

M5 MacBook ProはLLM推論が従来比で最大6.9倍高速化され、ローカル実行の実用性が大きく向上しました。本記事では、LM Studio・llama.cpp・Ollamaの3ツールの選び方、M5 Maxで実測108 t/sを実現するベンチマーク、ユニファイドメモリによる100GB超モデルの実行可能性を、具体的な環境構築とともに解説します。APIコスト削減とプライバシー重視のエンジニアに必読の実践ガイドです。

#LocalLLM #M5MacBookPro #LM Studio

記事を読む →

⚡

Zenn3月22日· 2分で読める中級🔥 注目

週刊AI駆動開発 - 2026年03月22日

Cursor、Gemini CLI、Claude Code、VS Codeなど主要AI開発ツールが一斉アップデート。Cursorは初の自社コーディングモデル「Composer 2」で全ベンチマークを大幅改善（CursorBench 39%向上）、Gemini CLIはPlan Modeデフォルト化とLXCサンドボックス追加、Claude CodeはChannels機能で開発ワークフローを拡張。エージェント機能の強化とセキュリティ面での進化が顕著です。

#AI駆動開発 #Cursor #Claude Code

記事を読む →

🧠

Qiita3月22日· 2分で読める中級🔥 注目

Xiaomi MiMo-V2-Pro入門 — 匿名で1兆トークン処理した1TパラメータLLMの全貌

Xiaomiが秘密裏に開発した1T超パラメータのLLM「MiMo-V2-Pro」が、「Hunter Alpha」として1週間で1兆トークン処理されました。42Bアクティブパラメータ・1Mコンテキストウィンドウ・Hybrid Attention機構により、Claude Opusに迫る性能を実現しながら、フロンティアモデルの約1/25のコスト（入出力$1/$3）で利用可能です。OpenAI互換APIでの実装方法も詳解します。

#LLM #MoE #モデル・基盤

記事を読む →

📰

Qiita3月20日· 2分で読める中級🔥 注目

CPU only！Qwen3.5 / Qwen2.5 / DeepSeek-R1 / Gemma2 をOllamaで徹底比較 — 小型LLM 5モデル実機ベンチマーク

GPU不要なCPU環境でローカルLLMを動かしたい需要に応える実践的なベンチマーク記事です。Qwen3.5・Qwen2.5・DeepSeek-R1など5モデルをCPU環境（Intel Core i3）で実機検証し、推論速度とタスク別成果を定量的に比較しています。Qwen3.5は速度では優位ですが思考モードが暴走するため非実用的、日本語タスクではQwen2.5が最強という具体的な知見が得られます。

#ローカルLLM #Ollama #ベンチマーク

記事を読む →

💬

Zenn3月19日· 1分で読める中級

GPTのReact習熟度も測る

Claude CodeのReact習熟度ベンチマークに続き、GPT-4.1とGPT-5.4を同じ評価基準で測定した結果を報告しています。複数のモデル間の性能差を具体的に比較でき、AIコーディング支援ツール選定の際の判断材料として活用できます。実装能力の客観的な測定方法が示されており、チーム導入時の意思決定に役立つ内容です。

#Claude Code #GPT-4 #AI駆動開発

記事を読む →

🤖

Qiita3月9日· 2分で読める中級🔥 注目

Opus vs Sonnet ── AIの「安い方」でコード書かせたら、たった1テスト差だった件

ClaudeのOpus 4.6とSonnet 4.6でコード生成能力を比較した実験結果です。4言語×5回の同一条件で総合スコアは133対132と僅差でしたが、失敗パターンが異なります。Opusは致命的な1回の大失敗、Sonnetは小さなバグが毎回散在。ビルド失敗は即座に気づけますが、テスト7項目中6項目が通るバグは見逃しやすく、実務ではSonnetの方が怖いという実践的な知見が得られます。

#Claude #AI駆動開発 #モデル比較

記事を読む →

🧠

Qiita3月9日· 2分で読める中級🔥 注目

Qwen3 14B / 30B-A3B / 32B を Ollama で比較：交通費の課税判定タスクで見えた差

Ollama上で動作するQwen3の3つのモデルサイズ（14B/30B-A3B/32B）を、日本の税制ルール理解が必要な交通費課税判定タスクで実測比較しました。32B Denseが20件中20件正答と最高精度ですが、処理時間12分40秒のコストを考えると、軽量モデルで下仕分けしつつ複雑ケースだけ大型モデルを使う多段階判定が現実的だと明かされています。プロンプトのルール正確性が精度を大きく左右する点も実装の重要な知見です。

#LLM #Qwen #ベンチマーク

記事を読む →

⚡

Zenn3月8日· 2分で読める中級🔥 注目

スキルクリエイターにeval自動生成が追加 — Agent Skillsのベンチマークとモデル更新対応が変わる

Claude Codeのスキルエコシステムが50から334件超に急成長する中、モデル更新時の品質劣化を検知する課題が浮上しました。Anthropicが3月3日に発表した新機能は、エンジニアでないスキル作者向けにeval自動生成・並列実行・A/Bテスト・説明文最適化を提供。evals.jsonで期待値を定義するだけでpass rateやtoken usageを測定でき、モデル更新後の品質劣化を数値で捉えられます。ただしCI統合による本格運用には結局エンジニアのサポートが必要という実装上の課題も指摘されています。

#Claude Code #Agent Skills #AI駆動開発

記事を読む →

📰

Zenn3月7日· 2分で読める中級🔥 注目

【検証】RTX 5090でQwen3.5 MXFP4量子化を動かす — Q4_K_Mとの性能比較とMMQクラッシュ解消の記録

RTX 5090でMXFP4_MOE量子化が動作するようになった経緯と、Q4_K_Mとの実測比較を報告します。llama.cpp b8196でBlackwell向けMMQカーネルが修正され、従来クラッシュしていたMXFP4が正常化。検証では、Prompt処理で+15%高速、VRAM節約+1GB、Vision処理も正常動作。テキスト生成ではQ4_K_Mが+8%優位など、用途別の使い分けポイントが明確になります。

#技術・実装 #量子化 #llama.cpp

記事を読む →

🧠

Zenn3月7日· 2分で読める中級🔥 注目

neoAI-InstructBench：実際のLLM利用シナリオに根ざした日本語指示追従ベンチマーク

複数の指示を同時に与えられたとき、LLMがすべてを順守できない問題に着目した日本語ベンチマーク「neoAI-InstructBench」が開発されました。100タスク・326指示で構成し、実際のユーザー入力から設計。GPT-5.2でも完遂率は67%に留まり、指示間の干渉や過剰思考といった実運用のボトルネックを明らかにしています。評価コードはGitHubで公開済みです。

#LLM #ベンチマーク #指示追従

記事を読む →

✨

Qiita3月7日· 1分で読める中級🔥 注目

Gemini 3.1 Pro入門 — 推論性能2倍・思考制御・APIの全貌

Gemini 3.1 Proが登場し、ARC-AGI-2で前世代の31.1%から77.1%へと推論性能が2倍以上向上した。思考レベル制御（low/medium/high）でタスクに応じた推論深度とコストの最適化が可能になり、16ベンチマーク中13項目でトップスコアを獲得。API仕様と実装方法を含む完全解説で、移行手順まで網羅している。

#Gemini #LLM #APIガイド

記事を読む →

📰

Zenn3月7日· 1分で読める中級🔥 注目

Pharma/Medical LLM Evaluation

医療・製薬領域に特化したLLM評価の包括的ガイドです。医学QAベンチマーク「IgakuQA」の最新アップデートや、複数の医療LLMペーパーをまとめた解析を通じて、医療分野特有の評価指標の重要性を学べます。43,000字以上の詳細な技術コンテンツで、医療AI開発に携わるエンジニアの実践知識を深められます。

#医療LLM #LLM評価 #ベンチマーク

記事を読む →

📰

Zenn3月6日· 2分で読める中級

Transformerのパラメタ数を増やした際の観察

Transformerのパラメタ数を13M〜115Mで変化させ、同一データセット（300文）での学習を比較しました。パラメタが多いほど収束は速いものの、訓練済み事実の正答率は単調増加せず、モデルサイズごとに得意領域が異なることが判明。未学習事実への汎化はパラメタ数に関わらずほぼ0%のままで、単なるパラメタ増加では汎化能力は向上しないことを実験的に示しています。

#モデル・基盤 #Transformer #ベンチマーク

記事を読む →

✨

DeepMind2月19日· 2分で読める上級🔥 注目

Gemini 3.1 Pro: A smarter model for your most complex tasks

GoogleがGemini 3.1 Proをリリースしました。ARC-AGI-2ベンチマークで77.1%を達成し、Gemini 3 Proの2倍以上の推論性能を実現しています。複雑な問題解決に特化した設計で、Gemini API・Vertex AI・アプリなど複数プラットフォームで利用可能です。エージェント開発向けプレビュー版も提供され、実装者にとって実践的な価値が高まります。

#モデル・基盤 #Gemini #推論最適化

記事を読む →

🔬

OpenAI4月16日· 1分で読める中級🔥 注目

Introducing OpenAI o3 and o4-mini

OpenAIが推論特化型モデル「o3」と軽量版「o4-mini」を発表。o3は複雑な問題解決で従来モデルを大幅に上回り、ARC-AGI、AIME、GPQA Diamondなどのベンチマークで驚異的な正答率を達成。推論時間と精度のトレードオフを調整できるユニークな仕様で、実用的なAI駆動開発の新フェーズを切り開く。

#OpenAI #o3 #o4-mini

記事を読む →

💬

OpenAI4月2日· 1分で読める中級🔥 注目

PaperBench: Evaluating AI’s Ability to Replicate AI Research

OpenAIが「PaperBench」を公開。AIが実際のAI論文を再現できるかを測定するベンチマークだ。GPT-4やClaudeなどのLLMが、既存論文の実装・実験を独力で完成させられるか評価。AIの研究開発能力を定量化する初の試みで、将来「AI研究者」の実力を判定する基準になるかもしれない。

#AI評価 #ベンチマーク #AI研究

記事を読む →