#推論

6件の記事

ユースケース別 LLMベンチマーク読解ガイド

ベンチマークスコアを鵜呑みにしてはいけません。本記事は、コーディング・日本語・推論など用途別に「どのベンチマークを信じるべきか」を整理しています。SWE-bench、AIME、JGLUEといった具体的なベンチマーク名と、各々の弱点を解説。最終的には「自分のタスクで実際に試すこと」が最も信頼できるという現実的な指針を示しており、モデル選定の際の羅針盤になります。

#LLM #ベンチマーク #モデル選定

記事を読む →

🕵️

Zenn3月27日· 2分で読める中級🔥 注目

AIエージェント時代、業界トップの発言を翻訳・まとめてみた

推論モデルの次は「エージェント的思考」へ。Qwen元リードが語る最新トレンドです。「考えるだけではなく、環境と相互作用しながら行動を継続できるか」が問われる時代。フィードバック信号の質、環境そのものが学習システムの一部になることなど、従来と全く異なる研究課題が見えてきます。OpenAI・Anthropic・DeepSeekのトップたちも同じ方向を語っており、業界の次のフェーズが明確に浮かび上がります。

#エージェント #推論 #LLM

記事を読む →

✨

DeepMind12月23日· 2分で読める上級🔥 注目

Google's year in review: 8 areas with research breakthroughs in 2025

Googleが2025年に発表した8つの重要なAI研究成果を紹介しています。Gemini 3やGemma 3など最新モデルは推論・マルチモーダル・効率性で大幅に進化。AI駆動開発により検索やPixel 10など製品に統合され、科学分野（ゲノミクス・数学・量子コンピューティング）でも実績を上げています。責任あるAI開発と国際協調を重視しながら、AIがツールから実用的ユーティリティへ転換する転換点を示す内容です。

#モデル・基盤 #Gemini #AI駆動開発

記事を読む →

🕵️

DeepMind11月13日· 2分で読める上級🔥 注目

SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds

DeepMindが発表したSIMA 2は、Geminiモデルを統合したAIエージェントで、ゲーム内で単なる指示従行から推論・対話・自己改善へと進化しました。600以上のスキルを習得した前身と異なり、高レベルの目標を理解し、複雑な推論を通じてゲーム環境で自律的に行動できます。人間デモとGemini生成ラベルで訓練され、未見のゲームでも目標達成できる汎化能力を実現し、AGI実現に向けた重要なマイルストーンです。

#エージェント #AI駆動開発 #Gemini

記事を読む →

✨

DeepMind3月25日· 1分で読める上級🔥 注目

Gemini 2.5: Our most intelligent AI model

GoogleがGemini 2.5を発表しました。思考型モデルとしてLMArenaで大幅な差をつけて1位を獲得し、数学・コード・推論ベンチマークで最先端の性能を実現しています。強化学習とチェーン・オブ・ソート・プロンプティングを組み合わせ、複雑な問題解決とエージェント構築に対応する新世代モデルです。

#Gemini #モデル・基盤 #推論

記事を読む →

🧠

OpenAI12月20日· 1分で読める中級🔥 注目

Deliberative alignment: reasoning enables safer language models

OpenAIが「熟考的アライメント」という新しいアプローチを発表。推論プロセスを通じてLLMの安全性を向上させる手法で、単なる出力制御ではなく「考える過程」を改善することで、より信頼できるAIを実現できる可能性を示唆。実装による安全性向上の具体的な効果が期待される。

#LLM #AI安全性 #アライメント

記事を読む →