#マルチモーダル

13件の記事

人間 v.s. Claude Code — どっちの方がIQ高いのか比較してみた

Claude Codeと実務エンジニア5人のIQテスト対決で意外な結果が判明。総合スコアは人間が勝ちましたが、分野別では大きな違いが。数値推理と論理推理ではAIが強く、空間認識では人間が圧倒。AIが画像をトークン化して処理するのに対し、人間は「見て」解く並列処理の威力が、この領域の根本的な優位性として浮き彫りになります。

#Claude Code #AI駆動開発 #LLM

記事を読む →

📚

Qiita3月21日· 2分で読める中級🔥 注目

Gemini Embedding 2 実践ガイド — テキスト・画像・音声・動画を「同じ空間」に埋め込んで、マルチモーダルRAGを構築する【2026年3月最新】

2026年3月にGoogleがリリースしたGemini Embedding 2は、テキスト・画像・動画・音声・PDFを同じベクトル空間に埋め込める世界初のマルチモーダル埋め込みモデルです。これまでRAGではコンテンツの種類ごとに異なるモデルを使う「継ぎ接ぎ問題」がありましたが、単一ベクトル空間で統一することで、テキスト質問と画像回答を直接比較できるようになります。Pythonの実装コード付きで、3072～768次元の柔軟な出力とMRL採用により、検索品質と計算コストのバランスを自在に調整できます。

#RAG #マルチモーダル #Gemini

記事を読む →

🤖

Qiita3月13日· 2分で読める中級🔥 注目

CrazyrouterとOpenRouterを徹底比較：2026年のAI APIゲートウェイ選び

CrazyrouterとOpenRouterは、どちらもAI APIゲートウェイですが大きな違いがあります。Crazyrouterは627以上のモデルを対応し、OpenAI・Anthropic・Gemini形式をネイティブサポート。画像・動画・音楽生成にも対応し、東京含む7リージョンで低レイテンシーを実現しています。3ヶ月の実運用経験に基づく詳細比較表とCursorコーディング向けモデル選定ガイド付きです。

#API ゲートウェイ #Claude #AI駆動開発

記事を読む →

✨

Qiita3月12日· 2分で読める中級🔥 注目

Gemini Embedding 2入門 — テキスト・画像・動画を単一ベクトル空間で扱うAPIガイド

Google がリリースした Gemini Embedding 2 は、テキスト・画像・動画・音声・PDF を単一ベクトル空間に統一できるネイティブマルチモーダル埋め込みモデルです。従来は画像をテキストに変換してから埋め込みしていましたが、中間ステップを排除することで最大70%のレイテンシ削減を実現。3,072次元出力、MRL による次元調整、8種類のタスクタイプ指定に対応し、Python実装例と RAG応用パターンを具体的に解説しています。

#Gemini #マルチモーダル #RAG

記事を読む →

📰

Zenn3月3日· 2分で読める中級

GPT‑5時代のTransformer、Copilotを支える次世代アーキテクチャは理解する機械から考える相棒へ

GPT-5ではTransformerのAttention機構が線形化・階層化され、Mixture of Expertsで専門家AIを動的選択します。文脈保持が数万から数百万トークンに拡張され、マルチモーダル統合で音声・画像・動画を統一的に処理。これにより、Copilotは長文の議事録理解・会議音声からのスライド自動生成・タスク最適化など、単なる補助ツールから実践的パートナーへ進化しました。

#GPT-5 #Transformer #Copilot

記事を読む →

✨

DeepMind12月23日· 2分で読める上級🔥 注目

Google's year in review: 8 areas with research breakthroughs in 2025

Googleが2025年に発表した8つの重要なAI研究成果を紹介しています。Gemini 3やGemma 3など最新モデルは推論・マルチモーダル・効率性で大幅に進化。AI駆動開発により検索やPixel 10など製品に統合され、科学分野（ゲノミクス・数学・量子コンピューティング）でも実績を上げています。責任あるAI開発と国際協調を重視しながら、AIがツールから実用的ユーティリティへ転換する転換点を示す内容です。

#モデル・基盤 #Gemini #AI駆動開発

記事を読む →

🕵️

DeepMind11月13日· 2分で読める上級🔥 注目

SIMA 2: An Agent that Plays, Reasons, and Learns With You in Virtual 3D Worlds

DeepMindが発表したSIMA 2は、Geminiモデルを統合したAIエージェントで、ゲーム内で単なる指示従行から推論・対話・自己改善へと進化しました。600以上のスキルを習得した前身と異なり、高レベルの目標を理解し、複雑な推論を通じてゲーム環境で自律的に行動できます。人間デモとGemini生成ラベルで訓練され、未見のゲームでも目標達成できる汎化能力を実現し、AGI実現に向けた重要なマイルストーンです。

#エージェント #AI駆動開発 #Gemini

記事を読む →

⚡

DeepMind10月25日· 1分で読める上級🔥 注目

Behind “ANCESTRA”: combining Veo with live-action filmmaking

GoogleのVeo動画生成モデルが映画制作に活用された実例です。Tribeca映画祭で初公開される短編『ANCESTRA』は、実写とAI生成映像を融合させ、従来は制作困難だったシーンを実現しました。新たに開発されたVeoの個別対応機能や正確なモーション合致により、アーティストが創作の限界を超える可能性が示されています。

#Veo #生成AI #映画制作

記事を読む →

🕵️

DeepMind10月23日· 1分で読める上級🔥 注目

Gemini Robotics 1.5 brings AI agents into the physical world

GoogleがGemini Robotics 1.5を発表しました。視覚情報から直接モーター命令を生成するVLAモデルと、空間推論・複数ステップ計画が可能なVLMモデルが協働し、ロボットが複雑なマルチステップタスクを自律的に実行できるようになります。「ゴミ分別ルール検索→対象物判定→実行」のような、複数の認知・判断・行動が必要なタスク対応が可能です。

#エージェント #ロボティクス #Gemini

記事を読む →

🧠

HuggingFace4月5日· 2分で読める中級🔥 注目

Welcome Llama 4 Maverick & Scout on Hugging Face

MetaがLlama 4 MaverickとScoutをHugging Faceで公開しました。MoEアーキテクチャで17Bアクティブパラメータを持つ両モデルは、テキスト・画像対応で40兆トークンで学習済み。Transformers v4.51.0とText Generation Inferenceで即座に利用可能で、Scout はGPU1枚で動作可能です。

#LLM #Llama #MoE

記事を読む →

🧠

DeepMind3月12日· 2分で読める上級🔥 注目

Introducing Gemma 3

GoogleがGemma 3を発表しました。Gemini 2.0の技術をベースにした軽量オープンモデルで、1B～27Bの4サイズを展開します。単一GPU/TPU上で動作する最高性能モデルとして、Llama 3やDeepSeek-V3を上回る性能を実現。140言語対応、128kトークンコンテキスト、関数呼び出し対応で、デバイス上での実用的なAI開発が可能になります。

#モデル・基盤 #Gemma #軽量モデル

記事を読む →

✨

DeepMind2月5日· 2分で読める上級🔥 注目

Gemini 2.0 is now available to everyone

GoogleがGemini 2.0ファミリーを全面展開します。汎用の高速モデル「2.0 Flash」がAPI経由で一般提供開始され、プロダクション開発が可能に。コード性能に特化した「2.0 Pro Experimental」と最もコスト効率的な「2.0 Flash-Lite」も同時リリース。100万トークンのコンテキストウィンドウで複雑なマルチモーダル処理に対応し、開発者が大規模アプリケーション構築の選択肢を得ました。

#モデル・基盤 #Gemini #LLM

記事を読む →

✨

DeepMind12月11日· 2分で読める上級🔥 注目

Introducing Gemini 2.0: our new AI model for the agentic era

Googleが「エージェント時代」向けに設計した新型モデル「Gemini 2.0」を発表しました。ネイティブな画像・音声出力とツール利用機能を備え、複数ステップの思考と自律的な行動が可能です。Gemini 2.0 Flashは開発者向けに提供開始され、来年初頭には広く利用可能になる予定です。Project AsuraやProject Marinerなど、複数のエージェント体験が展開されています。

#モデル・基盤 #Gemini #エージェント

記事を読む →