#MoE

11件の記事

国産LLM「LLM-jp-4」が日本語MT-BenchでGPT-4oを上回った ── 技術的背景と実用性を検証する

国産LLM「LLM-jp-4」が日本語MT-Benchで7.82をスコアし、GPT-4oの7.29を上回りました。MoE構造で320億パラメータながら38億のみアクティブとなり、推論コストは8B級。日本語特化トークナイザーと11.7兆トークンの訓練により、言語効率の課題を根本解決。英語性能も同等維持で、実務での採用可能性が大きく高まっています。

#LLM #日本語AI #GPT-4o

記事を読む →

🧠

Zenn4月7日· 2分で読める中級🔥 注目

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

Gemma 4がローカルLLMの実務投入で真価を発揮します。株価予測タスク（500件の開示から方向を推定）でQwen 3.5に対し精度88% vs 71%、空振り4件 vs 19件と圧倒的に上回りました。特にMoE版（26b）は精度を損なわずVRAM 17GBで最速（0.8秒応答）を実現。「定型的な情報」と「実質的な材料」を区別できる能力が、実務投入で決定的に効きます。

#LLM #Gemma #ローカルLLM

記事を読む →

🧠

Qiita4月7日· 1分で読める中級🔥 注目

DeepSeek V4のリーク情報から読み解く ── 訓練コスト数百万ドルでフロンティアモデルに迫るオープンウェイト1兆パラメータMoE

DeepSeek V4は1兆パラメータのMoEモデルながら、訓練コストが数百万ドル程度に抑えられる見通しです。256個のエキスパートから動的に8個を選択する設計により、実際に使われるパラメータは3%に限定されます。API単価はClaudeの17分の1という衝撃的な価格設定で、フロンティアモデルの性能をオープンウェイトで実現する可能性が現実味を帯びています。

#LLM #MoE #DeepSeek

記事を読む →

📰

Qiita3月30日· 2分で読める中級🔥 注目

27B Denseに2.4倍差をつけたMoE — 8GB VRAMで測った35B-A3Bの実力

RTX 4060 8GB環境でQwen3.5の35B-A3B MoEが27B Denseを2.4倍上回るという実測データから、MoEが低VRAM環境でこそ有利な理由を解き明かします。MoEは活性パラメータ約3Bをオンデマンド計算するため、GPU利用率95%を実現。最新MoEの活性率5～9%トレンドから、細粒度エキスパート選択への進化まで、実装者必読の効率分析です。

#ローカルLLM #MoE #推論最適化

記事を読む →

🧠

Zenn3月22日· 2分で読める中級

【2026年03月22日】今週のAI最新情報まとめ

2026年3月第4週のAI最新5トピックを厳選紹介します。NVIDIAの「Nemotron-Cascade 2」は30Bパラメータながら推論時3Bという驚異的効率で、DeepSeek V3と同等性能を20分の1のサイズで実現。拡散モデルのノイズスケジュール自動化、意味的パーツ単位の3D生成、ランキングフィードバック学習、200言語対応の埋め込みモデルなど、実用性の高い研究成果が揃っています。

#モデル・基盤 #LLM #MoE

記事を読む →

🧠

Qiita3月22日· 2分で読める中級🔥 注目

Xiaomi MiMo-V2-Pro入門 — 匿名で1兆トークン処理した1TパラメータLLMの全貌

Xiaomiが秘密裏に開発した1T超パラメータのLLM「MiMo-V2-Pro」が、「Hunter Alpha」として1週間で1兆トークン処理されました。42Bアクティブパラメータ・1Mコンテキストウィンドウ・Hybrid Attention機構により、Claude Opusに迫る性能を実現しながら、フロンティアモデルの約1/25のコスト（入出力$1/$3）で利用可能です。OpenAI互換APIでの実装方法も詳解します。

#LLM #MoE #モデル・基盤

記事を読む →

🧠

Qiita3月20日· 1分で読める中級🔥 注目

迂回路の地図 — MoE、推論時計算量、ツール、そして「SonnetとOpusどっち使う？」問題

スケーリング限界に直面した業界がどう進化しているかを、5つの観点で徹底分析です。MoE・推論時計算量・ツール統合で能力を「迂回」し、Transformerそのものを置き換えるMambaやJEPAといった次世代アーキテクチャも登場。「モデルが賢くなった」のではなく「周辺技術で補った」という本質的な違いが、実装者にとって重要な判断軸になります。

#LLM #Claude #推論最適化

記事を読む →

🧠

Zenn3月6日· 2分で読める中級🔥 注目

LLM MoEアーキテクチャの発展とスケーリング戦略を体系的に理解する

MoEがフロンティアLLMの標準アーキテクチャになった理由を、基礎から最新動向まで体系的に解説。DeepSeek-V3やKimi K2は総パラメータの3～5%のアクティブで密モデル並みの性能を実現。推論時間スケーリングで性能を動的に拡張する新パラダイムも登場。実装コード付きで、なぜMoEが効率的なのか、スケーリング則の進化、ルーティング技術の最新動向まで網羅した必読記事。

#MoE #LLM #アーキテクチャ

記事を読む →

📰

Zenn3月3日· 2分で読める中級

GPT‑5時代のTransformer、Copilotを支える次世代アーキテクチャは理解する機械から考える相棒へ

GPT-5ではTransformerのAttention機構が線形化・階層化され、Mixture of Expertsで専門家AIを動的選択します。文脈保持が数万から数百万トークンに拡張され、マルチモーダル統合で音声・画像・動画を統一的に処理。これにより、Copilotは長文の議事録理解・会議音声からのスライド自動生成・タスク最適化など、単なる補助ツールから実践的パートナーへ進化しました。

#GPT-5 #Transformer #Copilot

記事を読む →

📰

HuggingFace8月5日· 2分で読める中級🔥 注目

Welcome GPT OSS, the new open-source model family from OpenAI!

OpenAIが初のオープンソースモデル「GPT OSS」をApache 2.0ライセンスで公開しました。117Bと21Bの2サイズがあり、どちらも混合専門家（MoE）ベースで4bit量子化により高速推論を実現。大モデルはH100 1枚、小モデルは16GBメモリで動作するため、企業のオンプレミス環境から個人デバイスまで幅広い展開が可能です。推論最適化・ファインチューニング・ツール利用の実装ガイドも充実しており、実践的な活用を想定した設計になっています。

#モデル・基盤 #オープンソース #MoE

記事を読む →

🧠

HuggingFace4月5日· 2分で読める中級🔥 注目

Welcome Llama 4 Maverick & Scout on Hugging Face

MetaがLlama 4 MaverickとScoutをHugging Faceで公開しました。MoEアーキテクチャで17Bアクティブパラメータを持つ両モデルは、テキスト・画像対応で40兆トークンで学習済み。Transformers v4.51.0とText Generation Inferenceで即座に利用可能で、Scout はGPU1枚で動作可能です。

#LLM #Llama #MoE

記事を読む →