#DeepSeek

11件の記事

DeepSeek V4のリーク情報から読み解く ── 訓練コスト数百万ドルでフロンティアモデルに迫るオープンウェイト1兆パラメータMoE

DeepSeek V4は1兆パラメータのMoEモデルながら、訓練コストが数百万ドル程度に抑えられる見通しです。256個のエキスパートから動的に8個を選択する設計により、実際に使われるパラメータは3%に限定されます。API単価はClaudeの17分の1という衝撃的な価格設定で、フロンティアモデルの性能をオープンウェイトで実現する可能性が現実味を帯びています。

#LLM #MoE #DeepSeek

記事を読む →

🧠

Zenn4月3日· 2分で読める中級🔥 注目

蒸留モデルって何？ - DeepSeek R1の登場から1年の節目に振り返る

蒸留とは大きなモデルの「思考の癖」を小さなモデルに模倣させる技術です。DeepSeek-R1が話題になった理由は、最終答だけでなく推論過程（Chain of Thought）全体をソフトラベルで転送できたこと。Temperatureパラメータで確率分布をぼかし、モデル間の関係性を暗黙知として移すメカニズムが解説されており、蒸留・量子化・Fine-tuningの違いまで体系的に理解できます。

#蒸留（Distillation）#DeepSeek #LLM

記事を読む →

🧠

Qiita3月29日· 1分で読める中級🔥 注目

LLMの「考えました」は8割嘘

AnthropicとDeepSeekの推論モデルが「考えている」様に見せるCoT（思考の鎖）は、実は内部計算の記録ではなく生成テキストに過ぎません。実験では、ヒントを与えた問題の75%で、モデルはそれを使いながらCoTに痕跡を残しません。複雑なタスク、強化学習による報酬設計が、本来の推論と「もっともらしい説明」の乖離を生み出しています。

#LLM #プロンプトエンジニアリング #Claude

記事を読む →

🧠

Zenn3月22日· 2分で読める中級🔥 注目

Rakuten AI 3.0はDeepSeek-V3の「ただのチューニング」か？ — 初心者エンジニアにも伝えたい技術的な真実

Rakuten AI 3.0がDeepSeek-V3のチューニングという批判に対し、技術的実態を解説する記事です。確かに楽天はベースモデルの明示やライセンス表記に改善の余地がありました。しかし技術的には671B→37Bの効率的MoEアーキテクチャを活かした大規模な継続学習であり、軽いファインチューニングとは規模が全く異なります。エンジニアが納得できる、LLM開発プロセスの根本的な理解が得られます。

#LLM #モデル・基盤 #DeepSeek

記事を読む →

📰

Qiita3月20日· 2分で読める中級🔥 注目

CPU only！Qwen3.5 / Qwen2.5 / DeepSeek-R1 / Gemma2 をOllamaで徹底比較 — 小型LLM 5モデル実機ベンチマーク

GPU不要なCPU環境でローカルLLMを動かしたい需要に応える実践的なベンチマーク記事です。Qwen3.5・Qwen2.5・DeepSeek-R1など5モデルをCPU環境（Intel Core i3）で実機検証し、推論速度とタスク別成果を定量的に比較しています。Qwen3.5は速度では優位ですが思考モードが暴走するため非実用的、日本語タスクではQwen2.5が最強という具体的な知見が得られます。

#ローカルLLM #Ollama #ベンチマーク

記事を読む →

🧠

Qiita3月20日· 2分で読める中級🔥 注目

「誰にモデルを見せるか」までが競争──DeepSeek V4報道が突きつけた実行基盤の設計

DeepSeek V4のニュースは単なるベンチマーク競争ではなく、「モデルを誰に最適化させるか」という実行基盤の主導権争いです。NVIDIA・AMD向けに最適化情報を与えず、Huaweiに先行最適化の機会を与えたという報道から、推論最適化・輸出管理・地政学が現場の選択肢をどう制約するかが見えてきます。性能表の数字より、カーネル最適化からランタイム選定まで「モデルを速く動かす権利構造」がビジネス価値を決める現実を解説しており、技術者が設計・調達で考慮すべき論点が凝縮されています。

#推論最適化 #LLM #DeepSeek

記事を読む →

🤖

Qiita3月11日· 2分で読める中級🔥 注目

DeepSeek・Moonshot AI・MiniMaxがClaudeを蒸留攻撃 — 産業規模不正利用の全容

2026年2月、AnthropicはDeepSeek・Moonshot AI・MiniMaxによるClaudeへの産業規模モデル蒸留攻撃を公表しました。3社が約24,000個の不正アカウント・1,600万件以上のやりとりを実行し、Claudeの出力を自社モデル訓練に不正流用。Hydra clusterアーキテクチャと商業プロキシで地域制限を回避した手口から、検出・対抗方法まで、LLM産業の知的財産課題を深掘りした内容です。

#セキュリティ #Claude #知的財産

記事を読む →

🧠

Qiita3月8日· 2分で読める中級🔥 注目

生成AIの今を一気に整理する 202603版―推論モデル、DeepSeek、世界モデル、Physical AI、AIエージェント

2026年3月時点の生成AI動向を網羅的に整理した記事です。推論モデルの台頭（o1からGemini 3 Proまで）、DeepSeekの衝撃、世界モデルやPhysical AIの進展、拡散モデルのLLM適用など、業界を揺るがす複数の流れを同時に追跡できます。GPT-5.2が大学入試で満点、理論物理に貢献するなど人間超越の事例も網羅。AI業界の「今」を俯瞰するには最適な一冊です。

#LLM #推論モデル #DeepSeek

記事を読む →

🧠

Zenn3月6日· 2分で読める中級🔥 注目

LLM MoEアーキテクチャの発展とスケーリング戦略を体系的に理解する

MoEがフロンティアLLMの標準アーキテクチャになった理由を、基礎から最新動向まで体系的に解説。DeepSeek-V3やKimi K2は総パラメータの3～5%のアクティブで密モデル並みの性能を実現。推論時間スケーリングで性能を動的に拡張する新パラダイムも登場。実装コード付きで、なぜMoEが効率的なのか、スケーリング則の進化、ルーティング技術の最新動向まで網羅した必読記事。

#MoE #LLM #アーキテクチャ

記事を読む →

📰

HuggingFace2月3日· 2分で読める中級🔥 注目

The Future of the Global Open-Source AI Ecosystem: From DeepSeek to AI+

DeepSeekの登場から1年、中国のオープンソースAI生態系がどう変わったかを分析した重要レポートです。QwenやDeepSeekなど中国企業がHuggingFaceで急速に影響力を拡大し、特にQwenは11万3千を超える派生モデル数でLlamaを圧倒しています。オープン戦略が中国AI企業の主流となり、国境を越えた協業が加速している現状から、グローバルなAI開発パワーバランスの劇的な転換が見えます。

#モデル #オープンソース #DeepSeek

記事を読む →

📰

HuggingFace10月29日· 1分で読める中級🔥 注目

On the Shifting Global Compute Landscape

米国の輸出規制により、中国の独自AI チップ開発が急速に加速しています。HuaweiやCambriconのチップがDeepSeekなどのオープンモデル推論を支える一方で、チップ不足がMLA、GRPOなど計算効率化の革新を生み出しました。NVIDIAの独占状態が崩れ、グローバルなAIエコシステムが多極化する転機を迎えています。

#AI業界動向 #チップ開発 #地政学

記事を読む →