Zenn2026年3月25日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

AI要約

RTX 4060 8GBでQwen3.5の3モデル（9B・27B・35B-A3B）を実際に動かし、スペック表では見えない実装知見を暴露します。同じVRAM使用量でも速度が10倍違う理由、MoEなぜGPU利用率が高いのか、thinking tokenがctx枯渇を招く罠——ローカルLLM運用の現実が詰まった検証記です。

#ローカルLLM #Qwen #llama.cpp #GPU最適化 #ベンチマーク #実装知見

𝕏 ポスト B! はてブ

元記事を読む →

Zenn4月7日· 2分で読める中級🔥 注目

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

Gemma 4がローカルLLMの実務投入で真価を発揮します。株価予測タスク（500件の開示から方向を推定）でQwen 3.5に対し精度88% vs 71%、空振り4件 vs 19件と圧倒的に上回りました。特にMoE版（26b）は精度を損なわずVRAM 17GBで最速（0.8秒応答）を実現。「定型的な情報」と「実質的な材料」を区別できる能力が、実務投入で決定的に効きます。

#LLM #Gemma #ローカルLLM

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

関連記事

Gemma 4がローカルLLMの実務投入で頭ひとつ抜けていた話

mesh-llm：余っているPCのGPUを束ねて巨大LLMを動かす分散推論の新アプローチ

RTX5070Ti + Ollama で動くローカル LLM で一番賢いのはどれだ？！実際に比較検証してみました

【Ollama】ローカルLLMでRAGを実装して遊んでみた