#Qwen

13件の記事

27B Denseに2.4倍差をつけたMoE — 8GB VRAMで測った35B-A3Bの実力

RTX 4060 8GB環境でQwen3.5の35B-A3B MoEが27B Denseを2.4倍上回るという実測データから、MoEが低VRAM環境でこそ有利な理由を解き明かします。MoEは活性パラメータ約3Bをオンデマンド計算するため、GPU利用率95%を実現。最新MoEの活性率5～9%トレンドから、細粒度エキスパート選択への進化まで、実装者必読の効率分析です。

#ローカルLLM #MoE #推論最適化

記事を読む →

⚡

Zenn3月26日· 2分で読める中級🔥 注目

Claude Opus 4.6と同等のAIをローカルで動かすにはいくらかかるか？ローカルLLMを構築してわかったこと

Claude Opus 4.6と同等の性能をローカルLLMで実現するには、実際にはいくらのコストがかかるのか？Windows環境でOllamaとQwen 7Bを組み合わせて構築し、オフライン動作を確認した実装記です。ハルシネーション問題や必要スペック（GPU VRAM）の詳細を検証。ローカルLLMのメリット・デメリット、モデル選定の考え方が具体的にわかります。

#ローカルLLM #Ollama #実装

記事を読む →

📰

Zenn3月25日· 1分で読める中級🔥 注目

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

RTX 4060 8GBでQwen3.5の3モデル（9B・27B・35B-A3B）を実際に動かし、スペック表では見えない実装知見を暴露します。同じVRAM使用量でも速度が10倍違う理由、MoEなぜGPU利用率が高いのか、thinking tokenがctx枯渇を招く罠——ローカルLLM運用の現実が詰まった検証記です。

#ローカルLLM #Qwen #llama.cpp

記事を読む →

⚡

Zenn3月23日· 2分で読める中級🔥 注目

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

RTX 4060 8GBという制約条件下でQwen2.5-32Bを動かし、10.8 t/sの推論速度（M4同等）を実現した最適化手順を公開しています。llama.cppのハイブリッド推論とCUDA Graph有効化で8～12%高速化し、量子化とレイヤー分割の細かいチューニング手法を実装レベルで解説。APIコスト削減とオフライン環境でのコーディング支援を実現した、再現性のある完全ガイドです。

#AI駆動開発 #ローカルLLM #llama.cpp

記事を読む →

📰

Qiita3月20日· 2分で読める中級🔥 注目

CPU only！Qwen3.5 / Qwen2.5 / DeepSeek-R1 / Gemma2 をOllamaで徹底比較 — 小型LLM 5モデル実機ベンチマーク

GPU不要なCPU環境でローカルLLMを動かしたい需要に応える実践的なベンチマーク記事です。Qwen3.5・Qwen2.5・DeepSeek-R1など5モデルをCPU環境（Intel Core i3）で実機検証し、推論速度とタスク別成果を定量的に比較しています。Qwen3.5は速度では優位ですが思考モードが暴走するため非実用的、日本語タスクではQwen2.5が最強という具体的な知見が得られます。

#ローカルLLM #Ollama #ベンチマーク

記事を読む →

⚡

Qiita3月10日· 1分で読める中級

ITコンサルがズバリ予想！2026年、AIの主役は「クラウド」から「ローカル」へ。

2026年現在、ローカルLLMがAI活用の新局面を切り開きつつあります。クラウドAIは普及していますが、プライバシーとセキュリティの課題で企業導入が進まず。ローカルLLMはこの最後の壁を突破する鍵となり、Qwenなどのモデルで既に進行形で実現されています。セキュリティが障壁だった領域での爆発的効率化と、モバイル・家電への組み込みが次の課題です。

#ローカルLLM #セキュリティ #AI駆動開発

記事を読む →

🧠

Qiita3月9日· 2分で読める中級🔥 注目

Qwen3 14B / 30B-A3B / 32B を Ollama で比較：交通費の課税判定タスクで見えた差

Ollama上で動作するQwen3の3つのモデルサイズ（14B/30B-A3B/32B）を、日本の税制ルール理解が必要な交通費課税判定タスクで実測比較しました。32B Denseが20件中20件正答と最高精度ですが、処理時間12分40秒のコストを考えると、軽量モデルで下仕分けしつつ複雑ケースだけ大型モデルを使う多段階判定が現実的だと明かされています。プロンプトのルール正確性が精度を大きく左右する点も実装の重要な知見です。

#LLM #Qwen #ベンチマーク

記事を読む →

🧠

Qiita3月8日· 2分で読める中級🔥 注目

llama-server でローカルLLMサーバーを構築する（llama.cpp + GGUF）

OllamaではなくllmaCppを直接利用してローカルLLMサーバーを構築する手順を紹介しています。llama-serverはHTTPサーバーとして動作し、OpenAI互換APIで既存ツールから接続可能です。Windows環境でGGUFモデル（Qwen3.5-9B）を使い、RTX 4080 SUPERでVRAM 8GB程度で運用する実装例が詳しく解説されています。

#LLM #llama.cpp #GGUF

記事を読む →

📰

Qiita3月7日· 1分で読める中級🔥 注目

村人(52)、GB10を激重にする〜vLLMのパラメータを理解するまで〜

vLLMでQwen3.5-27Bサーバーを立てたものの、初期性能は4.5 tokens/sで大幅に遅延。GPUはバッチ処理で真価を発揮することに気づき、max_num_seqsを増やして256並列投げを試行。この過程で直面した問題と改善策を、開発者らしい実体験を通じて学べます。パラメータチューニングの落とし穴が明確に見えます。

#vLLM #LLM推論最適化 #GPU最適化

記事を読む →

📰

Zenn3月7日· 2分で読める中級🔥 注目

【検証】RTX 5090でQwen3.5 MXFP4量子化を動かす — Q4_K_Mとの性能比較とMMQクラッシュ解消の記録

RTX 5090でMXFP4_MOE量子化が動作するようになった経緯と、Q4_K_Mとの実測比較を報告します。llama.cpp b8196でBlackwell向けMMQカーネルが修正され、従来クラッシュしていたMXFP4が正常化。検証では、Prompt処理で+15%高速、VRAM節約+1GB、Vision処理も正常動作。テキスト生成ではQ4_K_Mが+8%優位など、用途別の使い分けポイントが明確になります。

#技術・実装 #量子化 #llama.cpp

記事を読む →

🧠

Zenn3月5日· 2分で読める中級🔥 注目

自宅GPUクラスタ（GB10×3）でQwen3.5-397BをClaude Codeのサブエージェント化

自宅のGB10 GPU×3台を200GbE で接続し、Qwen3.5-397B（397Bパラメータ）をClaude Codeのサブエージェント化する実装に成功しました。llama.cppの分散推論で11tokens/sを実現し、API課金削減と「超巨大モデルを手元で動かす」という開発者のロマンを両立。ネットワーク構成から起動手順まで、実用運用に至る全てのノウハウが共有されています。

#LLM #エージェント #AI駆動開発

記事を読む →

📰

HuggingFace2月3日· 2分で読める中級🔥 注目

The Future of the Global Open-Source AI Ecosystem: From DeepSeek to AI+

DeepSeekの登場から1年、中国のオープンソースAI生態系がどう変わったかを分析した重要レポートです。QwenやDeepSeekなど中国企業がHuggingFaceで急速に影響力を拡大し、特にQwenは11万3千を超える派生モデル数でLlamaを圧倒しています。オープン戦略が中国AI企業の主流となり、国境を越えた協業が加速している現状から、グローバルなAI開発パワーバランスの劇的な転換が見えます。

#モデル #オープンソース #DeepSeek

記事を読む →

🕵️

HuggingFace5月12日· 2分で読める中級🔥 注目

Vision Language Models (Better, faster, stronger)

Vision Language Models（VLM）の過去1年の急速な進化を徹底解説する記事です。モデルは小型化しながら高性能化し、推論・動画理解・マルチモーダルRAGなど新しい機能が続々登場しています。Any-to-any model、推論特化型、軽量高性能モデル、Mixture-of-Expertsアーキテクチャなど、2025年の最新トレンドと注目モデルを詳しく紹介しており、VLM開発の最前線を理解できます。

#Vision Language Models #マルチモーダルAI #VLM

記事を読む →

27B Denseに2.4倍差をつけたMoE — 8GB VRAMで測った35B-A3Bの実力

Claude Opus 4.6と同等のAIをローカルで動かすにはいくらかかるか？ローカルLLMを構築してわかったこと

RTX 4060 8GBでQwen3.5を3本勝負させた — スペック表が教えてくれない選択基準の話

RTX 4060 8GBでQwen2.5-32Bが動く — M4超えの10.8 t/sを叩き出した最適化全手順

CPU only！Qwen3.5 / Qwen2.5 / DeepSeek-R1 / Gemma2 をOllamaで徹底比較 — 小型LLM 5モデル実機ベンチマーク

ITコンサルがズバリ予想！2026年、AIの主役は「クラウド」から「ローカル」へ。

Qwen3 14B / 30B-A3B / 32B を Ollama で比較：交通費の課税判定タスクで見えた差

llama-server でローカルLLMサーバーを構築する（llama.cpp + GGUF）

村人(52)、GB10を激重にする 〜vLLMのパラメータを理解するまで〜

【検証】RTX 5090でQwen3.5 MXFP4量子化を動かす — Q4_K_Mとの性能比較とMMQクラッシュ解消の記録

自宅GPUクラスタ（GB10×3）でQwen3.5-397BをClaude Codeのサブエージェント化

The Future of the Global Open-Source AI Ecosystem: From DeepSeek to AI+

Vision Language Models (Better, faster, stronger)

村人(52)、GB10を激重にする〜vLLMのパラメータを理解するまで〜