#分散推論

2件の記事

mesh-llm：余っているPCのGPUを束ねて巨大LLMを動かす分散推論の新アプローチ

余ったPCのGPUを束ねて巨大LLMを分散推論する「mesh-llm」が注目を集めています。Rustで実装され、Denseモデルにはパイプライン並列、MoEモデルにはエキスパート並列を自動選択。最大の強みはMoEの場合ノード間通信がゼロになることで、ネットワークレイテンシの影響を受けません。OpenAI互換APIで既存ツールと互換性があり、セキュリティはトークンベースのプライベートメッシュで確保しています。

#分散推論 #LLM #ローカルLLM

記事を読む →

🧠

Zenn3月5日· 2分で読める中級🔥 注目

自宅GPUクラスタ（GB10×3）でQwen3.5-397BをClaude Codeのサブエージェント化

自宅のGB10 GPU×3台を200GbE で接続し、Qwen3.5-397B（397Bパラメータ）をClaude Codeのサブエージェント化する実装に成功しました。llama.cppの分散推論で11tokens/sを実現し、API課金削減と「超巨大モデルを手元で動かす」という開発者のロマンを両立。ネットワーク構成から起動手順まで、実用運用に至る全てのノウハウが共有されています。

#LLM #エージェント #AI駆動開発

記事を読む →