vLLMの3つのモデル並列化手法(テンソル・パイプライン・エキスパート並列)を、RTX 6000 Ada 4基搭載の単一ホスト環境で実装・性能評価した結果を紹介しています。GPUメモリ制約を超える大規模LLM推論の実装知見と、各手法の通信量・リソース使用率トレードオフがわかります。エンタープライズ環境でのLLM推論最適化に直結する実践的ガイドです。
個人開発者がClaudeとMCPを活用して2体のロボット「Six」「Seven」を構築した実例です。クラウドLLMの遅延・トークン制限という現実的な課題に直面し、ローカルLLM(Ollama)やOpenCV、M5 AI Pyramidなどを組み合わせる試行錯誤を重ねています。「LLMはコード生成と判断に長け、リアルタイム処理は苦手」「単純処理はOpenCVの方が確実」といった実装知見が凝縮されており、AI駆動ロボティクスの現場で何が使えて何が使えないかを体感できる記事です。
Claude CodeはAnthropic API互換のエンドポイントを利用するため、BASE_URLを変更するだけでOllamaやvLLMといったローカルLLMに切り替えられます。DGX Spark上でQwen3-Coder-Nextを動かし、実際に動作確認する具体的な手順を解説。秘密情報の保護とAPI費用削減を両立させる実践的なアプローチです。