Apple Silicon上でVRAMに収まらないLLMを効率的に推論させるHypuraを試しました。70Bモデルではllama.cppの1 tok/sに対し3〜4 tok/sを実現。設定ミスやエラーハンドリングの荒さがある一方、13Bモデルなら12〜15 tok/sで実用的。ローカルLLM環境の有力な選択肢として検討の価値があります。
Rakuten AI 3.0はDeepSeek-V3の「ただのチューニング」か? — 初心者エンジニアにも伝えたい技術的な真実
Rakuten AI 3.0がDeepSeek-V3のチューニングという批判に対し、技術的実態を解説する記事です。確かに楽天はベースモデルの明示やライセンス表記に改善の余地がありました。しかし技術的には671B→37Bの効率的MoEアーキテクチャを活かした大規模な継続学習であり、軽いファインチューニングとは規模が全く異なります。エンジニアが納得できる、LLM開発プロセスの根本的な理解が得られます。
vLLMの3つのモデル並列化手法(テンソル・パイプライン・エキスパート並列)を、RTX 6000 Ada 4基搭載の単一ホスト環境で実装・性能評価した結果を紹介しています。GPUメモリ制約を超える大規模LLM推論の実装知見と、各手法の通信量・リソース使用率トレードオフがわかります。エンタープライズ環境でのLLM推論最適化に直結する実践的ガイドです。