17件の記事
LLM推論を本番環境で安定運用する際の課題──GPU遊休・KVキャッシュ未活用・マルチプロバイダー管理の複雑さ──を解決するのが、Shepherd Model Gateway(SMG)です。Rust実装のこのゲートウェイは、KVキャッシュを意識したルーティング・8種類のロードバランシング戦略・マルチプロバイダー対応により、GPU利用率最大化とレイテンシ最小化を両立させます。サーキットブレーカー・WebAssembly拡張・40以上のPrometheusメトリクスなど、エンタープライズ向け機能も充実しており、複雑な本番運用をゲートウェイ層で吸収できます。
OpenAIが初のオープンソースモデル「GPT OSS」をApache 2.0ライセンスで公開しました。117Bと21Bの2サイズがあり、どちらも混合専門家(MoE)ベースで4bit量子化により高速推論を実現。大モデルはH100 1枚、小モデルは16GBメモリで動作するため、企業のオンプレミス環境から個人デバイスまで幅広い展開が可能です。推論最適化・ファインチューニング・ツール利用の実装ガイドも充実しており、実践的な活用を想定した設計になっています。