LLM News
モデル・基盤AI駆動開発技術・実装エージェントビジネス・活用
📅 今日のまとめ♡☆

LLM News

LLM・VibeCoding・AI駆動開発に関する最新記事をキュレーションしてお届けします。

𝕏RSS

ナビゲーション

  • トップ
  • タグ一覧
  • 検索
  • About
  • プライバシーポリシー

人気タグ

#LLM#Claude#VibeCoding#AI駆動開発#RAG#エージェント#プロンプトエンジニアリング#GPT-4

© 2026 LLM News

← トップへ

#GPU推論

2件の記事

関連タグ

#CUDA#Rust#vLLM#技術・実装#推論最適化#LLM#llama.cpp#GGUF#ローカルLLM#Qwen
📰
Zenn4月1日· 2分で読める中級🔥 注目

rvLLM:Rust製vLLM代替で学ぶGPU推論エンジンの実装最適化

Python vLLMのPCIeボトルネック(37MB/ステップのlogit転送)をGPU側argmaxで150,000倍削減し、Rustの所有権モデルでGIL・GC・PyTorchオーバーヘッドを排除したrvLLMの実装最適化が学べます。23 crateと15個のCUDAカーネルで、低バッチサイズでvLLMを上回る10,291 tok/sを実現。起動時間20倍高速・バイナリ31倍小型の成果から、推論エンジン選定の判断基準まで、システムレベルの最適化ノウハウが詰まっています。

#GPU推論#CUDA#Rust
記事を読む →
🧠
Qiita3月8日· 2分で読める中級🔥 注目

llama-server でローカルLLMサーバーを構築する(llama.cpp + GGUF)

OllamaではなくllmaCppを直接利用してローカルLLMサーバーを構築する手順を紹介しています。llama-serverはHTTPサーバーとして動作し、OpenAI互換APIで既存ツールから接続可能です。Windows環境でGGUFモデル(Qwen3.5-9B)を使い、RTX 4080 SUPERでVRAM 8GB程度で運用する実装例が詳しく解説されています。

#LLM#llama.cpp#GGUF
記事を読む →