📰Zenn4月5日· 1分で読める中級🔥 注目RoPEを丁寧に読む — Section 2「背景と関連研究」完全解説RoPEの論文を数式レベルで丁寧に解説した記事です。LLaMA・GPT-NeoXが採用する位置埋め込み手法の背景にある問題意識を、絶対位置埋め込みの限界から相対位置埋め込みへの流れで理解できます。記号の意味・内積の代数展開・設計上の選択がなぜなされたのかまで掘り下げており、論文の本体を読む前の最高の準備資料になります。#技術・実装#RoPE#位置埋め込み♡0👎☆ 保存記事を読む →
📰Zenn3月6日· 1分で読める中級🔥 注目vLLM v0.16.0 リリースノート解説vLLM v0.16.0で非同期スケジューリングとPipeline Parallelが統合され、End-to-End スループット30.8%、TPOT 31.8%の大幅改善を実現しました。CPU/GPUの並列実行、バッチキュー、Futureベースの非同期実装などの技術詳細を、実装コード付きで解説しており、推論基盤の高度な最適化手法を深く学べます。#vLLM#推論最適化#Pipeline Parallel♡0👎☆ 保存記事を読む →