ねこと学ぶ🐱 Apple Silicon で LLM 推論を最適化する Hypura を試す

Qiita4月10日· 2分で読める中級

Qiita4月8日· 2分で読める中級🔥 注目

HBM4は壁を壊さなかった、後退させただけだ

HBM4はピン速度を上げられず、インターフェース幅を1024→2048ビットに広げるだけで帯域を2倍化しました。TSVの寄生容量が10 Gb/s超の信号品質を阻害する物理的限界があり、ピン速度の成長が停滞しています。LLM推論の70B理論最大速度はB200の57 t/sからHBM4世代で114 t/sになりますが、LIMINAL論文が示す10,000 t/s達成には帯域スケーリング全だけでなくアルゴリズム革新が必須です。ハードウェア進化は壁を壊すのではなく、わずかに後退させるにすぎません。

#LLM #ハードウェア #メモリ帯域

記事を読む →

Qiita4月7日· 1分で読める中級🔥 注目

GPT-5.4 Thinking入門 — reasoning.effortとOSWorld-V 75%の推論AIをAPI活用

GPT-5.4 Thinkingが人間を超えたデスクトップ自動化の実力を解説します。OSWorld-V 75%達成（人間72.4%超）、SWE-bench 57.7%の性能で、推論深度を制御するreasoning.effortパラメータの5段階設定・API実装例・1Mトークンコンテキストの活用法まで実装レベルで学べます。エージェント開発者必読です。

#GPT-4 #LLM #AI駆動開発

記事を読む →

Qiita4月7日· 2分で読める中級🔥 注目

mesh-llm：余っているPCのGPUを束ねて巨大LLMを動かす分散推論の新アプローチ

余ったPCのGPUを束ねて巨大LLMを分散推論する「mesh-llm」が注目を集めています。Rustで実装され、Denseモデルにはパイプライン並列、MoEモデルにはエキスパート並列を自動選択。最大の強みはMoEの場合ノード間通信がゼロになることで、ネットワークレイテンシの影響を受けません。OpenAI互換APIで既存ツールと互換性があり、セキュリティはトークンベースのプライベートメッシュで確保しています。

#分散推論 #LLM #ローカルLLM

記事を読む →

ねこと学ぶ🐱 Apple Silicon で LLM 推論を最適化する Hypura を試す

関連記事

「オープンソースAIこそ正義」って言ってたじゃないか、、、ザッカーバーグが、クローズドモデルを出した日 ─ Meta Muse Sparkの全貌

HBM4は壁を壊さなかった、後退させただけだ

GPT-5.4 Thinking入門 — reasoning.effortとOSWorld-V 75%の推論AIをAPI活用

mesh-llm：余っているPCのGPUを束ねて巨大LLMを動かす分散推論の新アプローチ