#ローカル推論

3件の記事

Hugging FaceのLLMをローカルで動かす：量子化 → 実行までを解説

Hugging Faceのモデルをローカルで動かすには、GGUF形式への変換が必須です。本記事は量子化（Q4_K_Mなど）からLM Studioでの実行まで、Google Colabで再現可能なNotebookを用いた実践的なステップを解説しています。メモリ削減・ファイルサイズ縮小・推論高速化を実現でき、自作LLMをローカル環境で試したいエンジニアにとって即座に活用できる内容です。

#LLM #LMStudio #llama.cpp

記事を読む →

🧠

Qiita3月21日· 2分で読める中級🔥 注目

Nemotron 9B日本語をローカルで動かす — Mamba SSM・Thinkingモード対応

NVIDIAのNemotron 9B日本語モデルをローカル環境で動かす実装ガイドです。Mamba SSMアーキテクチャにより、Transformerの二乗計算量を線形化し長文処理を効率化。Thinkingモード対応で推論過程を明示化できます。uv・Docker不要な環境構築手順、bfloat16での推論コード、RTX 5090での実装検証まで、すぐに試せる具体例が充実しています。

#LLM #モデル・基盤 #AI駆動開発

記事を読む →

🧠

Zenn3月17日· 2分で読める中級🔥 注目

AI生成モデルアーキテクチャ基礎理解ガイド

Transformerから出力層まで、LLMから拡散モデルまで、すべての生成AIモデルの共通構造を職人の分業制で解説した実用ガイドです。Tokenizer・Text Encoder・Transformerの役割を明確化し、マルチモーダル出力の仕組みを図解。ローカル環境で大規模モデルを動かす際の段階的ロード戦略も収録しており、理論と実装の両立を実現しています。

#モデル・基盤 #Transformer #アーキテクチャ

記事を読む →

Hugging FaceのLLMをローカルで動かす：量子化 → 実行までを解説

Nemotron 9B日本語をローカルで動かす — Mamba SSM・Thinkingモード対応

AI生成モデル アーキテクチャ基礎理解ガイド

AI生成モデルアーキテクチャ基礎理解ガイド