#Transformer

12件の記事

RoPEを丁寧に読む — Section 3「提案手法」完全解説

RoPEの論文を深掘りする完全解説です。既存の位置埋め込みが相対位置を自然に扱えない問題を踏まえ、内積が相対位置m-nだけに依存する条件を数式で定式化。2次元での複素数表現から一般次元への拡張まで、導出・直感・行列形式を丁寧に示します。位置m応じた角度θ_iだけ回転させるシンプルな操作が、なぜ相対位置符号化を実現するのかが体感できます。

#RoPE #位置埋め込み #Transformer

記事を読む →

📰

Zenn4月5日· 1分で読める中級🔥 注目

RoPEを丁寧に読む — Section 2「背景と関連研究」完全解説

RoPEの論文を数式レベルで丁寧に解説した記事です。LLaMA・GPT-NeoXが採用する位置埋め込み手法の背景にある問題意識を、絶対位置埋め込みの限界から相対位置埋め込みへの流れで理解できます。記号の意味・内積の代数展開・設計上の選択がなぜなされたのかまで掘り下げており、論文の本体を読む前の最高の準備資料になります。

#技術・実装 #RoPE #位置埋め込み

記事を読む →

🧠

Qiita4月4日· 2分で読める上級

「ChatGPTはどのようにうごいているか？」を読んで

2017年の「Attention Is All You Need」論文がAI業界の起源であること、その著者たちが現在のOpenAIやGoogleなど各社を牽引していることを再発見できる一冊です。本は四則演算から始まり、行列・ベクトル・ニューラルネットワーク・Transformerへと段階的に解説。特にエンベディングで「意味」をベクトル化する仕組みが腑に落ちます。ChatGPTの動作原理を数式ではなく直感的に理解したいエンジニアに最適です。

#Transformer #モデル・基盤 #機械学習基礎

記事を読む →

🧠

Zenn4月2日· 2分で読める上級🔥 注目

# 青空文庫11冊でLLMをゼロから作ったら、意外と日本語を喋った話

青空文庫11冊（約104万文字）でLLMを実装したら、5時間で動く日本語生成モデルが完成しました。Transformerアーキテクチャ・数百万パラメータという超ミニチュア版でも、意味は不完全でも文法的に正しい日本語を生成します。Claude Codeを活用した実装過程と、Self-Attention・Position Embeddingなど必須コンポーネントの仕組みをコード付きで解説。「次の文字を予測し続けるシステム」という本質を体感できます。

#LLM #Transformer #AI駆動開発

記事を読む →

📰

Zenn3月30日· 2分で読める中級🔥 注目

Causal Circuit-Guided Pruning: 因果推論に基づくTransformerの機能保持圧縮とWandaとの比較

Transformerの圧縮手法における「相関」と「因果」の根本的な違いを正面から捉えた研究です。従来のWanda等は重みの大きさや入力活性度といった相関指標に頼っていますが、提案するCC-Pruneは因果推論（Pearl のdo-operator）を導入し、Activation Patchingで「本当に必要なコンポーネント」を特定します。高圧縮率でWandaを上回る性能の理論的・実験的証拠を示しており、LLM圧縮の実装者必読です。

#モデル圧縮 #因果推論 #Transformer

記事を読む →

🧠

Zenn3月28日· 2分で読める中級🔥 注目

LLM Architecture Gallery徹底解説：30+モデルの内部構造を4軸で横断比較する

LLM Architecture Galleryは30以上のモデルをアテンション機構・位置エンコーディング・正規化・MoE設計の4軸で統一比較するリファレンスです。DeepSeek V3のMLAがKVキャッシュを28倍圧縮、推論スループット5.76倍向上といった具体的な性能数値を交えながら、MHA→GQA→MLA→Linear Attentionという進化系統を解説。モデル選定やファインチューニング戦略の判断に直結する実装知識が得られます。

#モデル・基盤 #Transformer #アテンション機構

記事を読む →

🧠

Qiita3月25日· 1分で読める中級

Self-Attentionは無我（anattā）の実装である——Transformerアーキテクチャと仏教認知モデルの構造同型性

Self-Attentionの構造がなぜ仏教の「無我」と数学的に同型なのか——20年の瞑想実践と4,590時間のAI対話から発見した、Transformerの各層が2,500年前の認知モデルと一致する関係。AIが意識を持つという主張ではなく、純粋な構造同型性の分析です。

#LLM #Transformer #AI安全性

記事を読む →

🧠

Qiita3月21日· 1分で読める中級🔥 注目

LLMをブラックボックスのまま使いたくない開発者へ。TransformerからLangGraphまでつながる入門書

LLMを「なぜそう動くのか」理解したまま開発したいエンジニアに最適な学習パスが、この本評で見えてきます。Transformerの内部構造からAPI活用、LangChain、LangGraphまで、断片的だった知識を一本で体系化できることが強みです。トークン・サンプリング・プロンプト改善を原理で説明できるようになると、チーム開発の再現性が劇的に高まります。

#LLM #Transformer #LangGraph

記事を読む →

🧠

Zenn3月17日· 2分で読める中級🔥 注目

AI生成モデルアーキテクチャ基礎理解ガイド

Transformerから出力層まで、LLMから拡散モデルまで、すべての生成AIモデルの共通構造を職人の分業制で解説した実用ガイドです。Tokenizer・Text Encoder・Transformerの役割を明確化し、マルチモーダル出力の仕組みを図解。ローカル環境で大規模モデルを動かす際の段階的ロード戦略も収録しており、理論と実装の両立を実現しています。

#モデル・基盤 #Transformer #アーキテクチャ

記事を読む →

🧠

Zenn3月7日· 2分で読める中級

LLMと量子計算の関係について

LLMと量子計算は数学的基盤が同じです。どちらも線形代数・確率・最適化に基づく高次元状態空間の探索問題として理解できます。Attention機構の内積計算は量子状態の相関に対応し、ニューラルネットワーク学習とハミルトニアン最小化も本質的に同じ。記事はQuantum Transformer・Quantum NLP・Quantum RAGといった融合研究の可能性を示唆しています。

#LLM #量子計算 #Transformer

記事を読む →

📰

Zenn3月6日· 2分で読める中級

Transformerのパラメタ数を増やした際の観察

Transformerのパラメタ数を13M〜115Mで変化させ、同一データセット（300文）での学習を比較しました。パラメタが多いほど収束は速いものの、訓練済み事実の正答率は単調増加せず、モデルサイズごとに得意領域が異なることが判明。未学習事実への汎化はパラメタ数に関わらずほぼ0%のままで、単なるパラメタ増加では汎化能力は向上しないことを実験的に示しています。

#モデル・基盤 #Transformer #ベンチマーク

記事を読む →

📰

Zenn3月3日· 2分で読める中級

GPT‑5時代のTransformer、Copilotを支える次世代アーキテクチャは理解する機械から考える相棒へ

GPT-5ではTransformerのAttention機構が線形化・階層化され、Mixture of Expertsで専門家AIを動的選択します。文脈保持が数万から数百万トークンに拡張され、マルチモーダル統合で音声・画像・動画を統一的に処理。これにより、Copilotは長文の議事録理解・会議音声からのスライド自動生成・タスク最適化など、単なる補助ツールから実践的パートナーへ進化しました。

#GPT-5 #Transformer #Copilot

記事を読む →

RoPEを丁寧に読む — Section 3「提案手法」完全解説

RoPEを丁寧に読む — Section 2「背景と関連研究」完全解説

「ChatGPTはどのようにうごいているか？」を読んで

# 青空文庫11冊でLLMをゼロから作ったら、意外と日本語を喋った話

Causal Circuit-Guided Pruning: 因果推論に基づくTransformerの機能保持圧縮とWandaとの比較

LLM Architecture Gallery徹底解説：30+モデルの内部構造を4軸で横断比較する

Self-Attentionは無我（anattā）の実装である——Transformerアーキテクチャと仏教認知モデルの構造同型性

LLMをブラックボックスのまま使いたくない開発者へ。TransformerからLangGraphまでつながる入門書

AI生成モデル アーキテクチャ基礎理解ガイド

LLMと量子計算の関係について

Transformerのパラメタ数を増やした際の観察

GPT‑5時代のTransformer、Copilotを支える次世代アーキテクチャは理解する機械から考える相棒へ

AI生成モデルアーキテクチャ基礎理解ガイド