Zenn· 2分で読める中級🔥 注目
TICA(Tiny Infused Causal Attention)コンセプトについて
ハイブリッドモデルの単純な層置き換えアプローチの限界を突破するTICA(Tiny Infused Causal Attention)を提案しています。RWKV-7層の内部に超小型Attentionを注入することで、Attention計算量を1/43に削減しつつモデル品質を保ち、全体をO(N)に近づけます。Zero-Init・GQA・LoRAゲートなど実装的工夫も豊富で、実際にPrimeRWKVモデルとして実装・公開されている実践的なアーキテクチャです。