#言語モデル | LLM News

📰

Zenn3月6日· 2分で読める中級

Transformerのパラメタ数を増やした際の観察

Transformerのパラメタ数を13M〜115Mで変化させ、同一データセット（300文）での学習を比較しました。パラメタが多いほど収束は速いものの、訓練済み事実の正答率は単調増加せず、モデルサイズごとに得意領域が異なることが判明。未学習事実への汎化はパラメタ数に関わらずほぼ0%のままで、単なるパラメタ増加では汎化能力は向上しないことを実験的に示しています。

#モデル・基盤 #Transformer #ベンチマーク

記事を読む →