📰Zenn3月6日· 2分で読める中級Transformerのパラメタ数を増やした際の観察Transformerのパラメタ数を13M〜115Mで変化させ、同一データセット(300文)での学習を比較しました。パラメタが多いほど収束は速いものの、訓練済み事実の正答率は単調増加せず、モデルサイズごとに得意領域が異なることが判明。未学習事実への汎化はパラメタ数に関わらずほぼ0%のままで、単なるパラメタ増加では汎化能力は向上しないことを実験的に示しています。#モデル・基盤#Transformer#ベンチマーク♡0👎☆ 保存記事を読む →