编码机

Transformer自注意力层这

发布时间:2024/9/13 12:12:04   
北京中科白癜风医院三级专科 http://www.bdfyy999.com/yyjj/m/yyjj.html
机器之心报道机器之心编辑部来自谷歌的研究团队表明,将傅里叶变换取代transformer自监督子层,可以在GLUE基准测试中实现92%的准确率,在GPU上的训练时间快7倍,在TPU上的训练时间快2倍。Transformer自年推出以来,其架构就开始在NLP领域占据主导地位。Transformer应用的唯一限制之一,即Transformer关键组件的巨大计算开销–一种自注意力机制,这种机制可以根据序列长度以二次复杂度进行扩展。基于此,来自谷歌的研究者建议用简单的线性变换替代自注意力子层,该线性变换「混合」输入token,以较小的准确率成本损失显著的提高了transformer编码器速度。更令人惊讶的是,研究者发现采用标准的、非参数化的傅里叶变换替代自注意力子层,可以在GLUE基准测试中实现92%的BERT准确率,在GPU上的训练时间快7倍,在TPU上的训练时间快2倍。论文链接:

转载请注明:http://www.aideyishus.com/lktp/6841.html
------分隔线----------------------------