Transformer自注意力层这_编码机发展

当前位置： 编码机 >> 编码机发展 >> Transformer自注意力层这

Transformer自注意力层这

发布时间:2024/9/13 12:12:04

北京中科白癜风医院三级专科 http://www.bdfyy999.com/yyjj/m/yyjj.html
机器之心报道机器之心编辑部来自谷歌的研究团队表明，将傅里叶变换取代transformer自监督子层，可以在GLUE基准测试中实现92%的准确率，在GPU上的训练时间快7倍，在TPU上的训练时间快2倍。Transformer自年推出以来，其架构就开始在NLP领域占据主导地位。Transformer应用的唯一限制之一，即Transformer关键组件的巨大计算开销–一种自注意力机制，这种机制可以根据序列长度以二次复杂度进行扩展。基于此，来自谷歌的研究者建议用简单的线性变换替代自注意力子层，该线性变换「混合」输入token，以较小的准确率成本损失显著的提高了transformer编码器速度。更令人惊讶的是，研究者发现采用标准的、非参数化的傅里叶变换替代自注意力子层，可以在GLUE基准测试中实现92%的BERT准确率，在GPU上的训练时间快7倍，在TPU上的训练时间快2倍。论文链接：

转载请注明:http://www.aideyishus.com/lktp/6841.html

------分隔线----------------------------

上一篇文章：中科院研究发现新视角探索工作记忆的神
下一篇文章：机器人行业深度研究报告四大逻辑利好机器人

热点文章

手机通话有回音是怎么回事

Transformer自注意力层这

最新文章

热点文章

推荐文章