编码机

这篇论文让你无惧梯度消失或爆炸,轻松训练

发布时间:2024/9/8 11:50:32   
中科白癜风医院践行公益事业 http://www.bdfyy999.com/bdf/zhongkedongtai/zhongkexinwen/102623.html
选自arXiv作者:Batchlechner等机器之心编译机器之心编辑部深度学习在众多领域都取得了显著进展,但与此同时也存在一个问题:深层网络的训练常常面临梯度消失或梯度爆炸的阻碍,尤其是像Transformer这样的大型网络。现在,加州大学圣迭戈分校的研究者提出了一种名为ReZero的神经网络结构改进方法,并使用ReZero训练了具有一万层的全连接网络,以及首次训练了超过层的Tansformer,效果都十分惊艳。深度学习在计算机视觉、自然语言处理等领域取得了很多重大突破。神经网络的表达能力通常随着其网络深度呈指数增长,这一特性赋予了它很强的泛化能力。然而深层的网络也产生了梯度消失或梯度爆炸,以及模型中的信息传递变差等一系列问题。研究人员使用精心设计的权值初始化方法、BatchNorm或LayerNorm这类标准化技术来缓解以上问题,然而这些技术往往会耗费更多计算资源,或者存在其自身的局限。近日,来自加州大学圣迭戈分校(UCSD)的研究者提出一种神经网络结构改进方法「ReZero」,它能够动态地加快优质梯度和任意深层信号的传播。论文

转载请注明:http://www.aideyishus.com/lkjg/6774.html
------分隔线----------------------------