当前位置: 编码机 >> 编码机资源 >> CMU谷歌提出Transformer
选自arxiv
作者:ZihangDai等
机器之心编译
参与:李诗萌、王淑婷
以往的Transformer网络由于受到上下文长度固定的限制,学习长期以来关系的潜力有限。本文提出的新神经架构Transformer-XL可以在不引起时间混乱的前提下,可以超越固定长度去学习依赖性,同时还能解决上下文碎片化问题。
语言建模需要对长期依赖性进行建模,它成功应用了无监督的预训练方法(Petersetal.,;Devlinetal.,)。但要让神经网络对序列数据的长期依赖性建模一直都是一项挑战。
近期,Al-Rfou等人()设计了一组辅助损失来训练深度Transformer网络进行字符级语言建模,其结果远超LSTM。虽然已经取得成功,但是Al-Rfou等人()的LM是在长度固定的几百个字符片段上独立训练的,没有任何跨片段的信息流。由于上下文的长度是固定的,因此模型无法捕获任何超过预定义上下文长度的长期依赖性。此外,长度固定的片段都是在不考虑句子或其它语义边界的情况下通过选择连续的符号块来创建的。因此,模型缺乏必要的上下文信息来很好地预测前几个符号,这就导致模型的优化效率和性能低下。我们将这个问题称为上下文碎片化。
为了解决上文提到的上下文固定长度的限制,本文提出了一种叫做Transformer-XL(超长)的新架构。我们将循环概念引入了深度自注意力网络。我们不再从头计算每个新片段的隐藏状态,而是重复使用从之前的片段中获得的隐藏状态。我们把重复使用的隐藏状态作为当前片段的内存,这就在片段之间建立了循环连接。因此,对超长期依赖性建模成为了可能,因为信息可以通过循环连接来传播。同时,从之前的片段传递信息也可以解决上下文碎片化的问题。更重要的是,我们展示了使用相对位置而不是用绝对位置进行编码的必要性,因为这样做可以在不造成时间混乱的情况下实现状态的重复使用。因此,作为额外的技术贡献,我们引入了简单但有效的相对位置编码公式,它可以泛化至比在训练过程中观察到的长度更长的注意力长度。
Transformer-XL对从单词级到字符集的五个语言数据集上建模,都获得了很好的结果。Transformer-XL提升了当前最佳(SoTA)的结果,它在enwiki8上将bpc从1.06提升到0.99,在text8上将bpc从1.13提升到1.08,在WikiText-上将困惑度从20.5提升到18.3,在OneBillionWord上将困惑度从23.7提升到21.8。TransformerXL在宾州树库数据集上在没有经过微调的情况下也得到了54.5的困惑度,在同等配置下这是当前最佳的结果。
我们用了两种方法来定量研究Transformer-XL的有效长度和基线。和Khandelwat等人()所做的研究相似,我们在测试时逐渐增加注意力长度,直到观察不到显著改善(相对增益小于0.1%)为止。在这个配置下,我们的最佳模型在WikeText-和enwiki8中用的注意力长度分别是和。此外,我们还设计了一个叫做RelativeEffectiveContextLength(RECL)的指标,该指标可以公平比较增加上下文长度对不同模型带来的收益。在这个配置下,Transformer-XL在WikiText-中学到个词的RECL,而循环网络和Transformer分别只学到了和个词。
论文:TRANSFORMER-XL:ATTENTIVELANGUAGEMODELSBEYONDAFIXED-LENGTHCONTEXT