编码机

粒度输入信息不降低推理速度,腾讯高

发布时间:2024/9/17 12:59:35   
既能利用多粒度输入信息,又不降低推理速度,腾讯看点等机构的研究者在一篇ACL论文中提出了一种高效的语言模型预训练方法荔枝LICHEE。经过半年多的摸索改进,荔枝LICHEE同时登顶CLUE分类榜单、阅读理解榜单、总榜单,其相关的技术创新也被ACL录用。近日,腾讯看点NLP内容算法专家郭伟东在机器之心举办的ACL论文分享会上对此研究进行了解读,欢迎大家浏览视频。基于大型语料库的语言模型预训练在构建丰富的上下文表示方面已经取得了巨大的成功,也在一系列自然语言理解任务中实现了显著的性能提升。然而,现有的预训练语言模型(如BERT)大多是基于单粒度训练而成的,通常伴随细粒度的字符或sub-word,这使其很难学习粗粒度词汇和短语的准确含义。为了得到更加准确的模型,部分研究者试图通过在预训练阶段mask连续token的序列,将粗粒度信息纳入到用细粒度分词训练的模型中。还有研究者提出了一种可以处理多粒度输入文本的模型——AMBERT。它利用两个具有共享权重的编码器将细粒度token和粗粒度token分别编码为两个上下文表示序列。虽然AMBERT效果不错,但它的推理成本却比原始BERT高了一倍左右,这在业界的很多场景下都是不可接受的。为了得到更加准确的模型,主要的研究方向分为两类:

在MASK层引入粗粒度信息,如wholewordmask或者ERNIE1.0;

在嵌入层引入粗粒度信息,如ZEN何AMBert。

前者的好处是不需要修改模型,只需要在数据预处理阶段对整个词做连续mask就好,缺点是没有充分使用文本中的词信息(没有mask的词依然会使用字粒度)。后面的ERINIE-gram直接把词作为整体进行预测,会导致最后softmax层效率极大降低,导致训练周期变长。后者的好处是充分使用了全文的词信息,但是缺点是引入了额外的计算逻辑,导致效率降低。以AMBERT为例,它利用两个具有共享权重的编码器将细粒度token和粗粒度token分别编码为两个上下文表示序列。虽然AMBERT效果不错,但它的推理成本却比原始BERT高了一倍左右,这在业界的很多场景下都是不可接受的。在这篇ACL论文中,来自腾讯看点和阿尔伯塔大学的研究者提出了一种简单但高效的预训练方法——荔枝LICHEE。该方法可以在预训练阶段有效利用多种粒度的输入信息来增强预训练语言模型(PLM)的表示能力。论文链接:

转载请注明:http://www.aideyishus.com/lkyy/6890.html
------分隔线----------------------------