编码机

PTMs2020最新NLP预训练模型综述

发布时间:2022/9/15 20:12:46   

以下文章来源于蘑菇先生学习记,作者蘑菇先生

蘑菇先生学习记

本篇文章主要介绍邱锡鹏老师在年发表的一篇预训练模型的综述:「Pre-trainedModelsforNaturalLanguageProcessing:Asurvey」[1]。

该综述系统地介绍了nlp中的预训练模型。主要的贡献包括:

1.深入盘点了目前主流的预训练模型,如word2vec,ELMo,BERT等。2.提出了一种预训练模型的分类体系,通过四种分类维度来划分目前已有的预训练模型。包括:表征的类型,即:是否上下文感知编码器结构,如:LSTM、CNN、Transformer预训练任务类型,如:语言模型LM,带掩码的语言模型MLM,排列语言模型PLM,对比学习等针对特定场景的拓展和延伸。如:知识增强预训练,多语言预训练,多模态预训练和模型压缩等3.如何将PTMs学到的知识迁移到下游的任务中。4.收集了目前关于PTMs的学习资料。5.指明PTMs未来的研究方向,如:局限、挑战、建议。由于篇幅原因,本文主要针对前面两点进行梳理,即「目前主流的预训练模型」和「预训练模型的分类体系」。

1.背景

「nlp、cv领域的传统方法极度依赖于手动特征工程」。例如nlp中的log-linear、CRF模型等,cv中各种抽取特征的模型,如sift特征等。深度学习中本质上是一种表示学习,能够一定程度上避免手动的特征工程。究其原因,主要得益于深度学习中一系列很强大的特征提取器,如CNN、RNN、Transformer等,这些特征提取器能够有效地捕获原始输入数据中所蕴含的特点和规律。

「nlp领域的发展比cv领域相对缓慢的原因是什么呢」?相比于cv领域,「nlp领域的劣势在于有监督数据集大小非常小」(除了机器翻译),导致深度学习模型容易过拟合,不能很好地泛化。但是相反,nlp领域的优势在于,存在大量的无监督数据集,如果能够充分利用这类数据进行训练,那么势必能够提升模型的能力以及在下游任务中的表现。nlp中的预训练模型就是这样一类能够在大规模语料上进行无监督训练,学习得到通用的语言表征,有助于解决下游任务的nlp模型。

「那么什么是好的语言表征呢」?作者引用了Bengio的话,「好的表征能够表达非特定任务的通用先验知识,能够有助于学习器来解决AI任务.」

agoodrepresentationshouldexpressgeneral-purposepriorsthatarenottask-specicbutwouldbelikelytobeusefulforalearningmachinetosolveAI-tasks.

「nlp领域好的文本表征则意味着能够捕捉蕴含在文本中的隐性的语言学规则和常识性知识.」

capturetheimplicitlinguisticrulesand

转载请注明:http://www.aideyishus.com/lkyy/1472.html

------分隔线----------------------------