机器之心原创参与:思源、路、晓坤最近谷歌发布了基于双向Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,该研究凭借预训练模型刷新了11项NLP任务的当前最优性能记录。如果这种预训练方式能经得起实践的检验,那么各种NLP任务只需要少量数据进行微调就能实现非常好的效果,BERT也将成为一种名副其实的骨干网络。今日,谷歌终于放出官方代码和预训练模型,包括BERT模型的TensorFlow实现、BERT-Base和BERT-Large预训练模型和论文中重要实验的TensorFlow代码。在本文中,机器之心首先会介绍BERT的直观概念、业界大牛对它的看法以及官方预训练模型的特点,并在后面一部分具体解读BERT的研究论文与实现,整篇文章的主要结构如下所示:1简介预训练NLP模型计算力研究团队官方预训练模型2Transformer概览3BERT论文解读输入表征预训练过程微调过程4官方模型详情微调预训练BERT使用预训练BERT抽取语义特征1简介BERT的核心过程非常简洁,它会先从数据集抽取两个句子,其中第二句是第一句的下一句的概率是50%,这样就能学习句子之间的关系。其次随机去除两个句子中的一些词,并要求模型预测这些词是什么,这样就能学习句子内部的关系。最后再将经过处理的句子传入大型Transformer模型,并通过两个损失函数同时学习上面两个目标就能完成训练。业界广泛认为谷歌新提出来的BERT预训练模型主要在三方面会启发今后的研究,即对预训练NLP模型的贡献、计算力对研究的重要性、以及研究团队和工程能力。预训练NLP模型其实预训练模型或迁移学习很早就有人研究,但真正广受
转载请注明:
http://www.aideyishus.com/lkzp/6872.html