编码机

当前最好的词句嵌入技术概览从无监督学习转

发布时间:2023/7/10 11:18:16   
北京哪家白癜风医院治疗效果好 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/

本文是一篇对于当今最先进的通用词/句嵌入技术的简介,包括对比基线:FastText、词袋模型(Bag-of-Words);以及最先进的模型:ELMo、Skip-Thoughts、Quick-Thoughts、InferSent、MILA研究组和微软研究院提出的通用句子表征,以及谷歌的通用句子编码器。

词语和句子的嵌入已经成为了任何基于深度学习的自然语言处理系统必备的组成部分。

它们将词语和句子编码成稠密的定长向量,从而大大地提升通过神经网络处理文本数据的能力。

当前主要的研究趋势是追求一种通用的嵌入技术:在大型语料库中预训练的嵌入,它能够被添加到各种各样下游的任务模型中(情感分析、分类、翻译等),从而通过引入一些从大型数据集中学习到的通用单词或句子的表征来自动地提升它们的性能。

它是迁移学习的一种体现形式。

尽管在相当长的一段时间内,对句子的无监督表示学习已经成为了一种行业规范。但在最近的几个月里,人们开始逐渐转向监督学习和多任务学习,并且在年底/年初提出了一些非常有趣的方案。

近期的通用词/句嵌入的趋势:在本文中,作者将介绍上图中用黑体表示的模型。

因此,本文是一篇对于当今最先进的通用词/句嵌入技术的简介,详细讨论了以下模型:

强大、快速的对比基线:FastText、词袋模型(Bag-of-Words)最先进的模型:ELMo、Skip-Thoughts、Quick-Thoughts、InferSent、MILA研究组和微软研究院提出的通用句子表征,以及谷歌的通用句子编码器。

让我们从词嵌入开始娓娓道来。

最近的词嵌入研究进展

在过去的五年中,人们提出了大量可行的词嵌入方法。目前最常用的模型是word2vec和GloVe,它们都是基于分布假设(在相同的上下文中出现的单词往往具有相似的含义)的无监督学习方法。

尽管此后有一些研究(

转载请注明:http://www.aideyishus.com/lkgx/5153.html

------分隔线----------------------------