编码机

词嵌入的经典方法,六篇论文遍历Word2

发布时间:2024/8/6 15:52:09   
机器之心分析师网络作者:王子嘉编辑:Joni在本文中,作者首先为读者普及了word2vec的基础知识,然后以六篇论文为示例详细介绍了当前研究如何利用经典word2vec进行拓展性研究。其中,作者重点介绍的部分是知识嵌入空间的生成过程,对于其完整应用感兴趣的读者可以参阅原论文。随着深度学习的兴起,每个模型都需要一个输入,而我们现实生活中的对象(文字、图片)等等都不是数字,计算机无法处理。所以如何为每个任务确定一个合适的“输入”就变得尤其重要了,这个过程也被叫做表征学习。word2vec做的就是把文字变成对计算机有意义的输入,简单来说就是把这些东西映射到一个空间里,我们平时为了表示位置可能是三维空间,也就是xyz,但是在图片啊、文本啊这种领域里,三维空间不太够,就可能去到另外一个N维空间,在这个空间里,就像三维空间里人的鼻子要跟嘴挨得近一样,我们也希望相似的东西在这个新的空间里也距离近,比如文本里的“鼻子”和“嘴”我们就也希望它们能挨得近一点,因为都属于五官,那么“鼻子”和“腿”就相对离得远一点。顾名思义,word2vec是把文字转换成计算机可以识别的输入,所以这个技术最开始应用、也是应用最多的地方就是自然语言处理领域(NLP)。其实在之前对于表征学习,我基于ICLR和CVPR做过两次high-level的总结,但是这次这篇文章主要着眼于word2vec,从细节着手,看看word2vec中发现的空间是如何被改进并使用的,同时也看一下基于word2vec的原理发现的新空间。在开始正题之前,为了防止有人不清楚word2vec从而影响对后文的理解,这里科普一下本文会用到的相关基本概念。1、word2vec简介什么是word2vec:Word2Vec是一个过程(技术),在这个过程中,将文本作为神经网络的训练数据,这个神经网络的输出向量被称作嵌入,这些嵌入(向量)在训练后会包含单词的语义信息。这个过程做的就是从每个单词有多个维度的空间嵌入到具有低得多维度的连续向量空间。向量嵌入可以在真实对象的“离散”世界和机器学习的“可微分”世界之间架起一座桥梁,因此在数据库研究方面具有巨大的潜力。一类对象的嵌入向量是从X映射到某个向量空间,称为潜空间,我们通常假设它是一个有限维d的实向量空间R^d。它们用在哪里:最终word2vec就会产生如图1所示的一堆向量(wordembedding,词嵌入),这些向量就可以作为后续任务中神经网络模型的输入。图1:wordembedding示例。图源:

转载请注明:http://www.aideyishus.com/lkjg/6457.html
------分隔线----------------------------