北京中科白癜风医院坑不坑 http://www.bdfyy999.com/bdf/yufangbaojian/changshijijin/m/100798.html机器之心报道编辑:魔王、杜伟在近期举行的第43届国际信息检索年会(ACMSIGIR)上,GeoffreyHinton做了主题为《TheNextGenerationofNeuralNetworks》的报告。GeoffreyHinton是谷歌副总裁、工程研究员,也是VectorInstitute的首席科学顾问、多伦多大学Emeritus荣誉教授。年,他与YoshuaBengio、YannLeCun因对深度学习领域做出的巨大贡献而共同获得图灵奖。自20世纪80年代开始,GeoffreyHinton就开始提倡使用机器学习方法进行人工智能研究,他希望通过人脑运作方式探索机器学习系统。受人脑的启发,他和其他研究者提出了「人工神经网络」(artificialneuralnetwork),为机器学习研究奠定了基石。那么,30多年过去,神经网络的未来发展方向在哪里呢?Hinton在此次报告中回顾了神经网络的发展历程,并表示下一代神经网络将属于无监督对比学习。Hinton的报告主要内容如下:人工神经网络最重要的待解难题是:如何像大脑一样高效执行无监督学习。目前,无监督学习主要有两类方法。第一类的典型代表是BERT和变分自编码器(VAE),它们使用深度神经网络重建输入。但这类方法无法很好地处理图像问题,因为网络最深层需要编码图像的细节。另一类方法由Becker和Hinton于年提出,即对一个深度神经网络训练两个副本,这样在二者的输入是同一图像的两个不同剪裁版本时,它们可以生成具备高度互信息的输出向量。这类方法的设计初衷是,使表征脱离输入的不相关细节。Becker和Hinton使用的优化互信息方法存在一定缺陷,因此后来Pacannaro和Hinton用一个判别式目标替换了它,在该目标中一个向量表征必须在多个向量表征中选择对应的一个。随着硬件的加速,近期表征对比学习变得流行,并被证明非常高效,但它仍然存在一个主要缺陷:要想学习具备Nbits互信息的表征向量对,我们需要对比正确的对应向量和2N个不正确的向量。在演讲中,Hinton介绍了一种处理该问题的新型高效方式。此外,他还介绍了实现大脑皮层感知学习的简单途径。接下来,我们来看Hinton演讲的具体内容。为什么我们需要无监督学习?在预测神经网络的未来发展之前,Hinton首先回顾了神经网络的发展进程。演讲一开始,Hinton先介绍了三种学习任务:监督学习、强化学习和无监督学习,并重点介绍了无监督学习的必要性。为什么我们需要无监督学习呢?Hinton从生物学的角度做出了诠释。他指出,人类大脑有10^14个神经元突触,而生命的长度仅有10^9秒,因此人类无法完全依赖监督学习方式完成所有神经元训练,因而需要无监督学习的辅助。受此启发,构建智能模型也需要无监督学习。无监督学习的发展历程无监督学习经过怎样的发展呢?Hinton为我们介绍了无监督学习中的常见目标函数。紧接着,Hinton详细介绍了自编码器。Hinton表示,自编码器是一种利用监督学习实现无监督学习的方式,其目标是使最后的重建结果与数据相匹配。编码器将数据向量转换为代码,解码器基于代码生成数据。在高屋建瓴地介绍了自编码器的定义、训练深度自编码器之前的难点和现状之后,Hinton着重介绍了两种自编码器类型:变分自编码器和BERT自编码器。使用深度神经网络重建输入:VAE和BERTBERT和变分自编码器(VAE)是无监督学习的一类典型代表,它们使用深度神经网络重建输入。变分自编码器由韦灵思和Kingma于年提出,它使用多层编码器选择实数代码,然后用多层解码器重建数据。VAE的基本构造如下图所示:BERT是年谷歌提出的语言表征模型,基于所有层的左、右语境来预训练深度双向表征。语境信息对BERT非常重要,它利用遮蔽语言模型(maskedlanguagemodel,MLM)允许表征融合左右两侧的语境,从而预训练深度双向Transformer。Hinton举了一个例子:「Shescromedhimwiththefryingpan」。在这个句子中,即使你不知道scromed的意思,也可以根据上下文语境进行推断。视觉领域也是如此。然而,BERT这类方法无法很好地应用到视觉领域,因为网络最深层需要编码图像的细节。在探讨了以VAE和BERT为代表的一类无监督学习方法后,Hinton为我们介绍了另一类无监督学习方法。Becker和Hinton提出最大化互信息方法那么自编码器和生成模型有没有什么替代方案呢?Hinton表示,我们可以尝试不再解释感官输入(sensoryinput)的每个细节,而专注于提取空间或时序一致性的特征。与自编码器不同,这种方法的好处在于可以忽略噪声。然后,Hinton详细介绍了他与SuzannaBecker在年提出的一种提取空间一致性特征的方法。该方法的核心理念是对输入的两个非重叠块(non-overlappingpatch)表示之间的显式互信息进行最大化处理。Hinton给出了提取空间一致性变量的简单示例,如下图所示:经过训练,Hinton指出唯一的空间一致性特征是「不一致性」(TheOnlySpatiallyCoherentPropertyisDisparity),所以这也是必须要提取出来的。他表示这种最大化互信息的方法存在一个棘手的问题,并做出以下假设,即如果只学习线性映射,并且对线性函数进行优化,则变量将成为分布式的。不过,这种假设并不会导致太多问题。以往研究方法回顾在这部分中,Hinton先后介绍了LLE、LRE、SNE、t-SNE等方法。局部线性嵌入方法(LocallyLinearEmbedding,LLE)Hinton介绍了SamT.Roweis和LawrenceK.Saul在年Science论文《NonlinearDimensionalityReductionbyLocallyLinearEmbedding》中提到的局部线性嵌入方法,该方法可以在二维图中显示高维数据点,并且使得非常相似的数据点彼此挨得很近。但需要注意的是,LLE方法会导致数据点重叠交融(curdling)和维度崩溃(dimensioncollapse)问题。下图为MNIST数据集中数字的局部线性嵌入图,其中每种颜色代表不同的数字:此外,这种长字符串大多是一维的,并且彼此之间呈现正交。从线性关系嵌入(LRE)到随机邻域嵌入(SNE)在这部分中,Hinton介绍了从线性关系嵌入(LinearRelationalEmbedding,LRE)到随机邻域嵌入(StochasticNeighborEmbedding,SNE)方法的转变。他表示,只有「similar-to」关系存在时,LRE才转变成SNE。同时,Hinton指出,可以将LRE目标函数用于降维(dimensionalityreduction)。下图为SNE的示意图,其中高维空间的每个点都有选择其他点作为其邻域的条件概率,并且邻域分布基于高维成对距离(pairwisedistance)。从随机邻域嵌入(SNE)到t分布随机邻域嵌入(t-SNE)t分布随机邻域嵌入(t-distributedstochasticneighborembedding,t-SNE)是SNE的一种变体,原理是利用一个student-distribution来表示低维空间的概率分布。Hinton在下图中展示了MNIST数据集中数字的t-SNE嵌入图,每种颜色代表不同的数字:在介绍完这些方法之后,Hinton提出了两个问题:1)方差约束在优化非线性或非参数映射时为何表现糟糕?2)典型相关分析或线性判别分析的非线性版本为何不奏效?并做出了解答。最后,Hinton提出使用对比损失(contrastiveloss)来提取空间或时间一致性的向量表示,并介绍了他与RuslanSalakhutdinov在年尝试使用对比损失的探索,以及Oord、Li和Vinyals在年使用对比损失复现这种想法,并用它发现时间一致性的表示。Hinton表示,当前无监督学习中使用对比损失一种非常流行的方法。无监督对比学习的最新实现SimCLR在演讲最后,Hinton重点介绍了其团队使用对比损失提取一致性表示的最新实现SimCLR,这是一种用于视觉表示的对比学习简单框架,它不仅优于此前的所有工作,也优于最新的对比自监督学习算法。下图为SimCLR的工作原理图:那么SimCLR在ImageNet上的Top-1准确率表现如何呢?下图展示了SimCLR与此前各类自监督方法在ImageNet上的Top-1准确率对比(以ImageNet进行预训练),以及ResNet-50的有监督学习效果。Hinton表示,经过ImageNet上1%图片标签的微调,SimCLR可以达到85.8%的Top-5准确率——在只用AlexNet1%标签的情况下性能超越后者。
转载请注明:
http://www.aideyishus.com/lkgx/6811.html