当前位置: 编码机 >> 编码机发展 >> 水平超越人类DeepMind展示全
Mind
作者:AdamSantoro等机器之心编译
参与:机器之心编辑部
想象一下在阿加莎·克里斯蒂(《东方快车谋杀案》作者)的侦探小说里收集所有证据找出犯人的读者,在足球滚到河边时上前停球的小孩,甚至一个购物者在购买水果时比较猕猴桃和芒果的优点。
人类将这个世界理解为事物之间的关系。我们了解世界运行的方式,因为我们能对不同事物之间的联系做出逻辑推理——物理对象、语句,甚至抽象的想法。这种能力被称为关系推理,它是人类智能的核心。
我们以每天所有感官接收到的非结构化信息为基础构建这种关系。我们的眼睛会接收到大量光线,而我们的大脑会将这些「巨量嘈杂的混乱」组织到我们需要关联的特定实体之中。
这两篇论文都展示了有望理解关系推理这一挑战的新方法。
开发具有人类级别灵活性和效率的人工智能系统需要实现人类级别的认知能力,这意味着它们必须能从非结构化数据中推理实体并认识其中的关系。解决这个问题意味着系统可以将有限技能推广到无限的新任务中,从而展示出强大的能力。
现代深度学习方法在解决非结构性数据问题的过程中已经有了很大进展,但此前的诸多方法忽略了考虑事物之间的联系。
在DeepMind最近发表的两篇论文中,研究人员探索了深度神经网络对非结构化数据执行复杂关系推理的能力。第一篇论文《Asimpleneuralnetworkmoduleforrelationalreasoning》中,DeepMind描述了RelationNetwork(RN),并表明它在一种高难度任务中具有超越人类的表现;而在第二篇论文《VisualInteractionNetworks》中,研究者们描述了一种通用模型,它可以纯粹基于视觉观察结果来预测物理对象的未来状态。
一种用于关系推理的简单神经网络模块
为了更深入地探索关系推理的思想,并测试这种能力能否轻松加入目前已有的系统,DeepMind的研究者们开发了一种简单、即插即用的RN模块,它可以加载到目前已有的神经网络架构中。具备RN模块的神经网络具有处理非结构化输入的能力(如一张图片或一组语句),同时推理出事物其后隐藏的关系。
使用RN的网络可以处理桌子上的各种形状(球体、立方体等)物体组成的场景。为了理解这些物体之间的关系(如球体的体积大于立方体),神经网络必须从图像中解析非结构化的像素流,找出哪些数据代表物体。在训练时,没有人明确告诉网络哪些是真正的物体,它必须自己试图理解,并将这些物体识别为不同类别(如球体和立方体),随后通过RN模块对它们进行比较并建立「关系」(如球体大于立方体)。这些关系不是硬编码的,而是必须由RN学习——这一模块会比较所有可能性。最后,系统将所有这些关系相加,以产生场景中对所有形状对的输出。
研究人员让这一新模型处理了各种任务,其中包括CLEVR——一个视觉问答任务集,旨在探索神经网络模型执行不同类型推理的能力,如计数、比较和查询。CLEVR由以下这样的图片组成:
对于每个图片,都有与图中物体相关的问题。例如,对于上图的问题可能是:「在图中有一个小的橡胶物体和大个的圆筒形有相同的颜色,那么它是什么形状的?」
目前的机器学习系统在CLEVR上标准问题架构上的回答成功率为68.5%,而人类的准确率为92.5%。但是使用了RN增强的神经网络,DeepMind展示了超越人类表现的95.5%的准确率。
为了测试RN的多任务适用性,研究人员还在另一个大不相同的语言任务中测试了RN的能力。DeepMind使用bAbI——Facebook推出的基于文本的问答任务集。bAbI由一些故事组成,这些故事由数量不一的句子组成,最终引向一个问题。如:「Sandra捡起了足球」、「Sandra进了办公室」可能会带来问题「足球在哪里?」(答案是:办公室)。
RN增强网络在20个bAbI任务中的18个上得分超过95%,与现有的最先进的模型相当。值得注意的是,具有RN模块的模型在某些任务上的得分具有优势(如归纳类问题),而已有模型则表现不佳。
详细的测试结果请参阅论文《Asimpleneuralnetworkmoduleforrelationalreasoning》。
视觉交互网络(VIN)
这是在物理场景中进行预测的另一个关键的关系推理。人类在看过一眼之后就能推断一个物体是什么,接下来数秒会发生什么。例如,如果你向墙上踢足球,大脑就会预测撞击之后球会发生什么,而后球的运动轨迹是什么(球会以一定的速度比例撞向墙面,而墙纹丝不动)。
这些预测都受到复杂的推理认知系统的影响,从而对物体以及相关的物理作用进行预测。
在DeepMind开发「视觉交互网络(VIN,一种模拟这种能力的模型)」的相关工作中,VIN能够只从几个视频画面中推理多个物体的状态,然后使用状态关系预测未来物体的位置。它不同于生成式模型。生成式模型可能视觉地「想象」接下来的视频画面,但VIN是预测关联物体间的潜在关系状态。
VIN动态预测(右)与真值模拟(左)的对比。VIN接受6帧画面的输入之后,能够预测帧。大约帧内,VIN的预测近似于真值模拟。之后虽然有所不同,但依然能产生看上去合理的动态预测。
VIN包括两种机制:视觉模块和物理推理模块。二者结合能够将视觉场景处理成一系列有区别的物体,并学习物理规则的一套隐式系统,从而预测未来物体会发生什么。
研究人员在多种系统中测试了VIN的能力,包括桌球撞击、行星系统的引力关系等。结果显示VIN能够准确预测物体在未来数百步发生的事。
在与之前公开的VIN模型、变体(其中关系推理的机制被移除了)的实验对比中,完整VIN的表现要好很多。
详细的细节可查看下面的第二篇论文。
总结
DeepMind的两篇论文都展现出了理解关系推理难题的有潜力的方法。通过将世界万物分解成物体以及之间的关系,它们展现了神经网络可具备的强大的推理能力,让神经网络能够对物体进行新的场景结合。表面上看起来不同但本质上有共同的关系。
研究人员认为,这些方法有足够的延展性,可被用于许多任务,帮助人们建立更复杂的推理模型,让我们更好地理解人类强大的、灵活的通用智能中的关键成分。
论文一:一种用于关系推理的简单神经网络模块(Asimpleneuralnetworkmoduleforrelationalreasoning)