编码机

深度学习如何学习直观物理学

发布时间:2022/10/12 21:59:11   

机器之心分析师网络

作者:仵冀颖

编辑:Joni

从直观物理学讲起。

在这篇文章中我们讨论的是一个对于非物理学专业的人来说相对陌生的概念---直观物理学(IntuitivePhysics),我们聚焦的是深度学习是如何学习直观物理学的。

首先,我们从究竟什么是直观物理学谈起。人类能够了解自己所处的物理环境,并与环境中动态变化的物体和物质相互作用,对观察到的事件发展趋势做出近似性的预测(例如,预测投掷的球的轨迹、砍掉的树枝将坠落的方向)。描述这些活动背后规律的知识就是直觉物理学。直觉物理学几十年来一直是认知科学领域一个活跃的研究领域。近年来,随着人工智能相关新理论方法的应用,直觉物理学研究重新焕发了活力。研究人员利用直觉物理学的模型模拟行为研究的结果,而这些行为研究将心理物理测量应用于复杂动态显示的感知和推理。

图1给出了几个常见的直觉物理学问题示例[1]。图1中的任务是对各种情况下物体和物质的属性或运动进行推理。除了物体碰撞判断(A),通常通过物理系统的静态图来描述问题。在(B–D)中,不间断线表征正确的轨迹,而间断线表征常见的错误预测。概率模拟框架(Probabilisticsimulationframework)成功地预测了人们对动态显示中物体的属性(A)和运动(C)的期望,以及两个充液容器的浇注角度(F)。不过,人们在进行推理判断时一般是根据不同的情况、不同的运动理论进行推理的。这导致人类感知和推理物理情况的能力普遍不高,尤其是在抛射物运动和物体碰撞的情况下。

图1.直觉物理学问题示例

在这一章中,我们介绍几种直观物理学的研究方法,启发式方法、概率模拟模型和深度学习方法。如图2所示。

图2.确定两个碰撞物体相对质量的三种计算方法的描述。模型之间的主要区别在于学习的作用(启发式方法最小,概率模拟有限,深度学习比较大)。(A)在启发式模型中,假设观测到的速度与环境中的物理速度相等(即直接感知速度)。比较碰撞后的速度,并假设碰撞后以最大速度移动的物体较轻。启发式模型中没有考虑学习的作用。(B)概率模拟模型将先验放在隐藏的物理变量上。运动先验将感知速度偏向慢运动。通过比较模拟的最终速度和观测的速度,确定不同质量比的可能性。学习可能会影响推理所涉及的先验知识。(C)在一个深度学习模型中,卷积神经网络(CNN)被训练成二维图像的输入和输出对象属性(质量和摩擦力)。然后使用CNN从先前看不见的图像数据中预测对象属性。这种方法使用了自下而上的学习过程。

除了涉及单个物体运动的研究外,早期关于两个物体碰撞的研究还表明,根据牛顿原理,人类的判断常常会偏离预期。例如,考虑一个初始运动物体(运动物体)与一个初始静止物体(抛射物体)碰撞的情况。当运动物体对抛射物体的物理效应相对较小时(例如,抛射物体的碰撞后速度小于运动物体的碰撞前速度),人们做出的因果关系判断会比物理效应大时更强烈(例如抛射物体的碰撞后速度大于机动物体的碰撞前速度)。这一发现被称为启发式方法(Heuristics),也就是最经典的直观物理学方法:人们可以根据显著的知觉线索使用下面两个规则来推断碰撞物体的属性。(i)碰撞事件后移动较快的物体较轻(速度启发式;如图2A所示),(ii)以较大角度偏转的物体较轻(角度启发式)。然而,尽管这些启发式方法在某些情况下解释了人类对碰撞物体相对质量(RelativeMass)的判断,但它们并不能推广到其他情况。

启发式方法其中一个难点,是显性物理概念是如何从经验中衍生出来的?以及它们与隐性物理知识的相互作用程度如何?这两个核心问题还没有确定答案。造成这种不确定性的一个原因似乎出自系统概念分类的困难,而这种困难源于物理环境中的知觉模糊性表述,或者任务中所涉及到的知觉以及任务中物理变量的无效表示。例如,当物体从摇锤中释放后绘制其轨迹时,最直接的想法是“垂直向下运动(straight-down)”,因为物体在所示(静态)位置的速度是模糊的。或者,人们会认为从运动物体上落下的物体会垂直向下运动,因为这种运动方式代表了物体相对于运动物体的感知运动。此外,这种问题在旋转容器上绘制水位(即水位问题)时也会出现,即使已经明确指出了液体表面应保持水平而无需考虑容器的方向。此时,造成判断偏差的原因是无效表示:使用轴平行于容器表面的以对象为中心的参照系。在这种不确定性下,人们对物理量的判断(例如,两个物体相互碰撞产生的力)与牛顿原理不一致。因此,直觉物理学方法应当能够考虑到(i)认知结构和物理结构之间的对应关系,(ii)不同问题背景下认知表征的性质,(iii)物理近似在复杂显示中的作用,(iv)预测判断任务中显性概念与隐性理解的交互作用。

近年来,基于贝叶斯推理(Bayesianinference)的新的理论方法,特别是噪声牛顿框架(NoisyNewtonFramework),使直觉物理学的研究重新焕发了活力,它将真实物理原理与感官信息的不确定性相结合。基于噪声牛顿框架的模型假设,人们将带噪声的感官输入与物理情境下的感知变量,以及物理变量的先验信念(PriorBelief)相结合,并根据牛顿物理学对这些变量之间的约束进行建模。例如,在碰撞事件(CollisionEvent)中,通过模拟数千种物理情况来建模预测过程。在每个模拟过程中,使用牛顿定律对感知和物理特性的采样变量进行计算而得到物理结果。尽管大多数感知变量都是可观察的(例如速度、位置),但仍然有必要将客观证据(观察)转化为主观估计,方法是将噪声感官输入与感知线索统计规律的先验值相结合。另外,一些物理性质(如质量、粘度)是不能直接观察得到的,必须从感官观察和/或物理世界的一般知识中推断出来,如图2B所示。

噪声牛顿框架有效地调和了人类判断和牛顿物理学之间的一些矛盾。在噪声牛顿框架下,通过将噪声信息传递给物理引擎来实现推理,物理引擎由物体碰撞时的动量守恒原理定义。在假设感知输入到物理期望的转换符合牛顿原理约束的前提下,有关对象动力学(Objectdynamics)的知识被“写入”模型。概率模拟模型(ProbabilisticSimulationModel)的核心思想是人类构造关于物理情境的概率心理模型,通过心理模拟来推断未来的物体状态。心理模拟的作用得到了机械推理的支持,它证明了人们通过构造和转换空间表征来回答关于物体和物质行为的问题,从而对物理系统进行推理。空间表征意味着物体在物理世界中的位置、运动和隐藏属性以及它们之间的相互作用在大脑中可以进行概率学的编码和表征。

最近的神经科学研究结果表明,心理模拟过程可以以概率论来描述,这些区域与大脑的“多需求”系统重叠。概率模拟模型通过将噪声信息处理与先进的基于物理的图形引擎相结合来模拟未来的对象状态,从而在物理推理任务中做出判断。在每个模拟中,场景中感知变量和物理变量的值根据模拟对象位置、速度和属性的噪声信息处理的分布进行采样。基于感知和物理输入的采样状态,使用近似牛顿原理的“直观物理引擎(IntuitivePhysicsEngine)”来模拟未来的对象状态。然后查询每个模拟的结果以形成预测判断,例如,是否有一个积木塔倒塌或有多少液体落入指定区域。最后,在模拟中聚合判断以形成预测的响应分布。选择仿真模型中的参数,使分布能够准确反映人的行为。概率模拟模型建立在两个基本组件上:作为物理引擎输入的物理变量和引擎中编码的物理原理。一些物理变量(如速度和物体位置)可以直接感知,尽管感知值可能会被神经噪声和一般先验(如运动感知中的缓慢平滑先验)所扭曲。还有一些物理变量(如质量、粘度、密度和重力)是无法直接感知的,那么问题是,人类如何从视觉系统中的低级特征中推断出这些物理属性的?

深度学习模型的最新进展表明,一种潜在的计算机制可以从视觉输入中推断物理属性,并对物理情况做出预测。这种方法出现在机器学习领域,是基卷积神经网络(CNNs)实现的。卷积神经网络以像素级编码的图像作为输入,通过分层处理信息,学习从简单的视觉成分(如边缘)到更复杂的模式和对象类别的多层次抽象表示。具体的,一种混合方法(Hybridapproach)将基于知识的物理模型与基于学习的识别网络相结合,用于从视觉输入中预测物理属性。这种混合方法在解释人类直观的物理预测能力方面取得了一些成功。如图2.C中,利用深度学习网络,通过多个处理层将动态视觉输入(二维图像序列)映射到两个碰撞物体的推断属性(质量和摩擦力)。这一过程有效地逆转了生成物理过程的一个关键组成部分。CNNs基于与对象属性相关的图像数据进行训练,对象属性是通过将视觉输入的关键特征与物理引擎的模拟输出相匹配来确定的。CNNs具有与人类相当的推断能力,表明基于学习的方法可以有效地与基于知识的物理引擎集成,以推断环境中物体的属性和动力学。

由上面对直观物理学的回顾可以看出,以概率模拟为基础的物理推理方法一般都假定真实的物理原理是作为先验知识提供的。从计算的角度来看,基于样本(Exemplar)的方法可以将物理情况的观察实例表示为与相应属性相关联的N维空间中的向量。新观察到的实例的期望属性是通过对属于每个可能分类的实例的相似性度量求和来预测的。然而,尽管基于样本方法通过模仿物理知识在受限的物理区域内做出了合理的预测,但它不能推广到先前未知的区域中。基于深度学习的模型则具有“学习”的能力,可以从先前未知的数据中预测到物体的属性。本文重点

转载请注明:http://www.aideyishus.com/lkzp/1868.html

------分隔线----------------------------