当前位置: 编码机 >> 编码机资源 >> AI从System1迈向System2重
原创Synced机器之心
机器之心专栏
机器之心编辑部
研究者开发的框架可以根据视频输入发现物体的动态和静态物理属性,进而推理时序物理事件以及预测未来视频帧。
人类感知和理解周围环境通常要借助于物理常识:直觉物理(IntuitivePhysics),这种常识的建立从婴儿时期就已开始,依托于对物体物理属性(object-centricrepresentation)的探索和理解,比如物体的大小、形状、质量、材料、运动速度等。
对于深度神经网络而言,模型缺乏像人类一样以自监督的方式去将场景里的物体拆分表示以更好地理解场景的能力:无法将红色、绿色、黄色等属性正确地分配给所属物体,缺少属性与物体之间的对应关系,而这种理解场景的方式对于抽象常识的建立以及因果关系的发现十分重要。
通过对输入的观测分离表示场景中各个物体的静态属性,进一步借助物理事件推断物体的动态物理属性可以赋予模型类人的物理常识,从而更好地理解场景以处理更为上层的任务:因果推理、决策、规划等。
中科院自动化所创新团队基于不同的视角提出两种因果关系与物理属性发现框架,在视频预测、反事实预测、视频推理多个基准数据集取得优异的性能。相关工作先后被AAAI及ICLR接收。
用于反事实预测的物理动力学解混杂(AAAI)
研究背景
发现潜在的因果关系是推理周围环境和预测物理世界未来状态的基础能力。基于视觉输入的反事实预测根据过去未出现的情况推断未来状态,是因果关系任务中的重要组成部分。现有研究方法缺乏对因果链的深入挖掘,致使不能够有效建模物体之间的关联并估测动力学系统中的物理属性。
方法概述
对此,团队研究了物理动力学中的混杂影响因子,包括质量、摩擦系数等,建立干预变量和未来状态可能改变变量之间的关联关系,提出了一种包含全局因果关系注意力(GCRA)和混杂因子传输结构(CTS)的神经网络框架。
图1:整体网络架构。
GCRA寻找不同变量之间的潜在因果关系,通过捕获空域和时序信息来估计混杂因子,确保模型能够有效建模长距离跨帧物体之间的关联。CTS以残差的方式整合和传输学习到的混杂因子,利用空序信息加强层,时序信息聚合层以及时空信息传输层来高效编码和利用混杂因子信息和物体状态信息,进而加强反事实预测的能力。
实验证明,在混杂因子真实值未知的情况下,本文的方法能够充分学习并利用混杂因子形成的约束,在相关数据集的预测任务上取得了目前最优的性能,并可以较好地泛化到新的环境,实现良好的预测精度。
图2:在不同数据集上的反事实预测效果。
基于物体动态特征蒸馏的场景分解与表示(ICLR)