编码机

让机器人看一眼就能模仿OneShot模

发布时间:2024/7/31 13:41:54   
北京中科医院几级 http://www.bdfzkyy.com/
机器之心原创作者:仵冀颍编辑:JoniZhong本文是一篇关于机器人模仿学习的文章,通过综述这一领域的进展,读者可以了解最新的少样本模仿学习领域研究成果。在机器人的动作学习,传统的方法基于任务训练强化学习(reinforcementlearning)的策略,即针对每一个成功完成的任务的动作序列,训练得到一条策略。或者在该基础上,当奖励讯号稀疏出现时,利用各种技术完成各项模仿学习(imitationlearning)。但模仿学习的问题是,它的各种任务是独立的。例如,通过训练一个模仿学习算法(神经网络)能够得到一个关于如何将块堆叠到高度为3的塔中的策略。但当希望机器人完成将块堆叠到高度为2的塔中的动作时,则需要重新训练神经网络,从而得到另外一个策略。单样本模仿学习(One-ShotImitationLearning)最先是伯克利大学著名的PieterAbbeel教授以及他的学生在年提出来的[1]。是指通过一次演示(可能包含一个或多个任务),告诉机器人当前有哪些任务以及如何完成这项任务。此时,不再是基于特定任务的神经网络学习,而是一种「演示模仿」学习。从有监督学习的角度讨论,给定包含几个训练任务的演示,单样本模仿学习能够根据当前样本推广到未知但相关联的任务中,从而做到一眼就能模仿。至于如何制定「相关联」,就是各位研究者所要探讨的内容。单样本模仿学习的经典方法是元学习(Meta-Learning)。在训练阶段,通过给定已知域中的一组任务及对应的动作完成模型学习;测试阶段,利用模型通过一段演示推广并具备完成未知任务的能力。基于元学习的单样本模仿学习方法存在的主要问题是需要大量的数据(演示视频)完成模型训练。最近,李飞飞组提出将单样本模仿学习定义为一个符号规划问题(SymbolicPlanning),利用符号域定义的结构将策略执行与任务间的泛化处理分离开来,从而大大减少元学习方法在训练阶段所需的任务数量,提高了方法的效率。元学习和符号规划问题的方法思路都是以第一人的角度观看并学习演示(视频),因此演示的情况直接影响方法的效果。LeoPauly等提出了观察学习(ObservationLearning)的概念,即从第三人的角度观看演示,同时利用深度网络将演示视频片段转化为活动的抽象表示(活动特征)。基于活动特征的不可变性,该方法可以在不同的观察视角、对象属性、场景背景和机械手形态下,跟随演示中学习任务。本文主要介绍了3篇有关one-shotimitationlearning的代表作,分别针对元学习、符号规划问题和观察学习的单样本模仿学习进行分析:Yu,Tianhe,etal.One-shothierarchicalimitationlearningof

转载请注明:http://www.aideyishus.com/lkyy/6414.html
------分隔线----------------------------