论文阅读：Purposive learning: Robot reasoning about the meanings of human activities

2024-02-04 16:33:16

标题：Purposive learning: Robot reasoning about the meanings of human activities

目的学习：关于人类活动含义的机器人推理

作者：Gordon Cheng1*, Karinne Ramirez-Amaro1, Michael Beetz2, Yasuo Kuniyoshi3

下载连接：https://robotics.sciencemag.org/content/robotics/4/26/eaav1530.full.pdf

推理人类活动的含义是机器人向人类学习的有力途径。

如果没有最终目的，那么纯粹的自主学习是没有意义的。向人学习是确保以人为中心的结果的有力手段。机器人模仿学习的早期研究表明，行为模仿是人类认知和社会发展的重要方面。已经指出，直接复制人体运动根本上是没有用的，因为模型和模仿者通常不共享相同的人体特征和周围物体的布置。因此，在整个模仿过程的开始，有必要从模型的行为中获取有意义的特征，并以模仿者自己的行为来再现它们。机器人模仿学习的最早开创性成果之一（1）通过三种模仿模仿策略（2）对有意义的特征的不同选择进行了分类（2）：（i）基于外观的策略，重点在于模型的运动；（ii）基于行动的策略，仅关注行动（即模型的运动及其即时结果）；（iii）基于目的的策略，着重于整个被观察任务的意图/目标（即，需要对观察进行更深入的了解；请参见图1，顶部）。

几种方法采取了一种基于外观的策略，特别是通过解决感觉运动耦合问题，这被认为接近人类的早期发展。首先，机器人会自我探索自己的行为，以学习感觉运动图。例如，在（3）中，机器人手被提供了一些可能的动作。机器人首先随机地产生这些动作，然后机器人观察这些动作的视觉输出，从而可以学习一对感觉运动。这样的关联可用于通过检索自我观察的记忆来引导模仿人的手部动作。另一种强调正向运动技能直接轨迹学习的方法是通过正向模型（4）。例如，通过运动捕捉系统观察到了三个球的动作，并通过强化策略学习并完善了轨迹，直到机器人成功地进行了动作。另一个公认的方法是动态运动原语（DMP），它已被机器人技术界接受为编码轨迹级表示的通用方法。 DMP的自适应能力使其易于教授和执行自适应轨迹（5）。最近，逆向强化学习被用来从观察中提取目标，从而通过奖励函数以接近最佳的方式来解释观察到的行为（6）。

基于动作的策略需要开发一种学习方法，该方法侧重于学习动作和所学习的原语之间的正确映射。然后，学习关于什么和/或何时执行特别合适的动作的策略。早期的作品在非常动态的情况下显示出令人鼓舞的结果，例如学习打冰球和大理石迷宫（7）。

目的性学习

从观察中进行有目的的学习涉及哪些关键挑战？已经提出了使用人工智能方法来推断语义推理观察结果的新颖学习方法（8、9）。基于语义的技术着重于两个基本方面：（i）从人类行为中提取有意义的意图，以及（ii）将过去的经验转移或重用到新领域的能力。语义学主要研究意义和知识表示的构造，因为它们在学习具有部分可观察信息的行为中起着至关重要的作用。学习抽象概念（例如动作，空间和时间）和物理对象可以通过本体表示来实现。一项最新的进步是KnowRob（10），它是一种涵盖了广泛的人类操作知识的通用上层本体。 KnowRob引擎用于加载，存储和推理所学知识；这为泛化学习提供了一个令人信服的抽象工具。

目的学习的最新成功是通过克服一些关键挑战而实现的（8、9）：（i）学习对象分类及其之间的关系（知识收集在对象上以及所有可能的已知动作之间的关系，形式为本体），（ii）活动分类（确定已知活动和新活动的原因），以及（iii）导致机器人计划的活动之间可能转移的图形（请参见图1，底部）。

使用本体进行有目的的学习已经在学习复杂的场景方面取得了巨大的成功，这些场景具有复杂的顺序，例如制作煎饼，爆米花和三明治。洗盘子; 并设置桌子。此外，已经表明，即使观察多个人以不同的方式执行相同的任务，复杂的观察也可以提取适用于新情况的规则（8）。还开发了一个虚拟现实系统（一个设备齐全的厨房用来洗碗），以从多个用户（9）的现实场景中学习，有10多个人以自己的方式执行任务。生成了涵盖所有情况的通用任务图；对于基于轨迹的方法而言，如此高的生成水平非常困难。

自学以确保可执行性

我们如何确保即使在不同的机器人身上也可以正确有效地执行任务？为确保成功，我们通过身心锻炼来学习自己的行为。这是一种增强学习任务性能的有力手段，使系统能够探索许多或所有可能性（7）。排练的一个关键要素是使新任务或技能适应具有不同动力的不同身体，这是大多数学习方法中都没有考虑的普遍问题。让机器人从心理上模拟某个动作的可能结果将极大地确保在现实世界中执行动作的成功。更进一步，排练动作可以帮助预测执行的动作可能产生的影响。这将确保对机器人计划（6）进行正确的参数设置。

过去的方法集中于学习处于相当固定的环境中（即，具有很小的差异）的单个任务。需要新颖和灵活的方法来处理新的和多样化的情况。目的学习的最新进展证明了它在任务复杂性和可跨多个领域通用化方面的可扩展性。该技术可以为成功向人类学习的机器人提供一条基本途径。

图1.机器人向人类学习：过去，现在和将来的目的学习。

码农公寓

相关文章