DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

CONTINOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

论文地址

https://arxiv.org/abs/1509.02971

个人翻译,并不权威

Timothy P.Lilicrp,Jonathan J.Hunt,Alexander Pritzel, Nicolas Heess,
Tom Erez, Yuval Tassa, David Silver & Daan Wierstra
Google Deepmind
London,UK
{countzero, jjhunt, apritzel, heess,
etom, tassa, daviadsilver, wierstra} @ google.com

ABSTRACT 摘要

我们将Deep Q-Learning 成功的基本思想改写应用到持续动作域。
我们提出一种基于确定性策略梯度的model-free的actor-critic算法,该算法可以在连续的动作空间中运行。
使用相同的学习算法,网络结构和超参数,我们的算法鲁棒的解决了20多个模拟的物理任务,其中包括经典的车辆摇杆 cartpole swiing-up,灵巧的操纵 dexterous manipulation,有腿运动 legged locomotion,和car driving 汽车驾驶。
我们的算法能够找到性能与完全访问域动态及其导数的规划算法相比具有竞争力的策略。
我们进一步证明,对于许多任务,该算法可以端到端学习策略:直接从原始像素输入。

INTRODUCTION 简介

人工智能领域的主要目标之一是解决没有经过处理的高维感官输入的复杂任务。
最近,通过将处理感知的深度学习(Krizhevsky 等人 2012)与强化学习相结合,取得了显著的进展产生了 Deep Q Network (DQN),该算法(Minh 等人 2015)能够在许多使用未经处理的像素输入的Atari视频游戏中实现了人类水平的性能。
为此,采用深度神经网络函数逼近器来估计动作值函数。

然而,当DQN用高维观测空间来解决问题时,它只能处理离散的和低维的动作空间。
许多感兴趣的任务,尤其是物理控制任务,具有连续(实值)和高维的动作空间。
DQN不能直接应用于连续域,因为它依赖于找到使action-value function 值最大的动作,这在连续的情况下,每一步需要迭代优化过程。

将DQN等深度强化学习方法应用于连续域的一个明显方法是将动作空间简单地离散化。
然而,这有许多限制,最明显地是维度灾难:动作的数量随着*度的增加呈指数级地增长。
例如,对于每一个关节,一个7*度系统(如在人类手臂中)具有最粗的离散化

a i a_i ai​ ∈ {−k,0,k}

得到一个维数为

3 7 3^7 37 = 2187

的动作空间。
对于需要对操作进行精确控制的任务,情况更糟,因为它们需要相应的细粒度离散化,导致离散操作的数量激增。
如此大的动作空间很难有效的探索,因此在这种情况下成功地训练类似DQN的网络可能很难。
此外,动作空间的简单离散化不必要的丢弃动作域结构的信息,这可能是解决许多问题所必须的。

在这项工作中,我们提出了一个model-free, off-policy 的 actor-critic算法,它使用深度函数逼进器,可以在高维的连续动作空间中学习策略。
我们的工作基于确定性策略梯度(DPG)算法(Silver等人,2014年)(其本身与NFQCA类似) ,类似的想法可以在(Prokhorov等人,1997年)中找到。
然而, 正如我们下面所展示的,这种带有神经函数逼进器的actor-critic 方法的简单应用对于具有挑战性的问题是不稳定的。
在这里,我们结合了actor-critic方法和来自Deep Q Network (DQN)最近成功的见解。
在DQN之前,人们普遍认为使用大型非线性函数逼进器学习值函数是困难且不稳定的。
DQN能够使用这两种函数逼进器以稳定和鲁棒的方式学习值函数,这主要有两个创新点:
1, 利用重放缓冲区的样本对网络进行off-policy训练,使样本之间的相关性最小化。
2, 该网络使用目标Q网络target Q network训练,以便在时序差分备份期间提供一致的目标。
在这项工作中,我们使用了相同的思想,以及batch normalization(loffe & Szegedy,2015), 这是深度学习的最新进展。
为了评估我们的方法,我们构建了各种具有挑战性的物理控制问题,这些问题涉及复杂的多关节运动,不稳定和丰富的接触动力学以及步态行为。
其中包括一些经典的问题,如cartpole swing-up问题,以及许多新的领域。
机器人控制的长期挑战是直接从原始的感官输入(如视频)中学习动作策略。
因此,我们在模拟器中放置一个固定视角的摄像机,并尝试使用低维观测值(例如关节角度)和直接从像素中进行所有任务。
我们称之为Deep-DPG (DDPG)的无模型方法可以使用相同的超参数和网络结构,使用低维观测值(例如笛卡尔坐标或关节角)来学习所有任务的竞争策略。
在许多情况下, 我们也能够直接从像素点学习好的策略,同样保持超参数和网络结构不变。
该方法的一个主要特点是它的简单性:它只需要一个简单的actor-critic 体系结构和学习算法,只需要很少的“活动部件”,使其易于实现并可扩展到更困难的问题和更大的网络。
对于物理控制问题,我们将我们的结果与规划(Tassa 等2012)计算的基线进行比较,该规划可以完全访问底层的模拟动力学及其导数(见补充信息)
有趣的是,DDPG有时可以找到超过规划器性能的策略,在某些情况下,甚至在从像素学习时,(规划器总是能在底层低维状态空间上进行规划)

BACKGROUND 背景

我们考虑一个标准的强化学习设置,它由一个agent与环境E以离散的时间步长进行交互。
在每个时间步t中,智能体都会收到一个观察

x t x_{t} xt​

,执行一个操作并获得一个标量奖励

r t r_t rt​
在这里考虑的所有环境中,行动都是实值的,
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

一般来说,环境可能是被部分地观察地,因此可能需要整个观察历史,动作对儿,
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

来描述状态。
这里,我们假设环境是完全观测到的,所以
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

一个智能体的行为由策略 π定义,它将状态映射到动作的概率分布
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

环境E 可能也是随机的。
我们将其建模为一个具有状态空间
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

动作空间
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

初始状态分布
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

转移动态概率
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

和奖励函数

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

的马尔可夫决策过程。

一个状态的回报(return)被定义为 带着折扣因子

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

的未来reward
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

之和。
请注意,回报(return)取决于所选的操作,因此取决于策略π,并可能是随机的。
强化学习的目标是学习一个使起始分布
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

的期望回报最大化的策略。
我们将策略π的折扣状态访问分布表示
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

许多强化学习算法中都使用了动作价值函数。
它描述了在 s t s_t st​状态下采取行动 a t a_t at​,以及随后遵循策略π后的预期回报:

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

在强化学习中,许多方法都利用了被称为Bellman方程的递归关系:

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

如果目标策略使确定的,我们可以将其描述为一个函数µ

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

并避免内部的期望计算:
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

期望只取决于环境。
这意味着可以使用从不同的随机行为策略β生成的转换来学习

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

Q-learning(Watkins&Dayan, 1992)是一种常用的off-policy算法,它使用 greedy policy

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

我们考虑由
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

参数化的函数逼近器,通过最小化损失来优化它:
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

其中
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

虽然 y t y_t yt​ 也依赖
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

但这通常被忽略。

由于理论性能无法保证,并且实际学习往往不稳定,因此过去常常避免使用大型非线性函数逼近器来学习值函数或者动作值函数。
最近,(Minih等人 2013;2015)采用了 Q-learning算法,以便有效的利用大型神经网络作为函数逼近器。
他们的算法能够学习从像素点玩Atari游戏。
为了扩展Q-learning,他们引入了两个主要的变化:使用重放缓冲区,以及计算 y t y_t yt​的单独目标网络。
我们在DDPG的上下文中使用这些方法,并在下一节中解释它们的实现。

ALGORITHM 算法

不可能直接将Q-learning应用到连续动作空间中,因为在连续空间中寻找贪心策略需要在每一个时间步优化 a t a_t at​;
这种优化速度太慢,不适用于大型,无约束函数逼近器和nontrivial动作空间。
相反,这里我们使用了基于DPG算法的actor-critic方法(Silver等人, 2014)
DPG算法维护了一个参数化的actor函数

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

该函数通过确定地将状态映射到特定操作来指定当前策略。

critic
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

是使用Bellman方程学习的。
通过将链式规则应用于相对于actor参数的起始分布J的预期回报,来更新actor

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

Silver等人(2014)证明,这就是策略梯度,策略性能的梯度。
与Q-learning一样,引入非线性函数逼近器意味着不在保证收敛。
然而,为了在大的状态空间中学习和推广,这样的近似器显得很重要。
NFQCA(Hafner&Riedmiller, 2011)使用与DPG相同的更新规则,但使用了神经网络函数逼近器,它使用批学习来保持稳定性,这对于大型网络来说很难实现。
NFQCA的小批量版本在每次更新时都不重置策略,这是扩展到大型网络所需的,它相当于原始DPG,我们在这里对其进行比较。
我们在这里的贡献是为DPG提供修改,其灵感来自DQN的成功,它允许它使用神经网络函数逼近器在线学习大的状态和动作空间。
我们将我们的算法称为Deep DPG(DDPG Algorithm 1)

当使用神经网络进行强化学习时,一个挑战时大多数优化算法都假设样本是独立同分布的。
显然,当样本是在一个环境中按顺序进行探索而产生时,这个假设就不再成立了。
此外,为了有效地利用硬件优化,必须分批学习,而不是在线学习。

就像在DQN中一样,我们使用了一个重放缓冲区 replay buffer来解决这些问题。
重放缓冲区是有限大小地缓冲区 R。
根据探索策略从环境中对转换进行采样,并将元组

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

存储在回放缓冲区中。
当缓冲区已经满时,将删除最旧地样本。
在每一步中,actor和critic都会通过从缓冲区中均匀地抽样一个小批量来更新。
由于DDPG是一种off-policy算法,重放缓冲区可能很大,允许算法从一组不相关的transitions的学习中获益。
用神经网络直接实现Q learning(方程4)被证明是不稳定的在许多环境下。
由于正在更新的网络

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

也用于计算目标值(方程式5),Q更新更容易发散。
我们的解决方案类似于目标网络在(Mnih 等人 2013年)中使用,但对actor-critic进行了修改,并使用了 “软”目标更新,而不是直接复制权重。
我们分别创建一个actor和critic网络的副本,

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

用于计算目标值。
然后通过让目标网络缓慢跟踪学习网络来更新这些目标网络的权重。

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING
DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

这意味着目标值被约束缓慢变化,大大提高了学习的稳定性。
这个简单的改变改变了学习action-value function 更接近监督学习的情况,这是一个存在鲁棒解的问题。

为了一致的训练critic而不发散,要得到稳定的目标y_i,同时需要a target μ’ 和 Q’。
这个可能使学习慢,因为target network 延迟了值函数更新的传播。
然而,在实践中, 我们发现学习的稳定性,大大超过了这一点。
从低维特征向量观测中学习时,观测的不同分量可能具有不同的物理单位(例如,位置与速度),并且范围可能因环境而异。
这使得网络很难有效地学习,并且很难找到在具有不同状态值尺度的环境中通用的超参数。

解决此问题的一种方法是手动缩放特征,使它们在不同环境和单元中处于相似的范围。
我们通过采用一种来自deep learning的被称为 batch normalization的最新技术来解决这个问题。
这项技术标准化了小批量样本中每个维度的平均值和方差。
此外,它还保持均值和方差的运行平均值,以便在测试期间(在我们的示例中,在探索和评估期间)用于标准化。
在深度网络中,通过确保每一层接收到whitened input,它 被用来最小化训练期间的协方差偏移 covariance shift。
在低维的情况下,我们在状态输入和动作输入之前μ 网络的所有层以及Q网络的所有层使用batch normalization.(网络的详细信息给在补充材料中)
通过batch normalization 我们能够有效的跨多个不同任务学习不同类型的单元,而无需手动确保单元在设定的范围内。

在连续动作空间学习的一个主要挑战是探索。
DDPG这样的off-policies算法的优点是,我们可以独立于学习算法来处理探索问题。

我们构造一个探索策略μ’,通过将从噪声过程N中采样的噪声添加到actor策略中,N可以被选择来适应环境。

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

如补充材料中所述,我们使用Ornstein-Uhlenbeck过程(Uhlenbeck&Ornstein,1930)生成时间相关的探索,以提高惯性物理控制问题的探索效率(在Wawrzynski,2015)中引入了类似的自相关噪声用法)

4 RESUTS 结果

我们构建了不同难度的模拟物理环境来测试我们的算法。
这包括经典的强化学习环境,如Cartpole,以及困难的高维任务,如gripper,设计接触的任务,如puck striking(canada)和移动任务如cheetah(Wawrzynski, 2009)

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

在除cheetah以外的所有领域中,作用都是施加到驱动关节的扭矩。
使用了MuJoCo模拟了这些环境(Todorov等人,2012)。
图1显示了任务中使用的一些环境呈现(补充部分包含环境的详细信息,您可以在 https://goo.gl/J4PIAz

在所有任务中,我们使用低维状态描述(如关节角度和位置)和高维环境渲染进行实验。
正如在DQN(Mnih等人,2013;2015)中,为了使问题在高维环境中几乎完全可以观察到,我们使用了动作重复。
对于agent的每个时间步,我们将模拟分为3个时间步,每次都重复agent的操作和渲染。
因此,向agent报告的观测中包含9个特征图(3个渲染中每个渲染的RGB),该特征图允许agent使用帧之间的差异来推断速度。
帧被下采样到64x64像素,8位RGB值被转换成浮点数,并缩放到[0,1]。
有关网络结构和超参数的详细信息,请参阅补充信息。

我们在训练期间定期评估策略,在没有探索噪音的情况下进行测试。
Figure2 图2,显示了一系列环境的性能曲线。
我们还报告了移除算法组件(即目标网络或批标准化)的结果。
为了在所有任务中都能很好的执行,这两种添加都是必要的。
特别是,没有目标网络的学习,就像最初使用DPG工作一样,在许多环境中非常糟糕。

令人惊讶的是,在一些简单任务中,从像素中学习策略与使用低维状态描述学习策略一样快。
这可能是由于重复操作使问题更简单。
也可能是卷积层提供了状态空间的易于分离的表示,这对于更高层来说很容易快速学习。

Table 1 表1总结了DDPG在所有环境中的性能(结果是5个副本的平均值)
我们用两条基线,将分数标准化。
第一个基线是原始策略的平均回报,该策略从有效操作空间上的均匀分布中对操作进行采样。
第二个基线是iLOG(Todorov&Li, 2005),这是一个基于规划的解算器,可以完全访问底层物理模型及其衍生工具。
我们将分数标准化,使得naive策略的平均分为0,iLOG的平均分为1。
DDPG能够在许多任务上学习好的策略,并且在许多情况下,一些副本学习的策略优于iLQG发现的策略,即使直接从像素学习。

学习准确的价值估计可能很有挑战性。
Q-learning容易过高估计价值(Hasselt, 2010)
我们通过将训练后Q的估计值与测试中看到的真实收益进行比较,从经验上检验了DDPG的估计值。
Figure 3 图3显示,在简单的任务中,DDPG准确的估计收益,而没有系统性偏差。
对于更难的任务,Q估计值更差,但DDPG仍然能够学习好的策略。

为了证明我们方法的普适性,我们还包括Torcs, 一个赛车游戏,其中的行动是加速,制动和转向。
Torcs 以前被用作其他policy学习方法的实验平台(Koutnik等人, 2014b)
我们在物理任务中使用了相同的网络结构和学习算法超参数,但是由于涉及的时间尺度非常不同,我们改变了探索的噪声过程。
在低维和像素上,一些副本能够学习到合理的策略,这些策略能够在轨道周围完成一个回路,而其他副本则无法学习到合理的策略。

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

图1.我们试图用DDPG解决的环境示例的屏幕截图。从左到右,手推车上摆任务、伸展任务、喘息和移动任务、冰球击球任务、单脚平衡任务、两个运动任务和Torcs(驾驶模拟器)。我们使用低维特征向量和高维像素输入来处理所有任务。
有关环境的详细说明见补充说明。
一些学到的策略的电影可以在 https://goo.gl/J4PIAz

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

图2:使用DPG变体选择域的性能曲线:原始DPG算法(minibatch NFQCA),具有批归一化(浅灰色)、目标网络(深灰色)、目标网络和批归一化(绿色),目标网络仅来自像素输入(蓝色).目标网络至关重要。

RELATED WORK 相关的工作

最初的DPG论文使用tile 编码和线性函数逼近器对 toy 问题的算法进行了评估。
它证明了off-policy DPG 在数据效率上优于 on-policy 和 off-policy stochasitic actor-critic。
它还解决了一项更具挑战性的任务,即多关节章鱼的手臂必须用四肢的任何部分打击目标。
然而,这篇论文并没有像我们在这里所做的那样,证明将这种方法扩展到大的、高维的观测空间。

人们通常认为,标准策略搜索方法(如本研究中探讨的方法)过于脆弱,无法扩展到难题(Levine et al., 2015)。
标准策略搜索被认为是困难的,因为它同时处理复杂的环境动态和复杂的策略。
事实上,过去大多数关于actor-critic和policy optimization方法的工作都难以扩展到更具挑战性的问题(Deisenroth等人,2013年)。
通常情况下,这是由于学习的不稳定性造成的,即问题的进展要么被后续的学习更新所破坏,要么学习的太慢而不实用。

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

图3:密度图显示估计的Q值与从5个副本上的测试episodes中取样的观察到的回报。
在简单领域,如pendulum和cartpole的Q值是相当准确的。
在更复杂的任务中,Q估计值不太准确,但任然可以用来学习有效的策略。
虚线表示统一,单位是任意的。

DDPG:CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

表1:在所有环境中进行最多250万步的训练后表现。我们报告了平均值和最佳观察值(共5次)。
除了Torcs之外,所有的分数都是标准化的,这样一个随机agent接收0,一个规划算法接收1。对于Torcs 我们提供原始奖励分数。
我们将DDPG算法的结果包括在低维版本(lowd)和高维版本(pix)。
为了进行比较,我们还包括了带有重放缓冲区和批处理规范化(cntrl)的original DPG算法。

最近对无模型策略搜索的研究表明,它可能不像以前想象的那么脆弱。
Wawrzyński (2009); Wawrzyński & Tanwani (2013) 在具有重放缓冲区的actor-critic框架中训练了随机策略。
与我们工作同时,Balduzzi & Ghifary(2015)使用 “deviator” network 扩展了DPG算法,该算法显示学习∂Q/∂a。
然而他们只在两维的低维域上训练。
Hess 等人(2015)引入了SVG(0),它也使用了Q-critic,但学习了随机策略。
DPG可视为SVG(0)的确定性极限。
我们这里描述的缩放DPG的技术也适用于使用重参数化技巧的随机策略(Heess et al., 2015; Schulman et al., 2015a)。

另外一种方法,置信区域策略优化(TRPO)(Schulman等人,2015b),直接构造随机神经网络策略,而不是将问题分解为最优控制和监督阶段。
该方法通过对策略参数进行精心选择的更新,限制更新以防止新策略偏离现有策略太远,从而产生近似单调的改进。
这种方法不需要学习动作值函数,而且(可能因此)看起来数据效率要低的多。

为了应对actor-critic方法的挑战,最近对引导策略搜索guided policy search(GPS)算法的研究(例如(Levine 等人,2015))将问题分解为三个相对容易解决的阶段:
首先,它利用全状态观测建立一个或多个轨迹的局部线性近似,然后利用最优控制沿这些轨迹寻找局部线性最优策略。
最后,它使用监督学习来训练一个复杂的非线性策略(例如一个深度神经网络)来再现优化轨迹的状态-动作映射。

这个方法有几个好处,包括数据利用率,并已成功地应用于各种现实世界的机器人操作任务使用视觉。
在这些任务中,GPS使用了与我们类似的卷积策略网络,但有两个显著的例外:
1.它使用空间softmax将视觉特征的维数降到每个特征图的一个(x,y)坐标系中。该策略还接收有关网络中第一个完全连接层的机器人配置的直接低维状态信息。
两者都可能提高算法的能力和数据效率,并且很容易在DDPG框架内被利用。

PILCO(Deisenroth & Rasmussen, 2011) 使用高斯过程学习非参数的概率动力学模型。
利用这个学习模型,PILCO计算分析策略梯度,并在许多控制问题上获得令人印象深刻的数据效率。
然而,由于计算量大,PILCO “不适用于高维问题” (Wahlstrom 等人, 2015)。
似乎深度函数近似器是将强化学习扩展到大型、高维领域的最有前途的方法。

Wahlstrom 等人(2015)使用深度动态模型网络和模型预测控制,从像素输入解决 摆锤摆动 pendulum swing-up 任务。
他们训练了一个可微的前向模型,并将目标状态编码到学习的潜在空间中。
他们使用模型预测控制的学习模型,找到一个策略,以达到目标。
然而,这种方法只适用于目标状态可以向算法证明的领域。

最近,进化方法已经被用于使用压缩权重参数化(Koutni769;等人, 2014a)或无监督学习(Koutni769;k等人,2014b)从像素学习Trocs的竞争策略,以降低进化权重的维数。
目前尚不清楚这些方法对其他问题的推广效果如何。

CONCLUSION 结论

这项工作结合了深度学习和强化学习的最新进展,产生了一种算法,即使使用原始像素作为观测,也能通过连续的动作空间有力的解决跨多个领域的具有挑战性的问题。
与大多数强化学习算法一样,非线性函数逼近器的使用消除了任何收敛保证;然而我们的实验结果表明,稳定的学习不需要在环境之间进行任何修改。

有趣的是,我们所有的实验度使用了比DQN学习更少的经验步骤来寻找Atari域的解决方案。
我们看到几乎所有问题都在250万个经验步骤内解决(而且通常要少的多),比DQN要求的好的Atari解决方案少20个步骤。
这表明,如果有更多的模拟时间,DDPG可以解决比这里所考虑的更困难的问题。

我们的方法仍有一些局限性。
最值得注意的是,与大多数无模型强化学习方法一样,DDPG需要大量的训练来找到解决方案。
然而,我们认为,鲁棒的无模型方法可能是大型系统的重要组成部分,大型系统可能会attack这些限制。(Glascher等人 2010)

REFERENCES

Balduzzi, David and Ghifary, Muhammad. Compatible value gradients for reinforcement learning
of continuous deep policies. arXiv preprint arXiv:1509.03005, 2015.
Deisenroth, Marc and Rasmussen, Carl E. Pilco: A model-based and data-efficient approach to
policy search. In Proceedings of the 28th International Conference on machine learning (ICML- 11), pp. 465–472, 2011.
Deisenroth, Marc Peter, Neumann, Gerhard, Peters, Jan, et al. A survey on policy search for robotics.
Foundations and Trends in Robotics, 2(1-2):1–142, 2013.
Gläscher, Jan, Daw, Nathaniel, Dayan, Peter, and O’Doherty, John P. States versus rewards: dis-
sociable neural prediction error signals underlying model-based and model-free reinforcement
learning. Neuron, 66(4):585–595, 2010.
Glorot, Xavier, Bordes, Antoine, and Bengio, Yoshua. Deep sparse rectifier networks. In Proceed-
ings of the 14th International Conference on Artificial Intelligence and Statistics. JMLR W&CP
Volume, volume 15, pp. 315–323, 2011.
Hafner, Roland and Riedmiller, Martin. Reinforcement learning in feedback control. Machine
learning, 84(1-2):137–169, 2011.
Hasselt, Hado V. Double q-learning. In Advances in Neural Information Processing Systems, pp.
2613–2621, 2010.
Heess, N., Hunt, J. J, Lillicrap, T. P, and Silver, D. Memory-based control with recurrent neural
networks. NIPS Deep Reinforcement Learning Workshop (arXiv:1512.04455), 2015.
Heess, Nicolas, Wayne, Gregory, Silver, David, Lillicrap, Tim, Erez, Tom, and Tassa, Yuval. Learn-
ing continuous control policies by stochastic value gradients. In Advances in Neural Information
Processing Systems, pp. 2926–2934, 2015.
Ioffe, Sergey and Szegedy, Christian. Batch normalization: Accelerating deep network training by
reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.
Kingma, Diederik and Ba, Jimmy. Adam: A method for stochastic optimization. arXiv preprint
arXiv:1412.6980, 2014.
Koutnı́k, Jan, Schmidhuber, Jürgen, and Gomez, Faustino. Evolving deep unsupervised convolu-
tional networks for vision-based reinforcement learning. In Proceedings of the 2014 conference
on Genetic and evolutionary computation, pp. 541–548. ACM, 2014a.
Koutnı́k, Jan, Schmidhuber, Jürgen, and Gomez, Faustino. Online evolution of deep convolutional
network for vision-based reinforcement learning. In From Animals to Animats 13, pp. 260–269.
Springer, 2014b.
Krizhevsky, Alex, Sutskever, Ilya, and Hinton, Geoffrey E. Imagenet classification with deep convo-
lutional neural networks. In Advances in neural information processing systems, pp. 1097–1105,
2012.
Levine, Sergey, Finn, Chelsea, Darrell, Trevor, and Abbeel, Pieter. End-to-end training of deep
visuomotor policies. arXiv preprint arXiv:1504.00702, 2015.
Mnih, Volodymyr, Kavukcuoglu, Koray, Silver, David, Graves, Alex, Antonoglou, Ioannis, Wier-
stra, Daan, and Riedmiller, Martin. Playing atari with deep reinforcement learning. arXiv preprint
arXiv:1312.5602, 2013.
Mnih, Volodymyr, Kavukcuoglu, Koray, Silver, David, Rusu, Andrei A, Veness, Joel, Bellemare,
Marc G, Graves, Alex, Riedmiller, Martin, Fidjeland, Andreas K, Ostrovski, Georg, et al. Human-
level control through deep reinforcement learning. Nature, 518(7540):529–533, 2015.
Prokhorov, Danil V, Wunsch, Donald C, et al. Adaptive critic designs. Neural Networks, IEEE
Transactions on, 8(5):997–1007, 1997.
Schulman, John, Heess, Nicolas, Weber, Theophane, and Abbeel, Pieter. Gradient estimation using
stochastic computation graphs. In Advances in Neural Information Processing Systems, pp. 3510–
3522, 2015a.
Schulman, John, Levine, Sergey, Moritz, Philipp, Jordan, Michael I, and Abbeel, Pieter. Trust region
policy optimization. arXiv preprint arXiv:1502.05477, 2015b.
Silver, David, Lever, Guy, Heess, Nicolas, Degris, Thomas, Wierstra, Daan, and Riedmiller, Martin.
Deterministic policy gradient algorithms. In ICML, 2014.
Tassa, Yuval, Erez, Tom, and Todorov, Emanuel. Synthesis and stabilization of complex behaviors
through online trajectory optimization. In Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ
International Conference on, pp. 4906–4913. IEEE, 2012.
Todorov, Emanuel and Li, Weiwei. A generalized iterative lqg method for locally-optimal feed-
back control of constrained nonlinear stochastic systems. In American Control Conference, 2005.
Proceedings of the 2005, pp. 300–306. IEEE, 2005.
Todorov, Emanuel, Erez, Tom, and Tassa, Yuval. Mujoco: A physics engine for model-based control.
In Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on, pp. 5026–
5033. IEEE, 2012.
Uhlenbeck, George E and Ornstein, Leonard S. On the theory of the brownian motion. Physical
review, 36(5):823, 1930.
Wahlström, Niklas, Schön, Thomas B, and Deisenroth, Marc Peter. From pixels to torques: Policy
learning with deep dynamical models. arXiv preprint arXiv:1502.02251, 2015.
Watkins, Christopher JCH and Dayan, Peter. Q-learning. Machine learning, 8(3-4):279–292, 1992.
Wawrzyński, Paweł. Real-time reinforcement learning by sequential actor–critics and experience
replay. Neural Networks, 22(10):1484–1497, 2009.
Wawrzyński, Paweł. Control policy with autocorrelated noise in reinforcement learning for robotics.
International Journal of Machine Learning and Computing, 5:91–95, 2015.
Wawrzyński, Paweł and Tanwani, Ajay Kumar. Autonomous reinforcement learning with experience
replay. Neural Networks, 41:156–167, 2013.

补充材料没有翻译

上一篇:2015年下半年 系统集成项目管理工程师 上午试卷 综合知识 软考真题【含答案和答案解析】


下一篇:长沙市明德华兴中学2015班在湖南省智慧教育装备展示体验中心开展寒假社会实践活动