【学习随记】论文翻译:A Comprehensive Survey on Safe Reinforcement Learning

  • 本篇译文为方便自己再次阅读而记录,源自Google翻译和CNKI翻译助手。
  • 习惯用语保持英文(例:agent),一些细微之处结合自己理解稍加修改,为方便阅读,译文删除了参考文献相关部分。
  • 才疏学浅,未读懂或不确定处在[ ]内附英文原文,欢迎大家指正,有任何侵权或者不妥之处请及时告知,将尽快处理。

摘要

安全强化学习可以定义为在学习和/或部署过程中确保合理的系统性能和/或尊重安全约束很重要的问题的回报期望最大化的学习策略的过程。 我们对安全强化学习的两种方法进行分类和分析。 第一个是基于最优性标准的修改,经典的贴现有限/无限视界,具有安全系数。第二种是基于通过结合外部知识或风险指标的指导来修改探索过程。 我们使用提议的分类来调查现有文献,并建议安全强化学习的未来方向。

关键字

强化学习, 风险敏感, 安全探索, 指导建议 [teacher advice]

1. 引言

在强化学习 (RL) 任务中,agent感知环境状态,并基于真实有价值的奖励信号采取最大化长期回报的行动。然而,在agent的安全性特别重要的某些情况下,例如在昂贵的机器人平台中,研究人员不仅越来越关注长期奖励最大化,而且越来越关注避免机器人受到损害。

安全概念,或者它的对立面,风险,在 RL 文献中有多种形式,它不一定是指物理问题。 在许多工作中,风险与环境的随机性有关,并且在这些环境中,即使是(关于回报的)最佳策略在某些情况下也可能表现不佳。 在这些方法中,风险概念与环境的固有不确定性(即具有随机性)有关。由于最大化长期回报并不一定能避免罕见的大的负面结果,我们需要其他标准来评估风险。在这种情况下,长期回报最大化被转换为包括一些与回报方差或其最坏结果相关的风险概念。在其他工作中,优化标准[optimization criterion]被转换为包括访问错误状态的概率,或将时间差异转换为出乎意料的坏的更重的加权事件。

其他工作不改变优化标准,而是直接改变探索过程。 在学习过程中,agent决定选择哪个动作,或者是了解更多关于环境的信息,或者是向目标更近一步。在 RL 中,在学习阶段选择动作的技术称为探索/利用策略。大多数探索方法基于启发式,依赖于从环境采样中收集的统计数据,或者具有随机的探索性成分(例如 ε-greedy)。他们的目标是有效地探索状态空间。然而,这些探索方法中的大多数都对行动的风险视而不见。 为避免出现危险情况,通常会通过包含任务的先验知识来修改探索过程。这种先验知识可用于为 RL 算法提供初始信息,以偏向后续探索过程,或提供有关任务的有限演示集,或提供指导。 基于先验知识的方法最初并不是为了处理风险领域而构建的,但根据它们的设计方式,它们已被证明特别适合此类问题。例如,2009 年 RL 竞赛直升机控制任务的获胜者使用初始知识来引导进化方法。在这种方法中,几个克隆了无错误指导策略[clone error-free teacher policies]的神经网络被添加到初始群体中(促进算法快速收敛到接近最优的策略,并间接地减少agent损坏或伤害)。事实上,由于直升机领域的获胜者是累积奖励最高的agent,获胜者还必须间接减少直升机坠毁,因为这些会导致巨大的灾难性负奖励。 尽管比赛是基于学习阶段之后的表现,但这些方法表明,在学习阶段减少灾难性情况的数量,特别有益于以在线方式而不是通过模拟器执行的真实机器人中。 相反,Abbeel 和 Ng (2005);Abbeel 等人 (2010) 使用教师[teacher]的一组有限演示来推导出直升机控制任务的安全策略,同时最大限度地减少直升机坠毁。 最后,教师在探索过程中提供的指导也被证明是避免危险或灾难性状态的有效方法。在另一条研究线中, 探索过程是使用某种形式的风险度量进行的,这种度量基于熵度量和预期回报的加权和的时间差异。

在这份手稿中,我们对工作进行了全面调查,其中考虑了 RL 社区内的安全和/或风险概念。我们将 RL 中的这个子领域称为安全强化学习。 安全强化学习可以定义为一种学习最大化回报期望的策略的过程,在学习和(或)部署过程中,该过程十分重视确保合理的系统性能和(或)尊重安全约束。[Safe RL can be defined as the process of learning policies that maximize the expectation of the return in problems in which it is important to ensure reasonable system performance and/or respect safety constraints during the learning and/or deployment processes.] 安全强化学习算法缺乏用于组织现有方法的既定分类法。 在本次调查中,我们通过安全强化学习算法的分类贡献了这样一个结构。 我们将安全强化学习算法分为两种基本的大类[two fundamental tendencies]第一类包括转换优化标准[transforming the optimization criterion]。第二类包括以两种方式修改探索过程[modifying the exploration process]:(i)通过整合外部知识,以及(ii)通过使用风险度量。 在这一类别中,我们专注于那些在风险领域中测试的 RL 方法,这些方法通过修改探索过程来减少或防止不良情况。 这样做的目的是成为开始在安全强化学习中努力的研究人员的起点。 重要的是要注意,第二类包括第一类,因为修改优化标准也会修改探索过程。 然而,在第一类中,我们考虑以某种方式转换优化标准以包含某种形式的风险的方法。 另一方面,第二类中的优化标准仍然存在,而探索过程被修改以考虑某种形式的风险。

基于这些考虑,本文的其余部分组织如下。第 2 节介绍了文献中现有的安全强化学习算法的概述和分类。第 3 节调查基于优化标准转换的方法。第 4 节考虑通过使用先验知识或风险度量来修改探索过程的方法。第 5 节我们讨论调查的方法并确定未来工作的开放研究领域[open areas of research]。 最后,我们以第 6 节结束。

2. 安全强化学习概述

上一篇:boost::safe_numerics模块测试 constexpr 转换


下一篇:MySQL: You are using safe update mode and you tried to update a table without a WHERE that uses a KE