Multi-agent Particle Environment - MPE多智能体强化学习运行环境的任务简介

2024-03-19 23:03:34

MPE环境是一个时间离散、空间连续的二维环境，UI的界面风格如图所示，它通过控制在二维空间中代表不同含义的粒子，实现对于各类MARL算法的验证。MPE被人们广泛所知是借助于那篇NiPS2017的著名多智能体强化学习算法MADDPG的实验环境，可以直接在arxiv中搜索到。

MPE的使用方法与gym的使用方法基本一致，即每一个step通过输入agent的动作状态等信息来换取MPE的环境感知。MPE和gym一样，也是由openai组织进行开发的，其主要有以下几个任务构成。

代码中的环境名称	是否具有交流	是否具备竞争	环境解释
`simple.py`	N	N	单个代理会看到地标位置，并根据其与地标的接近程度获得奖励。不是多代理程序环境-用于调试策略。
`simple_adversary.py` (Physical deception)	N	Y	1个对手（红色），N个好人（绿色），N个地标（通常N = 2）。所有agent都观察地标和其他agent的位置。一种地标是“目标地标”（绿色）。好人会根据其中一位与目标地标的接近程度来给予奖励，但如果对手接近目标地标则会给予负面奖励。攻击者会根据其与目标的接近程度来获得奖励，但它不知道目标目标是哪个地标。因此，优秀的agent必须学会“分散”并掩盖所有地标，以欺骗对手。
`simple_crypto.py` (Covert communication)	Y	Y	两名善良的代理人（alice和bob），一名对手（eve）。爱丽丝必须通过公共频道发送悄悄话来鲍勃。 Alice和bob会根据bob重构消息的程度来获得奖励，但是如果eve可以重构消息，则会得到负面奖励。爱丽丝和鲍勃有一个私钥（在每个情节的开头随机生成），他们必须学会使用私钥对消息进行加密。
`simple_push.py`（保留）	N	Y	1个特工，1个对手，1个地标。代理根据到地标的距离获得奖励。如果对手靠近地标，并且代理人离地标较远，则会得到奖励。因此，对手学会了将特工从地标上推开。
`simple_reference.py`	Y	N	2个代理，3个不同颜色的地标。每个座席都想到达其目标地标，只有其他座席才知道。奖励是集体的。因此，座席必须学会交流其他座席的目标，并导航至其地标。这与simple_speaker_listener场景相同，在该场景中，两个代理都是同时的演讲者和听众。
`simple_push.py` (Keep-away)	N	Y	1个特工，1个对手，1个地标。代理根据到地标的距离获得奖励。如果对手靠近地标，并且代理人离地标较远，则会得到奖励。因此，对手学会了将特工从地标上推开。
`simple_reference.py`	Y	N	2个代理，3个不同颜色的地标。每个座席都想到达其目标地标，只有其他座席才知道。奖励是集体的。因此，座席必须学会交流其他座席的目标，并导航至其地标。这与simple_speaker_listener场景相同，在该场景中，两个代理都是同时的演讲者和听众。
`simple_speaker_listener.py` (Cooperative communication)	Y	N	与simple_reference相同，不同的是一个座席是不会移动的“说话人”（灰色）（遵守另一个座席的目标），另一个座席是听众（不会说话，但必须导航到正确的地标）
`simple_spread.py` (Cooperative navigation)	N	N	N个代理商，N个地标。代理商会根据任何代理商与每个地标的距离获得奖励。如果代理与其他代理冲突，则将受到处罚。因此，代理商必须学会覆盖所有地标，同时避免碰撞。
`simple_tag.py` (Predator-prey)	N	Y	捕食者—猎物的环境。好的特工（绿色）速度更快，并且希望避免被对手（红色）击中。对手行动较慢，想打败优秀的特工。障碍物（黑色大圆圈）阻碍了道路。
`simple_world_comm.py`	Y	Y	随附视频中看到的环境。与simple_tag相同，不同之处在于：（1）有食物（蓝色小球），这些善良的代理人会因为靠近而得到奖励；（2）现在，我们拥有了“森林”，从外面看不到内部的代理人；（3）有一个“领导对手”，可以随时查看特工，并且可以与其他对手进行交流以帮助协调追赶。

码农公寓

相关文章