深度强化学习中实验环境:开源平台框架汇总
当我们设计了一个强化学习算法之后,我们如何来验证算法的好坏呢?就像数据集一样,我们需要一个公认的平台来衡量这个算法。这样的一个平台,最基本的需要有仿真和渲染。
OpenAI Gym and Universe
业界最出名的莫过于 Gym
和 Universe
了。 OpenAI Gym
用于评估和比较强化学习算法的好坏。它的接口支持在任何框架下的算法,像 TensorFlow
, Theano
, Keras
这些都可以。

Gym
库收集、解决了很多环境的测试过程中的问题,能够很好地使得你的强化学习算法得到很好地 Work
。并且含有游戏界面,能够帮助你去写通用性更强的算法。业界现在主流的就是这个环境。
在各大顶会上经常会看到用于连续控制物理引擎的 MuJoCo
但这个收费的。

RoboSchool
作为 MuJoCo
实现的替代品, OpenAI
开发了基于 Bullet
物理引擎的 Roboschool
。它提供了 OpenAI Gym
形式的接口用于模拟机器人控制。目前包含了12个环境。其中除了传统的类似 MuJoCo
的场景,还有交互控制,及多智能体控制场景。
-
GitHub链接:https://github.com/openai/roboschool
-
官网链接:https://openai.com/blog/roboschool/
Gym
中还有用于机械臂的抓取和灵巧手的机械手、机械臂环境 Robotics
:

-
GitHub链接:https://github.com/openai/gym
-
官网链接:http://gym.openai.com/
OpenAI Universe
相当于是 OpenAI Gym
的一个扩展,它所能提供的环境更加的复杂,有即时战略游戏的味道,对决策时间有一定的要求。

Universe
的发布也算是业界福音,任何程序都可以被转换成一个 Gym
的环境。 Universe
通过自动启动程序在一个 VNC
远程桌上进行工作,所以它不需要对程序内部、源码或者 bot API
的特别访问。环境被打包 Docker
镜像,安装使用将更加方便。
-
GitHub链接:https://github.com/openai/universe
-
官网链接:https://openai.com/blog/universe/
DeepMind Lab
DeepMind Lab
是一个第一人称 3D
游戏平台,它以丰富的科幻视觉来呈现场景。可用的操作能让智能体环顾四周,并以 3D
的形式移动。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间移动、玩激光笔、以及快速学习并记住随机生成的环境。 DeepMind Lab
已经成为 DeepMind
内部的一个主要研究平台, DeepMind Lab
同时拥有更丰富的视觉效果和更自然的物理效果。

-
官网链接:https://deepmind.com/research/publications/deepmind-lab
-
GitHub链接:https://github.com/deepmind/lab
Project Malmo
Malmo
由微软剑桥研究员 Katja Hofmann
带领开发,是 Microsoft
基于 Minecraft
(我的世界)开发的一个人工智能实验和研究平台。这个平台也还用于第一届 协同AI挑战赛 。

Malmo
是用于 多智能体强化学习算法 的开源平台,要求智能体之间相互合作,将协同AI做到极致。并且研究人员还可以加速《我的世界》中的时钟,加快试验速度。

-
GitHub链接:https://github.com/crowdAI/marLo
-
协同AI挑战赛官网:https://www.microsoft.com/en-us/research/academic-program/collaborative-ai-challenge/
ViZDoom
ViZDoom
提供了用AI玩毁灭战士游戏的环境(一人称射击类游戏)。它提供的是一个多智能体竞争博弈的一个环境,用于测试算法的好坏。

-
GitHub链接:https://github.com/mwydmuch/ViZDoom