

Многие успехи RL в значительной степени зависят от повторяющихся онлайн-взаимодействий агента со средой, которые мы называем онлайн-RL. Несмотря на успех в моделировании, использование RL для реальных приложений было ограниченным. Электростанции, роботы, системы здравоохранения или беспилотные автомобили обходятся дорого в эксплуатации, а неправильное управление может иметь опасные последствия. Они не легко совместимы с важной идеей исследования в RL и требованиями к данным онлайн-алгоритмов RL. Тем не менее, большинство реальных систем производят большие объемы данных в рамках своей нормальной работы, и цель автономного RL состоит в том, чтобы изучить политику непосредственно из этих зарегистрированных данных, не взаимодействуя с окружающей средой.
Офлайн-методы RL (например, Agarwal et al., 2020; Fujimoto et al., 2018) показали многообещающие результаты на известных эталонных доменах. Однако нестандартизированные протоколы оценки, разные наборы данных и подтверждение базовых показателей затрудняют алгоритмическое сравнение. Тем не менее, некоторые важные свойства потенциальных областей применения в реальном мире, такие как частичная наблюдаемость, многомерные сенсорные потоки (т. е. изображения), разнообразные пространства действий, проблемы исследования, нестационарность и стохастичность, недостаточно представлены в текущей литературе по автономному RL. .
[INSERT GIF + CAPTION]
Мы представляем новый набор областей задач и связанных наборов данных вместе с четким протоколом оценки. Мы включаем широко используемые домены, такие как DM Control Suite (Tassa et al., 2018) и игры Atari 2600 (Bellemare et al., 2013), а также домены, которые все еще сложны для надежных онлайн-алгоритмов RL, таких как реальные Задачи набора RL (RWRL) (Dulac-Arnold et al., 2020) и задачи DM Locomotion (Heess et al., 2017; Merel et al., 2019a,b, 2020). Стандартизируя среды, наборы данных и протоколы оценки, мы надеемся сделать исследования в области автономного RL более воспроизводимыми и доступными. Мы называем наш набор эталонных тестов «RL Unplugged», потому что автономные методы RL могут использовать его без взаимодействия каких-либо участников со средой. Наша статья предлагает четыре основных вклада: (i) унифицированный API для наборов данных (ii) разнообразный набор сред (iii) четкие протоколы оценки для автономного исследования RL и (iv) эталонные базовые показатели производительности.