Контрольные показатели автономного обучения с подкреплением | GPTMain News

Многие успехи RL в значительной степени зависят от повторяющихся онлайн-взаимодействий агента со средой, которые мы называем онлайн-RL. Несмотря на успех в моделировании, использование RL для реальных приложений было ограниченным. Электростанции, роботы, системы здравоохранения или беспилотные автомобили обходятся дорого в эксплуатации, а неправильное управление может иметь опасные последствия. Они не легко совместимы с важной идеей исследования в RL и требованиями к данным онлайн-алгоритмов RL. Тем не менее, большинство реальных систем производят большие объемы данных в рамках своей нормальной работы, и цель автономного RL состоит в том, чтобы изучить политику непосредственно из этих зарегистрированных данных, не взаимодействуя с окружающей средой.

Офлайн-методы RL (например, Agarwal et al., 2020; Fujimoto et al., 2018) показали многообещающие результаты на известных эталонных доменах. Однако нестандартизированные протоколы оценки, разные наборы данных и подтверждение базовых показателей затрудняют алгоритмическое сравнение. Тем не менее, некоторые важные свойства потенциальных областей применения в реальном мире, такие как частичная наблюдаемость, многомерные сенсорные потоки (т. е. изображения), разнообразные пространства действий, проблемы исследования, нестационарность и стохастичность, недостаточно представлены в текущей литературе по автономному RL. .

[INSERT GIF + CAPTION]

Мы представляем новый набор областей задач и связанных наборов данных вместе с четким протоколом оценки. Мы включаем широко используемые домены, такие как DM Control Suite (Tassa et al., 2018) и игры Atari 2600 (Bellemare et al., 2013), а также домены, которые все еще сложны для надежных онлайн-алгоритмов RL, таких как реальные Задачи набора RL (RWRL) (Dulac-Arnold et al., 2020) и задачи DM Locomotion (Heess et al., 2017; Merel et al., 2019a,b, 2020). Стандартизируя среды, наборы данных и протоколы оценки, мы надеемся сделать исследования в области автономного RL более воспроизводимыми и доступными. Мы называем наш набор эталонных тестов «RL Unplugged», потому что автономные методы RL могут использовать его без взаимодействия каких-либо участников со средой. Наша статья предлагает четыре основных вклада: (i) унифицированный API для наборов данных (ii) разнообразный набор сред (iii) четкие протоколы оценки для автономного исследования RL и (iv) эталонные базовые показатели производительности.

RL Unplugged: контрольные показатели автономного обучения с подкреплением

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس