Исследовать
Виды от второго лица и сверху вниз на агента BYOL-Explore, решающего уровень Thow-Across задачи DM-HARD-8, тогда как чистый RL и другие базовые методы исследования не могут добиться какого-либо прогресса на Thow-Across.
Исследование, движимое любопытством, — это активный процесс поиска новой информации для улучшения понимания агентом окружающей среды. Предположим, что агент изучил модель мира, которая может предсказывать будущие события, учитывая историю прошлых событий. Агент, движимый любопытством, может затем использовать несоответствие прогнозов модели мира как внутреннюю награду за направление своей исследовательской политики на поиск новой информации. Таким образом, агент может затем использовать эту новую информацию для улучшения самой модели мира, чтобы она могла делать более точные прогнозы. Этот итеративный процесс может позволить агенту в конечном итоге изучить каждую новинку в мире и использовать эту информацию для построения точной модели мира.
Вдохновленные успехами метода начальной загрузки вашего собственного скрытого (BYOL), который применялся в компьютерном зрении, обучении представлению графов и обучении представлениям в RL, мы предлагаем BYOL-Explore: концептуально простой, но общий, движимый любопытством ИИ-агент для решения сложные исследовательские задачи. BYOL-Explore изучает представление мира, предсказывая свое собственное будущее представление. Затем он использует ошибку прогноза на уровне представления в качестве внутреннего вознаграждения для обучения политике, основанной на любопытстве. Таким образом, BYOL-Explore изучает представление мира, динамику мира и политику исследования, основанную на любопытстве, просто путем оптимизации ошибки прогнозирования на уровне представления.
Сравнение BYOL-Explore, случайной сетевой дистилляции (RND), модуля внутреннего любопытства (ICM) и чистого RL (без внутреннего вознаграждения) с точки зрения среднего предельного показателя, нормализованного человеком (CHNS).
Несмотря на простоту конструкции, при применении к набору DM-HARD-8 сложных трехмерных, визуально сложных и сложных исследовательских задач BYOL-Explore превосходит стандартные методы исследования, основанные на любопытстве, такие как случайная сетевая дистилляция (RND) и Модуль внутреннего любопытства (ICM) в виде среднего предела, нормализованного для человека балла (CHNS), измеренного по всем заданиям. Примечательно, что BYOL-Explore достиг такой производительности, используя только одну сеть, одновременно обучаемую всем задачам, тогда как предыдущая работа была ограничена настройкой одной задачи и могла добиться значимого прогресса в решении этих задач только при условии демонстрации экспертами-людьми.
Еще одним свидетельством своей универсальности является то, что BYOL-Explore достигает сверхчеловеческой производительности в десяти самых сложных исследовательских играх Atari, имея при этом более простой дизайн, чем другие конкурирующие агенты, такие как Agent57 и Go-Explore.
Сравнение BYOL-Explore, случайной сетевой дистилляции (RND), модуля внутреннего любопытства (ICM) и чистого RL (без внутреннего вознаграждения) с точки зрения среднего предельного показателя, нормализованного человеком (CHNS).
Двигаясь вперед, мы можем обобщить BYOL-Explore на высокостохастические среды, изучив вероятностную модель мира, которую можно использовать для создания траекторий будущих событий. Это может позволить агенту моделировать возможную стохастичность окружающей среды, избегать стохастических ловушек и планировать исследования.