Исследовать
Использование движений людей и животных для обучения роботов ведению мяча, а также имитация гуманоидных персонажей, чтобы переносить коробки и играть в футбол.
Гуманоидный персонаж учится преодолевать полосу препятствий методом проб и ошибок, что может привести к уникальным решениям. Хесс и др. «Появление двигательного поведения в богатой среде» (2017).
Пять лет назад мы взяли на себя задачу научить полностью развитого гуманоидного персонажа преодолевать полосы препятствий. Это продемонстрировало, чего может достичь обучение с подкреплением (RL) методом проб и ошибок, но также выявило две проблемы в решении воплощенный интеллект:
- Повторное использование ранее изученных моделей поведения: Чтобы агент «сдвинулся с мертвой точки», требовался значительный объем данных. Не имея каких-либо начальных знаний о том, какую силу приложить к каждому из суставов, агент начал с беспорядочных подергиваний тела и быстрого падения на землю. Эту проблему можно решить, повторно используя ранее изученные модели поведения.
- Идиосинкразическое поведение: Когда агент, наконец, научился преодолевать полосы препятствий, он делал это с помощью неестественных (хотя и забавных) моделей движений, которые были бы непрактичны для таких приложений, как робототехника.
Здесь мы описываем решение обеих проблем, называемых нейронно-вероятностными моторными примитивами (NPMP), включающее управляемое обучение с использованием моделей движения, полученных от людей и животных, и обсуждаем, как этот подход используется в нашей статье о гуманоидном футболе, опубликованной сегодня в журнале Science Robotics.
Мы также обсуждаем, как этот же подход позволяет гуманоиду манипулировать всем телом с помощью зрения, например, гуманоид, несущий объект, и роботизированное управление в реальном мире, например, когда робот ведет мяч.
Преобразование данных в примитивы управляемых двигателей с использованием NPMP
NPMP — это модуль управления двигателем общего назначения, который преобразует двигательные намерения с коротким горизонтом в сигналы управления низкого уровня. Он обучается в автономном режиме или через RL путем имитации данных захвата движения (MoCap), записанных с помощью трекеров на людях или животных, выполняющих движения интерес.
Агент учится имитировать траекторию MoCap (показана серым цветом).
Модель состоит из двух частей:
- Кодировщик, который принимает будущую траекторию и сжимает ее в двигательное намерение.
- Контроллер низкого уровня, который производит следующее действие с учетом текущего состояния агента и этого двигательного намерения.
Наша модель NPMP сначала перерабатывает справочные данные в контроллер низкого уровня (слева). Этот низкоуровневый контроллер затем можно использовать в качестве модуля управления двигателем по принципу «подключи и работай» для выполнения новой задачи (справа).
После обучения контроллер низкого уровня можно повторно использовать для изучения новых задач, при этом контроллер высокого уровня оптимизирован для прямой передачи двигательных намерений. Это обеспечивает эффективное исследование (поскольку возникает последовательное поведение даже при случайно выбранных двигательных намерениях) и ограничивает окончательное решение.
Срочная координация команды в гуманоидном футболе
Футбол уже давно является сложной задачей для исследований в области воплощенного интеллекта, требующей индивидуальных навыков и скоординированной командной игры. В нашей последней работе мы использовали NPMP в качестве предварительного руководства для изучения двигательных навыков.
Результатом стала команда игроков, которая прошла путь от изучения навыков преследования мяча до, наконец, обучения координации. Ранее в исследовании с простыми вариантами мы показали, что скоординированное поведение может возникнуть в командах, конкурирующих друг с другом. NPMP позволил нам наблюдать аналогичный эффект, но в сценарии, который требовал значительно более совершенного контроля движений.
Агенты сначала имитируют движения футболистов, чтобы изучить модуль NPMP (вверху). Используя NPMP, агенты затем изучают футбольные навыки (внизу).
Наши агенты приобрели навыки, в том числе гибкое передвижение, пасы и разделение труда, о чем свидетельствует целый ряд статистических данных, включая показатели, используемые в реальной спортивной аналитике. Игроки демонстрируют как гибкий высокочастотный двигательный контроль, так и долгосрочное принятие решений, которое предполагает предвидение поведения товарищей по команде, что приводит к скоординированной командной игре.
Агент, обучающийся соревновательной игре в футбол с использованием мультиагентного RL.
Манипулирование всем телом и когнитивные задачи с использованием зрения
Научиться взаимодействовать с объектами с помощью рук — еще одна трудная задача управления. NPMP также может обеспечить этот тип манипуляций со всем телом. Имея небольшой объем данных MoCap о взаимодействии с коробками, мы можем научить агента переносить коробку из одного места в другое, используя эгоцентрическое видение и лишь скудный сигнал вознаграждения:
При небольшом объеме данных MoCap (вверху) наш подход NPMP может решить задачу переноски коробок (внизу).
Аналогично мы можем научить агента ловить и бросать мячи:
Имитация гуманоида, ловящего и бросающего мяч.
Используя NPMP, мы также можем решать задачи лабиринта, связанные с передвижением, восприятием и памятью:
Имитированный гуманоид, собирающий синие сферы в лабиринте.
Безопасное и эффективное управление реальными роботами
NPMP также может помочь управлять настоящими роботами. Хорошо упорядоченное поведение имеет решающее значение для таких действий, как ходьба по пересеченной местности или обращение с хрупкими предметами. Нервные движения могут повредить самого робота или его окружение или, по крайней мере, разрядить его аккумулятор. Поэтому значительные усилия часто вкладываются в разработку целей обучения, которые заставят робота делать то, что мы хотим, при этом ведя себя безопасно и эффективно.
В качестве альтернативы мы исследовали, может ли использование априорных данных, полученных на основе биологического движения, дать нам хорошо упорядоченные, естественные и многократно используемые навыки движения для роботов с ногами, такие как ходьба, бег и повороты, которые подходят для применения на реальных роботах. .
Начав с данных MoCap от людей и собак, мы адаптировали подход NPMP для обучения навыкам и контроллерам в симуляции, которую затем можно применить на реальных роботах-гуманоидах (OP3) и четвероногих (ANYmal B) соответственно. Это позволило пользователю управлять роботами с помощью джойстика или вести мяч в заданное место естественным и надежным способом.
Навыки передвижения робота ANYmal осваиваются путем имитации собаки MoCap.
Навыки передвижения можно затем повторно использовать для контролируемой ходьбы и ведения мяча.
Преимущества использования нейровероятностных двигательных примитивов
Таким образом, мы использовали модель навыков NPMP для изучения сложных задач с гуманоидными персонажами в симуляциях и реальных роботах. NPMP объединяет низкоуровневые двигательные навыки с возможностью повторного использования, что облегчает изучение полезных моделей поведения, которые было бы трудно обнаружить методом неструктурированных проб и ошибок. Использование захвата движения в качестве источника предварительной информации смещает обучение моторному контролю в сторону естественного движения.
NPMP позволяет встроенным агентам быстрее обучаться с помощью RL; научиться более натуралистичному поведению; научиться более безопасному, эффективному и стабильному поведению, подходящему для реальной робототехники; и сочетать контроль движений всего тела с более долгосрочными когнитивными навыками, такими как работа в команде и координация.
Узнайте больше о нашей работе: