Переходим к более общим роботам | GPTMain News

Исследовать

Опубликовано
Авторы

Команда робототехники

Коллекция блоков на серой поверхности.  Они представляют собой смесь форм красного, зеленого и синего цветов.  Некоторые блоки наложены друг на друга.

Представляем RGB-Stacking как новый эталон роботизированных манипуляций на основе зрения

Взять палку и балансировать ею на бревне или положить камешек на камень может показаться человеку простым — и вполне похожим — действием. Однако большинству роботов сложно справиться с несколькими такими задачами одновременно. Манипулирование палкой требует другого набора действий, чем укладка камней, не говоря уже о складывании различной посуды друг на друга или сборке мебели. Прежде чем мы сможем научить роботов выполнять такого рода задачи, им сначала необходимо научиться взаимодействовать с гораздо большим количеством объектов. В рамках миссии DeepMind и в качестве шага к созданию более обобщаемых и полезных роботов мы изучаем, как дать роботам возможность лучше понимать взаимодействие объектов с различной геометрией.

В документе, который будет представлен на CoRL 2021 (Конференция по обучению роботов) и который доступен в виде препринта на OpenReview, мы представляем RGB-Stacking как новый эталон роботизированных манипуляций на основе зрения. В этом тесте робот должен научиться захватывать различные объекты и балансировать их друг на друге. Что отличает наше исследование от предыдущих работ, так это разнообразие использованных объектов и большое количество эмпирических оценок, проведенных для подтверждения наших выводов. Наши результаты показывают, что сочетание моделирования и реальных данных можно использовать для изучения сложных манипуляций с несколькими объектами, и предлагают надежную основу для открытой проблемы обобщения на новые объекты. Чтобы поддержать других исследователей, мы открываем исходный код версии нашей моделируемой среды и публикуем проекты для создания нашей среды реального робота с укладкой RGB, а также модели RGB-объектов и информацию для их 3D-печати. Мы также открываем доступ к коллекции библиотек и инструментов, используемых в наших исследованиях в области робототехники в более широком смысле.

Тест RGB-стекинга

Наша цель с помощью RGB-Stacking — научить роботизированную руку с помощью обучения с подкреплением складывать объекты различной формы. Мы размещаем параллельный захват, прикрепленный к манипулятору робота, над корзиной и три объекта в корзине — красный, зеленый и синий (отсюда и название RGB). Задача проста: сложите красный предмет поверх синего в течение 20 секунд, а зеленый предмет будет служить препятствием и отвлечением внимания. Процесс обучения гарантирует, что агент приобретет обобщенные навыки посредством обучения на нескольких наборах объектов. Мы намеренно варьируем возможности захвата и укладки — качества, которые определяют, как агент может захватывать и укладывать каждый объект. Этот принцип проектирования заставляет агента демонстрировать поведение, выходящее за рамки простой стратегии выбора и размещения.

Каждый триплет ставит перед агентом свои уникальные задачи: Триплет 1 требует точного понимания верхнего объекта; Триплет 2 часто требует, чтобы верхний объект использовался в качестве инструмента для переворачивания нижнего объекта перед складыванием; Триплет 3 требует балансировки; Триплет 4 требует точного укладки (т. е. центроиды объектов должны быть выровнены); а верхний объект Triplet 5 может легко скатиться, если его не аккуратно сложить. Оценивая трудности этой задачи, мы обнаружили, что наш базовый сценарий, написанный вручную, имел показатель успеха при суммировании 51%.

Наш тест RGB-Stacking включает в себя две версии задач с разным уровнем сложности. В «Мастерстве навыков» наша цель — обучить одного агента, который умеет составлять заранее определенный набор из пяти троек. В «Обобщении навыков» мы используем те же тройки для оценки, но обучаем агента на большом наборе обучающих объектов — всего более миллиона возможных троек. Чтобы проверить генерализацию, эти обучающие объекты исключают семейство объектов, из которых были выбраны тестовые тройки. В обеих версиях мы разделяем процесс обучения на три этапа:

  • Сначала мы обучаемся моделированию с использованием готового алгоритма RL: максимальная апостериорная оптимизация политики (MPO). На этом этапе мы используем состояние симулятора, что позволяет провести быстрое обучение, поскольку положения объектов передаются непосредственно агенту, а не агенту, который должен научиться находить объекты на изображениях. Полученная в результате политика не может быть напрямую передана реальному роботу, поскольку эта информация недоступна в реальном мире.
  • Затем мы обучаем новую политику моделирования, которая использует только реалистичные наблюдения: изображения и проприоцептивное состояние робота. Мы используем рандомизированное моделирование для улучшения передачи реальных изображений и динамики. Государственная политика служит учителем, предоставляя обучающемуся агенту корректировки его поведения, и эти корректировки воплощаются в новую политику.
  • Наконец, мы собираем данные, используя эту политику, на реальных роботах и ​​обучаем улучшенную политику на основе этих данных в автономном режиме, взвешивая хорошие переходы на основе изученной функции Q, как это делается в критической регуляризованной регрессии (CRR). Это позволяет нам использовать данные, пассивно собранные в ходе проекта, вместо запуска трудоемкого алгоритма онлайн-обучения на реальных роботах.

Такое разделение нашего процесса обучения оказывается крайне важным по двум основным причинам. Во-первых, это позволяет нам вообще решить проблему, поскольку это заняло бы слишком много времени, если бы мы начинали с нуля непосредственно над роботами. Во-вторых, это увеличивает скорость наших исследований, поскольку разные люди в нашей команде могут работать над разными частями конвейера, прежде чем мы объединим эти изменения для общего улучшения.

Наш агент демонстрирует новые способы складывания 5 троек. Самый сильный результат с использованием Skill Mastery был у агента, основанного на зрении, который достиг среднего успеха в симуляции 79% (этап 2), успеха с нулевым выстрелом на реальных роботах 68% (этап 2) и 82% после одношагового улучшения политики от реальные данные (Этап 3). Тот же конвейер для обобщения навыков привел к тому, что последний агент достиг 54% успеха на реальных роботах (этап 3). Устранение этого разрыва между освоением навыков и обобщением остается открытой задачей.

В последние годы было проведено много работы по применению алгоритмов обучения для решения сложных масштабных задач манипулирования реальными роботами, но основное внимание в такой работе уделялось таким задачам, как захват, толкание или другие формы манипулирования отдельными объектами. Подход к укладке RGB, который мы описываем в нашей статье, в сочетании с нашими ресурсами по робототехнике, которые теперь доступны на GitHub, приводит к удивительным стратегиям укладки и мастерству укладки подмножества этих объектов. Тем не менее, этот шаг лишь затрагивает поверхность того, что возможно – и проблема обобщения остается не полностью решенной. Поскольку исследователи продолжают работать над решением открытой проблемы истинного обобщения в робототехнике, мы надеемся, что этот новый эталон, а также среда, конструкции и инструменты, которые мы выпустили, внесут вклад в новые идеи и методы, которые могут сделать манипуляции еще проще, а роботов — более способными. .

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس