Прокладывая путь к более общим роботам | GPTMain News

Представляем RGB-Stacking как новый эталон для роботизированных манипуляций на основе зрения

Взять палку и положить ее на бревно или сложить гальку на камень может показаться человеку простым — и очень похожим — действием. Однако большинству роботов сложно справиться с несколькими такими задачами одновременно. Манипуляции с палкой требуют иного набора действий, чем укладка камней, не говоря уже о том, чтобы ставить одну на другую посуду или собирать мебель. Прежде чем мы сможем научить роботов выполнять такие задачи, им сначала нужно научиться взаимодействовать с гораздо большим количеством объектов. В рамках миссии DeepMind и в качестве шага к созданию более универсальных и полезных роботов мы изучаем, как научить роботов лучше понимать взаимодействие объектов с различной геометрией.

В документе, который будет представлен на CoRL 2021 (Конференция по обучению роботов) и который сейчас доступен в виде препринта на OpenReview, мы представляем RGB-Stacking в качестве нового эталона для манипулирования роботами на основе зрения. В этом тесте робот должен научиться хватать разные объекты и уравновешивать их друг над другом. Что отличает наше исследование от предыдущей работы, так это разнообразие используемых объектов и большое количество эмпирических оценок, выполненных для подтверждения наших выводов. Наши результаты демонстрируют, что сочетание моделирования и реальных данных может использоваться для изучения сложных манипуляций с несколькими объектами, и предлагают прочную основу для открытой проблемы обобщения на новые объекты. Чтобы поддержать других исследователей, мы открываем исходный код версии нашей смоделированной среды и выпускаем проекты для создания нашей среды RGB-стекинга реального робота, а также модели RGB-объектов и информацию для их 3D-печати. Мы также открываем набор библиотек и инструментов, используемых в наших исследованиях в области робототехники.

Бенчмарк RGB-стекинга

С помощью RGB-Stacking наша цель состоит в том, чтобы научить роботизированную руку с помощью обучения с подкреплением складывать объекты различной формы. Мы размещаем параллельный захват, прикрепленный к руке робота, над корзиной, а в корзине три объекта — один красный, один зеленый и один синий, отсюда и название RGB. Задача проста: сложить красный предмет поверх синего предмета в течение 20 секунд, при этом зеленый предмет служит препятствием и отвлечением. Процесс обучения гарантирует, что агент приобретет общие навыки посредством обучения множеству наборов объектов. Мы намеренно изменяем аффордансы захвата и укладки — качества, которые определяют, как агент может схватить и уложить каждый объект. Этот принцип дизайна заставляет агента демонстрировать поведение, выходящее за рамки простой стратегии «выбери и помести».

Каждая тройка ставит перед агентом свои уникальные задачи: тройка 1 требует точного захвата верхнего объекта; Триплет 2 часто требует, чтобы верхний объект использовался в качестве инструмента для отражения нижнего объекта перед складыванием; Триплет 3 требует балансировки; Триплет 4 требует точного наложения (т. е. центроиды объектов должны быть выровнены); и верхний объект Triplet 5 может легко скатиться, если его не складывать осторожно. Оценивая трудности этой задачи, мы обнаружили, что наш базовый сценарий, закодированный вручную, имел 51%-й показатель успеха при стекировании.

Наш тест RGB-Stacking включает в себя две версии задач с разным уровнем сложности. В «Мастерстве навыков» наша цель — обучить одного агента, умеющего складывать заранее заданный набор из пяти троек. В «Обобщении навыков» мы используем те же триплеты для оценки, но обучаем агента на большом наборе обучающих объектов — всего более миллиона возможных триплетов. Для проверки на обобщение эти обучающие объекты исключают семейство объектов, из которых были выбраны тестовые тройки. В обеих версиях мы разделяем наш конвейер обучения на три этапа:

  • Во-первых, мы тренируемся в моделировании с использованием готового алгоритма RL: максимальная апостериорная оптимизация политики (MPO). На этом этапе мы используем состояние симулятора, что позволяет проводить быстрое обучение, поскольку позиции объектов передаются непосредственно агенту, вместо того, чтобы агенту приходилось учиться находить объекты на изображениях. Результирующая политика не может быть напрямую передана реальному роботу, поскольку эта информация недоступна в реальном мире.
  • Затем мы тренируем новую политику в симуляции, которая использует только реалистичные наблюдения: изображения и проприоцептивное состояние робота. Мы используем рандомизированное моделирование доменов, чтобы улучшить передачу реальных изображений и динамики. Государственная политика служит учителем, предоставляя обучающемуся агенту поправки к его поведению, и эти поправки переходят в новую политику.
  • Наконец, мы собираем данные, используя эту политику для реальных роботов, и обучаем улучшенную политику на основе этих данных в автономном режиме, взвешивая хорошие переходы на основе изученной функции Q, как это делается в Critic Regularized Regression (CRR). Это позволяет нам использовать данные, которые пассивно собираются во время проекта, вместо того, чтобы запускать трудоемкий онлайн-алгоритм обучения на реальных роботах.

Разделение нашего конвейера обучения таким образом оказывается крайне важным по двум основным причинам. Во-первых, это позволяет нам вообще решить проблему, так как это заняло бы слишком много времени, если бы мы начали с нуля непосредственно на роботах. Во-вторых, это увеличивает скорость наших исследований, поскольку разные люди в нашей команде могут работать над разными частями конвейера, прежде чем мы объединим эти изменения для общего улучшения.

Наш агент демонстрирует новое поведение при складывании 5 троек. Самый сильный результат с Skill Mastery был у агента на основе зрения, который достиг 79% успеха в среднем в моделировании (этап 2), 68% успеха с нулевым выстрелом на реальных роботах (этап 2) и 82% после одношагового улучшения политики от реальные данные (этап 3). Тот же конвейер для обобщения навыков привел к тому, что конечный агент достиг 54% успеха на реальных роботах (этап 3). Преодоление этого разрыва между овладением навыками и обобщением остается открытой задачей.

В последние годы было проведено много работ по применению алгоритмов обучения для решения сложных задач манипулирования реальными роботами в масштабе, но основное внимание в этой работе уделялось таким задачам, как захват, толкание или другие формы манипулирования отдельными объектами. Подход к RGB-стекингу, который мы описываем в нашей статье, в сочетании с нашими ресурсами по робототехнике, теперь доступными на GitHub, приводит к удивительным стратегиям стекирования и мастерству стекирования подмножества этих объектов. Тем не менее, этот шаг лишь поверхностно касается того, что возможно, и проблема обобщения остается нерешенной. Поскольку исследователи продолжают работать над решением открытой задачи истинного обобщения в робототехнике, мы надеемся, что этот новый эталон, наряду с выпущенными нами средой, конструкциями и инструментами, внесет свой вклад в новые идеи и методы, которые могут сделать манипулирование еще проще, а роботов — более способными. .

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس