Ваш новый домашний робот доставляется к вам домой, и вы просите его приготовить вам чашку кофе. Хотя он знает некоторые базовые навыки из предыдущей практики на смоделированных кухнях, слишком много действий он может предпринять — открыть кран, спустить воду в унитазе, опорожнить контейнер для муки и так далее. Но есть небольшое количество действий, которые могут оказаться полезными. Как роботу понять, какие шаги разумны в новой ситуации?
Он может использовать PIGINet, новую систему, которая направлена на эффективное расширение возможностей домашних роботов по решению проблем. Исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) используют машинное обучение, чтобы сократить типичный итеративный процесс планирования задач, учитывающий все возможные действия. PIGINet устраняет планы задач, которые не могут удовлетворить требованиям отсутствия коллизий, и сокращает время планирования на 50–80 % при обучении только 300–500 задачам.
Как правило, роботы пробуют различные планы задач и итеративно совершенствуют свои действия, пока не найдут подходящее решение, что может быть неэффективным и отнимать много времени, особенно при наличии подвижных и сочлененных препятствий. Может быть, после приготовления, например, вы хотите убрать все соусы в тумбу. Эта проблема может занять от двух до восьми шагов в зависимости от того, как выглядит мир в данный момент. Нужно ли роботу открывать несколько дверей шкафа или внутри шкафа есть препятствия, которые необходимо переместить, чтобы освободить место? Вы не хотите, чтобы ваш робот был раздражающе медленным — и будет хуже, если он сожжет обед, пока думает.
Обычно считается, что бытовые роботы следуют заранее определенным рецептам выполнения задач, что не всегда подходит для разнообразных или изменяющихся условий. Итак, как PIGINet обходит эти предопределенные правила? PIGINet — это нейронная сеть, которая принимает «планы, изображения, цель и исходные факты», а затем прогнозирует вероятность того, что план задачи можно будет уточнить, чтобы найти возможные планы движения. Проще говоря, в нем используется кодер-трансформер, универсальная и современная модель, предназначенная для работы с последовательностями данных. Входной последовательностью в данном случае является информация о том, какой план задачи он рассматривает, образы окружающей среды и символьные кодировки исходного состояния и желаемой цели. Кодер объединяет планы задач, изображения и текст, чтобы сгенерировать прогноз относительно выполнимости выбранного плана задач.
Оставив вещи на кухне, команда создала сотни смоделированных сред, каждая из которых имеет разную планировку и конкретные задачи, требующие перестановки предметов между прилавками, холодильниками, шкафами, раковинами и кастрюлями. Измерив время, необходимое для решения проблем, они сравнили PIGINet с предыдущими подходами. Один правильный план задач может включать в себя открытие левой дверцы холодильника, снятие крышки кастрюли, перемещение капусты из кастрюли в холодильник, перемещение картофеля в холодильник, подъем бутылки из раковины, помещение бутылки в раковину, сбор помидор, или размещение помидор. PIGINet значительно сократила время планирования на 80 % в более простых сценариях и на 20–50 % в более сложных сценариях с более длинными последовательностями планирования и меньшим объемом обучающих данных.
«Такие системы, как PIGINet, которые используют мощь методов, основанных на данных, для эффективного решения знакомых случаев, но все еще могут прибегать к методам планирования «на основе первых принципов» для проверки предложений, основанных на обучении, и решения новых проблем, предлагают лучшее из обоих. мирах, предоставляя надежные и эффективные решения общего назначения для широкого круга проблем», — говорит профессор Массачусетского технологического института и главный исследователь CSAIL Лесли Пак Кельблинг.
Использование PIGINet мультимодальных вложений во входную последовательность позволило лучше представить и понять сложные геометрические отношения. Использование данных изображения помогло модели понять пространственное расположение и конфигурации объектов, не зная трехмерных сеток объектов для точной проверки столкновений, что позволяет быстро принимать решения в различных средах.
Одной из основных проблем, с которыми столкнулись при разработке PIGINet, была нехватка хороших обучающих данных, поскольку все осуществимые и неосуществимые планы должны быть созданы традиционными планировщиками, что в первую очередь медленно. Однако, используя предварительно обученные языковые модели зрения и приемы увеличения данных, команда смогла решить эту проблему, продемонстрировав впечатляющее сокращение времени планирования не только для проблем с видимыми объектами, но и для обобщения с нулевым выстрелом для ранее невидимых объектов.
«Поскольку дома у всех разные, роботы должны уметь решать проблемы, а не просто следовать рецептам. Наша ключевая идея состоит в том, чтобы позволить планировщику задач общего назначения генерировать планы задач-кандидатов и использовать модель глубокого обучения для выбора многообещающих планов. В результате получился более эффективный, адаптируемый и практичный домашний робот, способный ловко перемещаться даже в сложных и динамичных условиях. Более того, практическое применение PIGINet не ограничивается домохозяйствами», — говорит Чжутиан Ян, аспирант MIT CSAIL и ведущий автор работы. «Наша будущая цель — доработать PIGINet, чтобы предлагать альтернативные планы задач после выявления невыполнимых действий, что еще больше ускорит создание выполнимых планов задач без необходимости больших наборов данных для обучения планировщика общего назначения с нуля. Мы считаем, что это может революционизировать то, как роботы обучаются во время разработки, а затем применяются в каждом доме».
«В этой статье рассматривается фундаментальная проблема внедрения универсального робота: как извлечь уроки из прошлого опыта, чтобы ускорить процесс принятия решений в неструктурированных средах, заполненных большим количеством сочлененных и подвижных препятствий», — говорит Бомджун Ким, доктор философии 2020 года. , доцент Высшей школы искусственного интеллекта Корейского передового института науки и технологий (KAIST). «Основным узким местом в таких задачах является то, как определить высокоуровневый план задач, чтобы существовал низкоуровневый план движения, реализующий высокоуровневый план. Как правило, вам приходится колебаться между движением и планированием задач, что приводит к значительной неэффективности вычислений. Работа Чжутиана решает эту проблему, используя обучение для устранения невыполнимых планов задач, и является шагом в многообещающем направлении».
Ян написал статью вместе с научным сотрудником NVIDIA Кэланом Гарреттом SB ’15, MEng ’15, PhD ’21; профессора факультета электротехники и компьютерных наук Массачусетского технологического института и члены CSAIL Томас Лосано-Перес и Лесли Кельблинг; и старший директор по исследованиям робототехники в NVIDIA и профессор Вашингтонского университета Дитер Фокс. Команда была поддержана AI Singapore и грантами от Национального научного фонда, Управления научных исследований ВВС и Управления армейских исследований. Этот проект был частично выполнен, когда Ян был стажером в NVIDIA Research. Их исследования будут представлены в июле на конференции Robotics: Science and Systems.