От вытирания разливов до подачи еды — роботов учат выполнять все более сложные домашние задачи. Многие из таких обучающихся домашних ботов учатся посредством подражания; они запрограммированы копировать движения, которыми физически управляет человек.
Оказывается, роботы — отличные имитаторы. Но если инженеры не запрограммируют их так, чтобы они приспосабливались к каждому возможному удару и толчку, роботы не обязательно знают, как справиться с этими ситуациями, за исключением того, что они начинают свою задачу сверху.
Теперь инженеры MIT стремятся дать роботам немного здравого смысла, когда они сталкиваются с ситуациями, которые сбивают их с привычного пути. Они разработали метод, который связывает данные о движении робота с «здравым смыслом» больших языковых моделей или LLM.
Их подход позволяет роботу логически разбирать множество домашних задач на подзадачи и физически приспосабливаться к сбоям в рамках подзадачи, чтобы робот мог двигаться дальше, не возвращаясь и не начиная задачу с нуля — и без необходимости явного программирования инженерами. исправления всех возможных сбоев на этом пути.

«Имитационное обучение — это основной подход, позволяющий создавать домашних роботов. Но если робот слепо имитирует траектории движения человека, крошечные ошибки могут накапливаться и в конечном итоге сорвать остальную часть выполнения», — говорит Янвэй Ван, аспирант кафедры электротехники и информатики (EECS) Массачусетского технологического института. «Благодаря нашему методу робот может самостоятельно исправлять ошибки выполнения и повышать общий успех задачи».
Ван и его коллеги подробно описывают свой новый подход в исследовании, которое они представят на Международной конференции по обучению представлениям (ICLR) в мае. В число соавторов исследования входят аспиранты EECS Цун-Сюань Ван и Цзяюань Мао, Майкл Хагенов, постдок факультета аэронавтики и астронавтики Массачусетского технологического института (AeroAstro), и Джули Шах, профессор аэронавтики и астронавтики Массачусетского технологического института.
Языковое задание
Исследователи иллюстрируют свой новый подход простым занятием: черпают шарики из одной миски и пересыпают их в другую. Чтобы выполнить эту задачу, инженеры обычно перемещают робота, выполняя движения черпания и разливания — и все это по одной плавной траектории. Они могут сделать это несколько раз, чтобы дать роботу возможность имитировать несколько человеческих демонстраций.
«Но человеческая демонстрация — это одна длинная, непрерывная траектория», — говорит Ван.
Команда поняла, что, хотя человек может продемонстрировать одну задачу за один раз, эта задача зависит от последовательности подзадач или траекторий. Например, робот должен сначала залезть в миску, прежде чем он сможет зачерпнуть ее, и он должен зачерпнуть шарики, прежде чем перейти к пустой миске, и так далее. Если робота подталкивают или подталкивают к совершению ошибки во время любой из этих подзадач, его единственный выход — остановиться и начать с самого начала, если только инженеры не должны были явно маркировать каждую подзадачу и программу или собирать новые демонстрации, чтобы робот мог оправиться от ошибок. указанный сбой, чтобы позволить роботу самостоятельно исправиться в данный момент.
«Такой уровень планирования очень утомителен», — говорит Ван.
Вместо этого он и его коллеги обнаружили, что часть этой работы может выполняться автоматически выпускниками LLM. Эти модели глубокого обучения обрабатывают огромные библиотеки текста, которые они используют для установления связей между словами, предложениями и абзацами. Благодаря этим связям LLM может затем генерировать новые предложения на основе того, что он узнал о слове, которое, скорее всего, последует за последним.
Со своей стороны, исследователи обнаружили, что помимо предложений и абзацев, LLM может быть предложено составить логический список подзадач, которые будут задействованы в данной задаче. Например, если запросить список действий, связанных с перекладыванием шариков из одной миски в другую, LLM может выдать последовательность таких глаголов, как «достичь», «зачерпнуть», «транспортировать» и «вылить».
«У LLM есть способ рассказать вам, как выполнить каждый шаг задачи, на естественном языке. Непрерывная демонстрация человека — это воплощение этих шагов в физическом пространстве», — говорит Ван. «И мы хотели соединить их, чтобы робот автоматически знал, на каком этапе находится задача, и мог самостоятельно перепланировать и восстановиться».
Картографирование шариков
Для своего нового подхода команда разработала алгоритм, позволяющий автоматически связывать метку LLM на естественном языке для конкретной подзадачи с положением робота в физическом пространстве или изображением, которое кодирует состояние робота. Сопоставление физических координат робота или изображения состояния робота с меткой на естественном языке называется «заземлением». Новый алгоритм команды предназначен для изучения базового «классификатора», что означает, что он учится автоматически определять, в какой семантической подзадаче находится робот (например, «дотянуться» или «зачерпнуть»), учитывая его физические координаты или вид изображения.
«Классификатор заземления облегчает этот диалог между тем, что робот делает в физическом пространстве, и тем, что LLM знает о подзадачах, а также об ограничениях, на которые вы должны обращать внимание в рамках каждой подзадачи», — объясняет Ван.
Команда продемонстрировала этот подход в экспериментах с роботизированной рукой, которую они тренировали для выполнения задачи по сбору мрамора. Экспериментаторы обучали робота, физически направляя его через задачу: сначала залезть в миску, зачерпнуть шарики, переместить их через пустую миску и высыпать в нее. После нескольких демонстраций команда затем использовала предварительно обученного LLM и задала модели перечислить этапы перекладывания шариков из одной миски в другую. Затем исследователи использовали свой новый алгоритм, чтобы связать определенные подзадачи LLM с данными о траектории движения робота. Алгоритм автоматически научился сопоставлять физические координаты робота в траекториях и соответствующий вид изображения с заданной подзадачой.
Затем команда позволила роботу выполнить задачу по черпанию самостоятельно, используя недавно изученные классификаторы заземления. Пока робот выполнял этапы задачи, экспериментаторы толкали и сбивали его с пути, а также сбивали шарики с его ложки в различных точках. Вместо того, чтобы останавливаться и начинать заново или продолжать вслепую, не имея шариков на ложке, бот имел возможность самоисправляться и выполнять каждую подзадачу, прежде чем перейти к следующей. (Например, он должен был убедиться, что шарики успешно собраны, прежде чем переносить их в пустую миску.)
«Благодаря нашему методу, когда робот совершает ошибки, нам не нужно просить людей программировать или проводить дополнительные демонстрации того, как восстанавливаться после сбоев», — говорит Ван. «Это очень интересно, потому что сейчас прилагаются огромные усилия по обучению домашних роботов с помощью данных, собранных в системах телеуправления. Наш алгоритм теперь может преобразовать эти обучающие данные в надежное поведение робота, который сможет выполнять сложные задачи, несмотря на внешние возмущения».