Несколько моделей искусственного интеллекта помогают роботам более прозрачно выполнять сложные планы | Новости Массачусетского технологического института | GPTMain News

Ваш ежедневный список дел, скорее всего, довольно прост: помыть посуду, купить продукты и другие мелочи. Вряд ли вы написали «поднимите первую грязную тарелку» или «вымойте тарелку губкой», потому что каждый из этих миниатюрных шагов в работе кажется интуитивно понятным. Хотя мы обычно можем выполнять каждый шаг, не задумываясь, роботу требуется сложный план, включающий более подробные описания.

Лаборатория невероятного искусственного интеллекта Массачусетского технологического института, группа в составе Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), предложила этим машинам руку помощи с новой мультимодальной структурой: композиционными базовыми моделями для иерархического планирования (HiP), которая разрабатывает подробные, осуществимые планы с помощью экспертиза трех различных моделей фундаментов. Подобно GPT-4 компании OpenAI, базовой модели, на которой были построены ChatGPT и Bing Chat, эти базовые модели обучаются на огромных объемах данных для таких приложений, как создание изображений, перевод текста и робототехника.

В отличие от RT2 и других мультимодальных моделей, которые обучаются на парных данных о видении, языке и действиях, HiP использует три разные базовые модели, каждая из которых обучается на разных модальностях данных. Каждая базовая модель отражает отдельную часть процесса принятия решений, а затем работает вместе, когда приходит время принимать решения. HiP устраняет необходимость доступа к парным данным о видении, языке и действиях, которые трудно получить. HiP также делает процесс рассуждения более прозрачным.

То, что считается повседневной работой для человека, может быть «долгосрочной целью» робота — всеобъемлющей целью, которая включает в себя сначала выполнение множества более мелких шагов — требующую достаточного количества данных для планирования, понимания и выполнения задач. Хотя исследователи компьютерного зрения пытались построить монолитные базовые модели для решения этой проблемы, объединение языковых, визуальных данных и данных о действиях обходится дорого. Вместо этого HiP представляет собой другой, мультимодальный рецепт: трио, которое дешево объединяет в робота лингвистический, физический и экологический интеллект.

«Фундаментальные модели не обязательно должны быть монолитными», — говорит исследователь искусственного интеллекта NVIDIA Джим Фан, который не участвовал в написании статьи. «Эта работа разлагает сложную задачу воплощенного планирования агента на три составляющие модели: языковой мыслитель, модель визуального мира и планировщик действий. Это делает сложную проблему принятия решений более разрешимой и прозрачной».

Команда считает, что их система может помочь этим машинам выполнять работу по дому, например, убирать книгу или ставить миску в посудомоечную машину. Кроме того, HiP может помочь в выполнении многоэтапных строительных и производственных задач, таких как укладка и размещение различных материалов в определенной последовательности.

Оценка HiP

Команда CSAIL протестировала остроту HiP на трех задачах манипулирования, превзойдя сопоставимые системы. Система рассуждала, разрабатывая интеллектуальные планы, которые адаптируются к новой информации.

Сначала исследователи попросили сложить блоки разного цвета друг на друга, а затем разместить рядом другие. Загвоздка: некоторых правильных цветов не было, поэтому роботу пришлось поместить белые блоки в цветную чашу, чтобы их раскрасить. HiP часто точно адаптируется к этим изменениям, особенно по сравнению с современными системами планирования задач, такими как Transformer BC и Action Diffuser, корректируя свои планы так, чтобы складывать и размещать каждый квадрат по мере необходимости.

Еще один тест: расположить такие предметы, как конфеты и молоток, в коричневой коробке, игнорируя другие предметы. Некоторые объекты, которые нужно было переместить, были грязными, поэтому HiP скорректировала свои планы, поместив их в коробку для чистки, а затем в коричневый контейнер. В третьей демонстрации бот смог игнорировать ненужные предметы для выполнения подзадач на кухне, таких как открытие микроволновой печи, уборка чайника и включение света. Некоторые из предложенных шагов уже были выполнены, поэтому робот адаптировался, пропуская эти указания.

Трехсторонняя иерархия

Трехкомпонентный процесс планирования HiP работает как иерархия с возможностью предварительного обучения каждого из его компонентов на различных наборах данных, включая информацию, не связанную с робототехникой. Внизу этого порядка находится большая языковая модель (LLM), которая начинает генерировать идеи, собирая всю необходимую символическую информацию и разрабатывая абстрактный план задач. Применяя здравый смысл, найденный в Интернете, модель разбивает свою цель на подцели. Например, «заварить чашку чая» превращается в «наполнить кастрюлю водой», «вскипятить кастрюлю» и последующие необходимые действия.

«Все, что мы хотим сделать, — это взять существующие предварительно обученные модели и заставить их успешно взаимодействовать друг с другом», — говорит Анураг Аджай, аспирант кафедры электротехники и информатики Массачусетского технологического института (EECS) и филиал CSAIL. «Вместо того, чтобы настаивать на том, чтобы одна модель делала все, мы объединяем несколько моделей, которые используют разные модальности интернет-данных. При совместном использовании они помогают роботам принимать решения и потенциально могут помочь в выполнении задач дома, на фабриках и строительных площадках».

Этим моделям также нужны некие «глаза», чтобы понимать среду, в которой они работают, и правильно достигать каждой подцели. Команда использовала большую модель распространения видео, чтобы дополнить первоначальное планирование, выполненное LLM, который собирает геометрическую и физическую информацию о мире из видеоматериалов в Интернете. В свою очередь, видеомодель генерирует план траектории наблюдения, уточняя схему LLM для включения новых физических знаний.

Этот процесс, известный как итеративное уточнение, позволяет HiP обдумывать свои идеи, принимая во внимание обратную связь на каждом этапе, чтобы создать более практичную схему. Поток отзывов аналогичен написанию статьи, где автор может отправить свой черновик редактору, а после внесения в него исправлений издатель просматривает любые последние изменения и завершает работу.

В этом случае вершиной иерархии является эгоцентрическая модель действия или последовательность изображений от первого лица, которые делают вывод, какие действия должны произойти, исходя из окружающей среды. На этом этапе план наблюдения из видеомодели наносится на пространство, видимое роботу, помогая машине решить, как выполнить каждую задачу в рамках долгосрочной цели. Если робот использует HiP для приготовления чая, это означает, что он точно наметит, где находятся кастрюля, раковина и другие ключевые визуальные элементы, и начнет выполнять каждую подзадачу.

Однако мультимодальная работа ограничена отсутствием качественных моделей видеооснов. Как только они станут доступны, они смогут взаимодействовать с небольшими видеомоделями HiP для дальнейшего улучшения прогнозирования визуальных последовательностей и генерации действий робота. Версия более высокого качества также снизит текущие требования к данным видеомоделей.

При этом подход команды CSAIL в целом использовал лишь небольшую часть данных. Более того, обучение HiP было дешевым и продемонстрировало потенциал использования легкодоступных базовых моделей для решения долгосрочных задач. «То, что продемонстрировал Анураг, является доказательством концепции того, как мы можем взять модели, обученные на отдельных задачах и модальностях данных, и объединить их в модели для роботизированного планирования. В будущем HiP можно будет дополнить предварительно обученными моделями, которые смогут обрабатывать прикосновения и звуки для составления более эффективных планов», — говорит старший автор Пулкит Агравал, доцент кафедры EECS Массачусетского технологического института и директор лаборатории Improbable AI. Группа также рассматривает возможность применения HiP для решения реальных долгосрочных задач в области робототехники.

Аджай и Агравал — ведущие авторы статьи, описывающей эту работу. К ним присоединились профессора Массачусетского технологического института и ведущие исследователи CSAIL Томми Яаккола, Джошуа Тененбаум и Лесли Пак Кельблинг; Исследовательский филиал CSAIL и руководитель исследовательской лаборатории MIT-IBM AI Lab Акаш Шривастава; аспиранты Сынвук Хан и Илун Ду ’19; бывший постдок Абхишек Гупта, который сейчас является доцентом Вашингтонского университета; и бывший аспирант Шуан Ли, доктор философии ’23.

Работу группы частично поддержали Национальный научный фонд, Агентство перспективных исследовательских проектов Министерства обороны США, Исследовательский офис армии США, Управление военно-морских исследований США по многопрофильным университетским исследовательским инициативам и Лаборатория искусственного интеллекта Watson MIT-IBM. Их результаты были представлены на конференции по нейронным системам обработки информации (NeurIPS) 2023 года.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس