Большие языковые модели (LLM) становятся все более полезными для задач программирования и робототехники, но для более сложных задач рассуждения разрыв между этими системами и людьми становится огромным. Без способности изучать новые концепции, как это делают люди, эти системы не могут формировать хорошие абстракции — по сути, высокоуровневые представления сложных концепций, которые пропускают менее важные детали — и, таким образом, терпят неудачу, когда их просят выполнить более сложные задачи.
К счастью, исследователи Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) нашли сокровищницу абстракций в естественном языке. В трех статьях, которые будут представлены на Международной конференции по изучению представлений в этом месяце, группа показывает, как наши повседневные слова являются богатым источником контекста для языковых моделей, помогая им создавать более эффективные комплексные представления для синтеза кода, планирования искусственного интеллекта и роботизированной навигации. манипуляция.
Три отдельные платформы создают библиотеки абстракций для каждой конкретной задачи: LILO (наведение на основе языковых наблюдений) может синтезировать, сжимать и документировать код; Ада (приобретение области действия) исследует последовательное принятие решений агентами искусственного интеллекта; а LGA (абстракция, управляемая языком) помогает роботам лучше понимать окружающую среду и разрабатывать более осуществимые планы. Каждая система представляет собой нейросимволический метод, тип ИИ, который сочетает в себе нейронные сети, подобные человеческим, и логические компоненты, подобные программам.
LILO: нейросимволическая система, которая кодирует
Большие языковые модели можно использовать для быстрого написания решений небольших задач по кодированию, но они пока не могут создавать целые библиотеки программного обеспечения, подобные тем, которые пишут инженеры-программисты. Чтобы расширить свои возможности разработки программного обеспечения, модели ИИ должны реорганизовать (сократить и объединить) код в библиотеки кратких, читаемых и многократно используемых программ.
Инструменты рефакторинга, такие как ранее разработанный под руководством MIT алгоритм Stitch, могут автоматически идентифицировать абстракции, поэтому, отдавая дань диснеевскому фильму «Лило и Стич», исследователи CSAIL объединили эти подходы к алгоритмическому рефакторингу с LLM. Их нейросимволический метод LILO использует стандартный LLM для написания кода, а затем объединяет его со Stitch для поиска абстракций, которые подробно документированы в библиотеке.
Уникальный акцент LILO на естественном языке позволяет системе выполнять задачи, требующие человеческих знаний, например, идентифицировать и удалять все гласные из строки кода и рисовать снежинку. В обоих случаях система CSAIL превзошла по производительности автономные LLM, а также предыдущий алгоритм обучения библиотеки MIT под названием DreamCoder, что указывает на ее способность обеспечивать более глубокое понимание слов в подсказках. Эти обнадеживающие результаты указывают на то, как LILO может помочь в таких вещах, как написание программ для работы с документами, такими как электронные таблицы Excel, помощь ИИ в ответах на вопросы о визуальных элементах и рисовании 2D-графики.
«Языковые модели предпочитают работать с функциями, имена которых написаны на естественном языке», — говорит Гейб Гранд СМ ’23, аспирант Массачусетского технологического института в области электротехники и информатики, филиал CSAIL и ведущий автор исследования. «Наша работа создает более простые абстракции для языковых моделей и присваивает каждой из них имена и документацию на естественном языке, что приводит к более интерпретируемому коду для программистов и повышению производительности системы».
При появлении запроса на задачу программирования LILO сначала использует LLM, чтобы быстро предложить решения на основе данных, на которых она была обучена, а затем система медленно и более тщательно ищет внешние решения. Затем Стич эффективно идентифицирует общие структуры в коде и извлекает полезные абстракции. Затем LILO автоматически присваивает им имена и документирует их, в результате чего создаются упрощенные программы, которые система может использовать для решения более сложных задач.
Фреймворк MIT пишет программы на предметно-ориентированных языках программирования, таких как Logo, язык, разработанный в MIT в 1970-х годах для обучения детей программированию. Масштабирование алгоритмов автоматического рефакторинга для работы с более общими языками программирования, такими как Python, станет предметом будущих исследований. Тем не менее, их работа представляет собой шаг вперед в том, как языковые модели могут облегчить все более сложную деятельность по кодированию.
Ада: естественный язык помогает ИИ планировать задачи
Как и в программировании, модели искусственного интеллекта, которые автоматизируют многоэтапные задачи в домашних условиях и видеоиграх, основанных на командах, лишены абстракций. Представьте, что вы готовите завтрак и просите соседа по комнате принести на стол горячее яйцо — он интуитивно сформулирует свои базовые знания о приготовлении пищи на вашей кухне в последовательность действий. Напротив, LLM, обученный аналогичной информации, все равно будет с трудом рассуждать о том, что им нужно для построения гибкого плана.
Названная в честь знаменитого математика Ады Лавлейс, которую многие считают первым в мире программистом, платформа Ada под руководством CSAIL добивается успехов в этом вопросе, разрабатывая библиотеки полезных планов для виртуальной кухонной работы и игр. Метод обучается потенциальным задачам и их описаниям на естественном языке, затем языковая модель предлагает абстракции действий из этого набора данных. Человек-оператор оценивает и фильтрует лучшие планы в библиотеке, чтобы наилучшие возможные действия можно было реализовать в иерархических планах для различных задач.
«Традиционно большие языковые модели с трудом справляются с более сложными задачами из-за таких проблем, как рассуждения об абстракциях», — говорит ведущий исследователь Ada Лио Вонг, аспирант Массачусетского технологического института в области мозговых и когнитивных наук, член CSAIL и соавтор LILO. «Но мы можем объединить инструменты, которые используют инженеры-программисты и робототехники, с LLM для решения сложных проблем, таких как принятие решений в виртуальных средах».
Когда исследователи включили широко используемую модель большого языка GPT-4 в Ada, система выполнила больше задач в кухонном симуляторе и Mini Minecraft, чем базовый вариант принятия решений ИИ «Код как политика». Ада использовала исходную информацию, скрытую в естественном языке, чтобы понять, как разместить охлажденное вино в шкафу и соорудить кровать. Результаты показали ошеломляющее улучшение точности выполнения задач на 59 и 89 процентов соответственно.
Благодаря этому успеху исследователи надеются распространить свою работу на реальные дома, надеясь, что Ада сможет помогать с другими домашними делами и помогать нескольким роботам на кухне. На данный момент его ключевым ограничением является то, что он использует общий LLM, поэтому команда CSAIL хочет применить более мощную и точно настроенную языковую модель, которая могла бы помочь в более обширном планировании. Вонг и ее коллеги также рассматривают возможность объединения Ada с системой роботизированных манипуляций, только что вышедшей из CSAIL: LGA (абстракция, управляемая языком).
Языковая абстракция: представления для роботизированных задач
Энди Пэн С.М. 23 года, аспирантка Массачусетского технологического института в области электротехники и информатики и филиал CSAIL, и ее соавторы разработали метод, который помогает машинам интерпретировать свое окружение больше, чем люди, вырезая ненужные детали в сложной среде, такой как фабрика или кухня. Подобно LILO и Ada, LGA уделяет особое внимание тому, как естественный язык ведет нас к лучшим абстракциям.
В этих более неструктурированных средах роботу потребуется некоторый здравый смысл в отношении того, какая перед ним задача, даже после предварительной базовой подготовки. Например, попросите робота передать вам миску, и машине потребуется общее понимание того, какие функции важны в ее окружении. Оттуда он может решить, как дать вам нужный предмет.
В случае LGA люди сначала предоставляют предварительно обученную языковую модель с общим описанием задачи на естественном языке, например «принеси мне мою шляпу». Затем модель преобразует эту информацию в абстракции об основных элементах, необходимых для выполнения этой задачи. Наконец, политика имитации, обученная на нескольких демонстрациях, может реализовать эти абстракции, чтобы помочь роботу схватить желаемый предмет.
Предыдущая работа требовала от человека вести подробные записи по различным задачам манипуляции для предварительного обучения робота, что может быть дорогостоящим. Примечательно, что LGA управляет языковыми моделями для создания абстракций, аналогичных абстракциям человека-аннотатора, но за меньшее время. Чтобы проиллюстрировать это, LGA разработала роботизированную политику, чтобы помочь четвероногому роботу Spot компании Boston Dynamics собирать фрукты и выбрасывать напитки в мусорную корзину. Эти эксперименты показывают, как метод, разработанный MIT, может сканировать мир и разрабатывать эффективные планы в неструктурированной среде, потенциально управляя автономными транспортными средствами на дороге и роботами, работающими на фабриках и кухнях.
«В робототехнике мы часто игнорируем истину: насколько нам нужно уточнить наши данные, чтобы сделать робота полезным в реальном мире», — говорит Пэн. «Помимо простого запоминания изображения для обучения роботов выполнению задач, мы хотели использовать компьютерное зрение и модели субтитров в сочетании с языком. Создавая текстовые подписи на основе того, что видит робот, мы показываем, что языковые модели могут, по сути, создавать важные знания о мире для робота».
Проблема LGA заключается в том, что некоторые виды поведения невозможно объяснить на языке, что делает некоторые задачи недостаточно конкретными. Чтобы расширить возможности представления объектов в среде, Пэн и ее коллеги рассматривают возможность включения в свою работу интерфейсов мультимодальной визуализации. Между тем, LGA дает роботам возможность лучше чувствовать свое окружение, протягивая людям руку помощи.
«Захватывающий рубеж» в области искусственного интеллекта
«Библиотечное обучение представляет собой одно из самых захватывающих направлений в области искусственного интеллекта, открывая путь к открытию и рассуждению о композиционных абстракциях», — говорит доцент Университета Висконсин-Мэдисон Роберт Хокинс, который не участвовал в написании статей. Хокинс отмечает, что предыдущие методы исследования этой темы были «слишком дорогими в вычислительном отношении для масштабного использования» и имели проблемы с лямбда-выражениями или ключевыми словами, используемыми для описания новых функций на многих языках, которые они генерируют. «Они имеют тенденцию создавать непрозрачные «лямбда-салаты» — большие груды трудно интерпретируемых функций. Эти недавние статьи демонстрируют убедительный путь вперед путем размещения больших языковых моделей в интерактивном цикле с алгоритмами символьного поиска, сжатия и планирования. Эта работа позволяет быстро приобретать более интерпретируемые и адаптивные библиотеки для решения поставленной задачи».
Создавая библиотеки высококачественных абстракций кода с использованием естественного языка, три нейросимволических метода облегчают языковым моделям решение более сложных проблем и сред в будущем. Более глубокое понимание точных ключевых слов в подсказке открывает путь вперед в разработке более человекоподобных моделей ИИ.
Членами MIT CSAIL являются старшие авторы каждой статьи: Джошуа Тененбаум, профессор кафедры мозга и когнитивных наук, как для LILO, так и для Ada; Джули Шах, глава Департамента аэронавтики и астронавтики, LGA; и Джейкоб Андреас, доцент кафедры электротехники и информатики, для всех троих. Дополнительные авторы MIT — все аспиранты: Мэдди Бауэрс и Тео X. Олауссон от LILO, Цзяюань Мао и Пратюша Шарма от Ada и Белинда З. Ли от LGA. Муксин Лю из колледжа Харви Мадда был соавтором LILO; Соавторами Ады были Закари Сигел из Принстонского университета, Джайхай Фэн из Калифорнийского университета в Беркли и Ноа Корнеев из Microsoft; и Илья Сухолуцкий, Теодор Р. Шумерс и Томас Л. Гриффитс из Принстона были соавторами LGA.
LILO и Ada частично поддерживались MIT Quest for Intelligence, MIT-IBM Watson AI Lab, Intel, Управлением научных исследований ВВС США, Агентством перспективных исследовательских проектов Министерства обороны США и Управлением военно-морских исследований США. , причем последний проект также получает финансирование от Центра мозга, разума и машин. LGA получила финансирование от Национального научного фонда США, Открытой благотворительной организации, Совета естественных наук и инженерных исследований Канады и Министерства обороны США.