Чтобы естественный язык стал эффективной формой общения, участвующие стороны должны иметь возможность понимать слова и их контекст, предполагать, что контент в основном распространяется добросовестно и заслуживает доверия, рассуждать о передаваемой информации, а затем применить его к реальным сценариям. Аспиранты Массачусетского технологического института, проходящие стажировку в лаборатории искусственного интеллекта MIT-IBM Watson — Атул Пол Джейкоб SM ’22, Маохао Шен SM ’23, Виктор Бутои и Энди Пэн SM ’23 – работают над анализом каждого шага этого процесса, встроенного в естественный язык. модели, чтобы системы искусственного интеллекта могли быть более надежными и точными для пользователей.
Для достижения этой цели исследование Джейкоба затрагивает суть существующих моделей естественного языка и позволяет улучшить результаты с помощью теории игр. Его интересы, по его словам, двояки: «Один — понять, как ведут себя люди, используя призму мультиагентных систем и понимания языка, а второй — «Как вы можете использовать это как понимание для создания лучшего ИИ?» системы?» Его работа основана на настольной игре «Дипломатия», где его исследовательская группа разработала систему, которая могла бы изучать и прогнозировать человеческое поведение и вести стратегические переговоры для достижения желаемого, оптимального результата.
«Это была игра, в которой вам нужно завоевать доверие; вам нужно общаться, используя язык. Вам также нужно играть против шести других игроков одновременно, что сильно отличалось от всех типов задач, с которыми люди решались в прошлом», — говорит Джейкоб, имея в виду другие игры, такие как покер и ГО, которые исследователи помещали в нейронные сети. . «При этом возникло множество исследовательских задач. Один из них был: «Как моделировать людей?» Как узнать, склонны ли люди действовать иррационально?» Джейкоб и его научные наставники, включая доцента Джейкоба Андреаса и доцента Габриэле Фарину с факультета электротехники и информатики Массачусетского технологического института (EECS), а также MIT-IBM Watson. Икан Шен из AI Lab — преобразовывает проблему генерации языка в игру для двух игроков.
Используя модели «генератора» и «дискриминатора», команда Джейкоба разработала систему естественного языка, которая дает ответы на вопросы, а затем наблюдает за ответами и определяет, верны ли они. Если да, система ИИ получает очко; в противном случае баллы не начисляются. Языковые модели, как известно, склонны к галлюцинациям, что делает их менее заслуживающими доверия; Этот алгоритм обучения без сожалений совместно использует модель естественного языка и способствует тому, чтобы ответы системы были более правдивыми и надежными, сохраняя при этом решения близкими к априорным значениям предварительно обученной языковой модели. Джейкоб говорит, что использование этой техники в сочетании с меньшей языковой моделью, вероятно, может сделать ее конкурентоспособной с той же производительностью модели, во много раз большей.
Как только языковая модель генерирует результат, исследователи в идеале хотят, чтобы ее уверенность в ее генерации соответствовала ее точности, но часто это не так. Галлюцинации могут возникнуть, когда модель сообщает о высокой достоверности, хотя она должна быть низкой. Маохао Шен и его группа с наставниками Грегори Уорнеллом, профессором инженерных наук Сумитомо в EECS, и исследователями лаборатории IBM Research Субхро Дасом, Прасанной Саттигери и Сумья Гошем — стремятся исправить эту ситуацию с помощью количественной оценки неопределенности (UQ). «Наш проект направлен на калибровку языковых моделей, когда они плохо откалиброваны», — говорит Шен. В частности, они рассматривают проблему классификации. Для этого Шен позволяет языковой модели генерировать произвольный текст, который затем преобразуется в задачу классификации с множественным выбором. Например, они могут попросить модель решить математическую задачу, а затем спросить ее, правильный ли полученный ею ответ: «да, нет или может быть». Это помогает определить, является ли модель чрезмерно или недостаточно уверенной.
Автоматизируя это, команда разработала метод, который помогает настроить достоверность результатов с помощью предварительно обученной языковой модели. Исследователи обучили вспомогательную модель, используя основную информацию, чтобы их система могла корректировать языковую модель. «Если ваша модель слишком уверена в своих прогнозах, мы можем это обнаружить и сделать ее менее уверенной, и наоборот», — объясняет Шен. Команда оценила свою технику на нескольких популярных эталонных наборах данных, чтобы показать, насколько хорошо она обобщается на ранее не встречавшиеся задачи и позволяет повысить точность и достоверность прогнозов языковой модели. «После обучения вы можете просто подключить эту технику и применять эту технику к новым задачам без какого-либо контроля», — говорит Шен. «Единственное, что вам нужно, — это данные для этой новой задачи».
Виктор Бутой также расширяет возможности моделей, но вместо этого его лабораторная команда, в которую входят Джон Гуттаг, профессор компьютерных наук и электротехники Дугалда К. Джексона в EECS; лабораторные исследователи Леонид Карлинский и Роджерио Ферис из IBM Research; и филиалы лаборатории Хильде Кюне из Боннского университета и Вэй Линь из Технологического университета Граца — создают методы, позволяющие моделям на языке видения рассуждать о том, что они видят, и разрабатывают подсказки, чтобы раскрыть новые способности к обучению и понимать ключевые фразы. .
«Композиционное рассуждение — это всего лишь еще один аспект процесса принятия решений, который мы просим выполнять модели машинного обучения, чтобы они могли быть полезны в реальных ситуациях», — объясняет Бутой. «Нужно уметь думать о проблемах композиционно и решать подзадачи, — говорит Бутой, — например, если вы говорите, что стул находится слева от человека, вам нужно распознавать и стул, и человека. Вам нужно понять направление». А затем, как только модель поймет слово «лево», исследовательская группа хочет, чтобы модель могла ответить на другие вопросы, связанные со словом «лево».
Удивительно, но модели языка видения плохо рассуждают о композиции, объясняет Бутои, но им можно помочь, используя модель, которая может «вести свидетеля», если хотите. Команда разработала модель, которая была изменена с использованием метода низкоранговой адаптации больших языковых моделей (LoRA) и обучена на аннотированном наборе данных под названием Visual Genome, в котором есть объекты на изображении и стрелки, обозначающие отношения, например направления. В этом случае обученная модель LoRA будет направлена на то, чтобы сказать что-то о «левых» отношениях, и этот вывод заголовка будет затем использоваться для предоставления контекста и подсказки модели языка видения, что сделает эту задачу «значительно более легкой задачей», говорит Бутой. .
В мире робототехники системы искусственного интеллекта также взаимодействуют с окружающей средой, используя компьютерное зрение и язык. Настройки могут варьироваться от складов до дома. Энди Пэн и его наставники, профессор аэронавтики и астронавтики Массачусетского технологического института Джули Шах и Чуанг Ган из Массачусетского университета в Амхерсте, сосредоточены на оказании помощи людям с физическими ограничениями, используя виртуальные миры. Для этого группа Пэна разрабатывает две воплощенные модели ИИ — «человека», нуждающегося в поддержке, и вспомогательного агента — в моделируемой среде под названием ThreeDWorld. Сосредоточив внимание на взаимодействии человека и робота, команда использует семантические априоры, зафиксированные большими языковыми моделями, чтобы помочь ИИ-помощнику сделать вывод о том, какие способности «человеческий» агент может быть не в состоянии реализовать, и о мотивации действий «человека», используя естественные язык. Команда стремится улучшить последовательное принятие решений помощником, двустороннюю коммуникацию, способность понимать физическую ситуацию и то, как лучше всего внести свой вклад.
«Многие люди думают, что программы искусственного интеллекта должны быть автономными, но я думаю, что важной частью процесса является то, что мы создаем роботов и системы для людей, и мы хотим передавать человеческие знания», — говорит Пэн. «Мы не хотим, чтобы система делала что-то странным образом; мы хотим, чтобы они делали это по-человечески, чтобы мы могли понять».