Старая поговорка, часто знакомая нам в годы нашего становления, призвана подтолкнуть нас к выходу за пределы нашего эгоцентричного, зарождающегося ума: «Две головы лучше, чем одна». Эта пословица поощряет совместное мышление и подчеркивает силу общего интеллекта.
Перенесемся в 2023 год, и мы обнаружим, что эта мудрость справедлива даже в сфере искусственного интеллекта: несколько языковых моделей, работающих в гармонии, лучше, чем одна.
Недавно команда из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) воплотила эту древнюю мудрость в рамках современных технологий. Они представили стратегию, которая использует несколько систем искусственного интеллекта для обсуждения и спора друг с другом, чтобы найти наилучший ответ на заданный вопрос. Этот метод позволяет этим обширным языковым моделям повысить их приверженность фактическим данным и уточнить процесс принятия решений.
Суть проблемы с большими языковыми моделями (LLM) заключается в несогласованности их генерируемых ответов, что приводит к потенциальным неточностям и ошибочным рассуждениям. Этот новый подход позволяет каждому агенту активно оценивать ответы каждого другого агента и использовать эту коллективную обратную связь для уточнения своего собственного ответа. С технической точки зрения, этот процесс состоит из нескольких раундов формирования ответов и критики. Каждая языковая модель генерирует ответ на заданный вопрос, а затем учитывает отзывы всех других агентов для обновления своего собственного ответа. Этот итерационный цикл завершается окончательным результатом голосования большинства решений моделей. Это в некоторой степени отражает динамику групповой дискуссии, где отдельные люди способствуют достижению единого и обоснованного вывода.
Одно из реальных преимуществ этого подхода заключается в его беспрепятственном применении к существующим моделям «черного ящика». Поскольку методология основана на создании текста, ее также можно реализовать в различных LLM без необходимости доступа к их внутренней работе. По словам команды, эта простота может помочь исследователям и разработчикам использовать этот инструмент для повышения согласованности и фактической точности результатов языковой модели по всем направлениям.
«Используя новый подход, мы не просто полагаемся на одну модель искусственного интеллекта для получения ответов. Вместо этого в нашем процессе задействовано множество моделей ИИ, каждая из которых дает уникальную информацию для решения определенного вопроса. Хотя их первоначальные ответы могут показаться усеченными или содержать ошибки, эти модели могут уточнить и улучшить их собственные ответы, тщательно исследуя ответы, предлагаемые их коллегами», — говорит Илун Ду, аспирант MIT в области электротехники и информатики, филиал MIT CSAIL. и ведущий автор новой статьи об этой работе: «Поскольку эти модели ИИ участвуют в дискурсе и обсуждении, они лучше подготовлены к распознаванию и устранению проблем, улучшают свои способности к решению проблем и лучше проверяют точность своих ответов. По сути, мы создаем среду, которая заставляет их глубже вникать в суть проблемы. Это контрастирует с одной-единственной моделью искусственного интеллекта, которая часто повторяет контент, найденный в Интернете. Однако наш метод активно стимулирует модели ИИ к созданию более точных и комплексных решений».
В исследовании рассматривалось решение математических задач, в том числе математических задач в начальной и средней/старшей школе, и наблюдалось значительное повышение производительности благодаря процессу многоагентных дебатов. Кроме того, языковые модели продемонстрировали расширенные способности генерировать точные арифметические вычисления, иллюстрируя потенциал в различных областях.
Этот метод также может помочь решить проблему «галлюцинаций», часто досаждающих языковым моделям. Создав среду, в которой агенты критикуют ответы друг друга, они получили больше стимулов избегать выплескивания случайной информации и отдавать приоритет фактической точности.
Помимо применения к языковым моделям, этот подход также можно использовать для интеграции разнообразных моделей со специализированными возможностями. Создав децентрализованную систему, в которой несколько агентов взаимодействуют и спорят, они потенциально могут использовать эти комплексные и эффективные возможности решения проблем в различных модальностях, таких как речь, видео или текст.
Хотя методология дала обнадеживающие результаты, исследователи говорят, что существующие языковые модели могут столкнуться с проблемами при обработке очень длинных контекстов, а возможности критического анализа могут быть не столь совершенными, как хотелось бы. Кроме того, формат многоагентных дебатов, вдохновленный групповым взаимодействием людей, еще не включает в себя более сложные формы обсуждения, которые способствуют разумному коллективному принятию решений — это важнейшая область для будущих исследований, говорит команда. Развитие этой техники может включать более глубокое понимание вычислительных основ, лежащих в основе человеческих дебатов и дискуссий, а также использование этих моделей для улучшения или дополнения существующих LLM.
«Этот подход не только предлагает путь к повышению производительности существующих языковых моделей, но также представляет собой автоматическое средство самосовершенствования. Используя процесс дебатов в качестве контролируемых данных, языковые модели могут повысить свою фактологичность и автономность рассуждений, сокращая полагаться на обратную связь от людей и предлагать масштабируемый подход к самосовершенствованию», — говорит Ду. «Поскольку исследователи продолжают совершенствовать и исследовать этот подход, мы можем приблизиться к будущему, в котором языковые модели не только имитируют человеческий язык, но и демонстрируют более систематическое и надежное мышление, открывая новую эру понимания и применения языка».
«Имеет большой смысл использовать совещательный процесс для улучшения общих результатов модели, и это большой шаг вперед по сравнению с подсказками по цепочке мыслей», — говорит Анка Драган, доцент кафедры электротехники Калифорнийского университета в Беркли. и компьютерные науки, который не участвовал в работе. «Я воодушевлен тем, куда это может пойти дальше. Могут ли люди лучше оценивать ответы, поступающие от LLM, когда они видят обсуждение, сходятся ли они или нет? Могут ли люди сами прийти к лучшим ответам, размышляя с LLM? идея может быть использована, чтобы помочь пользователю изучить ответ LLM, чтобы прийти к лучшему ответу?»
Ду написал статью совместно с тремя филиалами CSAIL: Шуанг Ли С.М. ’20, доктор философии ’23; профессор электротехники и информатики Массачусетского технологического института Антонио Торральба; и профессор вычислительной когнитивной науки Массачусетского технологического института и член Центра мозга, разума и машин Джошуа Тененбаум. Соавтором проекта также выступил исследователь Google DeepMind Игорь Мордач.