Представьте, что вы с другом играете в игру, где ваша цель — передавать друг другу секретные сообщения, используя только загадочные предложения. Задача вашего друга — угадать секретное послание, скрывающееся за вашими предложениями. Иногда вы даете подсказки напрямую, а иногда вашему другу приходится угадывать сообщение, задавая вопросы типа «да» или «нет» о подсказках, которые вы дали. Задача состоит в том, что вы оба хотите убедиться, что правильно понимаете друг друга и согласны с секретным посланием.
Исследователи Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) создали аналогичную «игру», чтобы помочь улучшить то, как ИИ понимает и генерирует текст. Она известна как «консенсусная игра» и включает в себя две части системы ИИ: одна часть пытается генерировать предложения (например, давать подсказки), а другая часть пытается понять и оценить эти предложения (например, угадать секретное сообщение).
Исследователи обнаружили, что, рассматривая это взаимодействие как игру, в которой обе части ИИ работают вместе по определенным правилам, чтобы прийти к соглашению о правильном сообщении, они могут значительно улучшить способность ИИ давать правильные и связные ответы на вопросы. Они протестировали этот новый игровой подход на различных задачах, таких как понимание прочитанного, решение математических задач и ведение бесед, и обнаружили, что он помогает ИИ работать лучше по всем направлениям.
Традиционно большие языковые модели отвечают одним из двух способов: генерировать ответы непосредственно из модели (генеративный запрос) или использовать модель для оценки набора предопределенных ответов (дискриминативный запрос), что может привести к различным, а иногда и несовместимым результатам. При генеративном подходе «Кто является президентом Соединенных Штатов?» может дать прямой ответ, например, «Джо Байден». Однако дискриминирующий запрос может ошибочно оспорить этот факт при оценке одного и того же ответа, например «Барак Обама».
Итак, как нам согласовать взаимно несовместимые процедуры оценки, чтобы добиться последовательных и эффективных прогнозов?
«Представьте себе новый способ помочь языковым моделям понимать и генерировать текст, как в игре. Мы разработали не требующий обучения теоретико-игровой метод, который рассматривает весь процесс как сложную игру подсказок и сигналов, в которой генератор пытается отправляют дискриминатору правильное сообщение, используя естественный язык. Вместо шахматных фигур они используют слова и предложения», — говорит Атул Джейкоб, аспирант Массачусетского технологического института в области электротехники и информатики и член CSAIL. «Наш способ ориентироваться в этой игре — найти «приблизительные равновесия», что приводит к новому алгоритму декодирования, называемому «ранжирование равновесия». Это довольно захватывающая демонстрация того, как объединение теоретико-игровых стратегий может решить некоторые серьезные проблемы и сделать языковые модели более надежными и последовательными».
При тестировании на множестве задач, таких как понимание прочитанного, здравое рассуждение, решение математических задач и диалог, алгоритм команды постоянно улучшал эффективность этих моделей. Использование алгоритма ER с моделью LLaMA-7B даже затмило результаты гораздо более крупных моделей. «Учитывая, что они уже конкурентоспособны и люди уже некоторое время над этим работают, но уровень улучшений, который мы увидели, превзойдя модель, которая в 10 раз больше, стал приятным сюрпризом», — говорит Джейкоб.
Игра началась
«Дипломатия», стратегическая настольная игра, действие которой происходит в Европе перед Первой мировой войной, в которой игроки заключают союзы, предают друзей и завоевывают территории без использования игральных костей, полагаясь исключительно на навыки, стратегию и межличностные манипуляции, недавно получила второе пришествие. . В ноябре 2022 года ученые-компьютерщики, в том числе Джейкоб, разработали «Цицерон», агента искусственного интеллекта, который достигает возможностей человеческого уровня в смешанной игре для семи игроков, которая требует тех же вышеупомянутых навыков, но с использованием естественного языка. Математика, стоящая за этим, частично послужила вдохновением для создания «Игры консенсуса».
Хотя история агентов ИИ началась задолго до того, как программное обеспечение OpenAI появилось в чате в ноябре 2022 года, хорошо известно, что они все еще могут косплеить вашего благонамеренного, но патологического друга.
Система консенсусных игр достигает равновесия как соглашение, гарантируя точность и верность первоначальным идеям модели. Чтобы добиться этого, метод итеративно корректирует взаимодействие между генеративными и дискриминативными компонентами, пока они не достигнут консенсуса по ответу, который точно отражает реальность и соответствует их первоначальным убеждениям. Этот подход эффективно устраняет разрыв между двумя методами запроса.
На практике реализация подхода «консенсусной игры» к запросам языковой модели, особенно для задач «вопрос-ответ», действительно требует значительных вычислительных проблем. Например, при использовании таких наборов данных, как MMLU, которые содержат тысячи вопросов и ответов с несколькими вариантами ответов, модель должна применять этот механизм к каждому запросу. Затем он должен достичь консенсуса между порождающими и различительными компонентами каждого вопроса и возможными ответами на него.
Система действительно боролась с правом прохода в начальную школу: задачи по математике. Он не мог генерировать неправильные ответы, что является важнейшим компонентом понимания процесса поиска правильного ответа.
«За последние несколько лет мы увидели действительно впечатляющий прогресс как в принятии стратегических решений, так и в генерации языков с помощью систем искусственного интеллекта, но мы только начинаем понимать, как соединить эти два процесса вместе. Ранжирование равновесия — это первый шаг в этом направлении, но я думаю, что мы сможем многое сделать, чтобы распространить это на более сложные проблемы», — говорит Джейкоб.
Дальнейшая работа предполагает улучшение базовой модели путем интеграции результатов текущего метода. Это особенно многообещающе, поскольку может дать более фактические и последовательные ответы по различным задачам, включая фактологию и открытую генерацию. Потенциал такого метода значительно улучшить производительность базовой модели высок, что может привести к получению более надежных и фактических результатов от ChatGPT и аналогичных языковых моделей, которые люди используют ежедневно.
«Несмотря на то, что современные языковые модели, такие как ChatGPT и Gemini, привели к решению различных задач через интерфейсы чата, процесс статистического декодирования, генерирующий ответ от таких моделей, оставался неизменным на протяжении десятилетий», — говорит научный сотрудник Google Ахмад Бейрами, который не участвует в работе. «Предложение исследователей Массачусетского технологического института представляет собой инновационную теоретико-игровую основу для декодирования языковых моделей посредством решения равновесия консенсусной игры. Значительный прирост производительности, о котором сообщается в исследовательской статье, является многообещающим и открывает дверь для потенциального изменения парадигмы языка. декодирование модели, которое может способствовать появлению множества новых приложений».
Джейкоб написал статью вместе с исследователем MIT-IBM Watson Lab Икан Шеном и доцентами факультета электротехники и компьютерных наук Массачусетского технологического института Габриэле Фариной и Джейкобом Андреасом, который также является членом CSAIL. Они представили свою работу на Международной конференции по обучению представлениям (ICLR) в начале этого месяца, где она была отмечена как «в центре внимания». Исследование также получило награду «Лучшая статья» на семинаре NeurIPS R0-FoMo в декабре 2023 года.