Исследователи создают «Игру консенсуса», чтобы улучшить навыки ИИ в понимании и генерации текста | Новости Массачусетского технологического института | GPTMain News

Представьте, что вы с другом играете в игру, где ваша цель — передавать друг другу секретные сообщения, используя только загадочные предложения. Задача вашего друга — угадать секретное послание, скрывающееся за вашими предложениями. Иногда вы даете подсказки напрямую, а иногда вашему другу приходится угадывать сообщение, задавая вопросы «да» или «нет» о подсказках, которые вы дали. Задача в том, что вы оба хотите убедиться, что правильно понимаете друг друга и согласны с секретным посланием.

Исследователи Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) создали аналогичную «игру», чтобы помочь улучшить то, как ИИ понимает и генерирует текст. «Игра консенсуса» включает в себя две части системы ИИ: одна часть пытается генерировать предложения (например, давать подсказки), а другая часть пытается понять и оценить эти предложения (например, угадать секретное сообщение).

Исследователи обнаружили, что, рассматривая это взаимодействие как игру, в которой обе части ИИ работают вместе по определенным правилам, чтобы прийти к соглашению о правильном сообщении, они могут значительно улучшить способность ИИ давать правильные и связные ответы на вопросы. Они протестировали этот новый игровой подход на различных задачах, таких как понимание прочитанного, решение математических задач и ведение бесед, и обнаружили, что он помогает ИИ работать лучше по всем направлениям.

Традиционно языковые модели (LM) отвечают одним из двух способов: генерировать ответы непосредственно из модели (генеративный запрос) или использовать модель для оценки набора заранее определенных ответов (дискриминативный запрос), что может привести к различным, а иногда и несовместимым результатам. При генеративном подходе «Кто такой президент Соединенных Штатов?» может дать прямой ответ, например: «Джо Байден». Однако дискриминационный запрос может ошибочно оспорить этот факт при оценке одного и того же ответа, например «Барак Обама».

Итак, как нам согласовать взаимно несовместимые процедуры оценки, чтобы добиться последовательных и эффективных прогнозов?

«Представьте себе новый способ помочь языковым моделям понимать и генерировать текст, например в игре. Мы разработали теоретико-игровой метод, не требующий обучения, который рассматривает весь процесс как сложную игру подсказок и сигналов, в которой генератор пытается отправить правильное сообщение дискриминатору, используя естественный язык. Вместо шахматных фигур они используют слова и предложения», — говорит аспирант MIT CSAIL Атул Джейкоб. «Наш способ ориентироваться в этой игре — найти «приблизительные равновесия», что приводит к новому алгоритму декодирования, называемому «Рейтинг равновесия». Это довольно захватывающая демонстрация того, как объединение теоретико-игровых стратегий может решить некоторые серьезные проблемы, связанные с повышением надежности и согласованности языковых моделей».

При тестировании на множестве задач, таких как понимание прочитанного, здравое рассуждение, решение математических задач и диалог, алгоритм команды постоянно улучшал эффективность этих моделей. Использование алгоритма ER с моделью LLaMA-7B даже затмило результаты гораздо более крупных моделей. «Учитывая, что они уже конкурентоспособны и люди над этим уже некоторое время работают, но уровень улучшений, который мы увидели, превзойдя модель, которая в 10 раз больше, стал приятным сюрпризом», — говорит Джейкоб.

Игра началась

«Дипломатия», стратегическая настольная игра, действие которой разворачивается в Европе перед Первой мировой войной, в которой игроки заключают союзы, предают друзей и завоевывают территории без использования игральных костей — полагаясь исключительно на навыки, стратегию и межличностные манипуляции — недавно получила второе пришествие. В ноябре 2022 года ученые-компьютерщики, в том числе Джейкоб, разработали «Цицерон», агента искусственного интеллекта, который достигает возможностей человеческого уровня в смешанной игре для семи игроков, которая требует тех же вышеупомянутых навыков, но с использованием естественного языка. Математика, лежащая в основе этого, частично вдохновила «Игру консенсуса».

Хотя история агентов ИИ началась задолго до того, как программное обеспечение OpenAI вошло в чат (и никогда не оглядывалось назад) в ноябре 2022 года, хорошо известно, что они все еще могут косплеить вашего благонамеренного, но патологического друга.

Система «Игры консенсуса» достигает равновесия как соглашения, гарантируя точность и верность первоначальным идеям модели. Чтобы добиться этого, метод итеративно корректирует взаимодействие между генеративными и дискриминативными компонентами, пока они не достигнут консенсуса по ответу, который точно отражает реальность и соответствует их первоначальным убеждениям. Этот подход эффективно устраняет разрыв между двумя методами запроса.

На практике реализация подхода «Консенсусной игры» к запросам языковой модели, особенно для задач ответа на вопросы, действительно требует значительных вычислительных проблем. Например, при использовании таких наборов данных, как MMLU, которые содержат тысячи вопросов и ответов с несколькими вариантами ответов, модель должна применять этот механизм к каждому запросу. Затем он должен достичь консенсуса между порождающими и различающими компонентами каждого вопроса и возможными ответами на него.

Система действительно боролась с правом прохода в начальную школу: задачи по математике. Он не мог генерировать неправильные ответы, что является важнейшим компонентом понимания процесса поиска правильного ответа.

«За последние несколько лет мы увидели действительно впечатляющий прогресс как в принятии стратегических решений, так и в генерации языков с помощью систем искусственного интеллекта, но мы только начинаем понимать, как соединить эти две вещи вместе. Ранжирование равновесия — это первый шаг в этом направлении, но я думаю, что мы сможем многое сделать, чтобы распространить это на более сложные проблемы».

Дальнейшая работа предполагает улучшение базовой модели путем интеграции результатов текущего метода. Это особенно многообещающе, поскольку может дать более фактические и последовательные ответы по различным задачам, включая фактологию и открытую генерацию. Потенциал такого метода значительно улучшить производительность базовой модели высок, что может привести к получению более надежных и фактических результатов от ChatGPT и аналогичных языковых моделей, которые люди используют ежедневно.

«Несмотря на то, что современные языковые модели, такие как ChatGPT и Gemini, привели к решению различных задач через интерфейсы чата, процесс статистического декодирования, генерирующий ответ от таких моделей, оставался неизменным на протяжении десятилетий», — говорит ученый-исследователь Google Ахмад Бейрами. «Предложение исследователей Массачусетского технологического института представляет собой инновационную теоретико-игровую основу для декодирования языковых моделей посредством решения равновесия консенсусной игры. Значительный прирост производительности, о котором сообщается в исследовательской работе, является многообещающим, открывая дверь для потенциального изменения парадигмы декодирования языковой модели, что может способствовать появлению множества новых приложений».

Джейкоб написал статью вместе с исследователем MIT-IBM Watson Lab Икан Шеном и доцентами факультета электротехники и информатики Массачусетского технологического института Габриэле Фариной и Джейкобом Андреасом, который также является членом CSAIL. Они представят свою работу на Международной конференции по изучению представлений (ICLR) в мае этого года. Исследование получило награду за лучшую статью на семинаре NeurIPS R0-FoMo в декабре, а также будет отмечено как «в центре внимания» на ICLR.

Исследователи создают «Игру консенсуса», чтобы улучшить навыки ИИ в понимании и генерации текста | Новости Массачусетского технологического института | GPTMain News

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Исследователи создают «Игру консенсуса», чтобы улучшить навыки ИИ в понимании и генерации текста | Новости Массачусетского технологического института | GPTMain News

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

Ученые используют генеративный искусственный интеллект для ответа на сложные вопросы физики | Новости Массачусетского технологического института | GPTMain News

Объявлены стипендиаты MAD Design Fellowship 2024 года | Новости Массачусетского технологического института | GPTMain News

Технология создания более эффективных многоцелевых роботов | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ