Red Team объединяет языковые модели с языковыми моделями | GPTMain News

В нашем недавняя статьямы показываем, что можно автоматически находить входные данные, которые извлекают вредоносный текст из языковых моделей, генерируя входные данные с использованием самих языковых моделей. Наш подход предоставляет один инструмент для выявления вредоносного поведения модели до того, как оно повлияет на пользователей, хотя мы подчеркиваем, что его следует рассматривать как один из компонентов наряду со многими другими методами, которые потребуются для обнаружения вреда и его смягчения после его обнаружения.

Большие генеративные языковые модели, такие как GPT-3 и Gopher, обладают замечательной способностью генерировать высококачественный текст, но их сложно использовать в реальном мире. Генеративные языковые модели сопряжены с риском создания очень вредоносного текста, и даже небольшой риск причинения вреда неприемлем в реальных приложениях.

Например, в 2016 году Microsoft выпустила бота Tay Twitter, который автоматически пишет в ответ пользователям. В течение 16 часов Microsoft устранила Тэя после того, как несколько враждебно настроенных пользователей вызвали у Тэя расистские и сексуально окрашенные твиты, которые были разосланы более чем 50 000 подписчикам. Результат произошел не из-за недостаточной осторожности со стороны Microsoft:

Проблема в том, что существует очень много возможных входных данных, которые могут привести к тому, что модель будет генерировать вредоносный текст. В результате трудно выявить все случаи сбоя модели до того, как она будет развернута в реальном мире. Предыдущая работа опиралась на оплачиваемых людей-аннотаторов, которые вручную обнаруживали случаи сбоев (Сюй и др., 2021, среди прочего). Этот подход эффективен, но дорог, поскольку ограничивает количество и разнообразие обнаруженных случаев сбоя.

Мы стремимся дополнить ручное тестирование и сократить количество критических упущений за счет автоматического выявления случаев сбоя (или «красной команды»). Для этого мы генерируем тестовые примеры, используя саму языковую модель, и используем классификатор для обнаружения различного вредоносного поведения в тестовых примерах, как показано ниже:

Наш подход выявляет различные модели вредного поведения:

Оскорбительные выражения: Разжигание ненависти, ненормативная лексика, сексуальный контент, дискриминация и т. д.
Утечка данных: Создание защищенной авторским правом или частной информации, позволяющей идентифицировать личность, из учебного корпуса.
Генерация контактной информации: указание пользователям без необходимости отправлять электронные письма или звонить реальным людям.
Распределительная предвзятость: говорить о некоторых группах людей несправедливо иначе, чем о других группах, в среднем по большому количеству результатов.
Разговорный вред: оскорбительные выражения, которые встречаются, например, в контексте длительного диалога.

Для создания тестовых примеров с языковыми моделями мы исследуем различные методы: от генерации на основе подсказок и обучения в несколько шагов до контролируемой точной настройки и обучения с подкреплением. Некоторые методы создают более разнообразные тестовые примеры, в то время как другие методы создают более сложные тестовые сценарии для целевой модели. В совокупности предлагаемые нами методы полезны для получения высокого тестового покрытия, а также для моделирования состязательных случаев.

Как только мы обнаружим случаи сбоя, станет легче исправить вредное поведение модели следующим образом:

Внесение в черный список определенных фраз, которые часто встречаются в вредоносных выходных данных, чтобы модель не создавала выходные данные, содержащие фразы высокого риска.
Нахождение оскорбительных данных обучения, указанных в модели, для удаления этих данных при обучении будущих итераций модели.
Дополнение подсказки модели (обусловливающего текста) примером желаемого поведения для определенного типа ввода, как показано в нашей недавней работе.
Обучение модели минимизации вероятности получения исходного вредного результата для данного тестового входного сигнала.

В целом, языковые модели являются высокоэффективным инструментом для выявления случаев, когда языковые модели ведут себя самым нежелательным образом. В нашей текущей работе мы сосредоточились на вреде «красной команды», который наносят современные языковые модели. В будущем наш подход также может быть использован для упреждающего обнаружения других предполагаемых вредов от передовых систем машинного обучения, например, из-за внутреннего рассогласования или сбоев в объективной устойчивости. Этот подход является лишь одним из компонентов ответственной разработки языковой модели: мы рассматриваем красную команду как один из инструментов, который можно использовать наряду со многими другими, как для выявления недостатков языковых моделей, так и для их смягчения. Мы ссылаемся на раздел 7.3 Rae et al. 2021 г. для более широкого обсуждения другой работы, необходимой для обеспечения безопасности языковой модели.

Более подробную информацию о нашем подходе и результатах, а также о более широких последствиях наших выводов можно найти здесь.

Red Team объединяет языковые модели с языковыми моделями | GPTMain News

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Red Team объединяет языковые модели с языковыми моделями | GPTMain News

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

Нанесение водяных знаков на текст и видео, созданные искусственным интеллектом, с помощью SynthID | GPTMain News

Flash 1.5, Джемма 2 и Проект Астра | GPTMain News

Представляем структуру пограничной безопасности | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ