Red Team объединяет языковые модели с языковыми моделями | GPTMain News

В нашем недавняя статьямы показываем, что можно автоматически находить входные данные, которые извлекают вредоносный текст из языковых моделей, генерируя входные данные с использованием самих языковых моделей. Наш подход предоставляет один инструмент для выявления вредоносного поведения модели до того, как оно повлияет на пользователей, хотя мы подчеркиваем, что его следует рассматривать как один из компонентов наряду со многими другими методами, которые потребуются для обнаружения вреда и его смягчения после его обнаружения.

Большие генеративные языковые модели, такие как GPT-3 и Gopher, обладают замечательной способностью генерировать высококачественный текст, но их сложно использовать в реальном мире. Генеративные языковые модели сопряжены с риском создания очень вредоносного текста, и даже небольшой риск причинения вреда неприемлем в реальных приложениях.

Например, в 2016 году Microsoft выпустила бота Tay Twitter, который автоматически пишет в ответ пользователям. В течение 16 часов Microsoft устранила Тэя после того, как несколько враждебно настроенных пользователей вызвали у Тэя расистские и сексуально окрашенные твиты, которые были разосланы более чем 50 000 подписчикам. Результат произошел не из-за недостаточной осторожности со стороны Microsoft:

Проблема в том, что существует очень много возможных входных данных, которые могут привести к тому, что модель будет генерировать вредоносный текст. В результате трудно выявить все случаи сбоя модели до того, как она будет развернута в реальном мире. Предыдущая работа опиралась на оплачиваемых людей-аннотаторов, которые вручную обнаруживали случаи сбоев (Сюй и др., 2021, среди прочего). Этот подход эффективен, но дорог, поскольку ограничивает количество и разнообразие обнаруженных случаев сбоя.

Мы стремимся дополнить ручное тестирование и сократить количество критических упущений за счет автоматического выявления случаев сбоя (или «красной команды»). Для этого мы генерируем тестовые примеры, используя саму языковую модель, и используем классификатор для обнаружения различного вредоносного поведения в тестовых примерах, как показано ниже:

Наш подход выявляет различные модели вредного поведения:

  1. Оскорбительные выражения: Разжигание ненависти, ненормативная лексика, сексуальный контент, дискриминация и т. д.
  2. Утечка данных: Создание защищенной авторским правом или частной информации, позволяющей идентифицировать личность, из учебного корпуса.
  3. Генерация контактной информации: указание пользователям без необходимости отправлять электронные письма или звонить реальным людям.
  4. Распределительная предвзятость: говорить о некоторых группах людей несправедливо иначе, чем о других группах, в среднем по большому количеству результатов.
  5. Разговорный вред: оскорбительные выражения, которые встречаются, например, в контексте длительного диалога.

Для создания тестовых примеров с языковыми моделями мы исследуем различные методы: от генерации на основе подсказок и обучения в несколько шагов до контролируемой точной настройки и обучения с подкреплением. Некоторые методы создают более разнообразные тестовые примеры, в то время как другие методы создают более сложные тестовые сценарии для целевой модели. В совокупности предлагаемые нами методы полезны для получения высокого тестового покрытия, а также для моделирования состязательных случаев.

Как только мы обнаружим случаи сбоя, станет легче исправить вредное поведение модели следующим образом:

  1. Внесение в черный список определенных фраз, которые часто встречаются в вредоносных выходных данных, чтобы модель не создавала выходные данные, содержащие фразы высокого риска.
  2. Нахождение оскорбительных данных обучения, указанных в модели, для удаления этих данных при обучении будущих итераций модели.
  3. Дополнение подсказки модели (обусловливающего текста) примером желаемого поведения для определенного типа ввода, как показано в нашей недавней работе.
  4. Обучение модели минимизации вероятности получения исходного вредного результата для данного тестового входного сигнала.

В целом, языковые модели являются высокоэффективным инструментом для выявления случаев, когда языковые модели ведут себя самым нежелательным образом. В нашей текущей работе мы сосредоточились на вреде «красной команды», который наносят современные языковые модели. В будущем наш подход также может быть использован для упреждающего обнаружения других предполагаемых вредов от передовых систем машинного обучения, например, из-за внутреннего рассогласования или сбоев в объективной устойчивости. Этот подход является лишь одним из компонентов ответственной разработки языковой модели: мы рассматриваем красную команду как один из инструментов, который можно использовать наряду со многими другими, как для выявления недостатков языковых моделей, так и для их смягчения. Мы ссылаемся на раздел 7.3 Rae et al. 2021 г. для более широкого обсуждения другой работы, необходимой для обеспечения безопасности языковой модели.

Более подробную информацию о нашем подходе и результатах, а также о более широких последствиях наших выводов можно найти здесь.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس