Проблемы детоксикации языковых моделей | GPTMain News

Исследовать

Опубликовано
Авторы

Йоханнес Велбл, Миа Глезе, Джонатан Уэсато, Сумант Дататри, Джон Меллор, Лиза Энн Хендрикс, Кирсти Андерсон *, Пушмит Кохли, Бен Коппин, По-Сен Хуанг (* Внешние авторы)

Нежелательное поведение языковых моделей

Языковые модели, обученные на больших текстовых корпусах, могут генерировать беглый текст и демонстрируют многообещающие результаты, среди прочего, как малое число обучающихся или инструменты с нулевым уровнем подготовки, а также инструменты генерации кода. Тем не менее, предыдущие исследования также выявили несколько проблем с использованием LM, которые следует решить, включая предвзятость распределения, социальные стереотипы, потенциальное раскрытие обучающих выборок и другой возможный вред LM. Одним из видов вреда, причиняемого LM, является использование токсичной лексики, которая включает в себя разжигание ненависти, оскорбления, ненормативную лексику и угрозы.

В нашей статье мы фокусируемся на LM и их склонности к созданию токсичного языка. Мы изучаем эффективность различных методов снижения токсичности LM и их побочных эффектов, а также исследуем надежность и пределы автоматической оценки токсичности на основе классификатора.

Следуя определению токсичности, разработанному Perspective API, мы рассматриваем высказывание как токсично, если это грубые, неуважительные или необоснованные выражения, которые могут заставить кого-то покинуть обсуждение.. Однако отметим два важных замечания. Во-первых, суждения о токсичности субъективны — они зависят как от экспертов, оценивающих токсичность, так и от их культурных особенностей, а также от предполагаемого контекста. Хотя это и не является целью данной работы, в будущей работе важно продолжать развивать приведенное выше определение и разъяснять, как его можно справедливо применять в различных контекстах. Во-вторых, мы отмечаем, что токсичность охватывает только один аспект возможного вреда LM, исключая, например, вред, возникающий из-за предвзятости модели распределения.

Измерение и снижение токсичности

Чтобы обеспечить более безопасное использование языковой модели, мы решили измерить, понять причины и смягчить генерацию токсичного текста в LM. Ранее проводилась работа, в которой рассматривались различные подходы к снижению токсичности LM: либо путем точной настройки предварительно обученных LM, путем управления генерацией моделей, либо посредством прямой фильтрации во время тестирования. Кроме того, в предыдущей работе были введены автоматические метрики для измерения токсичности LM, как при появлении различных типов подсказок, так и при безусловной генерации. Эти показатели основаны на показателях токсичности широко используемой модели Perspective API, которая обучается на онлайн-комментариях с аннотациями о токсичности.

В нашем исследовании мы сначала показываем, что сочетание относительно простых исходных показателей приводит к резкому снижению, согласно ранее введенным показателям токсичности LM. В частности, мы обнаружили, что сочетание i) фильтрации обучающих данных LM, аннотированных Perspective API как токсичных, ii) фильтрации сгенерированного текста на предмет токсичности на основе отдельного, точно настроенного классификатора BERT, обученного обнаруживать токсичность, и iii) управления генерацией в сторону меньшей токсичности, очень эффективно снижает токсичность LM, измеряемую с помощью автоматических показателей токсичности. При запросе токсичных (или нетоксичных) подсказок из набора данных RealToxicityPrompts мы видим в совокупности 6-кратное (или 17-кратное) снижение по сравнению с ранее сообщавшимся уровнем техники. Вероятность токсичности метрика. Мы достигаем нулевого значения в настройке генерации текста без запроса, что говорит о том, что мы исчерпали этот показатель. Учитывая, насколько низки уровни токсичности в абсолютном выражении, измеренные с помощью автоматических показателей, возникает вопрос, в какой степени это также отражается на человеческом суждении, и имеют ли улучшения эти показатели все еще смысл, особенно потому, что они получены на основе несовершенных автоматических показателей. система классификации. Чтобы получить дополнительную информацию, мы обратимся к оценке людьми.

Оценка людьми

Мы проводим исследование на людях, в ходе которого оценщики комментируют текст, сгенерированный LM, на предмет токсичности. Результаты этого исследования показывают, что существует прямая и в значительной степени монотонная связь между среднестатистическим человеком и результатами, полученными на основе классификатора, а токсичность LM снижается в соответствии с мнением человека.

Мы обнаружили, что согласие между аннотаторами сопоставимо с другими исследованиями по измерению токсичности, и что аннотирование токсичности имеет субъективные и неоднозначные аспекты. Например, мы обнаружили, что двусмысленность часто возникает в результате сарказма, текста в новостном стиле о агрессивном поведении и цитирования токсичного текста (либо нейтрально, либо в целях несогласия с ним).

Кроме того, мы обнаружили, что автоматическая оценка токсичности LM становится менее надежной после применения мер детоксикации. Хотя изначально они очень хорошо связаны, для образцов с высокой (автоматической) оценкой токсичности связь между человеческими оценками и оценками Perspective API исчезает, как только мы применяем и увеличиваем эффективность мер по снижению токсичности LM.

Дальнейшая ручная проверка также показывает, что в ложноположительных текстах некоторые идентификационные термины упоминаются с непропорциональной частотой. Например, для одной модели детоксикации мы наблюдаем, что в группе высокой автоматической токсичности в 30,2% текстов упоминается слово «гей», что отражает ранее наблюдавшиеся предвзятости в автоматических классификаторах токсичности (над улучшением которых сообщество уже работает). В совокупности эти результаты позволяют предположить, что при оценке токсичности LM использование только автоматических показателей может привести к потенциально вводящим в заблуждение интерпретациям.

Непредвиденные последствия детоксикации

Мы далее изучаем возможные непредвиденные последствия, возникающие в результате мероприятий по снижению токсичности LM. Для детоксицированных языковых моделей мы видим заметное увеличение потерь при языковом моделировании, и это увеличение коррелирует с силой детоксикационного вмешательства. Однако увеличение больше в документах с более высокими автоматическими показателями токсичности по сравнению с документами с более низкими показателями токсичности. В то же время в наших человеческих оценках мы не обнаружили заметных различий с точки зрения грамматики, понимания и того, насколько хорошо сохраняется стиль предшествующего условного текста.

Еще одним последствием детоксикации является то, что она может непропорционально снизить способность ЛМ моделировать тексты, относящиеся к определенным группам идентичности. (т.е. охват темы)а также тексты людей из разных идентичностей и с разными диалектами (т.е. охват диалектов). Мы обнаружили, что потери при языковом моделировании для текста на афроамериканском английском (AAE) больше, чем в тексте на английском с выравниванием по белому.

Мы видим аналогичные различия в деградации потерь LM для текста, относящегося к актерам-женщинам, по сравнению с текстом, посвященным актерам-мужчинам. Для текста об определенных этнических подгруппах (например, латиноамериканцах) снижение успеваемости снова относительно выше по сравнению с другими подгруппами.

Вынос

Наши эксперименты по измерению и снижению токсичности языковой модели дают нам ценную информацию о потенциальных следующих шагах по снижению вреда языковой модели, связанного с токсичностью.

В результате наших автоматизированных исследований и исследований с участием людей мы обнаружили, что существующие методы смягчения действительно очень эффективны для снижения автоматических показателей токсичности, и это улучшение в значительной степени сочетается со снижением токсичности по оценкам людей. Однако мы, возможно, достигли точки исчерпания возможностей использования автоматических показателей при оценке токсичности LM: после применения мер по снижению токсичности большинство оставшихся образцов с высокими автоматическими показателями токсичности фактически не оцениваются оценщиками-людьми как токсичные, что указывает на то, что автоматические показатели становятся менее надежными для детоксикационных ЛМ. Это мотивирует усилия по разработке более сложных критериев для автоматической оценки и учету человеческого мнения для будущих исследований по снижению токсичности LM.

Кроме того, учитывая неоднозначность человеческих суждений о токсичности и учитывая, что суждения могут различаться в зависимости от пользователя и приложения (например, язык, описывающий насилие, которое в противном случае могло бы быть помечено как токсичное, может быть уместен в новостной статье), будущая работа должна продолжать развиваться. и адаптировать понятие токсичности для разных контекстов и усовершенствовать его для различных применений LM. Мы надеемся, что список явлений, по поводу которых мы обнаружили несогласие аннотаторов, будет полезен в этом отношении.

Наконец, мы также заметили непреднамеренные последствия снижения токсичности LM, включая ухудшение потери LM и непреднамеренное усиление социальных предубеждений – измеряемых с точки зрения охвата тем и диалектов – потенциально ведущих к снижению эффективности LM для маргинализированных групп. Наши результаты показывают, что наряду с токсичностью для будущей работы важно не полагаться только на один показатель, а рассматривать «совокупность показателей», охватывающих различные проблемы. Будущие меры, такие как дальнейшее снижение систематической ошибки в классификаторах токсичности, потенциально помогут предотвратить компромиссы, подобные тем, которые мы наблюдали, обеспечивая более безопасное использование языковых моделей.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس