Исследовать
Нежелательное поведение языковых моделей
Языковые модели, обученные на больших текстовых корпусах, могут генерировать беглый текст и демонстрируют многообещающие результаты, среди прочего, как малое число обучающихся или инструменты с нулевым уровнем подготовки, а также инструменты генерации кода. Тем не менее, предыдущие исследования также выявили несколько проблем с использованием LM, которые следует решить, включая предвзятость распределения, социальные стереотипы, потенциальное раскрытие обучающих выборок и другой возможный вред LM. Одним из видов вреда, причиняемого LM, является использование токсичной лексики, которая включает в себя разжигание ненависти, оскорбления, ненормативную лексику и угрозы.
В нашей статье мы фокусируемся на LM и их склонности к созданию токсичного языка. Мы изучаем эффективность различных методов снижения токсичности LM и их побочных эффектов, а также исследуем надежность и пределы автоматической оценки токсичности на основе классификатора.
Следуя определению токсичности, разработанному Perspective API, мы рассматриваем высказывание как токсично, если это грубые, неуважительные или необоснованные выражения, которые могут заставить кого-то покинуть обсуждение.. Однако отметим два важных замечания. Во-первых, суждения о токсичности субъективны — они зависят как от экспертов, оценивающих токсичность, так и от их культурных особенностей, а также от предполагаемого контекста. Хотя это и не является целью данной работы, в будущей работе важно продолжать развивать приведенное выше определение и разъяснять, как его можно справедливо применять в различных контекстах. Во-вторых, мы отмечаем, что токсичность охватывает только один аспект возможного вреда LM, исключая, например, вред, возникающий из-за предвзятости модели распределения.
Измерение и снижение токсичности
Чтобы обеспечить более безопасное использование языковой модели, мы решили измерить, понять причины и смягчить генерацию токсичного текста в LM. Ранее проводилась работа, в которой рассматривались различные подходы к снижению токсичности LM: либо путем точной настройки предварительно обученных LM, путем управления генерацией моделей, либо посредством прямой фильтрации во время тестирования. Кроме того, в предыдущей работе были введены автоматические метрики для измерения токсичности LM, как при появлении различных типов подсказок, так и при безусловной генерации. Эти показатели основаны на показателях токсичности широко используемой модели Perspective API, которая обучается на онлайн-комментариях с аннотациями о токсичности.
В нашем исследовании мы сначала показываем, что сочетание относительно простых исходных показателей приводит к резкому снижению, согласно ранее введенным показателям токсичности LM. В частности, мы обнаружили, что сочетание i) фильтрации обучающих данных LM, аннотированных Perspective API как токсичных, ii) фильтрации сгенерированного текста на предмет токсичности на основе отдельного, точно настроенного классификатора BERT, обученного обнаруживать токсичность, и iii) управления генерацией в сторону меньшей токсичности, очень эффективно снижает токсичность LM, измеряемую с помощью автоматических показателей токсичности. При запросе токсичных (или нетоксичных) подсказок из набора данных RealToxicityPrompts мы видим в совокупности 6-кратное (или 17-кратное) снижение по сравнению с ранее сообщавшимся уровнем техники. Вероятность токсичности метрика. Мы достигаем нулевого значения в настройке генерации текста без запроса, что говорит о том, что мы исчерпали этот показатель. Учитывая, насколько низки уровни токсичности в абсолютном выражении, измеренные с помощью автоматических показателей, возникает вопрос, в какой степени это также отражается на человеческом суждении, и имеют ли улучшения эти показатели все еще смысл, особенно потому, что они получены на основе несовершенных автоматических показателей. система классификации. Чтобы получить дополнительную информацию, мы обратимся к оценке людьми.
Оценка людьми
Мы проводим исследование на людях, в ходе которого оценщики комментируют текст, сгенерированный LM, на предмет токсичности. Результаты этого исследования показывают, что существует прямая и в значительной степени монотонная связь между среднестатистическим человеком и результатами, полученными на основе классификатора, а токсичность LM снижается в соответствии с мнением человека.
Мы обнаружили, что согласие между аннотаторами сопоставимо с другими исследованиями по измерению токсичности, и что аннотирование токсичности имеет субъективные и неоднозначные аспекты. Например, мы обнаружили, что двусмысленность часто возникает в результате сарказма, текста в новостном стиле о агрессивном поведении и цитирования токсичного текста (либо нейтрально, либо в целях несогласия с ним).
Кроме того, мы обнаружили, что автоматическая оценка токсичности LM становится менее надежной после применения мер детоксикации. Хотя изначально они очень хорошо связаны, для образцов с высокой (автоматической) оценкой токсичности связь между человеческими оценками и оценками Perspective API исчезает, как только мы применяем и увеличиваем эффективность мер по снижению токсичности LM.
Дальнейшая ручная проверка также показывает, что в ложноположительных текстах некоторые идентификационные термины упоминаются с непропорциональной частотой. Например, для одной модели детоксикации мы наблюдаем, что в группе высокой автоматической токсичности в 30,2% текстов упоминается слово «гей», что отражает ранее наблюдавшиеся предвзятости в автоматических классификаторах токсичности (над улучшением которых сообщество уже работает). В совокупности эти результаты позволяют предположить, что при оценке токсичности LM использование только автоматических показателей может привести к потенциально вводящим в заблуждение интерпретациям.
Непредвиденные последствия детоксикации
Мы далее изучаем возможные непредвиденные последствия, возникающие в результате мероприятий по снижению токсичности LM. Для детоксицированных языковых моделей мы видим заметное увеличение потерь при языковом моделировании, и это увеличение коррелирует с силой детоксикационного вмешательства. Однако увеличение больше в документах с более высокими автоматическими показателями токсичности по сравнению с документами с более низкими показателями токсичности. В то же время в наших человеческих оценках мы не обнаружили заметных различий с точки зрения грамматики, понимания и того, насколько хорошо сохраняется стиль предшествующего условного текста.
Еще одним последствием детоксикации является то, что она может непропорционально снизить способность ЛМ моделировать тексты, относящиеся к определенным группам идентичности. (т.е. охват темы)а также тексты людей из разных идентичностей и с разными диалектами (т.е. охват диалектов). Мы обнаружили, что потери при языковом моделировании для текста на афроамериканском английском (AAE) больше, чем в тексте на английском с выравниванием по белому.
Мы видим аналогичные различия в деградации потерь LM для текста, относящегося к актерам-женщинам, по сравнению с текстом, посвященным актерам-мужчинам. Для текста об определенных этнических подгруппах (например, латиноамериканцах) снижение успеваемости снова относительно выше по сравнению с другими подгруппами.
Вынос
Наши эксперименты по измерению и снижению токсичности языковой модели дают нам ценную информацию о потенциальных следующих шагах по снижению вреда языковой модели, связанного с токсичностью.
В результате наших автоматизированных исследований и исследований с участием людей мы обнаружили, что существующие методы смягчения действительно очень эффективны для снижения автоматических показателей токсичности, и это улучшение в значительной степени сочетается со снижением токсичности по оценкам людей. Однако мы, возможно, достигли точки исчерпания возможностей использования автоматических показателей при оценке токсичности LM: после применения мер по снижению токсичности большинство оставшихся образцов с высокими автоматическими показателями токсичности фактически не оцениваются оценщиками-людьми как токсичные, что указывает на то, что автоматические показатели становятся менее надежными для детоксикационных ЛМ. Это мотивирует усилия по разработке более сложных критериев для автоматической оценки и учету человеческого мнения для будущих исследований по снижению токсичности LM.
Кроме того, учитывая неоднозначность человеческих суждений о токсичности и учитывая, что суждения могут различаться в зависимости от пользователя и приложения (например, язык, описывающий насилие, которое в противном случае могло бы быть помечено как токсичное, может быть уместен в новостной статье), будущая работа должна продолжать развиваться. и адаптировать понятие токсичности для разных контекстов и усовершенствовать его для различных применений LM. Мы надеемся, что список явлений, по поводу которых мы обнаружили несогласие аннотаторов, будет полезен в этом отношении.
Наконец, мы также заметили непреднамеренные последствия снижения токсичности LM, включая ухудшение потери LM и непреднамеренное усиление социальных предубеждений – измеряемых с точки зрения охвата тем и диалектов – потенциально ведущих к снижению эффективности LM для маргинализированных групп. Наши результаты показывают, что наряду с токсичностью для будущей работы важно не полагаться только на один показатель, а рассматривать «совокупность показателей», охватывающих различные проблемы. Будущие меры, такие как дальнейшее снижение систематической ошибки в классификаторах токсичности, потенциально помогут предотвратить компромиссы, подобные тем, которые мы наблюдали, обеспечивая более безопасное использование языковых моделей.