Ghostbuster: Detecting Text Ghostwritten by Large Language Models

Структура Ghostbuster, нашего нового современного метода обнаружения текста, сгенерированного искусственным интеллектом.

Большие языковые модели, такие как ChatGPT, пишутся впечатляюще хорошо — настолько хорошо, что даже стали проблемой. Учащиеся начали использовать эти модели для написания заданий, в результате чего некоторые школы запретили ChatGPT. Кроме того, эти модели также склонны создавать текст с фактическими ошибками, поэтому осторожные читатели могут захотеть узнать, использовались ли инструменты генеративного искусственного интеллекта для написания новостных статей или других источников, прежде чем доверять им.

Что могут сделать учителя и потребители? Существующие инструменты для обнаружения текста, сгенерированного ИИ, иногда плохо работают с данными, которые отличаются от тех, на которых они обучались. Кроме того, если эти модели ошибочно классифицируют настоящее человеческое письмо как созданное искусственным интеллектом, они могут поставить под угрозу студентов, подлинная работа которых будет поставлена под сомнение.

В нашей недавней статье представлен Ghostbuster — современный метод обнаружения текста, сгенерированного искусственным интеллектом. Ghostbuster работает, находя вероятность создания каждого токена в документе в рамках нескольких более слабых языковых моделей, а затем комбинируя функции, основанные на этих вероятностях, в качестве входных данных для окончательного классификатора. Ghostbuster не нужно знать, какая модель использовалась для создания документа, а также вероятность создания документа по этой конкретной модели. Это свойство делает Ghostbuster особенно полезным для обнаружения текста, потенциально сгенерированного неизвестной моделью или моделью черного ящика, например популярными коммерческими моделями ChatGPT и Claude, для которых вероятности недоступны. Мы особенно заинтересованы в том, чтобы «Охотники за привидениями» хорошо обобщали, поэтому мы оценили ряд способов генерации текста, включая различные области (с использованием недавно собранных наборов данных эссе, новостей и рассказов), языковых моделей или подсказок.

Примеры текста, написанного человеком и созданного искусственным интеллектом, из наших наборов данных.

Почему такой подход?

Многие современные системы обнаружения текста, генерируемые ИИ, неспособны классифицировать различные типы текста (например, разные стили письма или разные модели генерации текста или подсказки). Более простые модели, использующие только недоумение, обычно не могут охватить более сложные функции и особенно плохо работают в новых областях письма. Фактически, мы обнаружили, что базовый уровень, основанный только на недоумении, был хуже, чем случайный в некоторых областях, включая данные для людей, для которых английский язык не является родным. Между тем, классификаторы, основанные на больших языковых моделях, таких как RoBERTa, легко улавливают сложные функции, но плохо подходят для обучающих данных и плохо обобщают: мы обнаружили, что базовый уровень RoBERTa имел катастрофическую производительность обобщения в худшем случае, иногда даже хуже, чем базовый уровень, основанный только на недоумении. Методы нулевого выстрела, которые классифицируют текст без обучения на помеченных данных путем расчета вероятности того, что текст был сгенерирован конкретной моделью, также имеют тенденцию плохо работать, когда для генерации текста фактически использовалась другая модель.

Как работает Охотник за привидениями

Ghostbuster использует трехэтапный процесс обучения: вычисление вероятностей, выбор функций и обучение классификатора.

Вычисление вероятностей: Мы преобразовали каждый документ в серию векторов, вычислив вероятность генерации каждого слова в документе в рамках ряда более слабых языковых моделей (модель униграммы, модель триграммы и две модели GPT-3 без настройки инструкций, ada и Давинчи).

Выбор функций: Мы использовали процедуру структурированного поиска для выбора признаков, которая работает путем (1) определения набора векторных и скалярных операций, объединяющих вероятности, и (2) поиска полезных комбинаций этих операций с использованием прямого выбора признаков, многократного добавления лучших оставшаяся функция.

Обучение классификатора: Мы обучили линейный классификатор лучшим вероятностным признакам и некоторым дополнительным функциям, выбранным вручную.

Полученные результаты

При обучении и тестировании в одной и той же области Ghostbuster достиг 99,0 F1 по всем трем наборам данных, опередив GPTZero с отрывом на 5,9 F1 и DetectGPT на 41,6 F1. Вне домена Ghostbuster достиг среднего показателя 97,0 F1 во всех условиях, опередив DetectGPT на 39,6 F1 и GPTZero на 7,5 F1. Наш базовый показатель RoBERTa достиг 98,1 F1 при внутридоменной оценке всех наборов данных, но его эффективность обобщения была непостоянной. Ghostbuster превзошел базовый показатель RoBERTa во всех областях, за исключением творческого письма вне домена, и имел гораздо лучшую производительность вне домена, чем RoBERTa в среднем (разница F1 13,8).

Результаты производительности Ghostbuster внутри домена и вне домена.

Чтобы гарантировать устойчивость Ghostbuster к различным способам, которыми пользователь может подсказать модель, например, к запросу различных стилей письма или уровней чтения, мы оценили устойчивость Ghostbuster к нескольким вариантам подсказок. Ghostbuster превзошел все другие протестированные подходы в этих вариантах с 99,5 F1. Чтобы проверить обобщение моделей, мы оценили производительность текста, сгенерированного Claude, где Ghostbuster также превзошел все другие протестированные подходы с 92,2 F1.

Детекторы текста, сгенерированные ИИ, были обмануты, слегка отредактировав сгенерированный текст. Мы проверили устойчивость Ghostbuster к изменениям, таким как замена предложений или абзацев, изменение порядка символов или замена слов синонимами. Большинство изменений на уровне предложения или абзаца существенно не влияли на производительность, хотя производительность плавно снижалась, если текст редактировался путем повторного перефразирования, использования коммерческих средств уклонения от обнаружения, таких как Undetectable AI, или внесения многочисленных изменений на уровне слов или символов. Производительность также была лучшей при работе с более длинными документами.

Поскольку детекторы текста, сгенерированные искусственным интеллектом, могут ошибочно классифицировать текст, для которого английский язык не является родным, как текст, сгенерированный искусственным интеллектом, мы оценили эффективность Ghostbuster по написанию текстов для тех, для кого английский язык не является родным. Все протестированные модели имели точность более 95% в двух из трех протестированных наборов данных, но хуже показали себя в третьем наборе более коротких эссе. Однако длина документа может быть здесь основным фактором, поскольку Ghostbuster работает с этими документами почти так же хорошо (74,7 F1), как и с другими документами вне домена аналогичной длины (от 75,6 до 93,1 F1).

Пользователи, которые хотят применить Ghostbuster к реальным случаям потенциально запрещенного использования генерации текста (например, студенческие эссе, написанные с помощью ChatGPT), должны учитывать, что ошибки более вероятны для более короткого текста, доменов, далеких от тех, на которых обучался Ghostbuster (например, различные варианты английского языка), текст, написанный не носителями английского языка, поколения моделей, отредактированных человеком, или текст, сгенерированный путем подсказки модели ИИ изменить входные данные, созданные человеком. Чтобы избежать увековечивания алгоритмического вреда, мы настоятельно не рекомендуем автоматически наказывать предполагаемое использование генерации текста без контроля человека. Вместо этого мы рекомендуем осторожное использование Ghostbuster с участием человека, если классификация чьих-либо произведений как созданных искусственным интеллектом может нанести им вред. Ghostbuster также может помочь с различными приложениями с низким уровнем риска, включая фильтрацию сгенерированного ИИ текста из данных обучения языковой модели и проверку того, сгенерированы ли онлайн-источники информации ИИ.

Заключение

Ghostbuster — это современная модель обнаружения текста, генерируемая искусственным интеллектом, с производительностью 99,0 F1 во всех протестированных областях, что представляет собой существенный прогресс по сравнению с существующими моделями. Он хорошо обобщается для различных областей, подсказок и моделей и хорошо подходит для идентификации текста из «черного ящика» или неизвестных моделей, поскольку не требует доступа к вероятностям из конкретной модели, используемой для создания документа.

Будущие направления Ghostbuster включают предоставление объяснений для решений модели и повышение устойчивости к атакам, которые специально пытаются обмануть детекторы. Подходы к обнаружению текста, генерируемые искусственным интеллектом, также могут использоваться наряду с такими альтернативами, как нанесение водяных знаков. Мы также надеемся, что Ghostbuster сможет помочь в различных приложениях, таких как фильтрация данных обучения языковой модели или пометка контента, созданного ИИ, в Интернете.

Попробуйте Ghostbuster здесь: Ghostbuster.app

Подробнее об «Охотнике за привидениями» можно узнать здесь: [ paper ] [ code ]

Попробуйте сами угадать, сгенерирован ли текст искусственным интеллектом, здесь: Ghostbuster.app/experiment.

Обнаружение текста, написанного призраками с помощью больших языковых моделей – Блог исследований искусственного интеллекта Беркли | GPTMain News

Почему такой подход?

Как работает Охотник за привидениями

Полученные результаты

Заключение

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ