Разблокирование высокоточной дифференциальной классификации частных изображений посредством масштабирования | GPTMain News

Исследовать

Опубликовано
Авторы

Сохам Де, Леонард Беррада, Джейми Хейс, Сэмюэл Л. Смит, Борха Балле

В недавнем документе DeepMind, посвященном этическим и социальным рискам языковых моделей, большие языковые модели, утечка конфиденциальной информации о данных их обучения, определены как потенциальный риск, который организации, работающие над этими моделями, обязаны устранить. Другая недавняя статья показывает, что аналогичные риски конфиденциальности могут возникнуть и в стандартных моделях классификации изображений: отпечаток каждого отдельного обучающего изображения может быть встроен в параметры модели, и злоумышленники могут использовать такие отпечатки пальцев для восстановления обучающих данных из модели.

Технологии повышения конфиденциальности, такие как дифференциальная конфиденциальность (DP), могут быть развернуты во время обучения для снижения этих рисков, но они часто приводят к значительному снижению производительности модели. В этой работе мы добились существенного прогресса в обеспечении высокоточного обучения моделей классификации изображений в условиях дифференциальной конфиденциальности.

Рисунок 1: (слева) Иллюстрация утечки обучающих данных в GPT-2. [credit: Carlini et al. “Extracting Training Data from Large Language Models”, 2021]. (справа) Примеры обучения CIFAR-10, восстановленные на основе сверточной нейронной сети с параметрами 100 тыс. [credit: Balle et al. “Reconstructing Training Data with Informed Adversaries”, 2022]

Дифференциальная конфиденциальность была предложена в качестве математической основы для отражения требований защиты отдельных записей в ходе статистического анализа данных (включая обучение моделей машинного обучения). Алгоритмы DP защищают людей от любых выводов о характеристиках, которые делают их уникальными (включая полную или частичную реконструкцию), путем введения тщательно калиброванного шума во время вычисления желаемой статистики или модели. Использование алгоритмов DP обеспечивает надежные и строгие гарантии конфиденциальности как в теории, так и на практике и стало де-факто золотым стандартом, принятым рядом государственных и частных организаций.

Самый популярный алгоритм DP для глубокого обучения — это дифференциально-частный стохастический градиентный спуск (DP-SGD), модификация стандартного SGD, полученная путем обрезки градиентов отдельных примеров и добавления достаточного количества шума, чтобы замаскировать вклад любого человека в каждое обновление модели:

Рисунок 2: Иллюстрация того, как DP-SGD обрабатывает градиенты отдельных примеров и добавляет шум для создания обновлений модели с приватизированными градиентами.

К сожалению, предыдущие работы показали, что на практике защита конфиденциальности, обеспечиваемая DP-SGD, часто достигается за счет значительно менее точных моделей, что представляет собой серьезное препятствие на пути широкого внедрения дифференциальной конфиденциальности в сообществе машинного обучения. Согласно эмпирическим данным из предыдущих работ, это ухудшение полезности в DP-SGD становится более серьезным на более крупных моделях нейронных сетей, включая те, которые регулярно используются для достижения наилучшей производительности в сложных тестах классификации изображений.

Наша работа исследует это явление и предлагает ряд простых модификаций как процедуры обучения, так и архитектуры модели, что приводит к значительному повышению точности обучения DP по стандартным критериям классификации изображений. Самое поразительное наблюдение, сделанное в ходе нашего исследования, заключается в том, что DP-SGD можно использовать для эффективного обучения гораздо более глубоких моделей, чем считалось ранее, при условии, что градиенты модели работают правильно. Мы считаем, что существенный скачок производительности, достигнутый в результате нашего исследования, может открыть практические возможности применения моделей классификации изображений, обученных с формальными гарантиями конфиденциальности.

На рисунке ниже суммированы два наших основных результата: улучшение CIFAR-10 примерно на 10% по сравнению с предыдущей работой при частном обучении без дополнительных данных и точность топ-1 86,7% на ImageNet при частной точной настройке предварительной модели. обучались на другом наборе данных, почти сокращая разрыв с лучшими нечастными показателями.

Рисунок 3: (слева) Наши лучшие результаты по обучению моделей WideResNet на CIFAR-10 без дополнительных данных. (справа) Наши лучшие результаты по точной настройке моделей NFNet на ImageNet. Самая эффективная модель была предварительно обучена на внутреннем наборе данных, отличном от ImageNet.

Эти результаты достигаются при ε=8 — стандартном параметре для калибровки уровня защиты, обеспечиваемой дифференциальной конфиденциальностью в приложениях машинного обучения. Мы обращаемся к статье для обсуждения этого параметра, а также дополнительных экспериментальных результатов при других значениях ε, а также на других наборах данных. Вместе с статьей мы также открываем исходный код нашей реализации, чтобы другие исследователи могли проверить наши выводы и использовать их. Мы надеемся, что этот вклад поможет другим, заинтересованным в том, чтобы практическое обучение DP стало реальностью.

Загрузите нашу реализацию JAX на GitHub.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس