Новый взгляд на конфиденциальность данных | Новости Массачусетского технологического института | GPTMain News

Представьте, что группа ученых разработала модель машинного обучения, которая может предсказать наличие у пациента рака по изображениям сканирования легких. Они хотят поделиться этой моделью с больницами по всему миру, чтобы клиницисты могли начать использовать ее в диагностике.

Но есть проблема. Чтобы научить свою модель предсказывать рак, они показали ей миллионы реальных изображений сканирования легких. Этот процесс называется обучением. Эти конфиденциальные данные, которые теперь закодированы во внутреннюю работу модели, потенциально могут быть извлечены злоумышленником. Ученые могут предотвратить это, добавив в модель шум или более общую случайность, из-за чего противнику будет сложнее угадать исходные данные. Однако возмущение снижает точность модели, поэтому чем меньше шума можно добавить, тем лучше.

Исследователи Массачусетского технологического института разработали метод, который позволяет пользователю потенциально добавлять минимально возможное количество шума, обеспечивая при этом защиту конфиденциальных данных.

Исследователи создали новую метрику конфиденциальности, которую они назвали вероятной приблизительно правильной (PAC) конфиденциальностью, и построили на основе этой метрики структуру, которая может автоматически определять минимальное количество шума, которое необходимо добавить. Более того, эта структура не требует знания внутренней работы модели или процесса ее обучения, что упрощает ее использование для различных типов моделей и приложений.

В нескольких случаях исследователи показывают, что уровень шума, необходимый для защиты конфиденциальных данных от злоумышленников, гораздо меньше при использовании конфиденциальности PAC, чем при использовании других подходов. Это может помочь инженерам создавать модели машинного обучения, которые доказуемо скрывают обучающие данные, сохраняя при этом точность в реальных условиях.

«Конфиденциальность PAC осмысленно использует неопределенность или энтропию конфиденциальных данных, и это позволяет нам во многих случаях добавлять на порядок меньше шума. Эта структура позволяет нам понять характеристики произвольной обработки данных и автоматически приватизировать ее без искусственных модификаций. Хотя мы только начинаем и делаем простые примеры, мы в восторге от перспектив этой техники», — говорит Срини Девадас, профессор электротехники Эдвина Сибли Вебстера и соавтор новой статьи о конфиденциальности PAC.

Девадас написал статью вместе с ведущим автором Ханшеном Сяо, аспирантом по электротехнике и компьютерным наукам. Исследование будет представлено на Международной конференции по криптографии (Crypto 2023).

Определение конфиденциальности

Фундаментальный вопрос конфиденциальности данных: сколько конфиденциальных данных может восстановить злоумышленник из модели машинного обучения с добавлением к ней шума?

Дифференциальная конфиденциальность, одно из популярных определений конфиденциальности, гласит, что конфиденциальность достигается, если злоумышленник, который наблюдает за выпущенной моделью, не может сделать вывод, используются ли данные произвольного человека для обработки обучения. Но доказуемое предотвращение того, чтобы противник различал использование данных, часто требует большого количества шума, чтобы скрыть его. Этот шум снижает точность модели.

PAC Privacy смотрит на проблему немного по-другому. Он характеризует, насколько сложно злоумышленнику будет восстановить любую часть случайно выбранных или сгенерированных конфиденциальных данных после добавления шума, вместо того, чтобы сосредоточиться только на проблеме различимости.

Например, если конфиденциальными данными являются изображения человеческих лиц, дифференциальная конфиденциальность будет сосредоточена на том, может ли злоумышленник определить, было ли чье-то лицо в наборе данных. PAC Privacy, с другой стороны, может посмотреть, может ли злоумышленник извлечь силуэт — приблизительный — который кто-то может распознать как лицо конкретного человека.

После того, как они установили определение конфиденциальности PAC, исследователи создали алгоритм, который автоматически сообщает пользователю, сколько шума нужно добавить в модель, чтобы злоумышленник не смог уверенно реконструировать близкое приближение конфиденциальных данных. По словам Сяо, этот алгоритм гарантирует конфиденциальность, даже если у противника бесконечные вычислительные мощности.

Чтобы найти оптимальное количество шума, алгоритм конфиденциальности PAC опирается на неопределенность или энтропию исходных данных с точки зрения злоумышленника.

Этот автоматический метод случайным образом берет выборки из распределения данных или большого пула данных и запускает пользовательский алгоритм обучения машинного обучения на этих подвыборках данных для создания выходной обученной модели. Он делает это много раз на разных подвыборках и сравнивает дисперсию по всем результатам. Эта дисперсия определяет, сколько шума нужно добавить — меньшая дисперсия означает, что требуется меньше шума.

Преимущества алгоритма

В отличие от других подходов к конфиденциальности, алгоритм конфиденциальности PAC не требует знания внутренней работы модели или процесса обучения.

При реализации конфиденциальности PAC пользователь может указать желаемый уровень уверенности в самом начале. Например, возможно, пользователю нужна гарантия того, что злоумышленник не будет более чем на 1 процент уверен в том, что он успешно восстановил конфиденциальные данные с точностью до 5 процентов от их фактического значения. Алгоритм конфиденциальности PAC автоматически сообщает пользователю оптимальное количество шума, которое необходимо добавить в выходную модель, прежде чем она станет общедоступной, для достижения этих целей.

«Шум оптимален в том смысле, что если вы добавите меньше, чем мы вам говорим, все ставки могут быть сняты. Но эффект от добавления шума к параметрам нейронной сети сложен, и мы не даем никаких обещаний относительно падения полезности модели, которое может возникнуть из-за добавленного шума», — говорит Сяо.

Это указывает на одно ограничение конфиденциальности PAC — этот метод не сообщает пользователю, насколько точность модели потеряет после добавления шума. Конфиденциальность PAC также включает в себя многократное обучение модели машинного обучения на множестве подвыборок данных, поэтому это может быть дорогостоящим в вычислительном отношении.

Чтобы улучшить конфиденциальность PAC, один из подходов состоит в том, чтобы изменить процесс машинного обучения пользователя, чтобы он был более стабильным, а это означает, что создаваемая им выходная модель не сильно меняется, когда входные данные субдискретизируются из пула данных. Эта стабильность создаст меньшие различия между выходными данными подвыборки, поэтому алгоритм конфиденциальности PAC потребуется не только запускать меньше раз для определения оптимального количества шума, но и добавить меньше шума.

Дополнительным преимуществом более стабильных моделей является то, что они часто имеют меньшую ошибку обобщения, что означает, что они могут делать более точные прогнозы на ранее невиданных данных, что является беспроигрышной ситуацией между машинным обучением и конфиденциальностью, добавляет Девадас.

«В ближайшие несколько лет мы хотели бы немного глубже изучить взаимосвязь между стабильностью и конфиденциальностью, а также связь между конфиденциальностью и ошибкой обобщения. Мы стучим здесь в дверь, но пока не ясно, куда она ведет», — говорит он.

«Запутывание использования личных данных в модели имеет первостепенное значение для защиты их конфиденциальности. Однако это может привести к снижению полезности данных и, следовательно, модели», — говорит Джереми Гудситт, старший инженер по машинному обучению в Capital One, не участвовавший в этом исследовании. «PAC предлагает эмпирическое решение «черного ящика», которое может уменьшить дополнительный шум по сравнению с текущими практиками, сохраняя при этом эквивалентные гарантии конфиденциальности. Кроме того, его эмпирический подход расширяет охват приложений, потребляющих больше данных».

Это исследование частично финансируется DSTA Singapore, Cisco Systems, Capital One и MathWorks Fellowship.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس