Генеративный ИИ привлекает много внимания благодаря своей способности создавать текст и изображения. Но эти средства массовой информации представляют лишь часть данных, которые сегодня распространяются в нашем обществе. Данные генерируются каждый раз, когда пациент проходит через медицинскую систему, шторм влияет на полет или когда человек взаимодействует с программным приложением.
Использование генеративного искусственного интеллекта для создания реалистичных синтетических данных на основе этих сценариев может помочь организациям более эффективно лечить пациентов, менять маршруты самолетов или улучшать программные платформы — особенно в сценариях, где реальные данные ограничены или конфиденциальны.
За последние три года подразделение MIT DataCebo предложило генеративную программную систему под названием Synthetic Data Vault, которая помогает организациям создавать синтетические данные для таких задач, как тестирование программных приложений и обучение моделей машинного обучения.
Synthetic Data Vault, или SDV, было загружено более 1 миллиона раз, и более 10 000 специалистов по обработке данных использовали библиотеку с открытым исходным кодом для создания синтетических табличных данных. Основатели — главный научный сотрудник Калян Вирамачанени и выпускница Неха Патки ’15, SM ’16 – считают, что успех компании обусловлен способностью SDV произвести революцию в тестировании программного обеспечения.
SDV становится вирусным
В 2016 году группа Вирамачанени в лаборатории Data to AI Lab представила набор инструментов генеративного искусственного интеллекта с открытым исходным кодом, которые помогают организациям создавать синтетические данные, соответствующие статистическим свойствам реальных данных.
Компании могут использовать синтетические данные вместо конфиденциальной информации в программах, сохраняя при этом статистические связи между точками данных. Компании также могут использовать синтетические данные для запуска нового программного обеспечения посредством моделирования, чтобы увидеть, как оно работает, прежде чем публиковать его.
Группа Вирамачанени столкнулась с проблемой, поскольку работала с компаниями, которые хотели поделиться своими данными для исследований.
«MIT помогает вам увидеть все эти различные варианты использования», — объясняет Патки. «Вы работаете с финансовыми компаниями и компаниями здравоохранения, и все эти проекты полезны для разработки решений в различных отраслях».
В 2020 году исследователи основали DataCebo, чтобы создать больше функций SDV для крупных организаций. С тех пор варианты использования были столь же впечатляющими, сколь и разнообразными.
Например, с помощью нового симулятора полета DataCebo авиакомпании могут планировать редкие погодные явления таким образом, что было бы невозможно, используя только исторические данные. В другом приложении пользователи SDV синтезировали медицинские записи для прогнозирования последствий для здоровья пациентов с муковисцидозом. Команда из Норвегии недавно использовала SDV для создания синтетических данных о студентах, чтобы оценить, были ли различные политики приема меритократическими и свободными от предвзятости.
В 2021 году платформа обработки данных Kaggle провела конкурс для ученых, занимающихся данными, которые использовали SDV для создания синтетических наборов данных, чтобы избежать использования закрытых данных. В мероприятии приняли участие около 30 000 специалистов по данным, которые разрабатывали решения и прогнозировали результаты на основе реалистичных данных компании.
И по мере того, как DataCebo росла, она оставалась верной своим корням в MIT: все нынешние сотрудники компании являются выпускниками MIT.
Тестирование программного обеспечения наддува
Хотя их инструменты с открытым исходным кодом используются для различных случаев, компания сосредоточена на расширении своего присутствия в тестировании программного обеспечения.
«Вам нужны данные для тестирования этих программных приложений», — говорит Вирамачанени. «Традиционно разработчики вручную пишут скрипты для создания синтетических данных. С помощью генеративных моделей, созданных с помощью SDV, вы можете учиться на выборке собранных данных, а затем выбирать большой объем синтетических данных (которые имеют те же свойства, что и реальные данные) или создавать конкретные сценарии и крайние случаи и использовать данные для протестируйте свое приложение».
Например, если банк захочет протестировать программу, предназначенную для отклонения переводов со счетов, на которых нет денег, ему придется смоделировать одновременное проведение транзакций на многих счетах. Проведение этого с данными, созданными вручную, заняло бы много времени. С помощью генеративных моделей DataCebo клиенты могут создать любой крайний случай, который они хотят протестировать.
«В отраслях часто имеются данные, которые в той или иной степени являются конфиденциальными», — говорит Патки. «Часто, когда вы находитесь в домене с конфиденциальными данными, вы сталкиваетесь с правилами и даже если правовых норм нет, в интересах компаний внимательно следить за тем, кто, к чему и в какое время получает доступ. Таким образом, синтетические данные всегда лучше с точки зрения конфиденциальности».
Масштабирование синтетических данных
Вирамачанени считает, что DataCebo продвигает область того, что она называет синтетическими корпоративными данными, или данными, генерируемыми на основе поведения пользователей в программных приложениях крупных компаний.
«Корпоративные данные такого рода сложны, и они не являются общедоступными, в отличие от языковых данных», — говорит Вирамачанени. «Когда люди используют наше общедоступное программное обеспечение и сообщают, работает ли он по определенному шаблону, мы изучаем множество этих уникальных шаблонов, и это позволяет нам улучшить наши алгоритмы. С одной стороны, мы создаем корпус этих сложных шаблонов, который легко доступен для языка и изображений. «
DataCebo также недавно выпустила функции, повышающие полезность SDV, включая инструменты для оценки «реалистичности» сгенерированных данных, называемые библиотекой SDMetrics, а также способ сравнения производительности моделей под названием SDGym.
«Речь идет о том, чтобы организации доверяли этим новым данным», — говорит Вирамачанени. «[Our tools offer] программируемые синтетические данные, что означает, что мы позволяем предприятиям использовать свои особые знания и интуицию для создания более прозрачных моделей».
Поскольку компании во всех отраслях стремятся внедрить искусственный интеллект и другие инструменты обработки данных, DataCebo в конечном итоге помогает им сделать это более прозрачным и ответственным способом.
«В ближайшие несколько лет синтетические данные генеративных моделей изменят всю работу с данными», — говорит Вирамачанени. «Мы считаем, что 90 процентов корпоративных операций можно выполнять с использованием синтетических данных».