Технология позволяет искусственному интеллекту на периферийных устройствах продолжать обучение с течением времени | Новости Массачусетского технологического института | GPTMain News

Персонализированные модели глубокого обучения могут позволить использовать чат-боты с искусственным интеллектом, которые адаптируются к пониманию акцента пользователя, или умные клавиатуры, которые постоянно обновляются, чтобы лучше предсказывать следующее слово на основе истории набора текста. Такая настройка требует постоянной тонкой настройки модели машинного обучения с учетом новых данных.

Поскольку смартфонам и другим периферийным устройствам не хватает памяти и вычислительной мощности, необходимых для процесса тонкой настройки, пользовательские данные обычно загружаются на облачные серверы, где модель обновляется. Но передача данных требует большого количества энергии, а отправка конфиденциальных пользовательских данных на облачный сервер представляет угрозу безопасности.

Исследователи из Массачусетского технологического института, Лаборатории искусственного интеллекта MIT-IBM Watson и других компаний разработали метод, который позволяет моделям глубокого обучения эффективно адаптироваться к новым данным датчиков непосредственно на периферийном устройстве.

Их метод обучения на устройстве, называемый PockEngine, определяет, какие части огромной модели машинного обучения необходимо обновить для повышения точности, и сохраняет и выполняет вычисления только на основе этих конкретных частей. Он выполняет основную часть этих вычислений во время подготовки модели, до ее выполнения, что сводит к минимуму вычислительные затраты и повышает скорость процесса точной настройки.

По сравнению с другими методами PockEngine значительно ускорил обучение на устройстве, работая до 15 раз быстрее на некоторых аппаратных платформах. Более того, PockEngine не приводил к снижению точности моделей. Исследователи также обнаружили, что их метод тонкой настройки позволил популярному чат-боту с искусственным интеллектом более точно отвечать на сложные вопросы.

«Точная настройка на устройстве может обеспечить лучшую конфиденциальность, снизить затраты, возможность настройки, а также обучение на протяжении всей жизни, но это непросто. Все должно происходить с ограниченным количеством ресурсов. Мы хотим иметь возможность выполнять не только логические выводы, но и обучение на периферийном устройстве. Благодаря PockEngine мы теперь можем это сделать», — говорит Сонг Хан, доцент кафедры электротехники и информатики (EECS), член лаборатории MIT-IBM Watson AI Lab, выдающийся ученый NVIDIA и старший автор документ с открытым доступом, описывающий PockEngine.

К Хану присоединяется ведущий автор Лигэн Чжу, аспирант EECS, а также другие сотрудники Массачусетского технологического института, лаборатории MIT-IBM Watson AI Lab и Калифорнийского университета в Сан-Диего. Этот документ недавно был представлен на Международном симпозиуме IEEE/ACM по микроархитектуре.

Слой за слоем

Модели глубокого обучения основаны на нейронных сетях, которые состоят из множества взаимосвязанных слоев узлов или «нейронов», которые обрабатывают данные для прогнозирования. Когда модель запускается, процесс, называемый логическим выводом, входные данные (например, изображение) передаются от слоя к слою до тех пор, пока прогноз (возможно, метка изображения) не будет выведен в конце. Во время вывода каждый слой больше не нужно сохранять после обработки входных данных.

Но во время обучения и тонкой настройки модель подвергается процессу, известному как обратное распространение ошибки. При обратном распространении выходные данные сравниваются с правильным ответом, а затем модель запускается в обратном порядке. Каждый слой обновляется по мере того, как выходные данные модели приближаются к правильному ответу.

Поскольку может потребоваться обновление каждого слоя, необходимо сохранять всю модель и промежуточные результаты, что делает точную настройку более требовательной к памяти, чем вывод.

Однако не все слои нейронной сети важны для повышения точности. И даже для важных слоев может не потребоваться обновление всего слоя. Эти слои и части слоев не нужно хранить. Более того, для повышения точности, возможно, не придется возвращаться к первому слою — процесс можно остановить где-то посередине.

PockEngine использует эти факторы, чтобы ускорить процесс тонкой настройки и сократить объем необходимых вычислений и памяти.

Система сначала настраивает каждый слой по одному для определенной задачи и измеряет повышение точности после каждого отдельного слоя. Таким образом, PockEngine определяет вклад каждого уровня, а также компромисс между точностью и стоимостью тонкой настройки и автоматически определяет процент каждого уровня, который необходимо точно настроить.

«Этот метод очень хорошо соответствует точности по сравнению с полным обратным распространением для разных задач и разных нейронных сетей», — добавляет Хан.

Урезанная модель

Обычно граф обратного распространения ошибки создается во время выполнения, что требует большого объема вычислений. Вместо этого PockEngine делает это во время компиляции, пока модель готовится к развертыванию.

PockEngine удаляет фрагменты кода, чтобы удалить ненужные слои или части слоев, создавая урезанный график модели, который будет использоваться во время выполнения. Затем он выполняет другие оптимизации на этом графике для дальнейшего повышения эффективности.

Поскольку все это нужно сделать только один раз, это позволяет сэкономить на вычислительных ресурсах во время выполнения.

«Это как перед походом в поход. Дома вы тщательно спланируете — по каким тропам вы пойдете, а какие — проигнорируете. Итак, во время выполнения, когда вы действительно отправляетесь в поход, у вас уже есть очень тщательный план, которому нужно следовать», — объясняет Хан.

Когда они применили PockEngine к моделям глубокого обучения на различных периферийных устройствах, включая чипы Apple M1 и процессоры цифровых сигналов, распространенные во многих смартфонах и компьютерах Raspberry Pi, обучение на устройстве выполнялось до 15 раз быстрее без какого-либо снижения точности. PockEngine также значительно сократил объем памяти, необходимый для тонкой настройки.

Команда также применила эту технику к большой языковой модели Llama-V2. По словам Хана, в случае больших языковых моделей процесс тонкой настройки включает в себя предоставление множества примеров, и для модели крайне важно научиться взаимодействовать с пользователями. Этот процесс также важен для моделей, которым поручено решать сложные проблемы или рассуждать о решениях.

Например, модели Llama-V2, настроенные с помощью PockEngine, отвечали на вопрос «Какой был последний альбом Майкла Джексона?» правильно, в то время как модели, которые не были точно настроены, потерпели неудачу. PockEngine сократил время, необходимое для каждой итерации процесса тонкой настройки, с семи секунд до менее чем одной секунды на NVIDIA Jetson Orin, платформе передового графического процессора.

В будущем исследователи хотят использовать PockEngine для точной настройки еще более крупных моделей, предназначенных для совместной обработки текста и изображений.

«Эта работа направлена на решение растущих проблем эффективности, связанных с внедрением крупных моделей искусственного интеллекта, таких как LLM, в различных приложениях во многих различных отраслях. Это перспективно не только для периферийных приложений, включающих более крупные модели, но и для снижения затрат на обслуживание и обновление больших моделей искусственного интеллекта в облаке», — говорит Эри МакРости, старший менеджер подразделения общего искусственного интеллекта Amazon, который не участвовал в этом проекте. изучает, но работает с Массачусетским технологическим институтом над соответствующими исследованиями в области искусственного интеллекта через научный центр MIT-Amazon.

Эту работу частично поддержали Лаборатория искусственного интеллекта Watson MIT-IBM, Программа аппаратного обеспечения искусственного интеллекта MIT, Научный центр MIT-Amazon, Национальный научный фонд (NSF) и Qualcomm Innovation Fellowship.

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ

Роботизированные «Суперконечности» могут помочь луноходам оправиться от падений | Новости Массачусетского технологического института | GPTMain News

Недавно открытая планета размером с Землю может не иметь атмосферы | Новости Массачусетского технологического института | GPTMain News

Роботизированная ладонь имитирует человеческое прикосновение | Новости Массачусетского технологического института | GPTMain News

Ученые используют генеративный искусственный интеллект для ответа на сложные вопросы физики | Новости Массачусетского технологического института | GPTMain News

Объявлены стипендиаты MAD Design Fellowship 2024 года | Новости Массачусетского технологического института | GPTMain News

Технология создания более эффективных многоцелевых роботов | Новости Массачусетского технологического института | GPTMain News

ОСТАВЬТЕ ОТВЕТ Отменить ответ