Новые методы эффективно ускоряют разреженные тензоры для массивных моделей ИИ | Новости Массачусетского технологического института | GPTMain News

Исследователи из Массачусетского технологического института и NVIDIA разработали два метода, которые ускоряют обработку разреженных тензоров — типа структуры данных, используемого для задач высокопроизводительных вычислений. Дополнительные методы могут привести к значительному повышению производительности и энергоэффективности таких систем, как модели массового машинного обучения, которые управляют генеративным искусственным интеллектом.

Тензоры — это структуры данных, используемые моделями машинного обучения. Оба новых метода направлены на эффективное использование так называемой разреженности — нулевых значений — в тензорах. При обработке этих тензоров можно пропустить нули и сэкономить как на вычислениях, так и на памяти. Например, все, что умножено на ноль, равно нулю, поэтому эту операцию можно пропустить. И он может сжимать тензор (нули не нужно хранить), поэтому большую часть можно сохранить во встроенной памяти.

Однако существует несколько проблем, связанных с использованием разреженности. Найти ненулевые значения в большом тензоре — непростая задача. Существующие подходы часто ограничивают расположение ненулевых значений, применяя шаблон разреженности для упрощения поиска, но это ограничивает разнообразие разреженных тензоров, которые можно эффективно обрабатывать.

Другая проблема заключается в том, что количество ненулевых значений может различаться в разных областях тензора. Это затрудняет определение того, сколько места требуется для хранения различных регионов в памяти. Чтобы убедиться, что область подходит, часто выделяется больше места, чем необходимо, что приводит к недостаточному использованию буфера хранения. Это увеличивает трафик внешней памяти, что требует дополнительных вычислений.

Исследователи MIT и NVIDIA разработали два решения для решения этих проблем. Во-первых, они разработали метод, который позволяет аппаратному обеспечению эффективно находить ненулевые значения для более широкого спектра шаблонов разреженности.

В качестве другого решения они создали метод, который может обрабатывать случай, когда данные не помещаются в памяти, что увеличивает использование буфера хранения и уменьшает трафик внешней памяти.

Оба метода повышают производительность и снижают энергопотребление аппаратных ускорителей, специально разработанных для ускорения обработки разреженных тензоров.

«Обычно, когда вы используете более специализированные или специализированные аппаратные ускорители, вы теряете гибкость, которую можно было бы получить от процессора более общего назначения, такого как ЦП. Что выделяется в этих двух работах, так это то, что мы показываем, что вы по-прежнему можете сохранять гибкость и адаптируемость, оставаясь при этом специализированными и эффективными», — говорит Вивьен Сзе, доцент кафедры электротехники и компьютерных наук Массачусетского технологического института (EECS), член Научно-исследовательская лаборатория электроники (RLE) и соавтор статей по обоим достижениям.

В число ее соавторов входят ведущие авторы Яннан Нелли Ву, доктор философии ’23, и Цзы Юй Сюэ, аспирантка в области электротехники и информатики; и состарший автор Джоэл Эмер, профессор практики в области информатики и электротехники Массачусетского технологического института и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL), а также другие специалисты NVIDIA. Оба доклада будут представлены на Международном симпозиуме IEEE/ACM по микроархитектуре.

HighLight: эффективный поиск нулевых значений

Разреженность в тензоре может возникнуть по разным причинам. Например, исследователи иногда «отрезают» ненужные части моделей машинного обучения, заменяя некоторые значения в тензоре нулями, создавая разреженность. Степень разреженности (процент нулей) и расположение нулей могут различаться для разных моделей.

Чтобы облегчить поиск оставшихся ненулевых значений в модели с миллиардами отдельных значений, исследователи часто ограничивают расположение ненулевых значений, чтобы они попадали в определенный шаблон. Однако каждый аппаратный ускоритель обычно предназначен для поддержки одного конкретного шаблона разреженности, что ограничивает его гибкость.

Напротив, аппаратный ускоритель HighLight, разработанный исследователями Массачусетского технологического института, может обрабатывать широкий спектр шаблонов разреженности и при этом хорошо работать при запуске моделей, которые не имеют нулевых значений.

Они используют метод, который они называют «иерархически структурированной разреженностью», для эффективного представления широкого спектра шаблонов разреженности, состоящих из нескольких простых шаблонов разреженности. Этот подход делит значения в тензоре на более мелкие блоки, где каждый блок имеет свой собственный простой шаблон разреженности (возможно, два нуля и два ненулевых значения в блоке с четырьмя значениями).

Затем они объединяют блоки в иерархию, где каждый набор блоков также имеет свой собственный простой шаблон разреженности (возможно, один нулевой блок и три ненулевых блока на уровне с четырьмя блоками). Они продолжают объединять блоки в более крупные уровни, но шаблоны на каждом этапе остаются простыми.

Эта простота позволяет HighLight более эффективно находить и пропускать нули, что позволяет в полной мере воспользоваться возможностью сократить лишние вычисления. В среднем их конструкция ускорителя была примерно в шесть раз более энергоэффективной, чем другие подходы.

«В конце концов, ускоритель HighLight способен эффективно ускорять плотные модели, поскольку он не требует больших накладных расходов, и в то же время он способен использовать рабочие нагрузки с различным количеством нулевых значений на основе иерархической структурированной разреженности», — Ву объясняет.

В будущем она и ее коллеги хотят применить иерархическую структурированную разреженность к большему количеству типов моделей машинного обучения и различным типам тензоров в моделях.

Tailors и Swiftiles: эффективное «перебронирование» для ускорения рабочих нагрузок

Исследователи также могут использовать разреженность для более эффективного перемещения и обработки данных на компьютерном чипе.

Поскольку тензоры часто больше того, что может храниться в буфере памяти на чипе, чип захватывает и обрабатывает только часть тензора за раз. Куски называются тайлами.

Чтобы максимизировать использование этого буфера и ограничить количество обращений чипа к внешней памяти, которая часто доминирует в энергопотреблении и ограничивает скорость обработки, исследователи стремятся использовать самый большой фрагмент, который поместится в буфер.

Но в разреженном тензоре многие значения данных равны нулю, поэтому в буфер может поместиться даже больший тайл, чем можно было бы ожидать, исходя из его емкости. Нулевые значения не нужно сохранять.

Но количество нулевых значений может различаться в разных областях тензора, поэтому они также могут различаться для каждой плитки. Это затрудняет определение размера плитки, которая поместится в буфер. В результате существующие подходы часто консервативно предполагают, что нулей нет, и в конечном итоге выбирают меньший фрагмент, что приводит к потере пустых мест в буфере.

Чтобы устранить эту неопределенность, исследователи предлагают использовать «избыточное резервирование», чтобы позволить им увеличить размер плитки, а также способ допустить это, если плитка не помещается в буфер.

Точно так же, как авиакомпания заказывает слишком много билетов на рейс, если прибудут все пассажиры, авиакомпания должна выплатить компенсацию тем, кого вытолкнут из самолета. Но обычно все пассажиры не появляются.

В разреженном тензоре размер плитки может быть выбран таким образом, чтобы обычно в плитках было достаточно нулей, большая часть которых все еще помещалась в буфер. Но иногда плитка будет иметь больше ненулевых значений, чем поместится. В этом случае эти данные выбрасываются из буфера.

Исследователи позволяют оборудованию повторно получать только смещенные данные, не захватывая и не обрабатывая снова весь фрагмент. Чтобы справиться с этим, они модифицируют «хвостовую часть» буфера, отсюда и название этого метода — Tailors.

Затем они также разработали подход для определения размера плиток, который использует преимущества овербукинга. Этот метод, называемый Swiftiles, быстро оценивает идеальный размер плитки, чтобы определенный процент плиток, заданный пользователем, был зарезервирован. (Названия «Tailors» и «Swiftiles» отдают дань уважения Тейлору Свифту, чей недавний тур Eras был наполнен перебронированием кодов предварительной продажи билетов).

Swiftiles сокращает количество раз, которое аппаратному обеспечению необходимо проверять тензор для определения идеального размера тайла, экономя на вычислениях. Комбинация Tailors и Swiftiles более чем удваивает скорость, потребляя при этом вдвое меньше энергии, чем существующие аппаратные ускорители, которые не могут справиться с избыточным резервированием.

«Swiftiles позволяет нам оценить, насколько большими должны быть эти плитки, не требуя многократных итераций для уточнения оценки. Это работает только потому, что поддерживается овербукинг. Даже если вы отстаете на приличную сумму, вы все равно можете получить изрядное ускорение благодаря способу распределения ненулевых значений», — говорит Сюэ.

В будущем исследователи хотят применить идею избыточного резервирования к другим аспектам компьютерной архитектуры, а также работать над улучшением процесса оценки оптимального уровня избыточного резервирования.

Это исследование частично финансируется программой MIT AI Hardware Programme.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس