Агенты ИИ помогают объяснить другие системы ИИ | Новости Массачусетского технологического института | GPTMain News

Объяснение поведения обученных нейронных сетей остается сложной загадкой, особенно по мере того, как эти модели растут в размерах и усложняются. Как и другие научные задачи в истории, реверс-инжиниринг работы систем искусственного интеллекта требует значительного количества экспериментов: построения гипотез, вмешательства в поведение и даже анализа больших сетей для изучения отдельных нейронов. На сегодняшний день большинство успешных экспериментов проводились под большим контролем человека. Объяснение каждого вычисления внутри моделей размером GPT-4 и больше почти наверняка потребует большей автоматизации — возможно, даже с использованием самих моделей ИИ.

Содействуя этому своевременному начинанию, исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) разработали новый подход, который использует модели ИИ для проведения экспериментов над другими системами и объяснения их поведения. В их методе используются агенты, созданные на основе предварительно обученных языковых моделей, для создания интуитивно понятных объяснений вычислений внутри обученных сетей.

Центральное место в этой стратегии занимает «автоматизированный агент интерпретируемости» (AIA), предназначенный для имитации экспериментальных процессов ученого. Агенты интерпретируемости планируют и выполняют тесты на других вычислительных системах, масштаб которых может варьироваться от отдельных нейронов до целых моделей, чтобы дать объяснения этих систем в различных формах: языковые описания того, что система делает и где она дает сбой, и код, воспроизводящий поведение системы. В отличие от существующих процедур интерпретируемости, которые пассивно классифицируют или суммируют примеры, AIA активно участвует в формировании гипотез, экспериментальной проверке и итеративном обучении, тем самым улучшая свое понимание других систем в реальном времени.

Дополнением метода AIA является новый тест «интерпретация и описание функций» (FIND) — испытательный стенд функций, напоминающих вычисления внутри обученных сетей, и сопровождающих описаний их поведения. Одна из ключевых проблем при оценке качества описаний реальных сетевых компонентов заключается в том, что описания хороши настолько, насколько хороша их объяснительная сила: у исследователей нет доступа к достоверной информации. метки единиц или описания изученных вычислений. FIND решает эту давнюю проблему в этой области, предоставляя надежный стандарт для оценки процедур интерпретируемости: объяснения функций (например, созданные AIA) можно сравнивать с описаниями функций в тесте.

Например, FIND содержит синтетические нейроны, предназначенные для имитации поведения реальных нейронов внутри языковых моделей, некоторые из которых избирательны по отдельным понятиям, таким как «наземный транспорт». AIA получают доступ к «черному ящику» к синтетическим нейронам и входным данным проектирования (таким как «дерево», «счастье» и «автомобиль») для проверки реакции нейрона. Заметив, что синтетический нейрон выдает более высокие значения ответа на слово «автомобиль», чем на другие входные данные, AIA может разработать более детальные тесты, чтобы отличить селективность нейрона в отношении автомобилей от других видов транспорта, таких как самолеты и лодки. Когда AIA создает такое описание, как «этот нейрон избирательно подходит для автомобильного транспорта, а не для путешествий по воздуху или морю», это описание сравнивается с достоверным описанием синтетического нейрона («избирателен для наземного транспорта») в FIND. Затем этот тест можно использовать для сравнения возможностей AIA с другими методами, описанными в литературе.

Сара Шветтманн, доктор философии ’21, соавтор статьи о новой работе и научный сотрудник CSAIL, подчеркивает преимущества этого подхода. «Способность AIA автономно генерировать и проверять гипотезы может помочь выявить поведение, которое в противном случае ученым было бы трудно обнаружить. Примечательно, что языковые модели, оснащенные инструментами для исследования других систем, способны к такому типу экспериментального планирования», — говорит Шветтманн. «Чистые, простые тесты с достоверными ответами стали основным фактором расширения более общих возможностей языковых моделей, и мы надеемся, что FIND сможет сыграть аналогичную роль в исследованиях интерпретируемости».

Автоматизация интерпретируемости

Большие языковые модели по-прежнему сохраняют статус востребованных знаменитостей мира технологий. Недавние достижения в области LLM подчеркнули их способность выполнять сложные логические задачи в различных областях. Команда CSAIL признала, что, учитывая эти возможности, языковые модели могут служить основой обобщенных агентов для автоматической интерпретации. «Интерпретация исторически была очень многогранной областью», — говорит Шветтманн. «Не существует универсального подхода; большинство процедур очень специфичны для решения отдельных вопросов, которые могут возникнуть у нас о системе, а также отдельных модальностей, таких как зрение или язык. Существующие подходы к маркировке отдельных нейронов внутри моделей зрения потребовали обучения специализированных моделей на человеческих данных, где эти модели выполняют только эту единственную задачу. Агенты интерпретации, созданные на основе языковых моделей, могут обеспечить общий интерфейс для объяснения других систем — синтезирования результатов экспериментов, интеграции различных модальностей и даже открытия новых экспериментальных методов на очень фундаментальном уровне».

По мере того, как мы вступаем в режим, когда объясняющие модели сами по себе являются черными ящиками, внешняя оценка методов интерпретации становится все более важной. Новый тест команды удовлетворяет эту потребность с помощью набора функций с известной структурой, которые моделируются на основе поведения, наблюдаемого в дикой природе. Функции внутри FIND охватывают самые разные области: от математических рассуждений до символических операций со строками и синтетических нейронов, построенных из задач на уровне слов. Набор данных интерактивных функций создается процедурно; Реальная сложность простых функций привносится за счет добавления шума, составления функций и моделирования смещений. Это позволяет сравнивать методы интерпретируемости в условиях, которые соответствуют реальной производительности.

В дополнение к набору данных о функциях исследователи представили инновационный протокол оценки для оценки эффективности AIA и существующих методов автоматической интерпретации. Этот протокол включает в себя два подхода. Для задач, требующих репликации функции в коде, оценка напрямую сравнивает оценки, сгенерированные ИИ, и исходные, достоверные функции. Оценка становится более сложной для задач, связанных с описанием функций на естественном языке. В этих случаях точная оценка качества этих описаний требует автоматического понимания их семантического содержания. Чтобы решить эту проблему, исследователи разработали специализированную «стороннюю» языковую модель. Эта модель специально обучена для оценки точности и связности описаний на естественном языке, предоставляемых системами ИИ, и сравнивает их с поведением основной функции истинности.

FIND позволяет оценить, что мы еще далеки от полной автоматизации интерпретируемости; хотя AIA превосходят существующие подходы к интерпретации, они по-прежнему не могут точно описать почти половину функций в тесте. Тамар Ротт Шахам, соавтор исследования и постдок в CSAIL, отмечает, что «хотя это поколение AIA эффективно при описании функциональности высокого уровня, они по-прежнему часто упускают из виду более мелкие детали, особенно в функциональных поддоменах с шумом или нерегулярное поведение. Вероятно, это связано с недостаточным отбором проб в этих районах. Одна из проблем заключается в том, что эффективность AIA может быть снижена из-за их первоначальных исследовательских данных. Чтобы противостоять этому, мы попытались направлять исследования AIA, инициализируя их поиск конкретными релевантными входными данными, что значительно повысило точность интерпретации». Этот подход сочетает в себе новые методы AIA с предыдущими методами с использованием заранее рассчитанных примеров для запуска процесса интерпретации.

Исследователи также разрабатывают набор инструментов, который расширит возможности AIA проводить более точные эксперименты с нейронными сетями как в режиме «черного ящика», так и в режиме «белого ящика». Этот набор инструментов призван снабдить AIA лучшими инструментами для выбора входных данных и совершенствования возможностей проверки гипотез для более детального и точного анализа нейронных сетей. Команда также решает практические проблемы, связанные с интерпретируемостью ИИ, уделяя особое внимание определению правильных вопросов, которые следует задавать при анализе моделей в реальных сценариях. Их цель — разработать автоматизированные процедуры интерпретации, которые в конечном итоге могли бы помочь людям проверять системы — например, для автономного вождения или распознавания лиц — для диагностики потенциальных режимов сбоя, скрытых предубеждений или неожиданного поведения перед развертыванием.

Наблюдая за наблюдателями

Команда предполагает, что в один прекрасный день будут разработаны почти автономные AIA, которые смогут проверять другие системы, а ученые-люди будут осуществлять надзор и руководство. Усовершенствованные AIA могли бы разрабатывать новые виды экспериментов и вопросов, потенциально выходящие за рамки первоначальных соображений ученых-людей. Основное внимание уделяется расширению возможностей интерпретации ИИ, включив в него более сложное поведение, например, целые нейронные цепи или подсети, а также прогнозирование входных данных, которые могут привести к нежелательному поведению. Эта разработка представляет собой значительный шаг вперед в исследованиях ИИ, направленных на то, чтобы сделать системы ИИ более понятными и надежными.

«Хороший эталонный тест — это мощный инструмент для решения сложных задач», — говорит Мартин Ваттенберг, профессор информатики Гарвардского университета, не принимавший участия в исследовании. «Приятно видеть этот сложный тест на интерпретируемость, одну из самых важных проблем в машинном обучении сегодня. Меня особенно впечатлил созданный авторами автоматизированный агент интерпретируемости. Это своего рода интерпретируемое джиу-джитсу, обращающее ИИ против самого себя, чтобы помочь человеческому пониманию».

Шветтманн, Ротт Шахам и их коллеги представили свою работу на выставке NeurIPS 2023 в декабре. В число дополнительных соавторов MIT, всех филиалов CSAIL и Департамента электротехники и информатики (EECS), входят аспирантка Джоанна Матержинска, студент бакалавриата Нил Чоудхури, доктор философии Шуан Ли ’23, доцент Джейкоб Андреас и профессор Антонио Торральба. Доцент Северо-Восточного университета Дэвид Бау является дополнительным соавтором.

Работа была частично поддержана Лабораторией искусственного интеллекта Watson MIT-IBM, Open Philanthropy, Amazon Research Award, Hyundai NGV, Исследовательской лабораторией армии США, Национальным научным фондом США, Программой лидерства Цукермана в области STEM и стипендией Витерби. .

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس