Искусственные нейронные сети, вездесущие модели машинного обучения, которые можно научить выполнять множество задач, получили свое название потому, что их архитектура основана на том, как биологические нейроны обрабатывают информацию в человеческом мозгу.
Около шести лет назад ученые открыли новый тип более мощной модели нейронной сети, известный как преобразователь. Эти модели могут обеспечить беспрецедентную производительность, например, генерируя текст из подсказок с точностью, близкой к человеческой. Трансформатор лежит в основе таких систем ИИ, как, например, ChatGPT и Bard. Хотя трансформеры невероятно эффективны, они также загадочны: в отличие от других моделей нейронных сетей, вдохновленных мозгом, неясно, как построить их с использованием биологических компонентов.
Теперь исследователи из Массачусетского технологического института, Лаборатории искусственного интеллекта Watson MIT-IBM и Гарвардской медицинской школы выдвинули гипотезу, которая может объяснить, как можно построить трансформатор с использованием биологических элементов в мозгу. Они предполагают, что биологическая сеть, состоящая из нейронов и других клеток мозга, называемых астроцитами, может выполнять те же базовые вычисления, что и трансформатор.
Недавние исследования показали, что астроциты, ненейрональные клетки, которых много в головном мозге, взаимодействуют с нейронами и играют роль в некоторых физиологических процессах, таких как регуляция кровотока. Но ученым до сих пор не хватает четкого понимания того, что эти клетки делают в вычислительном отношении.
Благодаря новому исследованию, опубликованному на этой неделе в открытом доступе в Труды Национальной академии наукИсследователи изучили роль астроцитов в мозге с вычислительной точки зрения и создали математическую модель, показывающую, как их можно использовать вместе с нейронами для создания биологически правдоподобного преобразователя.
Их гипотеза дает представление, которое может стимулировать будущие исследования в области нейробиологии того, как работает человеческий мозг. В то же время это могло бы помочь исследователям в области машинного обучения объяснить, почему трансформеры так успешно справляются с разнообразным набором сложных задач.
«Мозг намного превосходит даже самые лучшие искусственные нейронные сети, которые мы разработали, но мы на самом деле не знаем точно, как работает мозг. Есть научная ценность в размышлениях о связях между биологическим оборудованием и крупномасштабными сетями искусственного интеллекта. Это нейробиология для ИИ и ИИ для нейробиологии», — говорит Дмитрий Кротов, научный сотрудник лаборатории искусственного интеллекта Watson MIT-IBM и старший автор исследовательской работы.
К Кротову в работе над статьей присоединились ведущий автор Лео Козачков, постдоктор кафедры мозговых и когнитивных наук Массачусетского технологического института; и Ксения В. Кастаненко, доцент нейробиологии Гарвардской медицинской школы и ассистент исследователя в Массачусетском институте общих исследований.
Биологическая невозможность становится правдоподобной
Преобразователи работают иначе, чем другие модели нейронных сетей. Например, рекуррентная нейронная сеть, обученная обработке естественного языка, будет сравнивать каждое слово в предложении с внутренним состоянием, определяемым предыдущими словами. Преобразователь, с другой стороны, сравнивает все слова в предложении одновременно, чтобы создать прогноз, процесс, называемый самовниманием.
Кротов объясняет, что для того, чтобы само-внимание работало, преобразователь должен держать все слова готовыми в той или иной форме памяти, но это казалось биологически невозможным из-за того, как взаимодействуют нейроны.
Однако несколько лет назад ученые, изучавшие несколько иной тип модели машинного обучения (известную как плотная ассоциированная память), поняли, что этот механизм само-внимания может работать в мозгу, но только при наличии связи между по крайней мере тремя нейронами.
«Мне действительно пришла в голову цифра три, потому что в неврологии известно, что эти клетки, называемые астроцитами, которые не являются нейронами, образуют трехсторонние связи с нейронами, так называемые трехсторонние синапсы», — говорит Козачков.
Когда два нейрона общаются, пресинаптический нейрон посылает химические вещества, называемые нейротрансмиттерами, через синапс, который соединяет его с постсинаптическим нейроном. Иногда подключается и астроцит — он обвивает синапс длинным тонким щупальцем, создавая тройной (трехчастный) синапс. Один астроцит может образовывать миллионы тройственных синапсов.
Астроцит собирает некоторые нейротрансмиттеры, которые проходят через синаптическое соединение. В какой-то момент астроцит может дать обратный сигнал нейронам. Поскольку астроциты действуют в гораздо более длительном масштабе времени, чем нейроны — они создают сигналы, медленно повышая свою кальциевую реакцию, а затем уменьшая ее, — эти клетки могут удерживать и интегрировать информацию, поступающую к ним от нейронов. Таким образом, астроциты могут формировать своего рода буфер памяти, говорит Кротов.
«Если вы думаете об этом с этой точки зрения, то астроциты чрезвычайно естественны для именно тех вычислений, которые нам нужны для выполнения операции внимания внутри трансформаторов», — добавляет он.
Построение нейронно-астроцитарной сети
Благодаря этому пониманию исследователи сформировали свою гипотезу о том, что астроциты могут играть роль в вычислениях трансформаторов. Затем они приступили к созданию математической модели нейронно-астроцитарной сети, которая работала бы как трансформатор.
Они взяли базовую математику, из которой состоит преобразователь, и разработали простые биофизические модели того, что делают астроциты и нейроны, когда они взаимодействуют в мозге, на основе глубокого изучения литературы и рекомендаций коллег-неврологов.
Затем они комбинировали модели определенным образом, пока не пришли к уравнению нейронно-астроцитарной сети, описывающей само-внимание преобразователя.
«Иногда мы обнаруживали, что определенные вещи, которые мы хотели сделать правдой, не могли быть правдоподобно реализованы. Так что пришлось думать об обходных путях. В документе есть некоторые вещи, которые являются очень точными приближениями к архитектуре трансформатора, чтобы иметь возможность сопоставить ее биологически правдоподобным образом», — говорит Козачков.
Благодаря своему анализу исследователи показали, что их биофизическая нейронно-астроцитарная сеть теоретически соответствует трансформатору. Кроме того, они провели численное моделирование, подавая изображения и абзацы текста в модели преобразователей и сравнивая ответы с ответами их моделируемой нейронно-астроцитарной сети. Оба ответили на подсказки одинаково, подтвердив свою теоретическую модель.
«Астроциты, остававшиеся электрически бесшумными на протяжении более века записей мозга, являются одними из самых распространенных, но менее изученных клеток в мозге. Потенциал раскрытия вычислительной мощности другой половины нашего мозга огромен», — говорит Константинос Михмизос, доцент компьютерных наук Университета Рутгерса, который не участвовал в этой работе. «Это исследование открывает увлекательный итеративный цикл, от понимания того, как интеллектуальное поведение действительно может возникнуть в мозгу, до преобразования разрушительных гипотез в новые инструменты, которые демонстрируют человеческий интеллект».
Следующим шагом для исследователей является переход от теории к практике. Они надеются сравнить предсказания модели с теми, которые наблюдались в биологических экспериментах, и использовать эти знания для уточнения или, возможно, опровержения своей гипотезы.
Кроме того, одно из следствий их исследования заключается в том, что астроциты могут быть вовлечены в долговременную память, поскольку сети необходимо хранить информацию, чтобы иметь возможность воздействовать на нее в будущем. По словам Кротова, дополнительные исследования могут помочь в дальнейшем изучении этой идеи.
«По многим причинам астроциты чрезвычайно важны для познания и поведения, и они работают принципиально иначе, чем нейроны. Моя самая большая надежда на эту статью заключается в том, что она станет катализатором ряда исследований в области вычислительной нейробиологии в отношении глиальных клеток и, в частности, астроцитов», — добавляет Козачков.
Это исследование было частично поддержано Фондом BrightFocus и Национальным институтом здравоохранения.