Наш мозг обладает удивительной способностью обрабатывать визуальную информацию. Мы можем одним взглядом взглянуть на сложную сцену и за миллисекунды разложить ее на объекты и их атрибуты, такие как цвет или размер, и использовать эту информацию для описания сцены простым языком. В основе этой, казалось бы, легкой способности лежит сложное вычисление, выполняемое нашей зрительной корой, которое включает в себя прием миллионов нервных импульсов, передаваемых от сетчатки, и преобразование их в более осмысленную форму, которую можно сопоставить с простым языковым описанием. Чтобы полностью понять, как этот процесс работает в мозгу, нам необходимо выяснить, как семантически значимая информация представлена в возбуждении нейронов в конце иерархии обработки зрительной информации, и как такое представление может быть изучено в значительной степени из необученный опыт.

Чтобы ответить на эти вопросы в контексте восприятия лица, мы объединили усилия с нашими сотрудниками из Калифорнийского технологического института (Дорис Цао) и Китайской академии наук (Ле Чанг). Мы выбрали лица, потому что они хорошо изучены в нейробиологическом сообществе и часто рассматриваются как «микрокосм распознавания объектов». В частности, мы хотели сравнить ответы отдельных корковых нейронов в участках лица в конце иерархии обработки изображений, записанные нашими сотрудниками, с недавно появившимся классом так называемых «распутывающих» глубоких нейронных сетей, которые, в отличие от обычных « системы «черный ящик» явно нацелены на то, чтобы их могли интерпретировать люди. «Распутывающая» нейронная сеть учится отображать сложные изображения на небольшое количество внутренних нейронов (называемых скрытыми единицами), каждая из которых представляет один семантически значимый атрибут сцены, такой как цвет или размер объекта (см. рис. 1). В отличие от глубинных классификаторов «черного ящика», обученных распознавать визуальные объекты с помощью биологически нереалистичного объема внешнего наблюдения, такие распутывающие модели обучаются без внешнего обучающего сигнала с использованием самоконтролируемой цели восстановления входных изображений (генерация на рис. 1) из их исходных изображений. выученное скрытое представление (полученное путем логического вывода на рис. 1).
Почти десять лет назад предполагалось, что распутывание важно в сообществе машинного обучения как неотъемлемый компонент для создания более эффективных по данным, переносимых, справедливых и творческих систем искусственного интеллекта. Однако в течение многих лет создание модели, которая могла бы распутываться на практике, ускользало от полевых исследований. Первая модель, способная сделать это успешно и надежно, названная β-VAE, была разработана на основе нейробиологии: β-VAE обучается, предсказывая свои собственные входные данные; для успешного обучения требуется такой же визуальный опыт, как и у младенцев; и его изученное латентное представление отражает известные свойства зрительного мозга.
В нашей новой статье мы измерили степень, в которой распутанные единицы, обнаруженные β-VAE, обученным на наборе данных изображений лиц, подобны ответам одиночных нейронов в конце визуальной обработки, зарегистрированным у приматов, смотрящих на те же лица. . Нейронные данные были собраны нашими сотрудниками под строгим контролем Комитета по уходу и использованию животных Калифорнийского технологического института. Когда мы провели сравнение, мы обнаружили кое-что удивительное: казалось, что несколько распутанных единиц, обнаруженных с помощью β-VAE, ведут себя так, как если бы они были эквивалентны подмножеству реальных нейронов аналогичного размера. Приглядевшись повнимательнее, мы обнаружили сильное взаимно-однозначное соответствие между реальными и искусственными нейронами (см. рис. 2). Это сопоставление было намного сильнее, чем у альтернативных моделей, включая глубокие классификаторы, которые ранее считались современными вычислительными моделями обработки изображений, или созданную вручную модель восприятия лица, считающуюся «золотым стандартом» в нейробиологическом сообществе. Мало того, единицы β-VAE кодировали семантически значимую информацию, такую как возраст, пол, размер глаз или наличие улыбки, что позволяло нам понять, какие атрибуты используются отдельными нейронами в мозгу для представления лиц.
.jpg)
Если β-VAE действительно может автоматически обнаруживать искусственные латентные единицы, которые эквивалентны реальным нейронам с точки зрения того, как они реагируют на изображения лиц, тогда должна быть возможность перевести активность реальных нейронов в их соответствующие искусственные аналоги и использовать генератор (см. рисунок 1) обученного β-VAE, чтобы визуализировать, какие лица представляют настоящие нейроны. Чтобы проверить это, мы представили приматам новые изображения лиц, которые модель никогда не видела, и проверили, можем ли мы визуализировать их с помощью генератора β-VAE (см. Рисунок 3). Мы обнаружили, что это действительно возможно. Используя активность всего 12 нейронов, мы смогли генерировать изображения лиц, которые были более точными реконструкциями оригиналов и имели лучшее визуальное качество, чем изображения, созданные с помощью альтернативных моделей глубокой генерации. И это несмотря на то, что альтернативные модели, как известно, лучше генерируют изображения, чем β-VAE в целом.
.jpg)
Наши результаты, обобщенные в новой статье, предполагают, что зрительный мозг можно понять на уровне одного нейрона, даже в конце его иерархии обработки. Это противоречит распространенному мнению, что семантически значимая информация мультиплексируется между большим количеством таких нейронов, каждый из которых остается в значительной степени не интерпретируемым по отдельности, мало чем отличаясь от того, как информация кодируется на полных слоях искусственных нейронов в глубоких классификаторах. Мало того, наши результаты показывают, что, возможно, мозг учится поддерживать нашу способность к визуальному восприятию без усилий, оптимизируя цель распутывания. Хотя β-VAE изначально разрабатывался с учетом принципов нейробиологии высокого уровня, полезность распутанных представлений для разумного поведения до сих пор демонстрировалась в первую очередь в сообществе машинного обучения. В соответствии с богатой историей взаимовыгодного взаимодействия между нейронаукой и машинным обучением, мы надеемся, что последние идеи машинного обучения теперь могут быть использованы нейробиологическим сообществом для изучения достоинств распутанных представлений для поддержки интеллекта в биологических системах, в частности, как основа для абстрактных рассуждений или обобщаемого и эффективного обучения задачам.