Представьте, что вы просматриваете фотографии на своем телефоне и натыкаетесь на изображение, которое сначала не можете распознать. Похоже на что-то нечеткое на диване; может это быть подушка или пальто? Через пару секунд щелкает — конечно! Этот пух — кот твоего друга Мокко. Хотя некоторые из ваших фотографий можно было понять мгновенно, почему с фотографией кота было намного сложнее?
Исследователи Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) были удивлены, обнаружив, что, несмотря на критическую важность понимания визуальных данных в ключевых областях, начиная от здравоохранения и заканчивая транспортом и бытовыми устройствами, представление о сложности распознавания изображений для людей почти полностью опровергнуто. игнорируется. Одной из основных движущих сил прогресса в области искусственного интеллекта на основе глубокого обучения стали наборы данных, однако мы мало знаем о том, как данные способствуют прогрессу в крупномасштабном глубоком обучении, за исключением того, что чем больше, тем лучше.
В реальных приложениях, требующих понимания визуальных данных, люди превосходят модели распознавания объектов, несмотря на то, что модели хорошо работают с текущими наборами данных, в том числе специально разработанными для того, чтобы бросать вызов машинам с искаженными изображениями или сдвигами распределения. Эта проблема сохраняется отчасти потому, что у нас нет указаний относительно абсолютной сложности изображения или набора данных. Без учета сложности изображений, используемых для оценки, трудно объективно оценить прогресс в достижении человеческого уровня, охватить диапазон человеческих способностей и повысить сложность набора данных.
Чтобы восполнить этот пробел в знаниях, Дэвид Мэйо, аспирант Массачусетского технологического института в области электротехники и информатики и член CSAIL, углубился в глубокий мир наборов данных изображений, исследуя, почему люди и машины распознают одни изображения труднее, чем другие. «Некоторые изображения по своей природе требуют больше времени для распознавания, и важно понимать активность мозга во время этого процесса и ее связь с моделями машинного обучения. Возможно, в наших текущих моделях отсутствуют сложные нейронные цепи или уникальные механизмы, видимые только при тестировании с помощью сложных визуальных Это исследование имеет решающее значение для понимания и улучшения моделей машинного зрения», — говорит Мэйо, ведущий автор новой статьи об этой работе.
Это привело к разработке нового показателя — «минимального времени просмотра» (MVT), который количественно определяет сложность распознавания изображения на основе того, как долго человеку необходимо просмотреть его, прежде чем правильно идентифицировать. Используя подмножество ImageNet, популярного набора данных в машинном обучении, и ObjectNet, набора данных, предназначенного для проверки надежности распознавания объектов, команда показывала участникам изображения различной продолжительности от 17 миллисекунд до 10 секунд и задавала им вопросы. выбрать правильный объект из набора из 50 вариантов. После более чем 200 000 испытаний представления изображений команда обнаружила, что существующие тестовые наборы, включая ObjectNet, склонны к более простым и коротким изображениям MVT, при этом подавляющее большинство тестов производительности было получено на изображениях, которые удобны для человека.
Проект выявил интересные тенденции в производительности моделей, особенно в отношении масштабирования. Более крупные модели показали значительное улучшение на простых изображениях, но добились меньшего прогресса на более сложных изображениях. Модели CLIP, включающие в себя как язык, так и видение, выделились по мере продвижения в направлении более человеческого распознавания.
«Традиционно наборы данных для распознавания объектов были смещены в сторону менее сложных изображений, и эта практика привела к завышению показателей производительности модели, что не отражает в полной мере надежность модели или ее способность решать сложные визуальные задачи. Наше исследование показывает, что более жесткие изображения представляют собой более острую проблему, вызывая сдвиг в распределении, который часто не учитывается в стандартных оценках», — говорит Мэйо. «Мы выпустили наборы изображений, помеченных по сложности, а также инструменты для автоматического расчета MVT, что позволяет добавлять MVT к существующим тестам и распространять его на различные приложения. К ним относятся измерение сложности набора тестов перед развертыванием реальных систем, обнаружение нейронных коррелятов сложности изображений и развитие методов распознавания объектов, чтобы сократить разрыв между эталонными и реальными показателями».
«Один из моих самых важных выводов заключается в том, что теперь у нас есть еще одно измерение для оценки моделей. Нам нужны модели, способные распознавать любое изображение, даже если — возможно, особенно если — человеку его трудно распознать. Мы первые, кто количественно оценил, что это будет означать. Наши результаты показывают, что это не только не соответствует сегодняшнему состоянию техники, но также и то, что наши нынешние методы оценки не могут сказать нам, когда это имеет место, потому что стандартные наборы данных настолько перекошены в сторону простых изображений». — говорит Джесси Каммингс, аспирант Массачусетского технологического института в области электротехники и информатики и соавтор статьи вместе с Мэйо.
От ObjectNet к MVT
Несколько лет назад команда, стоящая за этим проектом, выявила серьезную проблему в области машинного обучения: модели столкнулись с нераспределенными изображениями или изображениями, которые не были хорошо представлены в обучающих данных. Встречайте ObjectNet, набор данных, состоящий из изображений, собранных в реальных условиях. Набор данных помог выявить разрыв в производительности между моделями машинного обучения и способностями человеческого распознавания, устраняя ложные корреляции, присутствующие в других тестах — например, между объектом и его фоном. ObjectNet выявил разрыв между производительностью моделей машинного зрения в наборах данных и в реальных приложениях, что поощрило их использование многими исследователями и разработчиками, что впоследствии улучшило производительность моделей.
Перенесемся в настоящее: команда продвинула свои исследования на шаг дальше с помощью MVT. В отличие от традиционных методов, ориентированных на абсолютную производительность, этот новый подход оценивает работу моделей, сравнивая их реакции с самыми простыми и самыми сложными изображениями. В исследовании дополнительно изучалось, как можно объяснить трудности с изображением и проверить их сходство с обработкой зрительного восприятия человека. Используя такие показатели, как c-score, глубина прогнозирования и устойчивость к состязаниям, команда обнаружила, что более сложные изображения обрабатываются сетями по-разному. «Хотя существуют наблюдаемые тенденции, например, когда более простые изображения становятся более прототипичными, комплексное семантическое объяснение сложности изображений продолжает ускользать от научного сообщества», — говорит Мэйо.
Например, в сфере здравоохранения актуальность понимания сложности визуального восприятия становится еще более очевидной. Способность моделей ИИ интерпретировать медицинские изображения, такие как рентгеновские снимки, зависит от разнообразия и сложности распределения изображений. Исследователи выступают за тщательный анализ распределения трудностей, адаптированный для профессионалов, гарантируя, что системы ИИ оцениваются на основе экспертных стандартов, а не интерпретаций непрофессионала.
Мэйо и Каммингс в настоящее время также изучают неврологические основы зрительного распознавания, исследуя, проявляет ли мозг различную активность при обработке простых и сложных изображений. Исследование направлено на то, чтобы выяснить, задействуют ли сложные изображения дополнительные области мозга, обычно не связанные с обработкой визуальных данных, и, как мы надеемся, поможет прояснить, как наш мозг точно и эффективно декодирует визуальный мир.
К производительности человеческого уровня
Заглядывая в будущее, исследователи сосредоточены не только на изучении способов улучшения прогнозирующих возможностей ИИ в отношении сложности изображений. Команда работает над выявлением корреляций со сложностью просмотра, чтобы создавать более сложные или простые версии изображений.
Несмотря на значительные успехи исследования, исследователи признают наличие ограничений, особенно в плане отделения распознавания объектов от задач визуального поиска. Текущая методология концентрируется на распознавании объектов, игнорируя сложности, связанные с беспорядочными изображениями.
«Этот комплексный подход решает давнюю задачу объективной оценки прогресса в области распознавания объектов на уровне человека и открывает новые возможности для понимания и развития этой области», — говорит Мэйо. «Благодаря возможности адаптировать метрику сложности «Минимальное время просмотра» для различных визуальных задач эта работа прокладывает путь к более надежной, человеческой производительности в распознавании объектов, гарантируя, что модели действительно подвергнуты тестированию и готовы к работе. сложности визуального понимания реального мира».
«Это увлекательное исследование того, как человеческое восприятие можно использовать для выявления слабых мест в способах сравнительного анализа моделей видения ИИ, которые переоценивают производительность ИИ, концентрируясь на простых изображениях», — говорит Алан Л. Юилл, заслуженный профессор когнитивных наук и исследований Bloomberg. Компьютерные науки из Университета Джонса Хопкинса, который не участвовал в написании статьи. «Это поможет разработать более реалистичные критерии, ведущие не только к улучшению ИИ, но и к более справедливому сравнению между ИИ и человеческим восприятием».
«Широко распространено мнение, что системы компьютерного зрения сейчас превосходят людей, и на некоторых эталонных наборах данных это правда», — говорит технический сотрудник Anthropic Саймон Корнблит, доктор философии ’17, который также не участвовал в этой работе. «Однако большая часть трудностей в этих тестах связана с неясностью того, что изображено на изображениях; среднестатистический человек просто не знает достаточно, чтобы классифицировать разные породы собак. Вместо этого эта работа фокусируется на изображениях, которые люди смогут получить правильно, только если им будет уделено достаточно времени. Эти изображения, как правило, гораздо сложнее обрабатывать системами компьютерного зрения, но лучшие системы лишь немного хуже, чем люди».
Мэйо, Каммингс и Синьюй Лин Мэн ’22 написали статью вместе с научным сотрудником CSAIL Андреем Барбу, главным научным сотрудником CSAIL Борисом Кацем и главным научным сотрудником лаборатории искусственного интеллекта MIT-IBM Watson Дэном Гутфройндом. Исследователи являются филиалами Центра мозга, разума и машин Массачусетского технологического института.
Команда представит свою работу на конференции по нейронным системам обработки информации (NeurIPS) 2023 года.