Ищете конкретное действие в видео? Этот метод на основе искусственного интеллекта поможет вам найти его | Новости Массачусетского технологического института | GPTMain News

В Интернете полно обучающих видеороликов, которые могут научить любопытных зрителей всему: от приготовления идеальных блинов до выполнения спасительного маневра Геймлиха.

Но точно определить, когда и где происходит конкретное действие в длинном видео, может быть утомительно. Чтобы упростить процесс, ученые пытаются научить компьютеры выполнять эту задачу. В идеале пользователь мог бы просто описать действие, которое он ищет, а модель ИИ перешла бы к его местоположению в видео.

Однако обучение моделей машинного обучения этому обычно требует большого количества дорогостоящих видеоданных, которые тщательно размечаются вручную.

Новый, более эффективный подход, разработанный исследователями из Массачусетского технологического института и Лаборатории искусственного интеллекта Watson MIT-IBM, обучает модель выполнению этой задачи, известной как пространственно-временное заземление, используя только видео и их автоматически сгенерированные расшифровки.

Исследователи учат модель понимать видео без меток двумя разными способами: рассматривая мелкие детали, чтобы выяснить, где расположены объекты (пространственная информация), и рассматривая более широкую картину, чтобы понять, когда происходит действие (временная информация).

По сравнению с другими подходами к искусственному интеллекту, их метод более точно определяет действия в более длинных видеороликах с несколькими действиями. Интересно, что они обнаружили, что одновременное обучение пространственной и временной информации позволяет модели лучше идентифицировать каждую из них в отдельности.

Помимо оптимизации процессов онлайн-обучения и виртуального обучения, этот метод также может быть полезен в учреждениях здравоохранения, например, за счет быстрого поиска ключевых моментов в видеороликах диагностических процедур.

«Мы отказываемся от задачи одновременного кодирования пространственной и временной информации и вместо этого думаем об этом как о двух экспертах, работающих самостоятельно, что оказывается более явным способом кодирования информации. Наша модель, объединяющая эти две отдельные ветви, обеспечивает наилучшие результаты», — говорит Брайан Чен, ведущий автор статьи по этому методу.

Чену, выпускнику Колумбийского университета 2023 года, который проводил это исследование, будучи приглашенным студентом в Лаборатории искусственного интеллекта MIT-IBM Watson, к статье присоединяется Джеймс Гласс, старший научный сотрудник, член Лаборатории искусственного интеллекта MIT-IBM Watson и руководитель из группы систем разговорного языка Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); Хильда Кюне, сотрудник лаборатории искусственного интеллекта Watson MIT-IBM, которая также связана с Университетом Гете во Франкфурте; и другие сотрудники Массачусетского технологического института, Университета Гёте, лаборатории MIT-IBM Watson AI Lab и компании Quality Match GmbH. Исследование будет представлено на конференции по компьютерному зрению и распознаванию образов.

Глобальное и локальное обучение

Исследователи обычно обучают модели выполнять пространственно-временное заземление, используя видео, на которых люди отмечают время начала и окончания определенных задач.

Генерация этих данных не только обходится дорого, но и людям может быть сложно определить, что именно маркировать. Если действие — «готовить блин», начинается ли оно тогда, когда повар начинает замешивать тесто или когда он выливает его на сковороду?

«На этот раз задача может заключаться в приготовлении пищи, но в следующий раз речь может идти о ремонте машины. Есть так много разных областей, которые люди могут комментировать. Но если мы сможем узнать все без ярлыков, это будет более общее решение», — говорит Чен.

В своем подходе исследователи используют в качестве обучающих данных немаркированные обучающие видеоролики и сопровождающие их текстовые расшифровки с таких веб-сайтов, как YouTube. Они не требуют какой-либо специальной подготовки.

Они разделили тренировочный процесс на две части. Во-первых, они учат модель машинного обучения просматривать видео целиком, чтобы понять, какие действия происходят в определенное время. Эта информация высокого уровня называется глобальным представлением.

Во-вторых, они учат модель фокусироваться на определенной области в тех частях видео, где происходит действие. Например, на большой кухне модели может потребоваться сосредоточить внимание только на деревянной ложке, которую повар использует для замешивания теста для блинов, а не на всей стойке. Эта детальная информация называется локальным представлением.

Исследователи включили в свою структуру дополнительный компонент, чтобы уменьшить несовпадения, возникающие между повествованием и видео. Возможно, повар сначала говорит о приготовлении блина, а потом выполняет действие.

Чтобы разработать более реалистичное решение, исследователи сосредоточились на неразрезанных видеороликах длительностью в несколько минут. Напротив, большинство методов искусственного интеллекта тренируются с использованием видеороликов продолжительностью в несколько секунд, которые кто-то обрезал, чтобы показать только одно действие.

Новый эталон

Но когда они пришли оценить свой подход, исследователи не смогли найти эффективный критерий для тестирования модели на этих длинных неразрезанных видеороликах — поэтому они создали его.

Чтобы создать свой эталонный набор данных, исследователи разработали новую технику аннотаций, которая хорошо подходит для определения многоэтапных действий. Они предлагали пользователям отмечать пересечение объектов, например точку, где острие ножа режет помидор, а не рисовать рамку вокруг важных объектов.

«Это более четко определено и ускоряет процесс аннотирования, что снижает трудозатраты и затраты», — говорит Чен.

Кроме того, если несколько человек будут делать точечные аннотации к одному и тому же видео, это поможет лучше запечатлеть действия, происходящие во времени, например поток наливаемого молока. Не все аннотаторы отмечают одну и ту же точку потока жидкости.

Когда они использовали этот тест для проверки своего подхода, исследователи обнаружили, что он более точно определяет действия, чем другие методы искусственного интеллекта.

Их метод также лучше фокусировался на взаимодействии человека и объекта. Например, если действием является «подача блинов», многие другие подходы могут фокусироваться только на ключевых объектах, например, на стопке блинов, лежащих на прилавке. Вместо этого их метод фокусируется на реальном моменте, когда шеф-повар переворачивает блин на тарелку.

Существующие подходы в значительной степени полагаются на размеченные данные, полученные от людей, и поэтому не очень масштабируемы. Данная работа делает шаг к решению этой проблемы, предоставляя новые методы локализации событий в пространстве и времени с использованием речи, которая естественным образом возникает внутри них. Этот тип данных распространен повсеместно, поэтому теоретически это может стать мощным обучающим сигналом. Однако зачастую оно совершенно не связано с тем, что отображается на экране, что затрудняет его использование в системах машинного обучения. Эта работа помогает решить эту проблему, облегчая исследователям создание систем, использующих эту форму мультимодальных данных в будущем», — говорит Эндрю Оуэнс, доцент кафедры электротехники и информатики в Мичиганском университете, который не участвовал в разработке. эта работа.

Далее исследователи планируют усовершенствовать свой подход, чтобы модели могли автоматически определять, когда текст и повествование не совпадают, и переключать фокус с одной модальности на другую. Они также хотят расширить свою структуру на аудиоданные, поскольку между действиями и звуками, издаваемыми объектами, обычно существует сильная корреляция.

«Исследования в области искусственного интеллекта достигли невероятного прогресса в создании таких моделей, как ChatGPT, которые понимают изображения. Но наш прогресс в понимании видео сильно отстает. Эта работа представляет собой значительный шаг вперед в этом направлении», — говорит Кейт Саенко, профессор кафедры компьютерных наук Бостонского университета, которая не участвовала в этой работе.

Это исследование частично финансируется лабораторией MIT-IBM Watson AI Lab.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس