Использование звука для моделирования мира | GPTMain News

Представьте себе гулкие аккорды органа, эхом разносящиеся по пещерному святилищу массивного каменного собора.

На звук, который услышит посетитель собора, влияет множество факторов, в том числе расположение органа, где стоит слушатель, стоят ли между ними какие-либо колонны, скамьи или другие препятствия, из чего сделаны стены, расположение окна или дверные проемы и т. д. Звук может помочь кому-то представить свое окружение.

Исследователи из Массачусетского технологического института и Лаборатории искусственного интеллекта Watson GPTMain-IBM изучают возможности использования пространственной акустической информации, чтобы помочь машинам лучше представлять окружающую среду. Они разработали модель машинного обучения, которая может фиксировать, как любой звук в комнате будет распространяться в пространстве, что позволяет модели имитировать то, что слушатель услышит в разных местах.

Точно моделируя акустику сцены, система может изучить базовую трехмерную геометрию комнаты по звуковым записям. Исследователи могут использовать акустическую информацию, которую собирает их система, для создания точной визуальной визуализации комнаты, аналогично тому, как люди используют звук при оценке свойств своего физического окружения.

Помимо потенциального применения в виртуальной и дополненной реальности, этот метод может помочь агентам искусственного интеллекта лучше понять окружающий их мир. Например, моделируя акустические свойства звука в окружающей среде, подводный исследовательский робот может ощущать вещи, которые находятся дальше, чем при помощи одного только зрения, говорит Илун Ду, аспирант кафедры электротехники и компьютерных наук. EECS) и соавтор статьи с описанием модели.

«Большинство исследователей до сих пор фокусировались только на моделировании зрения. Но у людей мультимодальное восприятие. Важно не только зрение, но и звук. Я думаю, что эта работа открывает захватывающее направление исследований по лучшему использованию звука для моделирования мира», — говорит Ду.

Вместе с Ду в статье принимают участие ведущий автор Эндрю Луо, аспирант Университета Карнеги-Меллона (CMU); Майкл Дж. Тарр, профессор когнитивных и мозговых наук Кавчич-Моура в CMU; и старшие авторы Джошуа Б. Тененбаум, профессор кафедры мозговых и когнитивных наук Массачусетского технологического института и член Лаборатории компьютерных наук и искусственного интеллекта (CSAIL); Антонио Торральба, профессор электротехники и компьютерных наук Delta Electronics и член CSAIL; и Чуанг Ган, главный научный сотрудник лаборатории искусственного интеллекта Watson GPTMain-IBM. Исследование будет представлено на конференции по нейронным системам обработки информации.

Звук и зрение

В исследованиях компьютерного зрения тип модели машинного обучения, называемый моделью неявного нейронного представления, использовался для создания плавных непрерывных реконструкций трехмерных сцен из изображений. В этих моделях используются нейронные сети, содержащие слои взаимосвязанных узлов или нейронов, которые обрабатывают данные для выполнения задачи.

Исследователи Массачусетского технологического института использовали модель того же типа, чтобы понять, как звук непрерывно распространяется по сцене.

Но они обнаружили, что модели зрения выигрывают от свойства, известного как фотометрическая согласованность, которое не относится к звуку. Если посмотреть на один и тот же объект с двух разных мест, он будет выглядеть примерно одинаково. Но со звуком изменение местоположения и звук, который вы слышите, могут быть совершенно разными из-за препятствий, расстояния и т. д. Это очень затрудняет прогнозирование звука.

Исследователи преодолели эту проблему, включив в свою модель два свойства акустики: взаимный характер звука и влияние локальных геометрических особенностей.

Звук взаимный, это означает, что если источник звука и слушатель поменяются местами, то, что человек слышит, не изменится. Кроме того, то, что человек слышит в определенной области, сильно зависит от местных особенностей, таких как препятствие между слушателем и источником звука.

Чтобы включить эти два фактора в свою модель, называемую нейронным акустическим полем (NAF), они дополняют нейронную сеть сеткой, которая захватывает объекты и архитектурные особенности сцены, такие как дверные проемы или стены. Модель случайным образом выбирает точки на этой сетке, чтобы изучить особенности в определенных местах.

«Если вы представляете, что стоите возле дверного проема, на то, что вы слышите, больше всего влияет наличие этого дверного проема, а не обязательно геометрические элементы, расположенные далеко от вас на другом конце комнаты. Мы обнаружили, что эта информация обеспечивает лучшее обобщение, чем простая полносвязная сеть», — говорит Луо.

От предсказания звуков к визуализации сцен

Исследователи могут передавать в NAF визуальную информацию о сцене и несколько спектрограмм, которые показывают, как будет звучать фрагмент звука, когда излучатель и слушатель расположены в целевых точках по комнате. Затем модель предсказывает, как будет звучать этот звук, если слушатель переместится в любую точку сцены.

NAF выдает импульсную характеристику, которая фиксирует, как звук должен меняться по мере его распространения по сцене. Затем исследователи применяют эту импульсную реакцию к различным звукам, чтобы услышать, как эти звуки должны меняться, когда человек ходит по комнате.

Например, если песня воспроизводится из динамика в центре комнаты, их модель покажет, как этот звук становится громче, когда человек приближается к динамику, а затем становится приглушенным, когда он выходит в соседний коридор.

Когда исследователи сравнили свою технику с другими методами моделирования акустической информации, они в каждом случае генерировали более точные звуковые модели. И поскольку он изучил локальную геометрическую информацию, их модель могла обобщаться на новые места в сцене намного лучше, чем другие методы.

Более того, они обнаружили, что применение акустической информации, которую изучает их модель, к модели компьютерного зрения может привести к лучшей визуальной реконструкции сцены.

«Когда у вас есть только разреженный набор видов, использование этих акустических функций позволяет вам, например, более четко фиксировать границы. И, возможно, это связано с тем, что для точного воспроизведения акустики сцены необходимо захватить основную 3D-геометрию этой сцены», — говорит Ду.

Исследователи планируют продолжать совершенствовать модель, чтобы ее можно было обобщить на совершенно новые сцены. Они также хотят применить эту технику к более сложным импульсным характеристикам и более крупным сценам, таким как целые здания или даже город или город.

«Эта новая техника может открыть новые возможности для создания мультимодального иммерсивного опыта в приложении метавселенной», — добавляет Ган.

«Моя группа проделала большую работу по использованию методов машинного обучения для ускорения акустического моделирования или моделирования акустики реальных сцен. Эта статья Чуанга Гана и его соавторов, несомненно, является крупным шагом вперед в этом направлении», — говорит Динеш Маноча, профессор компьютерных наук, электротехники и вычислительной техники Пола Крисмана Ирибе в Университете Мэриленда, который не участвовал в этой работе. работа. «В частности, в этой статье представлено хорошее неявное представление, которое может отражать, как звук может распространяться в реальных сценах, моделируя его с помощью линейной неизменяемой во времени системы. Эта работа может найти множество применений в AR/VR, а также для понимания реальных сцен».

Эта работа частично поддерживается лабораторией GPTMain-IBM Watson AI Lab и Институтом Тяньцяо и Крисси Чен.

Последние статьи

Related articles

ОСТАВЬТЕ ОТВЕТ

Пожалуйста, введите ваш комментарий!
пожалуйста, введите ваше имя здесь

hentai lou nicehentai.com ahegeo hentai pron v bigztube.mobi kannada school girl sex videos sxsi com pornoko.net indian porn xnxx.com سكس.جماعي pornigh.com سكس لوسي bangali sex in kompoz2.com ganapa kannada movie songs
سكس مع المعلمة matureporni.com سكس كس مفتوح desi clip.com foxporns.info girls sexy pictures хентай манга hentaitale.net hentai zombie girl little sister doujin justhentaiporn.com kasumi tendo hentai افلام جيانا مايكلز gratisfucktube.com foto sex
desi gay porn vedio momyporn.mobi nepali x video مدام شرموطه freetube18x.com ايناس الدغيدي سكس tony tony chopper hentai hentaimangaz.com naruto new hentai manga الكس والزبر pornarabic.net احلى بزاز ميلفاية arabgrid.net فلم\سكس