Когда люди смотрят сцену из фильма «Парк Юрского периода», где к ним приближается гигантский динозавр, они, естественно, представляют себе тяжелый, грохочущий звук, как будто земля сотрясается. Это происходит потому, что люди предсказывают звук, принимая во внимание не только форму объекта, но и его физические свойства, такие как размер, вес и скорость перемещения. Однако существующий искусственный интеллект для преобразования видео в аудио в основном генерирует звук на основе категории объектов или информации о сцене в видео и недостаточно отражает физические свойства, которые варьируются в зависимости от веса или скорости.
Новости от techxplore



