Исследователи из Массачусетского технологического института, Microsoft и Adobe разработали алгоритм, способный восстанавливать звуковую информацию с помощью анализа видеоряда. В рамках эксперимента они смогли восстановить вполне разборчивую человеческую речь по вибрациям на упаковке чипсов, расположенной в 4,5 метрах от источника звука.
В других экспериментах исследователи сумели восстановить звук по колебаниям поверхности воды, алюминиевой фольги и даже листьев растения в горшке.
«Когда звук достигает объекта, он заставляет его вибрировать, — объясняет Абе Дэвис (Abe Davis), выпускник Массачусетского технологического института и один из авторов научной работы. — Эти вибрации создают едва уловимый визуальный сигнал, который не виден для невооружённого глаза. Люди обычно не подозревают о существовании такой информации».
Чтобы восстановить аудиосигнал, требуется снимать вибрации с очень высокой частотой кадров. Исследователи экспериментировали с высокоскоростными камерами на 2000-6000 кадров в секунду. Впрочем, они также проверили, что можно получить обычной цифровой камерой смартфона на 60 fps. В последнем случае членораздельную речь восстановить не удалось, но какой-то звук присутствует. По крайней мере, можно определить пол говорящего человека: это мужчина или женщина.
Новый алгоритм должен найти применение в оперативно-розыскной деятельности и криминалистической экспертизе.
Результаты исследования авторы представят на конференции Siggraph в этом году.