Штучний інтелект навчився отримувати звук із фотографій

Фото - Штучний інтелект навчився отримувати звук із фотографій
Команда дослідників Північно-Східного університету під керівництвом професора електротехніки та інформатики Кевіна Фу розробила інструмент на основі штучного інтелекту для отримання звуку з фотографій та беззвучних відео.
Дехто вважає, що вимкнення мікрофона або відсутність можливості читання по губах перед камерою допоможуть приховати слова та інші звуки поблизу. Однак штучний інтелект робить такі методи менш надійними, оскільки нова технологія дає змогу отримати звукові частоти зі статичних фотографій або відео завдяки ретельному візуальному аналізу.

Це може здатися фантастичним, але Кевін Фу стверджує, що зумів реалізувати цей проєкт. Ідея спала йому на думку, коли один кінокритик зазначив, що отримання звуку з розігрітого скла у серіалі «Межа» — це псевдонаукова вигадка. Професор вирішив створити подібну технологію, оскільки його лабораторія постійно працює над розробками, які багато людей називають неможливими.
Уявіть, що хтось знімає відео у TikTok, вимикає звук та накладає музику. Вам колись було цікаво, що вони у цей момент говорять? Чи хтось говорив поряд з ними? Тепер ви можете вловити все, що промовляють за кадром
, — © Кевін Фу.
Для реалізації проєкту команда дослідників створила новий інструмент Side Eye на основі штучного інтелекту. Side Eye може аналізувати фотографії щодо практично непомітних викривлень світла. Вони з’являються під час розмови через коливання в технології оптичної стабілізації, яку вбудовують у сучасні смартфони та фотоапарати. Після цього штучний інтелект розшифровує їх і перетворює на аудіозапис.

З використанням дорогого глобального затвора вилучений звук виходить доволі тихим і нерозбірливим. Однак стандартний ролетний затвор, що зчитує пікселі по стовпцях або рядках, посилює ефект під час кожного просування й значно поліпшує деталізацію звуку. За наявності багатьох послідовних фотографій штучний інтелект може передати повноцінну розмову.

Єдиний недолік нової розробки — це обов’язкова наявність мінімального освітлення та великої кількості файлів для аналізу, хоча друга умова не є критичною. Інструмент також може визначити учасників певної розмови, якщо раніше отримав приклади голосів відповідних людей. Поки що ця функція має дуже низький рівень точності, особливо для масового застосування.

Кевін Фу вважає, що ця технологія може змінити на краще цифровий світ, незважаючи на те, що створює серйозні проблеми для експертів із кібербезпеки та відкриває нові можливості для злочинців. Наприклад, юристи, правоохоронні органи або адвокати зможуть використовувати Side Eye у кримінальних справах за невеликої кількості точних доказів, але з відповідним набором фотографій або відеозаписів для отримання алібі.