Нейросеть научилась «слышать» изображения

Сейчас нейросети умеют неплохо распознавать изображения и понимать речь. Но вот определять естественные звуки – например, шум волн или пение птиц — пока не научились. Но это только пока! Программисты Массачусетсткого технологического института решили исправить это недоразумение и научили нейросеть распознавать такие звуки опосредованно – через картинки и видео. Подробнее о проекте можно почитать в препринте статьи и описании на сайте MIT.

нейросеть научилась «слышать» изображения

Не так просто обучить нейросеть распознавать образы и звуки — нужно сперва обработать данные вручную. Поэтому сначала готовую нейросеть учили распознавать изображения с помощью двух аннотированных баз данных. А уже потом загрузили в нее 26 терабайт видео из Flickr. Это около двух миллионов роликов! Если бы вы захотели их пересмотреть, понадобилось бы около двух лет.

Учёные использовали и вторую нейросеть – в нее они загрузили аудиодорожки из тех же видео. Ей нужно было правильно определить наименования сцен и объектов, полученных от первой сети. Вот так и получилась нейросеть, которая может распознать звук – например, определить, что пение птиц ассоциируется со сценами леса, картинками деревьев и птичьих домиков.

Так нейросеть овладела языком изображений. Теперь осталось перевести его на язык понятных наименований звуков. Программисты научили систему сопоставлять материал с набором стандартных звуковых наименований. Они использовали базу аннотированных аудио, которая состояла из 2000 звуков, разделенных на 50 категорий. С ними система ассоциировала свои данные.

нейросеть научилась «слышать» изображения

Систему протестировали на двух стандартных базах звукозаписей. Если в базе было 10 категорий звуков, нейросеть распознавала их с точностью 92%, а если 50 категорий – с 74%. Для сравнения: если с теми же данными работают люди, точность составляет 96 и 81% соответственно.

Программисты MIT надеются, что система сможет улучшить контекстную чувствительность мобильных устройств. Например, можно соединить ее с GPS. И когда вы будете смотреть фильм в кинотеатре, например, ваш умный телефон сможет автоматически перенаправлять вызовы на автоответчик.

Текст: Любовь Пушкарская

Ссылка на источник