Всё сочувствие, на которое мы решились
 

Искусственный интеллект расшифровал музыку по мозговой активности

Исследователь из Эссекского университета в Великобритании создал и протестировал модель декодирования нейронной активности при прослушивании человеком музыки.

Искусственный интеллект расшифровал музыку по мозговой активности

С помощью технологии машинного обучения удалось реконструировать и идентифицировать конкретное музыкальное произведение, которое слушал человек. Однако точность реконструкции пока страдает. Этому посвящена статья в журнале Scientific Reports.

Модели декодирования акустической информации из нейронной активности имеют немало интересных практических приложений и еще больше – потенциальных применений. Они используются, например, в весьма популярных ныне интерфейсах мозг-компьютер (ИМК), которые обеспечивают канал связи между мозгом человека и внешним компьютерным устройством. На сегодняшний день разнообразие ИМК довольно велико, но скорость и точность их работы ограничены производительностью моделей декодирования. Кроме того, распространение ИМК среди широких масс ограничено использованием неинвазивных методов нейровизуализации, таких как электроэнцефалография (ЭЭГ).

Положительные и отрицательные стороны использования инвазивных ИМК против неинвазивных обсуждались не раз. Конечно, добиться высокого качества при использовании неинвазивных ИМК для визуализации нейронной активности сложнее, чем если записывать сигналы непосредственно с коры мозга при помощи электрокортикограммы (ЭКоГ). Но несмотря на то что мониторинг и реконструкция акустической информации на основе ЭКоГ проводится вполне успешно, испытание и использование инвазивных ИМК все же зачастую не представляется возможным в силу медицинских показаний. Поэтому созданию ИМК на основе неинвазивных методов нейровизуализации сейчас отдается больший приоритет.

Авторы работы использовали систему, представляющую собой комбинацию функциональной МРТ (фМРТ) и ЭЭГ, чтобы создать неинвазивный, эффективный и надежный способ декодирования акустической информации из сигналов головного мозга. Они адаптировали метод синтеза речи из инвазивно записанных сигналов с ЭКоГ и посмотрели, можно ли использовать аналогичный подход для декодирования музыки через неинвазивные устройства записи нейронных сигналов. В частности, исследователи стремились восстановить музыку, которую слушает человек, используя анализ источников ЭЭГ, основанных на фМРТ.

Исследователи составили два набора из специально созданных фортепианных музыкальных композиций, которые были призваны вызвать у слушателя одно из девяти аффективных состояний (сочетания высокой, нейтральной и низкой валентности и возбуждения). Композиции предварительно калибровались, чтобы с большей вероятностью вызвать у участника эксперимента целевые аффекты. Добровольцы слушали серию музыкальных произведений в разных типах испытаний: в одних случаях участников просили постоянно сообщать о своих эмоциях, в других – просто слушать музыку.

Используя модель нейронной сети с глубоким обучением, исследователи преобразовывали полученные данные для реконструкции и идентификации музыкального произведения.

Создание ИМК на основе ЭЭГ по-прежнему имеет ряд ограничений, которые не позволяют с легкостью добиваться высокой точности регистрации и декодирования сигналов. У авторов работы последняя составила всего лишь 71,8% с фМРТ и 59,2 % с использованием только данных ЭЭГ без анализа источника, основанного на фМРТ. Тем не менее исследование показывает, что анализ ЭЭГ с помощью фМРТ действительно делает возможным декодирование акустических сигналов, а сами методы могут быть вполне действенными в этом контексте.

Поскольку музыка представляет собой сложный акустический сигнал, который с человеческой речью имеет много общего (во времени, спектре и грамматике), авторы полагают, что построенная ими модель, способная реконструировать услышанную музыку по активности мозга, может стать шагом на пути к созданию других форм моделей нейронного декодирования, которые будут иметь приложение в области помощи в общении.

В своих будущих работах авторы планируют исследовать модели декодирования услышанной или воображаемой речи из ЭЭГ, а также влияние различных архитектур глубокой сети на производительность их моделей.

Текст: Анна Удоратина

Ссылка на источник