Учёные из Массачусетского технологического института (MIT) совместно с коллегами разработали новую вычислительную/компьютерную модель того, как мозг человека распознаёт лица. Её существенное преимущество в том, что она охватывает многие неврологические аспекты, упущенные в предыдущих моделях. На основе этого исследователи разработали систему машинного обучения, которая реализовала их модель, и обучили её распознавать конкретные лица, используя набор шаблонов. Статья об этом опубликована в Current Biology.
Обнаружилось, что обученная система включила промежуточный шаг обработки, который отражал угол поворота головы (примерно 45 градусов), но не его направление (влево или вправо). Эта возможность изначально в систему не встраивалась и возникла спонтанно в процессе обучения. Однако это дублирует экспериментально наблюдаемую особенность того, как «обрабатывает» лица мозг приматов. Исследователи полагают: это признак того, что их система и мозг работают очень похоже.
«Новая статья – это хорошая иллюстрация того, что мы хотим сделать в нашем Центре: с одной стороны – интеграция машинного обучения и компьютерных наук, с другой – нейрофизиология и аспекты человеческого обучения. Это объясняет не только то, какие алгоритмы заставляют работать мозг, но то, какие схемы в нём обеспечивают выполнение этих алгоритмов», — комментирует Томасо Поджо (Tomaso Poggio), профессор когнитивных наук в МТИ и директор Центра мозга, разума и компьютера (Center for Brains, Minds and Machines, CBMM) – исследовательского объединения, основанного Национальным научным фондом и размещённого в MIT.
Смотря как взглянуть
Поджо долгое время полагал, что мозг должен производить «инвариантные» представления о лицах и объектах, подразумевая образы, которые не зависят от ориентации объекта в пространстве, расстояния от наблюдающего или расположения в поле зрения.
МРТ мозга человека и обезьяны выглядело многообещающе, но в 2010 году Фрейвальд опубликовал исследование, которое описывало нейроанатомию механизма распознавания лиц обезьянами-макаками гораздо подробнее. Фрейвальд показал, что информация от зрительных нервов макаки проходит через серию «локаций» головного мозга, каждая из которых менее чувствительна к положению лиц, чем предыдущая. Нейроны в первой области реагируют только на определённое положение лица, нейроны же последней к лицам безразличны – это инвариантный образ. Но вот нейроны в промежуточной области оказались «зеркально симметричными». Они фиксировали угол поворота лица, но не направление.
В первой области один кластер нейронов активизировался, если лицо поворачивалось на 45 градусов влево, а другой – если на 45 градусов вправо. В последней области то же скопление нейронов реагировало на поворот на 30, 45, 90 градусов, либо на другое значение, лежащее между ними. Но в промежуточной области отдельная группа нейронов активизируется, если лицо повернуто на 45 градусов в любом направлении, другая – если на 30 градусов и так далее.
Эти действия воспроизводит исследовательская система машинного обучения. Профессор отмечает, что это не было моделью, пытающейся объяснить зеркальную симметрию, ведь сама модель пыталась объяснить постоянство, и в процессе этого выявились другие свойства.
Нейросети и лица
В ранних работах группа Поджо тренировала нейронную сеть производить инвариантные изображения через запоминание набора положений небольшого количества лиц, которые Поджо назвал шаблонами. Когда нейросети представляли новое лицо, ей предстояло найти различия с шаблоном. Это различие могло быть минимальным для шаблонов, чьё положение оставалось таким же, как и у нового лица, и измерение разницы между новым лицом и уже сохранёнными давало новому лицу что-то вроде идентифицирующей подписи.
В эксперименте это направление производило инвариантные образы: лица узнавались примерно одинаково несмотря на ориентацию. Но механизм, как говорит Поджо, не был биологически вероятным.
Таким образом, эта нейронная сеть использует вариацию правила Хебба, которое часто описывается в неврологической литературе как «нейроны, активизирующиеся вместе, проводят импульс вместе». Это означает, что в процессе обучения из-за того, что сила связей между узлами регулируется для более точных выходных данных, те узлы, которые реагируют на конкретные стимулы, заканчиваются, способствуя выходу данных в конце, чем узлы, которые реагировали независимо (или никак).
Этот подход также заканчивается тем, что приводит к инвариантным образам. Но средние слои сети также дублируют зеркально-симметричные ответы промежуточных областей мозга приматов, отвечающих за зрительное восприятие.
«Они рассматривают только прямой путь передачи, другими словами, первые 80, 100 миллисекунд. Обезьяна открывает глаза, и за 80-100 миллисекунд она может узнать лицо и нажать на кнопку, сигнализируя об этом. Вопрос в том, что происходит в эти 80-100 миллисекунд, и модель, которую разработали учёные, кажется, объясняет это вполне хорошо. Я думаю, что это значительный шаг вперёд. Сейчас, когда все или во власти больших данных, или во власти огромных компьютерных моделирований, это показывает, как понимание самого процесса обучения может объяснить некоторые запутанные результаты», — говорит Кристоф Кох, президент и главный научный сотрудник Алленовского Института наук о мозге.
Текст: Асват Валиева