Дофаминергические нейроны среднего мозга корректируют надлежащую реакцию на происходящее, улавливая разницу между ожидаемым и полученным вознаграждением и подавая сигнал «ошибок предсказания награды» (ОПН).
Для изучения этого процесса его моделируют алгоритмом машинного обучения под названием «Метод временной разницы» (Temporal Difference Learning, TD), представляя сигналы ОПН как сигналы ошибки при прохождении обучения алгоритмом TD. Изучая реакцию дофаминергических нейронов мышей на наличие или отсутствие ожидаемой награды, авторы статьи в Nature Neuroscience показали, как можно улучшить эту модель.
Классический алгоритм временной разницы предполагает, что исход зависит от состояния среды, однозначно определяемого наблюдаемыми факторами. В реальной жизни всё не так просто: за одними и теми же сенсорными стимулами могут скрываться совершенно разные вещи: высокая трава в саванне может быть просто травой, а может скрывать опасного хищника, и последствия для антилопы в двух случаях будут различными. Теоретически, модель будет точнее описывать реальность, если совокупность стимулов будет иметь определённую вероятность отражать то или иное состояние среды. Тогда последствия могут быть предсказаны на основании самой вероятной интерпретации имеющейся сенсорной информации. Авторы статьи проверили такую модель на практике.
Две группы мышей учились выполнять одинаковое задание в ответ на появление определенного запаха. За это рано или поздно они получали вознаграждение. Первая группа получала награду всегда, а вторая – только в 90% случаев. В процессе эксперимента исследователи записывали реакцию дофаминергических нейронов мышей на изменение времени ожидания награды в зависимости от вероятности её получения. Оказалось, что сигнал ошибок предсказания награды по-разному зависит от времени её ожидания у мышей, получающих поощрение всегда или только иногда: когда мышь точно знает, что получит награду, с каждой секундой вероятность её получения растёт. Если же награда достаётся мыши не всегда, с каждой секундой растёт вероятность того, что ожидание напрасно. При этом классическая модель TD плохо описывала зависимость величины сигналов ОПН от времени ожидания награды для второй группы мышей, а модель TD с вероятностными состояниями делала это довольно точно.
Вряд ли когда-нибудь учёным удастся создать модель, идеально описывающую работу мозга. Но, возможно, алгоритмы машинного обучения помогут лучше понять её, а понимание происходящих в мозге процессов, в свою очередь, поможет создавать более эффективные алгоритмы.
Текст: Галина Клинк