Инженеры создали систему искусственного интеллекта для чтения по губам, которая ошибается в несколько раз реже, чем человек-профессионал.
Разработка пригодится слабослышащим людям, а также может стать основой автоматических переводчиков. Достижение описано в препринте научной статьи, опубликованном на сайте arXiv.org командой во главе с Нандо де Фрейтасом (Nando de Freitas) из Университета Британской Колумбии.
Для миллионов людей чтение по губам – единственный способ «услышать» собеседника. Однако это очень сложная практика. Ею овладевают далеко не все, и даже профессионалы часто допускают ошибки. Поэтому так важно по возможности автоматизировать этот процесс.
Команда де Фрейтаса разработала не одну, а целых три системы искусственного интеллекта, реализующих три этапа одной задачи. Первая нейронная сеть готовила материал для обучения второй. Просматривая ролики на YouTube, она отбирала те, в которых герои говорят по-английски, а их лица чётко видны. Затем компьютер выделял на видео движения рта и нарезал короткие ролики, в каждом из которых была показана артикуляция для одной фонемы.
Так 140 тысяч часов необработанного видео превратились в четыре тысячи часов готового материала для обучения, включающего произнесение более 127 тысяч английских слов. Как сообщается в материале Science, этот набор данных в семь раз превосходит крупнейший из предыдущих аналогов. Он может использоваться для обучения не только данной системы искусственного интеллекта, но и любых других, отмечают разработчики.
Вторая нейронная сеть системы училась распознавать фонемы по клипам, подготовленным первой программой. При этом она учитывала ряд тонкостей, например, тот факт, что артикуляция звука зависит от того, какая фонема ему предшествовала. Наконец, третий компонент складывал из распознанных фонем слова.
После обучения исследователи протестировали своё детище на 37-минутном видео, которое не входило в обучающую выборку. Система верно распознала 59% слов. Предыдущий рекорд составлял всего 33%, а профессионалы угадывали в тех же данных лишь 7% слов. Последняя цифра может показаться удивительно небольшой, но в реальном разговоре человек ориентируется на контекст и на невербальные сообщения («язык тела»), что повышает эффективность «перевода». В этом исследовании профессионалы имели доступ только к тем данным, что и нейронная сеть, и, возможно, только поэтому безнадёжно ей проиграли.
Разумеется, 41% ошибок программы – это слишком много для непринуждённой беседы. Но авторы надеются в дальнейшем увеличить эффективность системы. После этого её можно будет использовать не только для помощи слабослышащим людям, но и, например, в автоматических переводчиках.
Автор: Анатолий Глянцев