Нейросеть читает по губам 46,8% слов по телевизору, человек — только 12,4%
Кадры четырёх передач, по которым обучалась программа, а также слово "afternoon", произнесённое двумя разными дикторами
Две недели назад рассказывалось о нейросети LipNet, которая показала рекордное качество 93,4% распознавания человеческой речи по губам. Уже тогда предполагалось множество применений для такого рода компьютерных систем: медицинские слуховые аппараты нового поколения с распознаванием речи, системы для беззвучных лекций в публичных местах, биометрическая идентификация, системы скрытой передачи информации для шпионажа, распознавание речи по видеоряду с камер наблюдения и т.д. И вот сейчас специалисты из Оксфордского университета совместно с сотрудником Google DeepMind поведали о собственных разработках в этой области.
Читать дальше →
Понравилась статья? Подпишитесь на канал, чтобы быть в курсе самых интересных материалов
Подписаться