Современные мощные алгоритмы распознавания речи хорошо работают при отсутствии фонового шума или при использовании хорошо настроенной гарнитуры, однако точность этих алгоритмов значительно снижается, когда приложения на их основе оказываются в условиях естественных шумов, характерных, например, для общественных мест. Программный пакет Audio Visual Speech Recognition (AVSR), объединенный с алгоритмами распознавания мимики лица из библиотеки компьютерного зрения Intel OpenCV, позволит компьютерам <наблюдать> за лицом человека и отслеживать движения его рта. Синхронизация видеоданных с результатами речевой идентификации в итоге обеспечит повышение точности распознавания речи и соответственно - эффективности широкого спектра речевых приложений в шумных средах.
Программное обеспечение AVSR является частью библиотеки Intel OpenCV и представляет собой инструментальный набор из более 500 используемых при обработке изображений функций, которые помогают исследователям разрабатывать новые приложения на основе технологий компьютерного зрения. Библиотека OpenCV создана для стимулирования инноваций в этой сфере и предоставляет доступ к исходному коду для реализации широкого спектра функций компьютерного зрения и обработки изображений. Разработчики используют код OpenCV в самых разных областях - от детских игрушек до промышленного производства.
Повышение быстродействия микропроцессоров, снижение цен на цифровые видеокамеры, увеличение скорости передачи видео в десятки раз за счет стандарта USB 2.0 и других передовых технологий - все это позволяет уже сегодня в реальном времени выполнять алгоритмы компьютерного зрения на персональных компьютерах, находящихся в массовом пользовании.