Пошук по сайту
Замовлення +38 (095) 337-88-52, +38 (097) 164-28-78
СЕР
31
Відеоспостереження навчили читати по губах
Читання по губах - одне з найскладніших завдань для штучного інтелекту. Спочатку цей принцип розпізнавання, як і сама новина - здадуться дивними, але це лише на перший погляд. У Великобританії досягли прогресу в технології розпізнавання мови по губах на відеозображенні. Дослідники стверджують, що їх досягнення дозволять розпізнавати тих, кого знімають камери відеоспостереження.
Читання по губах - одне з найскладніших завдань для штучного інтелекту. Спочатку цей принцип розпізнавання, як і сама новина - здадуться дивними, але це лише на перший погляд. У Великобританії досягли прогресу в технології розпізнавання мови по губах на відеозображенні. Дослідники стверджують, що їх досягнення дозволять розпізнавати тих, кого знімають камери відеоспостереження.
Технологія автоматичного візуального розпізнавання мови, створена доктором Хелен Беа і професором Річардом Харві, може застосовуватися всюди, де без неї не можна зрозуміти, що говорять люди в кадрі. Вуличні камери ведуть зйомку в шумі проїжджаючих машин, а панорамні показують тих, хто знаходиться далеко від мікрофона. Десь звук взагалі не записується. У всіх цих випадках автоматичне читання по губах багаторазово підвищить ефективність відеоспостереження.
«Читання по губах - одна з найскладніших завдань для штучного інтелекту», - говорить Річард Харві. Щоб усвідомити масштаби проблеми, досить уявити, наскільки однаково виглядають губи, вимовляють звуки «п», «б» і «м». Тому дослідники з Університету Східної Англії так пишаються своїми досягненнями. Їм вдалося навчити комп'ютер розшифровувати мову краще, ніж це робить людина, що володіє навичкою читання по губах.
Система розпізнавання мови в міру роботи поступово «вивчає», як люди ворушать губами. Дослідники «навчають» систему, використовуючи рух губ однієї людини, а потім тестують її на іншій людині. На кожному етапі роботи команда має базу даних на 12 осіб і використовує список приблизно з 1000 слів. Це дає правильний результат в 80% випадків для одного мовця і в 60% - для двох. В системі також використовуються елементи мовного моделювання - для того, щоб привчити комп'ютер розуміти контекст вимовлених слів.
«Відеоспостереження - це поки ще виклик: безліч чинників працює в ньому проти нас, - говорить Річард Харві. - Наприклад, на більшості записів губи мають досить маленький розмір і швидкості кадрів не вистачає, щоб фіксувати всі їхні рухи »
В результаті вчені поки не готові запропонувати індустрії безпеки готовий продукт, але в майбутньому, безсумнівно, зроблять це. І тоді у новій технології почнеться етап юридичних, а не технічних складнощів. Адже запис розмов - це, в багатьох випадках, більш сильне вторгнення в особистий простір людини, ніж відеоспостереження. Тут показовим є приклад легких поїздів штату Нью-Джерсі: пасажири спокійно сприймали відеоспостереження, але обурилися, коли в вагонах почали впроваджувати аудіозапис розмов.