16:33 11/04/2023

Ученые из Санкт-Петербурга научили нейросеть читать по губам

Shutterstock/FOTODOM

Специалисты Санкт-Петербургского Федерального исследовательского центра РАН (СПб ФИЦ РАН) с помощью алгоритмов искусственного интеллекта и компьютерного зрения научились распознавать речь человека по губам. Новая разработка позволит усовершенствовать работу голосовых помощников в шумных условиях, сообщает ТАСС.

Голосовые команды часто используются как в повседневной жизни, так и в различных производственных сферах. Но цифровые алгоритмы правильно распознают слова только в условиях относительной тишины. При наличии шумового фона точность выполнения команд заметно снижается.

Чат-бот с искусственным интеллектом подскажет
Петербургские ученые предложили использовать нейросеть, которая воспринимает как звуки, так и движения губ. Нейросетевую модель научили распознавать несколько сотен наиболее распространенных команд. Для обучения применяли видеозаписи в сопровождении звука. При этом нейросеть смогла самостоятельно определять, какой вид данных окажется наиболее точным.

Тестирование программы провели с помощью водителей, управлявших шумными большегрузными автомобилями. На их смартфоны установили необходимое программное обеспечение. Результаты показали, что точность распознавания данных только по чтению губ составляет 60-80%, а в сочетании со звуковым сигналом – более 90%.

Ученые отметили, что в будущем нейросеть смогут использовать пилоты, операторы тяжелой промышленной техники, а также работники торговых центров и других мест скопления людей.

Ранее сообщалось, что российские ученые адаптировали нейросеть для анализа литературных текстов. Система может определить тип персонажей по репликам и описанию и раскрыть характер их взаимоотношений.