Разработчики из Университета Суррея создали нейросеть, которая успешнее своих предшественников переводит обычный текст в жестовую речь. В итоге программа создает видео с сурдопереводчиком, пишет arXiv.org.
Сначала нейросеть считывает речь в виде текста, который позже преобразуется в скелетную модель тела. Именно она иллюстрирует жест сурдопереводчика. После чего последовательность поз соединяют с вектором, который в свою очередь добавляют к другому вектору. Последний получают от фотографии человека, которую нужно «оживить».
В финале преобразующего процесса сверточная нейросеть U-Net переносит позы на видео. Отмечается, что ранее программы не умели настолько качественно отрисовывать кисти рук, которые особенно важны для жестовых языков. Планируется, что нейросеть будет помогать автоматизировать сурдоперевод во время мероприятий или прямых эфиров.
Новую нейросеть специалисты обучали на 386 аннотированных записях работы сурдопереводчиков на немецком телеканале. Особенность программы заключается в проверке: после создания видео она оценивает его, что дает достойный результат.
Алгоритм уже проверили на 46 добровольцах, почти треть из них являются носителями жестового языка. Создатели попросили участников сравнить реалистичность видео, которое создали новая и старая нейросеть. В абсолютном большинстве добровольцы отдали свой голос новой разработке.
Ранее российские ученые создали нейросеть, определяющую коронавирус по звуку кашля. В основу разработки лег алгоритм, который проанализировал несколько тысяч записей кашля больных COVID-19.
Подробнее в сюжете: Технологии
Читайте также: