Система автоматического субтитрирования видеофайлов
Автор: Коробкин Дмитрий Михайлович
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 2, 2022 года.
Бесплатный доступ
В данной работе содержится описание процесса автоматического субтитрирования (распознавания звуковой составляющей) видеофайлов в процессе телепроизводства ГТРК «Волгоград-ТРВ». Значимость работы заключается в программно реализованных алгоритмах извлечения аудиодорожки из видеофайла, распознавания речи в аудиофайле, коррекции распознанного текста, добавления субтитров в видеофайл. Разработанный программный модуль автоматического субтитрирования видеофайлов использует технологии: модель распознавания русского языка Golos («Sber»), медиасервер с открытым исходным кодом Emby.
Субтитры
Короткий адрес: https://sciup.org/14124335
IDR: 14124335
Текст научной статьи Система автоматического субтитрирования видеофайлов
Korobkin D. M. System of automatic subtitling of video files. System Analysis in Science and Education, 2022;(2):23–27(In Russ). Available from:
Процесс телепроизводства, принятый в филиале ВГТРК «ГТРК «Волгоград-ТРВ», требует создания так называемых «микрофонных папок», в которых шеф-редактор согласовывает выход в эфир информационных сюжетов и тематических программ. Обычно в процессе телесъемки осуществляется запись как закадрового текста корреспондента (автора), так и синхронов («прямая речь») с участниками сюжета (программы). Далее эта речь должна быть расшифрована корреспондентом (автором), и тексты синхронов вписаны в микрофонную папку. Этот процесс «ручного» распознавания синхронов весьма трудозатратен. Возможность использования сторонних сервисов, типа youtube, затруднена тем, что программа (сюжет) попадает на эти ресурсы только после выхода программы в телеэфир. Соответственно, такое «несвоевременное» распознавание синхронов грозит штрафами как корреспонденту со стороны администрации ГТРК, так и самой ГТРК со стороны контролирующих органов.
Поэтому, актуальной является проблема автоматического субтитрирования (распознавания звуковой составляющей) видеофайлов в процессе телепроизводства ГТРК «Волгоград -ТРВ».
В результате анализа предметной области и имеющихся аналогов, прототипов и методов реализации поставленной цели были сформулированы следующие задачи и требования:
-
1) Использовать модель распознавания русской речи Golos ( https://developers.sber.ru/portal/products/golos ), позволяющей свободное использование в исследовательских и коммерческих целях.
-
2) Обеспечить взаимодействие с ресурсом обмена видеоматериалами ГТРК «Волгоград-ТРВ» на основе платформы с открытым исходным кодом Enby. Данная технология также используется и головным предприятием - ВГТРК. На платформу заливаются видеоматериалы для отсмотра корреспондентами (авторами), трафиками (специалистами формирования плейлистов телеканалов) и другими заинтересованными лицами.

Рис. 1. Медиасервер Emby
-
3) Обеспечить коррекцию (проверка орфографии и правописания) сформированного текста на основе распознанной речи ( Speech-To-Text ). Данное требование возникает вследствие формирования на основе модели Golos текста с большим количеством орфографических ошибок.
-
1. Проверка функциональности программного модуля
Для разработки программы использовался язык программирования Python с дополнительными библиотеками ffmpeg, pysrt, pyxdameraulevenshtein, nemotoolkit [ asr ].
Программа состоит из взаимосвязанных скриптов, отвечающих за конвертирование видео в аудио и обратно, а также за запросы к серверу с обученной моделью Golos , который генерирует текст из монофонического формата аудиодорожки с расширением wav .
Программный модуль выполняет следующие функции:
-
- извлечение аудиодорожки из mp 4 видеофайла;
-
- конвертация аудиодорожки в монозвук формата wav ;
-
- генерация субтитров;
-
- коррекция текста (алгоритм Дамерау-Левенштейна);
-
- преобразование сгенерированного текста из видеофайла в субтитры srt ;
-
- преобразование srt формата субтитров к формату ass ;
-
- создания видеофайла с внедренными субтитрами.
Рис. 4. Алгоритм коррекции распознанного текста
Рис. 2. Алгоритм извлечения аудиодорожки
Рис. 3. Алгоритм распознавания речи в аудиофайле
Рис. 5. Алгоритмы формирования субтитров
Программе передается ссылка на видеофайл в системе Emby, для которого необходимо осуществить процесс субтитрирования. Для этого необходимо выбрать заранее загруженное видео и скопировать ссылку на него из адресной строки, например, .
После запуска приложение выведет на экран настройки, необходимые для дальнейшей работы (см. рис. 6).
В данный момент программа использует следующие данные: Api_Key - faa94a49edec4a80aade742Oe6a5b4a6
Video_Path - /home/gurke/TempEMBY
Emby_Path - /home/gurke/MediaEMBY Желаете их изменить? y/n
Рис. 6. Настройки программы
Далее требуется указать ссылку на видеоматериал с медиасервера Emby , скопированную ранее. А также указать финальное название видеофайла.

В Ростове-на-Дону назовут победителей Всероссийского научно-технического конкурса «Первый шаг»
в россии в третий раз на федеральном уровне проходит молодежный научно технический конкурс первый шаг это возможность оценить лучшие разработки в области кинопроизводства телерадиовещания и телекоммуникаций сейчас юг россии готовится к финальным мероприятиям они пройдут в конце мая в ростове-на-дону конкурс первый шаг ежегодные его учредители российская государственная телевизионная
ВОЛГОГРАД 24 13:11 25*
Рис. 7. Результат работы программы
Дальнейшие этапы будут выполняться автоматически, вплоть до загрузки финального видео в папку медиатеки Emby . Стоит отметить, что процесс преобразования видео может занять продолжительное время. После завершения работы программы пользователь получит исходное видео с встроенной дорожкой субтитров, все промежуточные файлы будут автоматически удалены.
Заключение
Теоретическая значимость работы заключается в разработанных алгоритмах извлечения аудиодорожки из видеофайла, распознавания речи в аудиофайле, коррекции распознанного текста, добавления субтитров в видеофайл.
Практическая значимость работы заключается в разработанном программном модуле автоматического субтитрирования видеофайлов. Использовались технологии: модель распознавания русского языка Golos (« Sber »), медиасервер с открытым исходным кодом Emby .
Список литературы Система автоматического субтитрирования видеофайлов
- Денисенко А. Golos - самый большой русскоязычный речевой датасет, размеченный вручную // Хабр: [сайт]. Habr, 2006-2022. Дата публикации: 27.05.2021. URL: https://habr.com/ru/company/sberdevices/blog/559496/.
- Emby - The open media solution: [сайт]. Emby LLC, 2022. URL: https://emby.media/.
- ffmpeg Documentation. URL: https://ffmpeg.org/ffmpeg.html.