Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Программные средства

Система автоматического субтитрирования видеофайлов

Автор: Коробкин Дмитрий Михайлович

Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse

Статья в выпуске: 2, 2022 года.

Бесплатный доступ

В данной работе содержится описание процесса автоматического субтитрирования (распознавания звуковой составляющей) видеофайлов в процессе телепроизводства ГТРК «Волгоград-ТРВ». Значимость работы заключается в программно реализованных алгоритмах извлечения аудиодорожки из видеофайла, распознавания речи в аудиофайле, коррекции распознанного текста, добавления субтитров в видеофайл. Разработанный программный модуль автоматического субтитрирования видеофайлов использует технологии: модель распознавания русского языка Golos («Sber»), медиасервер с открытым исходным кодом Emby.

Субтитры

Короткий адрес: https://sciup.org/14124335

IDR: 14124335 | УДК: 004.4

Текст научной статьи Система автоматического субтитрирования видеофайлов

Korobkin D. M. System of automatic subtitling of video files. System Analysis in Science and Education, 2022;(2):23–27(In Russ). Available from:

Процесс телепроизводства, принятый в филиале ВГТРК «ГТРК «Волгоград-ТРВ», требует создания так называемых «микрофонных папок», в которых шеф-редактор согласовывает выход в эфир информационных сюжетов и тематических программ. Обычно в процессе телесъемки осуществляется запись как закадрового текста корреспондента (автора), так и синхронов («прямая речь») с участниками сюжета (программы). Далее эта речь должна быть расшифрована корреспондентом (автором), и тексты синхронов вписаны в микрофонную папку. Этот процесс «ручного» распознавания синхронов весьма трудозатратен. Возможность использования сторонних сервисов, типа youtube, затруднена тем, что программа (сюжет) попадает на эти ресурсы только после выхода программы в телеэфир. Соответственно, такое «несвоевременное» распознавание синхронов грозит штрафами как корреспонденту со стороны администрации ГТРК, так и самой ГТРК со стороны контролирующих органов.

Поэтому, актуальной является проблема автоматического субтитрирования (распознавания звуковой составляющей) видеофайлов в процессе телепроизводства ГТРК «Волгоград -ТРВ».

В результате анализа предметной области и имеющихся аналогов, прототипов и методов реализации поставленной цели были сформулированы следующие задачи и требования:

1) Использовать модель распознавания русской речи Golos ( https://developers.sber.ru/portal/products/golos ), позволяющей свободное использование в исследовательских и коммерческих целях.
2) Обеспечить взаимодействие с ресурсом обмена видеоматериалами ГТРК «Волгоград-ТРВ» на основе платформы с открытым исходным кодом Enby. Данная технология также используется и головным предприятием - ВГТРК. На платформу заливаются видеоматериалы для отсмотра корреспондентами (авторами), трафиками (специалистами формирования плейлистов телеканалов) и другими заинтересованными лицами.

Рис. 1. Медиасервер Emby

3) Обеспечить коррекцию (проверка орфографии и правописания) сформированного текста на основе распознанной речи ( Speech-To-Text ). Данное требование возникает вследствие формирования на основе модели Golos текста с большим количеством орфографических ошибок.

1. Проверка функциональности программного модуля

Для разработки программы использовался язык программирования Python с дополнительными библиотеками ffmpeg, pysrt, pyxdameraulevenshtein, nemotoolkit [ asr ].

Программа состоит из взаимосвязанных скриптов, отвечающих за конвертирование видео в аудио и обратно, а также за запросы к серверу с обученной моделью Golos , который генерирует текст из монофонического формата аудиодорожки с расширением wav .

Программный модуль выполняет следующие функции:

- извлечение аудиодорожки из mp 4 видеофайла;
- конвертация аудиодорожки в монозвук формата wav ;
- генерация субтитров;
- коррекция текста (алгоритм Дамерау-Левенштейна);
- преобразование сгенерированного текста из видеофайла в субтитры srt ;
- преобразование srt формата субтитров к формату ass ;
- создания видеофайла с внедренными субтитрами.

Рис. 4. Алгоритм коррекции распознанного текста

Рис. 2. Алгоритм извлечения аудиодорожки

Рис. 3. Алгоритм распознавания речи в аудиофайле

Рис. 5. Алгоритмы формирования субтитров

Программе передается ссылка на видеофайл в системе Emby, для которого необходимо осуществить процесс субтитрирования. Для этого необходимо выбрать заранее загруженное видео и скопировать ссылку на него из адресной строки, например, .

После запуска приложение выведет на экран настройки, необходимые для дальнейшей работы (см. рис. 6).

В данный момент программа использует следующие данные: Api_Key - faa94a49edec4a80aade742Oe6a5b4a6

Video_Path - /home/gurke/TempEMBY

Emby_Path - /home/gurke/MediaEMBY Желаете их изменить? y/n

Рис. 6. Настройки программы

Далее требуется указать ссылку на видеоматериал с медиасервера Emby , скопированную ранее. А также указать финальное название видеофайла.

В Ростове-на-Дону назовут победителей Всероссийского научно-технического конкурса «Первый шаг»

в россии в третий раз на федеральном уровне проходит молодежный научно технический конкурс первый шаг это возможность оценить лучшие разработки в области кинопроизводства телерадиовещания и телекоммуникаций сейчас юг россии готовится к финальным мероприятиям они пройдут в конце мая в ростове-на-дону конкурс первый шаг ежегодные его учредители российская государственная телевизионная

ВОЛГОГРАД 24 13:11 25*

Рис. 7. Результат работы программы

Дальнейшие этапы будут выполняться автоматически, вплоть до загрузки финального видео в папку медиатеки Emby . Стоит отметить, что процесс преобразования видео может занять продолжительное время. После завершения работы программы пользователь получит исходное видео с встроенной дорожкой субтитров, все промежуточные файлы будут автоматически удалены.

Заключение

Теоретическая значимость работы заключается в разработанных алгоритмах извлечения аудиодорожки из видеофайла, распознавания речи в аудиофайле, коррекции распознанного текста, добавления субтитров в видеофайл.

Практическая значимость работы заключается в разработанном программном модуле автоматического субтитрирования видеофайлов. Использовались технологии: модель распознавания русского языка Golos (« Sber »), медиасервер с открытым исходным кодом Emby .

Список литературы Система автоматического субтитрирования видеофайлов

Денисенко А. Golos - самый большой русскоязычный речевой датасет, размеченный вручную // Хабр: [сайт]. Habr, 2006-2022. Дата публикации: 27.05.2021. URL: https://habr.com/ru/company/sberdevices/blog/559496/.
Emby - The open media solution: [сайт]. Emby LLC, 2022. URL: https://emby.media/.
ffmpeg Documentation. URL: https://ffmpeg.org/ffmpeg.html.