Алгоритм сегментации сцен видеолекций на основе сравнения визуальных эмбеддингов кадров

Исмагулов М.Е.; Мельников А.В.; Ismagulov M.E.; Melnikov A.V.

doi:10.14529/ctcr260201

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Алгоритм сегментации сцен видеолекций на основе сравнения визуальных эмбеддингов кадров

Автор: Исмагулов М.Е., Мельников А.В.

Журнал: Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника @vestnik-susu-ctcr

Рубрика: Информатика и вычислительная техника

Статья в выпуске: 2 т.26, 2026 года.

Бесплатный доступ

В условиях роста объема учебных материалов в формате видеолекций актуальной является задача их автоматического преобразования в письменный формат, который обеспечивает в ряде случаев лучшее усвоение. Использование для решения этой задачи ручной разметки видеолекций характеризуется высокой трудоемкостью, что обуславливает необходимость разработки алгоритмических методов разграничения видеолекций на смысловые фрагменты на основе анализа визуальной информации. Цель исследования: разработка алгоритма сегментации видеолекций на сцены, основанного на сравнении визуальных эмбеддингов кадров. Предлагаемый подход направлен на выявление границ временных интервалов видеолекции, внутри которых сохраняется устойчивость визуального содержания, что позволяет интерпретировать такие интервалы, как сцены, соответствующие логически завершённым фрагментам изложения учебного материала.

Видеолекция, разграничение сцен, сегментация видеоданных, визуальные эмбеддинги, многомодельная обработка данных, трансформерные модели, анализ визуального содержания, автоматизированная обработка образовательного контента

Короткий адрес: https://sciup.org/147254092

IDR: 147254092 | УДК: 004.855 | DOI: 10.14529/ctcr260201

An algorithm for video lecture scene segmentation based on visual frame embedding comparison

With the rapid growth of educational content in the form of video lectures, the task of their automatic transformation into a written format often providing better comprehension has become increasingly relevant. Manual annotation of video lectures is highly labor-intensive, which necessitates the development of algorithmic methods for segmenting video lectures into semantically meaningful fragments based on visual analysis.