Контекстно-осведомленная система управления оборудованием и веб-трансляции мероприятий из интеллектуального зала

Автор: Будков Виктор Юрьевич, Прищепа Мария Викторовна, Глазков Сергей Викторович

Журнал: Вестник Бурятского государственного университета. Философия @vestnik-bsu

Рубрика: Системный анализ, обработка информации и информационные технологии

Статья в выпуске: 9, 2011 года.

Бесплатный доступ

Осведомленность о контексте является одним из ключевых вопросов при разработке системы управления оборудованием для записи мероприятий и телеконференций. Анализ поведения участников - положение в конференц-зале, речевая активность, направление лица, использование проектора или доски - позволяет системе выбирать наиболее актуальные мультимедийные потоки для записи. Функциональные модули системы и их взаимодействие при проведении веб-трансляции мероприятия в интеллектуальном зале рассматриваются в статье.

Интеллектуальное пространство, контекстно-осведомленные системы, распознавание действий, обнаружение спикера, управление контентом

Короткий адрес: https://sciup.org/148180541

IDR: 148180541

Текст научной статьи Контекстно-осведомленная система управления оборудованием и веб-трансляции мероприятий из интеллектуального зала

В интеллектуальном пространстве, предназначенном для проведения совещаний, контекстноосведомленные системы анализируют поведение пользователя с помощью аудиовизуальных и других датчиков и предоставляют сервисы для информационной и технической поддержки проведения мероприятий, включая управление интеллектуальными камерами, массивами микрофонов, вебтрансляцию мероприятия и автоматическое архивирование аудио- и видеозаписей. Несмотря на перечисленные сервисы, пока не существует универсального подхода к определению контекста и формированию управляющих воздействий на основе анализа текущего контекста в интеллектуальном зале совещаний [1]. Среди существующих подходов можно выделить два класса систем, направленных на решение этой задачи: (1) системы, основанные на правилах, описывающих определенный набор действий для всех вариантов контекста, предусмотренных системой; (2) обучающиеся системы, основанные на нейронных сетях, динамических Байесовских сетях, марковских моделях и т.д.

Проблемы представления контекста, недостоверности показаний сенсоров и низкой надежности первичной обработки сигналов от датчиков рассматриваются в недавно разработанной теории пространств контекста [2]. Однако нет общепринятого мнения о типах и количествах пространств контекста и их атрибутах. Например, в работе [3] для определения контекста использовались местоположение пользователя, данные об окружающей среде, о пользователе и время. В [4] Dey описывает контекст как эмоциональное состояние пользователя, фокус его внимания, положение и ориентация, дата и время, объекты и людей в окружении пользователя. Три различные категории контекста были предложены в [5]: (1) текущая (местоположение, ориентация, температура, уровень шума, профиля телефона, уровень заряда батареи и др.); (2) историческая (например, предыдущее местоположение, предыдущие настройки устройств); (3) обоснованная (движение, точка назначения, погода, расписание, деятельность пользователя, формат контента, отношения и т.д.).

В работе [6] информационный контекст, используемый для персонализации сервисов и разработки мультимедийных приложений для гетерогенных мобильных устройств, был разделен на пять категорий: пространственно-временная информация (место, время), информация об окружающей среде, личная информация, информация о задачах, социальная информация. Персонифицированные сервисы на основе анализа профиля пользователя и его запросов формируют необходимый контент и услуги в текущей ситуации.

Три типа контекстов предлагается использовать при объединении многомодальной информации [7]: (1) контекст предметной области, который содержит некоторые априорные знания, предпочтения пользователя, ситуационную модель, описания объектов и субъектов, их возможных видов деятельности и их отношений; (2) разговорный контекст, описывающий возможные диалоги с системой и текущие условия; (3) визуальный контекст, включающий анализ направления взгляда, жестов, действий пользователей в ходе наблюдаемой ситуации.

Три базовые сущности: человек, физическая и информационная среда были рассмотрены в работе [8] в рамках двух типов контекстов: (1) интерактивный контекст, описывающий ситуации взаимодействия между людьми; (2) контекст окружающей среды, представляющий текущие установки и параметры программно-аппаратного обеспечения конференц-зала. В работе используется предположение, что контекст мероприятия имеет иерархическую структуру, поэтому для его представления применяется древовидная структура. Изменение положения пользователя (стоит/сидит), его местоположение, направление лица, мимика, жесты, смена дикторов и другие события анализируются для прогнозирования контекста. Сеть на основе конечного автомата была использована для классификации наиболее значимых действий участников. Этапу классификации предшествует параметрическая обработка сигналов и выделение отличительных признаков, по которым осуществляется оценка принадлежности контекста тому или иному классу. Для определения наличия участников в зале и анализа их поведения применяется широкий спектр программно-аппаратных средств аудио- и видеообработки.

Автоматический анализ аудио- и видеоданных, записанных во время совещаний, является нетривиальной задачей, так как необходимо одновременно следить за несколькими участниками, которые могут менять положение своего тела, головы, направление взгляда. Методы аудиовизуального слежения были тщательно исследованы в рамках проектов CHIL и AMI/AMIDA [9].

Использование панорамной и персональных камер подходит для записи небольших совещаний, во время которых все участники находятся за одним конференц-столом. При средних размерах мероприятия (~ 50 человек) увеличивается зона слежения, что влияет на стоимость оборудования для записи и многоканальной обработки сигналов [10]. Распределенные системы массивов микрофонов, PTZ (Pan/Tilt/Zoom) камеры с функциями наклона, поворота и масштабирования и другие датчики используются для обнаружения положения участников и выбора текущего диктора в средних интеллектуальных залах совещаний.

Разработанный интеллектуальный зал предназначен для проведения малых и средних мероприятий (совещаний, лекций, семинаров) с числом присутствующих до 42 человек. Две группы устройств используются для слежения за участниками и записи выступающих: (1) персональные веб-камеры обслуживают участников, расположенных за конференц-столом, (2) четыре массива микрофонов с различными конфигурациями и пять видеокамер трех типов используются для аудиолокализации источника звука и видеозаписи участников, которые сидят в креслах в другой части зала.

В ходе исследования были разработаны три проактивных сервиса: (1) управление параметрами PTZ камеры при наведении на лицо выступающего; (2) автоматическое архивирование данных мероприятия, включая фотографии лиц участников, видеозаписи выступающих, слайды презентации и рукописные наброски на умной доске и другие материалы, полученные на основе оперативного анализа контекста; (3) выбор и веб-трансляция наиболее актуального мультимедийного контента в процессе проведения мероприятия в интеллектуальном зале. В статье рассматривается система веб-трансляции мероприятий, которая реализует последний сервис и использует результаты работы других двух сервисов.

Архитектура системы веб-трансляции мероприятий

Разработанная система веб-трансляции мероприятий (СВТМ) состоит из пяти основных программных комплексов и управляющего сервера. На рисунке 1 представлены все шесть модулей, которые отмечены цифрами. Первый комплекс – система управления мультимедийным оборудованием (СУМО), которая объединяет модули, управляющие мультимедийными приложениями и оборудованием, служащим для записи поведения пользователей и отображения презентационных данных. Второй комплекс – многоканальная система обработки персональных веб-камер (МСОПВ), которая захватывает и обрабатывает аудио- и видеопотоки с камеры. Третий комплекс служит для хранения аудио- и видеоданных с мероприятия. Четвертый комплекс представляет собой базу данных, которая включает в себя информацию о совещании. Номером шесть на рисунке 1 отмечен сервер управления мероприятиями (СУМ), который получает и анализирует данные из всех других модулей и предоставляет информацию для веб-системы отображения (ВСО), которая отмечена как номер пять. Система ВСО включает модули, которые передают мультимедийный контент удаленным участникам. Система управления контентом (СУК) включает третий, пятый и шестой комплексы.

Первый комплекс СУМО отвечает за работу мультимедийных устройств. Система управления умной доской (СУД) позволяет пользователям использовать плазменную панель с сенсорным экраном для рисования и записи заметок. Система управления презентациями (СУП) отвечает за загрузку, отображение и переключение слайдов презентации. Многоканальная система аудиолокализации (МСА) дает информацию об аудиоактивности в интеллектуальном зале. Многоканальная система видеомониторинга (МСВ) отвечает за обработку и запись видеопотоков, поступающих от камер, направленных на аудиторию, ведущего и участников, сидящих в зоне стульев.

МСОПВ состоит из персональных модулей веб-камер ПМВ, которые управляют работой персональных веб-камер расположенных за конференц-столом, а также сервера управления ПМВ -СПМВ, который обрабатывает аудио- и видеоданные, поступающие с этих модулей.

Аудиофайлы в формате wav и видеофайлы в формате avi , которые были получены от персональных камер и обработаны СУМ (изменен формат, разрешение и имя файла), изображения с МСВ, СУП, СУД и ПМВ сохраняются в файловом хранилище.

База данных мероприятия реализована с помощью сервера MySQL и включает две таблицы: (1) основные сведения обо всех запланированных мероприятиях; (2) информация о текущем совещании, которая включает в себя некоторые данные для системы отображения совещании.

ВСО представлена в виде веб-страницы с несколькими формами [11]. Информация о наполнении этих форм получается на основе технологии AJAX. Передача аудиоданных реализована на основе потокового RTMP сервера и технологии Abobe Flash.

СУМ получает и анализирует данные от всех модулей, а также выбирает аудио- и видеоконтент для ВСО. Этот анализ основан на логико-временной модели [11].

Рис. 1. Архитектура системы веб-трансляции мероприятий

Программные модули СВТМ были установлены на нескольких персональных компьютерах, объединенных в одну локальную сеть. Связь между модулями реализована на основе передачи строковых сообщений по UDP протоколу.

Диаграмма работы системы веб-трансляции мероприятий

Работа системы, отвечающей за веб-трансляцию и ее компонентов, зависит от текущей ситуации в комнате. На рисунке 2 показан пример переключения режимов компонентов и синхронизации аудио- и видеоконтента в зависимости от входящих событий, модулей аудиолокализации, видеомониторинга и модулей управления мультимедийными устройствами. СУК управляет выбором мультимедийного контента, который доступен для удаленного участника совещания.

События, которые сгенерированы СУМ, влияют на работу системы веб-трансляции мероприятия. Эти события показаны в правой части рисунка 2 по оси времени. Представленные события могут быть разделены на четыре типа по следующим критериям: (1) время; (2) деятельность основного докладчика; (3) деятельность сидящих участников; (4) использование презентационных устройств.

Первое событие, показанное на схеме, – "20 минут до встречи". После этого события (событие E1 ), система веб-трансляции переходит в режим подготовки и запускает модули МСА, МСВ и МСОПВ. Кроме того, система отправляет сообщения для опускания экрана и включения света. Логотип мероприятия отображается на веб-странице. После обнаружения аудиоактивности в комнате (событие E2 ) в модуле МСА запускается режим определения звуковой активности.

При появлении участника в комнате (событие E3 ) МСВ переходит в режим "слежения за участниками" (СУ) и на веб-страницу выводится изображение с общим видом комнаты, а также аудиопоток с микрофона, в котором анализируется все пространство комнаты. Когда до начала заседания остается около десяти минут (событие Е4 ), включается проектор, плазменная панель с сенсорным экраном и модули СУД, PC.

Если появляются участники в зоне стульев (событие E5 ), МСВ начинает работать в режиме "регистрация участников" (РУ). Если есть участники, сидящие за конференц-столом (событие E6 ), запускаются модули ПМВ. Если МСВ обнаруживает основного докладчика (событие E7 ) и МСА – его аудиоактивность (события E9, событие E12 ), то кадры с камеры, направленной на него, отображаются на веб-странице. Система начинает передачу аудиопотока с микрофона, с помощью которого производится анализ зоны презентаций. Когда презентация полностью загружена (событие E8 ), ее первый слайд отображается на веб-странице. Если аудиоактивность была обнаружена за конференц-столом (событие E10 ), то система получает аудиопоток с персональной веб-камеры, расположенной перед участником.

Когда слайд изменен (событие E11 ), изображение с новым слайдом передается на веб-страницу. Если участник использует сенсорную доску (событие E13 ), то изображение слайдов на веб-странице изменяется на изображение с SBS. Если в зоне стульев была обнаружена аудиоактивность (событие E14 ), то PTZ камера фокусируется на говорящем участнике и MVPS записывает его речь. В то же время на веб-странице отображаются кадры с PTZ камеры и записывается аудиопоток, полученный с микрофона в этой зоне. Когда основной докладчик покидает зону презентации (событие E15 ), для удаленных участников отображается общий вид комнаты.

После совещания, когда все участники выходят из комнаты (событие E16 ), все модули и устройства выключаются. После окончания совещания на веб-странице отображается только логотип.

Экспериментальные результаты

Экспериментальные результаты были получены в ходе проведения сценария, при котором несколько человек обсуждают проблему в интеллектуальном зале СПИИРАНе. Один из участников стоял в презентационной зоне и использовал сенсорную доску и проектор, остальные сидели за конференцстолом. Докладчик начал выступление, когда все участники зашли в зал и сели в кресла. Каждый из участников мог задавать вопросы после окончания презентации.

Данные по мероприятию, которые влияли на изменение ситуации и графического контента, представлены в таблице 1. Во время регистрации участников весь графический контент был жестко задан, поэтому ошибок в выборе источника не было. Изменение состояний сенсорной панели и переключение слайдов были определены верно. Большая часть ошибок возникла при определении речевой активности участников, сидящих за конференц-столом. Эти ошибки приводили к неверному выбору изображения с камеры, а также источника звука, что приводило к записи диктора более удаленным микрофоном.

Результаты эксперимента показывают, что большинство ошибок при определении активного диктора (ложное определение диктора FA и пропуск диктора MS) происходит, когда участник на конференции задает вопрос, но изображение другого участника, который находится рядом, показывается в диалоговом окне активного диктора. Такие погрешности происходят из-за ошибок алгоритма аудиолокализации по причине высокого уровня реверберации в зале. Кроме того, небольшое расстояние между участниками, сидящими за конференц-столом, осложняет процесс аудиолокализации. В то же время количество ошибок при переключении с сидящего участника на ведущего и наоборот меньше, так как расстояние между ними существенно больше, чем между участниками за конференц-столом.

Таблица 1

Результаты эксперимента

Описания мероприятия

Определено вручную

Определено автоматически

Число

FA

MS

Участник

5

5

0

0

Участники, сидящие за конференц-столом

4

4

0

0

Изменения слада

22

22

0

0

Использование сенсорного экрана

1

1

0

0

Речевая активность главного диктора

10

15

5

0

Речевая активность сидящих участников

9

32

24

1

Временное отсутствие активности в аудитории

2

2

0

0

Переход реплики от выступающего к сидящим участникам

8

13

6

1

Переход реплики от сидящих участников к выступающему

7

13

6

0

Переход реплики между выступающими

1

18

17

0

Всего переходов реплик

16

44

29

1

Кроме того, паузы в речи основного докладчика приводят к переключению камеры на аудиторию или другого участника, чья речь была неправильно обнаружена. Так как оценки MS и FA были рассчитаны для многоканальной системы МСОПВ, то число правильных случаев выбора графического источника не всегда совпадает со значением аналогичного параметра, вычисленного вручную. В общей сложности было сделано 31 переключение на ошибочный источник графического контента при анализе текущей ситуации в конференц-зале, что составляет около 3% от всего времени заседания. На данный момент разработанная система веб-трансляции была проверена в режиме, когда удаленные участники являлись только слушателями и не могли влиять на ход мероприятия. Для повышения активности участников будут разработаны панели инструментов, позволяющие удаленному слушателю задавать вопросы и активно участвовать в дискуссии.

Заключение

Моделирование и обоснование контекста, извлечение и обмен знаниями являются наиболее важными вопросами при разработке окружающих интеллектуальных пространств. Разработка контекстноосведомленной системы обработки мероприятий позволяет автоматизировать запись, архивирование и трансляцию аудио-, видео- и презентационных материалов заседания. Многоканальная система аудиовизуальной обработки сигналов на основе классификатора AdaBoost для распознавания лиц и GCC-PHAT метода локализации звука источника была разработана для отслеживания участников в среднем по размеру интеллектуальном зале. Анализ поведения участников и состояния презентационного оборудования применялся для прогнозирования контекста и выбора аудио- и видеоисточников, которые передают наиболее актуальный мультимедийный контент. Разработанная веб-система трансляции мероприятий позволяет удаленным участникам воспринимать все события в зале заседаний через персональные компьютеры или смартфоны. Дальнейшая работа будет сосредоточена на увеличение возможностей удаленных участников при проведении мероприятий в интеллектуальном зале.

Статья научная