Методика построения программно-аппаратной системы локализации акустических сигналов
Автор: Шаход Д.М., Агафонов Е.Д.
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Информатика, вычислительная техника и управление
Статья в выпуске: 4 т.26, 2025 года.
Бесплатный доступ
В статье предложена методика построения программно-аппаратной системы для решения задачи локализации акустических источников в реальных акустических средах на основе синтеза нескольких моделей, в том числе интеллектуальных. Для достижения цели предлагается методика, включающая выбор технологий и оборудования для сбора и обработки акустических сигналов, обучение моделей на экспериментальных данных и проведение дополнительной серии экспериментов для оценки эффективности моделей. Были рассмотрены две модели: SI-GCC-CNN (Sound Intensity – Generalized Cross-Correlation – Convolutional Neural Network), которая основана на объединении признаков интенсивности звука и обобщенной кросс-корреляции – фазового преобразования в качестве входных данных для сверточных нейронных сетей, и SI-CNN (Sound Intensity – Convolutional Neural Network), которая основана на подаче признаков интенсивности звука в сверточную нейронную сеть. В рамках оценки эффективности моделей глубокого обучения, используемых для решения этой задачи с пространственным разрешением 10º, была проведена серия экспериментов в замкнутых реверберирующих помещениях. Обобщающая способность этих моделей оценивалась при изменении настроек конфигурации. Экспериментальные результаты продемонстрировали эффективность и способность модели SI-GCC-CNN к обобщению при работе в условиях реальной акустической среды. Модель SI-GCC-CNN превзошла модель SI-CNN, достигнув улучшения точности локализации в 2,9 раза при изменении размера помещения, в 2,5 раза при изменении расстояния между источником и центром микрофонной решетки и в 2 раза при изменении местоположения микрофонной решетки.
Программно-аппаратная система, локализация акустических источников, реальные акустические среды, акустическая интенсивность, глубокое обучение, реверберирующее помещение, обобщающая способность
Короткий адрес: https://sciup.org/148332523
IDR: 148332523 | УДК: 004.032.26, 004.048 | DOI: 10.31772/2712-8970-2025-26-4-507-516
Текст научной статьи Методика построения программно-аппаратной системы локализации акустических сигналов
Задача локализации акустических источников (Sound Source Localization, SSL) заключается в определении направления, с которого принимаются акустические волны, исходящие от источника звука. Обычно это достигается с помощью микрофонной решетки, которая улавливает акустические сигналы. Пространственно-временная информация, полученная от решетки, затем анализируется для нахождения направления акустического источника.
SSL играет важнейшую роль в различных инженерных и технологических приложениях, включая громкую связь [1], автоматическое слежение за камерой для телеконференций [2], взаимодействие человека с роботом [3] и удалённое распознавание речи [4]. В большинстве практических ситуаций направление акустического источника неизвестно и требует оценки. Эта задача становится ещё сложнее, когда её приходится решать в реальных акустических условиях, характеризующихся наличием шума и реверберации.
На сегодняшний день задача локализации акустических источников решается двумя группами методов: традиционными методами обработки сигналов и методами глубокого обучения (Deep Learning, DL). Традиционные методы, включая классификацию множественных сигналов (Multiple Signal Classification, MUSIC) [5], метод разности во времени приема сигнала (Time Difference of Arrival, TDOA) [6], формирователь луча с задержкой и суммированием (Delay-And-Sum beamformer, DAS) [7], обобщенную функцию взаимной корреляции с функцией преобразования фазы (Generalized Сross-Correlation – Phase Transform GCC – PHAT) [8] и управляемое фазово-энергетическое преобразование (Steered Response Power – Phase Transform SRP – PHAT)
-
[9], были разработаны в рамках парадигмы распространения звука в свободном поле, поэтому они имеют недостаток в виде серьезного ухудшения их эффективности при применении в замкнутых акустических средах со сложными характеристиками, т. е. в сценариях реверберации и шума [10].
Методы глубокого обучения способны превзойти традиционные методы в их устойчивости к шуму и реверберации за счет эффективной адаптации к различным сложным акустическим условиям, предоставленным в виде признаков в обучающих данных [11]. Однако это также является основным недостатком интеллектуальных методов, поскольку они менее способны к обобщению и менее универсальны, чем традиционные методы [10].
В [12] была предложена новая модель SI-GCC-CNN для локализации единственного источника с пространственным разрешением 10º. Модель SI-GCC-CNN основана на объединении признаков интенсивности звука (Sound Intensity, SI) и GCC-PHAT в качестве входных данных для сверточных нейронных сетей (Convolutional Neural Network, CNN). Модель достигла 100 % точности прогнозирования (локализации) в замкнутых реверберирующих средах, превзойдя модель SI-CNN [13], которая основана на использовании признаков SI в качестве входных данных для CNN.
В [12] обе модели SI-GCC-CNN и SI-CNN были обучены на синтетических (искусственных) данных, а затем была проверена их эффективность, в отличие от [14], где предложенная модель обучалась на реальных экспериментальных данных и, таким образом, не было необходимости повторять эксперименты, требующие интенсивных усилий по сбору большого объема данных для обучения моделей. В [15] показано, что разработанная модель SI-GCC-CNN способна к обобщению при изменении настроек конфигурации, а именно, при изменении размера помещения, расстояния между источником и центром микрофонной решетки и местоположения микрофонной решетки, что, в свою очередь, требует проверки ее способности обрабатывать несоответствия и различия между условиями моделирования и реальной среды путем проведения серии реальных экспериментов.
Фактически в [12; 15] сигналы микрофонов формировались с учетом линейного описания модели распространения звука в окружающей среде, а затем модели локализации были построены и обучены на входных данных, представленных признаками, извлеченными из сигналов микрофонов. Это означает, что процесс обучения не был выполнен на реальных данных, представленных условиями работы в реальных средах. Таким образом, проверка надежности и способности моделей локализации работать с реальными данными на основе серии экспериментов в условиях реальных помещений является актуальной .
Результаты проведения серии экспериментов позволят судить о гибкости разработанных моделей и возможности их практического применения во многих областях техники и технологий без ограничений по настройкам конфигурации.
Цель работы – построение программно-аппаратной системы для проведения реальных экспериментов и оценки эффективности моделей SI-GCC-CNN и SI-CNN в помещениях разных размеров и при разных настройках конфигурации.
Структурная схема установки и выбор технологий и оборудования для сбора и анализа акустических данных
На рис. 1 представлена структурная схема экспериментальной установки. Для преобразования входного аналогового сигнала (сигнала микрофона) в его дискретное числовое представление используется аналого-цифровой преобразователь (АЦП), представленный внешней звуковой картой BEHRINGER UMC204HD с частотой преобразования 44100 отсчетов в секунду и разрядностью 24 бита. Интерфейс USB (Universal Serial Bus) типа B необходим для соединения компьютера с устройством BEHRINGER UMC204HD и далее для сбора и обработки информации. Профессиональные микрофоны BM - 800 JBH с кабелем XLR используются для подключения к входам звуковой карты.
Для устранения электрических помех также используется заземляющий фильтр, подключаемый к корпусу устройства АЦП через заземляющий контакт.
Компьютер
Компьютер
Фильтр с заземлением
Синхронизация
240 В
Рис. 1. Структурная схема экспериментальной установки
Fig. 1. Structural diagram of the experimental setup
В составе экспериментальной установки была использована микрофонная решетка размером 20 см, состоящая из четырех ортогональных микрофонов (рис. 2), аналогичная той, которая применялась при моделировании для формирования исходных данных и обучения моделей [12], Микрофонная решетка была размещена на высоте 1,5 м от пола.
Рис. 2. Микрофонная решетка
Fig. 2. Microphone array
В точках с заранее известными направлениями в горизонтальной плоскости решетки на высоте 1,5 м (рис. 3) размещается громкоговоритель (динамик) в качестве источника звука, который в свою очередь излучает аудиосигналы, взятые из базы данных TIMIT [16] с частотой дискретизации 16 кГц и длительностью 500 мс. Микрофоны принимают аудиосигналы, которые записываются с помощью программной среды MATLAB. Записанные аудиосигналы передискретизиру-ются с 44100 Гц до 16 кГц для соответствия характеристикам исходных данных моделей и фильтруются с помощью фильтра верхних частот (ФНЧ), который пропускает сигналы с частотой выше определенной частоты среза и ослабляет сигналы с частотами ниже частоты среза. Выбор частоты среза 100 Гц обеспечивает подавление фонового шума частотой 50 Гц.
Рис. 3. Схема расположения громкоговорителей
Fig. 3. Speaker layout diagram
В [13] было показано, что размер решетки оказывает схожее влияние на все используемые методы локализации, включая предложенный в [13], основанный на использовании информации об акустической интенсивности в качестве входных данных. Эффективность локализации ухудшается, когда размер решетки слишком мал или слишком велик. Одна из причин ухудшения эффективности заключается в том, что признаки акустической интенсивности основаны на конечной разности сигналов акустического давления для аппроксимации скорости частицы с использованием ортогональной микрофонной решетки, как показано в [12]. В результате, по мере увеличения размера решетки, погрешность аппроксимации будет соответственно увеличиваться, что приведет к неточной оценке акустической интенсивности. С другой стороны, если размер решетки слишком мал, микрофонная решетка будет демонстрировать плохую чувствительность к шуму, особенно на низких частотах [17]. Также в [13] показано, что оптимальный диапазон размеров решетки для предложенного метода составляет 2–5,5 см, в то время как эффективность метода GCC-PHAT-CNN, основанного на использовании признаков GCC-PHAT в качестве входных данных, при малом размере решетки была значительно хуже, чем у аналогов, и лучше, чем у аналогов для относительно большого размера решетки, т. е. при размере 40 см.
Таким образом, для достижения согласованности размеров решетки, используемой в предлагаемом методе, и получения хороших результатов локализации, как при моделировании, так и при экспериментах, использовалась решетка размером 20 см.
Обучение моделей на экспериментальных данных
При конкретных настройках конфигурации обе модели, SI-GCC-CNN и SI-CNN, ранее обученные на синтетических данных [12], заново обучаются на реальных экспериментальных данных. Обе модели рассматриваются для локализации единственного источника с пространственным разрешением 10º.
Процесс сбора экспериментальных необработанных данных осуществляется в помещении размером 5,7×8,7×3,2 м3, где центр микрофонной решетки расположен в центре помещения в точке с координатами [2.85, 4.35, 1.5] м, а источники звука находятся на расстоянии 2 м от центра решетки.
Для каждого из 36 направлений из обучающего набора базы данных TIMIT случайным образом выбирается 10 аудиофайлов для воспроизведения через громкоговоритель, акустические сигналы принимаются микрофонной решеткой и записываются. Записанные сигналы представляют собой необработанные данные, из которых извлекаются признаки и обучаются модели.
Процесс подготовки данных и извлечения признаков, а также настройка обучения и гиперпараметры модели такие же, как при обучении на синтетических данных в [12].
Предварительная обработка данных, включая подготовку исходных данных и извлечение признаков, выполнялась в среде MATLAB R2020a. Затем модели глубокого обучения были построены с использованием Python 3.* в облачной вычислительной среде Google Colab. Этот гибридный подход использовал широкие возможности MATLAB по обработке сигналов для последующего проектирования признаков, а также обширную экосистему глубокого обучения Python для построения моделей.
Планирование и проведение серии экспериментов
Для оценки эффективности моделей и их способности к обобщению в условиях, отличающихся от тех, в которых они были обучены, проведена серия экспериментов. В табл. 1 показаны настройки конфигурации для каждого эксперимента.
Настройки конфигурации для экспериментов
Таблица 1
|
№ эксперимента |
Размер помещения [м3] |
Координаты центра микрофонной решетки [м, м, м] |
Расстояние между источником и центром микрофонной решетки [м] |
|
1 |
5,7×8,7×3,2 |
[2.85, 4.35, 1.5] |
2 |
|
2 |
9×7×3,2 |
[4.2, 3.5, 1.5] |
2 |
|
3 |
9×7×3,2 |
[4.2, 3.5, 1.5] |
3 |
|
4 |
9×7×3,2 |
[2.6, 4.7, 1.5] |
2 |
Для каждого эксперимента рассматриваются 36 направлений, равномерно распределенных в диапазоне –180º – 180º с шагом 10º .
Для каждой из настроек конфигурации, соответствующих каждому эксперименту, из тестового набора базы данных TIMIT выбираются 108 аудиофайлов таким образом, что каждому из 36 направлений соответствуют 3 аудиофайла, которые воспроизводятся с помощью громкоговорителя. Затем записываются акустические сигналы, соответствующие каждому известному направлению. Признаки извлекаются из исходных данных и подаются в обученные модели, которые, в свою очередь, оценивают направления акустических источников.
Для оценки эффективности моделей используется метрика точности локализации (localization accuracy, PA) [18].
В табл. 2 приведены средние значения метрики точности локализации для моделей SI-CNN и SI-GCC-CNN при проведении серии экспериментов.
В эксперименте № 1 эффективность моделей проверялась в той же комнате, в которой модели обучались, при сохранении тех же настроек конфигурации, в то время как в остальных экспериментах настройки конфигурации были изменены и ранее обученные модели были повторно протестированы для проверки их способности к обобщению.
Таблица 2
Средние значения метрики точности локализации для моделей SI-CNN и SI-GCC-CNN при проведении серии экспериментов
|
№ эксперимента |
SI-CNN (%) |
SI-GCC-CNN (%) |
|
1 |
70,37 |
94,44 |
|
2 |
29,6 |
86,1 |
|
3 |
32,4 |
80,6 |
|
4 |
41,7 |
83,3 |
В эксперименте № 1 предложенная модель достигла точности локализации 94,44 %, превзойдя модель SI-CNN, достигнув улучшения на 34,2 %.
В остальных экспериментах проверялась способность моделей к обобщению при изменении настроек конфигурации.
При изменении размера помещения (эксперимент № 2) модель SI-GCC-CNN продемонстрировала свою способность к обобщению, достигнув точности локализации 86,1 %, превзойдя модель SI-CNN, достигнув улучшения в 2,9 раза, в то время как модель SI-CNN не обеспечила удовлетворительных результатов, которая в свою очередь достигла точности локализации 29,6 %.
В эксперименте № 3 были сохранены те же настройки конфигурации размера помещения и расположения микрофонной решетки, что и в эксперименте № 2, но расстояние между источником и центром микрофонной решетки было изменено на 3 м. Модель SI-GCC-CNN показала свою обобщающую способность, достигнув точности локализации 80,6 %, в то время как модель SI-CNN не обеспечила удовлетворительной точности локализации, достигнув 32,4 %. Модель SI-GCC-CNN превзошла модель SI-CNN, обеспечив улучшение точности локализации в 2,5 раза.
В эксперименте № 4 были сохранены те же настройки конфигурации размера помещения и расстояния между источником и центром микрофонной решетки, что и в эксперименте № 2, но координаты центра микрофонной решетки были изменены. Модель SI-GCC-CNN показала свою обобщающую способность, достигнув точности локализации 83,3 %, в то время как модель SI-CNN не обеспечила удовлетворительной точности локализации, достигнув 41,7 %. Модель SI-GCC-CNN превзошла модель SI-CNN, обеспечив улучшение точности локализации в 2 раза.
Заключение
В работе предложена методика, в рамках которой построена программно-аппаратная система для оценки эффективности моделей локализации акустических источников с пространственным разрешением 10º при работе в реальных акустических средах. Для этого была проведена серия экспериментов, в которых как модель SI-GCC-CNN, так и модель SI-CNN сначала обучались на реальных экспериментальных данных в конкретном помещении, а затем оценивалась их способность к обобщению при изменении настроек конфигурации.
Экспериментальные результаты подтверждают надежность и эффективность модели SI-GCC-CNN для работы в условиях реальной акустической среды, что согласуется с результатами моделирования, полученными в [15]. Таким образом, можно сказать, что эффективность модели SI-CNN ухудшилась по сравнению с ее эффективностью при применении к синтетическим данным, в то время как модель SI-GCC-CNN практически сохранила свою эффективность при работе как с синтетическими, так и с экспериментальными данными. Это можно объяснить тем, что при обучении и тестировании обеих моделей на синтетических данных учитывалась линейная модель распространения звука, поскольку эхо-информация была включена в обучающие и тестовые данные без учета наличия шума. В то время как при обучении и тестировании обеих моделей на реальных данных в обучающие данные включалась не только информа- ция об эхосигналах, но и информация о шуме, поскольку предложенная модель показала эффективную устойчивость к шуму по сравнению с моделью SI-CNN.
Следует также отметить, что объём синтетических данных, на которых обучались модели, превышает объём реальных данных, поскольку в качестве необработанных синтетических данных использовалось 6000 аудиофайлов, по сравнению с 360 аудиофайлами, использованными в качестве необработанных реальных данных.
Дальнейшие исследования предполагают проведение серии экспериментов для оценки эффективности модели SI-GCC-CNN, использованной в [18] c методом разделения акустических источников, для одновременной локализации двух перекрывающихся источников звука в реальной акустической среде.