Комплексный алгоритм обнаружения аномальных особенностей в природных временных рядах
Автор: Лисс А.Р., Мандрикова Б.С., Мандрикова О.В.
Журнал: Компьютерная оптика @computer-optics
Рубрика: Численные методы и анализ данных
Статья в выпуске: 6 т.49, 2025 года.
Бесплатный доступ
Предложен комплексный автоматизированный алгоритм анализа природных временных рядов и обнаружения аномальных особенностей. Алгоритм включает в себя алгоритм определения информационных компонент сигнала и алгоритм адаптивной вейвлет-фильтрации сигнала. Алгоритм определения информационных компонент сигнала выполняет подавление коррелированного шума и определение информационных составляющих сигнала. Алгоритм адаптивной вейвлет-фильтрации сигнала выполняет обнаружение аномальных особенностей и оценку их интенсивности. Данные алгоритмы могут применяться как совместно, так и независимо друг от друга. Основу алгоритмов составляют разработанные авторами правила. На основе правил оцениваются параметры пороговой функции и определяется наилучший аппроксимирующий вейвлет. В статье описаны операции комплексного алгоритма и представлена блок-схема его реализации. Также приведены результаты применения комплексного алгоритма с использованием данных вторичных космических лучей и модельных данных, построенных по их подобию. Результаты подтвердили эффективность разработанных правил и предлагаемого комплексного алгоритма.
Вейвлет-преобразование, теория рисков, природные аномалии, космические лучи
Короткий адрес: https://sciup.org/140313265
IDR: 140313265 | DOI: 10.18287/2412-6179-CO-1652
Текст научной статьи Комплексный алгоритм обнаружения аномальных особенностей в природных временных рядах
Известной проблемой извлечения информации из данных в большинстве прикладных областей (физика, биология, медицина и др.) является высокая доля неполных априорных знаний об информационном сигнале и шуме. Процедуру выделения полезной информации из природных данных также существенно затрудняет наличие коррелированных шумов. Применение современных нейросетевых методов в некоторых случаях не обеспечивает требуемой точности решения данной задачи. Это связано с существенной нестацио-нарностью природных данных вследствие постоянной изменчивости природных процессов и отсутствием представительной выборки для обучения нейронных сетей. Указанные проблемы требуют усовершенствования методов обработки и анализа природных данных и создания новых более эффективных подходов и методов, в том числе с использованием нейросетевых технологий. Например, в работе [1] для решения задачи обнаружения аномалий в технологических сигналах авторами предлагается подход, основанный на комбинации ансамбля из базовых классификаторов на основе алгоритмов машинного обучения и вейвлет- преобразования. Применение вейвлет-коэффициентов на этапе формирования информативного признакового пространства для обучения классификаторов и консолидации прогнозов позволило повысить точность распознавания и повысить качество мониторинга объектов управления [1]. В работе [2] для задачи обнаружения ранних признаков отказов и поломок оборудования представлен подход к обнаружению аномалий в нестационарных технологических сигналах с использованием преобразования Гильберта–Хуанга совместно со статистической моделью классификации. Способность адаптации к нестационарным данным и высокая детализация в частотно-временной области подхода [2] позволила повысить точность обнаружения моделированных аномалий до 94%.
Задачи обработки и анализа природных данных, ввиду пассивности проводимых экспериментов, составляют еще большую сложность. Например, в работе [3], в области медицины, для оптимизации исследований головного мозга по данным функциональной магнитно-резонансной томографии (МРТ) предложена нейросетевая технология обнаружения ступенчатых аномалий с обучением на частично синтезированных данных с адаптацией на основе метаобучения.
Разработанная процедура формирования синтетического набора данных позволила существенно оптимизировать процедуру нейросетевого обучения [3]. Примером из области космофизики является работа [4], описывающая новый комбинированный метод выявления скрытых аномалий в вариациях галактических космических лучей (КЛ). Метод основан на совмещении спектрально-сингулярного разложения сигналов КЛ и вейвлет-преобразования. Как показано в работе [4], спектрально-сингулярное разложение сигналов КЛ позволяет изучить динамику вариаций, а вейвлет-преобразование позволяет вычислять энергию корот-копериодных вариаций произвольной формы (скрытых аномалий в КЛ) на фоне шума, превышающего по амплитуде полезный сигнал. В работах [5, 6] рассмотрены методы анализа природных данных для задач космической погоды. В частности, в работе [6] предложен автоматизированный метод анализа параметров ионосферы и обнаружения ионосферных аномалий на основе комплексного подхода, объединяющего методы вейвлет-преобразования с моделями авторегрессии – проинтегрированного скользящего среднего. На основе метода [6] исследователями обнаружены ко-роткопериодные аномальные изменения, предшествующие магнитным бурям и характеризующие возникновение колебательных процессов в ионосфере на фоне повышенной солнечной активности, что позволило авторам получить важный прикладной результат.
Объектом исследования являются алгоритмы анализа данных нейтронных мониторов (НМ), отражающих интенсивность вторичных космических лучей в околоземном пространстве [7]. В периоды повышенной солнечной активности в данных НМ наблюдаются аномальные особенности, обнаружение которых важно в задачах космической погоды [7]. Аномальные особенности в данных НМ возникают в случайные моменты времени и имеют разнообразную форму, что усложняет процедуру их обнаружения. Высокая доля неопределенности знаний о полезной составляющей данных НМ и их нестацио-нарность делает неэффективным применение классических методов анализа временных рядов (моделей ARIMA, методов декомпозиции временных рядов и т.п.). Применение методов машинного обучения, в частности нейронных сетей, требует периодической адаптации алгоритмов ввиду существенной изменчивости временного хода данных НМ. Это снижает их эффективность и не обеспечивает возможность получения результата в оперативном режиме.
Учитывая структуру анализируемых данных, в работе предложен комплексный алгоритм обнаружения аномальных особенностей, основанный на синтезе вейвлет-преобразования с адаптивными пороговыми функциями. Методы вейвлет-преобразо-вания имеют обширный набор базисов разной формы и эффективны для анализа данных нестационарной структуры. Использование вейвлетов в работе позволило реализовать операции обнаружения и оценки параметров аномальных особенностей разной формы и длительности, в том числе резких всплесков, особенностей пикообразной формы и др. Компактный носитель вейвлетов обеспечил высокую степень локализации получаемой информации о моментах возникновения аномальных особенностей. Построенный комплексный алгоритм основан на разработанных авторами правилах, применение которых позволяет минимизировать погрешность оценки информационного сигнала. Предложенный алгоритм основан на теории, описанной в работах [6, 8], и включает в себя алгоритм определения информационных компонент сигнала и алгоритм адаптивной вейвлет-фильтрации сигнала. Алгоритм определения информационных компонент сигнала (алгоритм 1) подавляет шум, в том числе коррелированный, и определяет информационные составляющие сигнала. Алгоритм адаптивной вейвлет-филь-трации сигнала (алгоритм 2) путем комбинации дискретного вейвлет-преобразования и пороговых функций обнаруживает аномальные особенности и оценивает их интенсивность. Алгоритм 1 и алгоритм 2 являются законченными и могут быть применены независимо. В статье описаны операции комплексного алгоритма, представлена блок-схема его реализации. Показаны результаты применения комплексного алгоритма с использованием природных данных вторичных космических лучей и модельных данных, построенных по их подобию.
1. Описание комплексного алгоритма
Регистрируемый сигнал рассматривается как комбинация
X [ t ] = F [ t ] + V [ t ], (1)
где F [ t ] - полезный сигнал, F принадлежит пространству Гильберта H [9], V [ t ] – шум.
Выполняя разложение сигнала X в пространстве Н по базису B = { gm } m € N (N - натуральные числа) и применяя пороговые функции, получаем:
F = £ П ( X , gm ) g m , (2)
meN где
, . I x , если I x | > T ,
П ( x ) = \ -
-
[ 0, если | x | < T,
пороговая функция, 0 - скалярное произведение.
На основе операции (2) стоит задача подавить шум и выделить информационные компоненты сигнала. Погрешность оценки (2) для дискретного сигнала F [ tn ], tn € {1, • • •, N}, N — длина сигнала, есть r (F [tn ], F[ tn ]) = E{F [tn ]-X| tn ]2} =
= E ( E| F [ t - ] - X 1 1 - ]| 2 1 = (3)
l t n =1 J
= E J E I X I t n ] , g m I t n ]|2 ’ ,
[ t n e { t n :| X I t n ] , g m I tn ]|< T }
E – математическое ожидание, || || – норма в пространстве H.
Очевидно, погрешность (3) определяется абсолютными значениями коэффициентов |( X, g m ) | разложения по базису и зависит от величины порога T.
Определение величины порога.
Применяя критерий отношения [10, 11] в окрестности O 8 [ t ]={ t n :| t n - t i l < 8 } некоторой точки t i , t i € {1,..., N}, будем иметь:
L ( X 1 1 . ] ) =
W ( X | t i ] / s i ) W ( X | t i ] / s о )
— T 8 ,
где L ( X [ t i ]) – функция правдоподобия, W ( X [ t i ] / s 0 ), W ( X [ t i ] / s 1 ) – плотности вероятностей при отсутствии (справедливости гипотезы Г 0 ) и наличии информационной составляющей сигнала (справедливости гипотезы Г 1 ) соответственно, s 0 , s 1 – возможные состояния сигнала, T 8 - величина порога в окрестности O 8 - некоторой точки t i .
Тогда, используя критерий Неймана–Пирсона [10, 11], для оценки порога Tа, 8 в окрестности O 8 точки t i с заданной доверительной вероятностью а будем решать следующую оптимизационную задачу:
| A W ( X | t i ] / s 0 ) dX =а = const , J 0 W ( X 1 1 , .] / s 1 ) df =y^ max,
где а - заданная ошибка первого рода, у = 1 - Р - мощность критерия, Р - ошибка второго рода, A - критическая область.
Поскольку гипотеза Г 1 в рассматриваемой постановке задачи является простой альтернативой, можно рассматривать только гипотезу Г 0 , так как отклонение Г 0 означает принятие гипотезы Г 1 .
Тогда из соотношений (3) – (5) получаем следующее Правило определения величины порога (Правило 1) : порог Та, 8 в окрестности O 8 точки 1 0 с заданной доверительной вероятностью а будем определять, как
Т а,8 Т а * ° 5 ,
где Т а - а -квантили распред. Стьюдента [11],
\ 1 25 / -------------------------- \2
Й 5 = 2^ E (|X I tn ], gm I tn ]|-|X I tn ] , gm I tn ]|) - выборочное стандартное отклонение величины КX[tn], gm[tn])| в окрестности O8 точки ti,
| X I tn ], gm I tn ]| - среднее значение.
В случае разложения функции X [ t n ] по вейвлет-ба-зису [12, 13], формула (2) примет вид [6, 8]:
N
F I t n ] = EE n ( X I t n ] , T k , n I t n ] ) T k , n I t n ] , (7)
k n =1
где T k , n I t n ] = 2 k 2 T ( 2 k t - n ) - вейвлеты,
П ( X I t n ] , T k , n I t n ] ) =
XI tn ], T k,n 11 ], если | XI tn ], T k,n I tn ]| — Та,k, n , -0, если | XI tn ], T k,n I tn ]|< Та, k, n , пороговые функции, Та,k,n = Та • °k,n - пороги на масштабе k в окрестности O8 точки t = n.
Замечание 1. В операции (7) пороги Т а , k , n , следуя соотношению (6), оцениваются на масштабе k в окрестности O 8 точки t n . Адаптация порогов Т а , k , n под изменяющиеся свойства сигнала позволяет подавить коррелированный шум.
Замечание 2. Попадание вейвлет-коэффициентов в критическую область A (см. соотн. (5)) означает принятие гипотезы Г 1 и, как показано в [8], в вейвлет-про-странстве обеспечивает обнаружение аномальных особенностей сигнала.
Погрешность r (F [tn ], FI tn ]) оценки F (см. (3)), очевидно, зависит от аппроксимирующего вейвлета (см. (6)). Следуя результатам [9], в вейвлет-базисе погрешность может быть оценена как rT (F [tn ], FI tn ]) =
= E min (| F I t n ] ’ T k , n I t n ]| 2 ’ ( ° *, n ) 2 k , n
Тогда, ограничив погрешность (8) величиной rT(F [tn ], FI tn ])< E П,n )2, k,n введем следующее правило определения наилучшего аппроксимирующего вейвлета (Правило 2).
Правило 2. Наилучшим аппроксимирующим вейвлетом Tmin для сигнала F будем считать вейвлет, удовлетворяющий условию rTmn (F [tn ],FI tn ]) = min E (°In )2’ k,n где Q - множество рассматриваемых вейвлетов,
Г] 25_/\ 2~
° I n = А Ь E (I X I t n ] , T k , n I t n ]| - 1 X I t n ] , T k , n I t n ]| ) .
V 28 n=1''
Табл. 1. Погрешности для разных вейвлетов
|
E „ К )2 |
Вейвлет-функция |
|||||
|
X |
coif_1 |
coif_2 |
coif_3 |
db_1 |
db_2 |
db_3 |
|
ст. Инувик |
0,0175 |
0,0170 |
0,0176 |
0,0178 |
0,0174 |
0,0176 |
|
0,0177 |
0,0175 |
0,0174 |
0,0178 |
0,0177 |
0,0173 |
|
|
ст. Оулу |
0,0189 |
0,0187 |
0,0188 |
0,0190 |
0,0189 |
0,0188 |
|
0,0202 |
0,0202 |
0,0201 |
0,0203 |
0,0200 |
0,0201 |
|
|
РН |
6 |
12 |
18 |
2 |
4 |
6 |
|
ЧНМ |
2 |
4 |
6 |
1 |
2 |
4 |
Замечание 3. В данной работе наилучший аппроксимирующий вейвлет определялся в рамках семейств Добеши и Койфлеты [12, 13]. Выбор семейств основывался на таких характеристиках вейвлетов, как гладкость, число нулевых моментов и размер носителя, обоснован в работе [14].
Результаты применения Правила 2 для вейвлетов семейств Добеши и Койфлеты представлены в табл. 1. Оценки выполнялись для вейвлетов порядков 1 – 3, с учетом допустимых размеров их носителей. Погрешности аппроксимации для разных вейвлетов рассчитывались по данным станций Инувик и Оулу в периоды высокой и низкой активности Солнца. В работе учитывались такие характеристики вейвлетов, как размер носителя (РН) и число нулевых моментов (ЧНМ).
Комплексный алгоритм анализа данных и обнаружения аномалий.
Алгоритм определения информационных компонент сигнала (Алгоритм 1):
Шаг 1. Используя базисы вейвлет-пакетов: W0 = ® I = 0 W jp ,{ T j (2 j t - m )} m e H , выполняем разложение сигнала и применяем пороговые функции, величины порогов определяем по правилу 1 :
Базис B jp1 = { T P (2 j t - m )} m e N пространства W jp есть базис
{Tj (2t-m )}meN , если Y\X, T P, m)l2 > £ | (X, T2^ m ) F + E | (X, T 2^ } \2, me Ip me IP me 12 P+1
j me N И— } me N s если £\{X,TP,m)\< £ \ {x,T 2+1,m) p + E \ где множество индексов I1, l = p, 2 p, 2 p +1, m e I1, если |X [ tn ] , TP m [ tn ]| > TP-m , TIP, j,m = T« ' 6P,m ■ Шаг 2. Выполняем вейвлет-восстановление преобразованного на основе шага 1 сигнала JN F [tn ] = EEn (X [tn ] , TPm [tn ]) TP m [tn ] , j=0 m=1 где N – длина сигнала, J – наибольший масштаб. Шаг 3. По правилу 2 определяем наилучший аппроксимирующий вейвлет Tmin ■ На выходе Алгоритма имеем вектор FTmin [tn ] ■ Алгоритм адаптивной вейвлет-фильтрации сигнала (Алгоритм 2): Шаг 1. Выполняем дискретное вейвлет-преобразование сигнала FTmin [tn ] и применяем пороговые функции (величины порогов определяем по правилу 1): N F[tn ] = EEn(FTmn [tn ],Tk,n [tn])Tk,n [tn ], k n=1 П (Ftmn [tn ], Tk,n [tn ]) = = j FTmn [ tn ] , Tk, n [ tn ] , если | FTmn [ tn ] , Tk, n [ tn ]|>To, k, n I 0, если |Ftmn [tn ], Tk,n [tn ]|< Ta,k,n To,k,n = ^ * 6k,n - пороги. Полученный преобразованный сигнал F [tn ] содержит аномальные особенности. Шаг 2. Оцениваем суммарную интенсивность выделенных аномальных особенностей: K E [tn ] = ЕП(FTmn [tn ],Tk,n [tn])■ k=0 Замечание 4. Для обеспечения оперативности получения результата алгоритма и сокращения времени его выполнения в шаге 1 Алгоритма 1 использовался предварительно определённый по Правилу 2 набор вейвлет-функций (см. табл. 1). На рис. 1 представлена блок-схема предлагаемого комплексного алгоритма. Рис. 1. Схема реализации комплексного алгоритма
2. Результаты применения алгоритма В работе использовались природные данные вторичных космических лучей [15] и модельные данные, построенные по их подобию. Вторичные космические лучи – это частицы высоких энергий, регистрируемые наземными станциями нейтронных мониторов [15]. Аномальные изменения в потоке вторичных космических лучей свидетельствуют о возмущениях в околоземном космическом пространстве, которые способны нарушить работу систем спутниковой, навигационной и радиосвязи, а также повысить риск обострения сердечно-сосудистых заболеваний людей [7, 16]. Аномальные изменения в космических лучах могут проявляться в виде так называемых Форбуш-эффектов (внезапное локальное снижение интенсивности космических лучей) [17] и GLE-событий (сильное локальное возрастание интенсивности космических лучей, регистрируемых на поверхности Земли) [18]. На рис. 2 представлен пример дерева вейвлет-паке-тов, построенного по алгоритму определения информационных компонент сигнала. Красным цветом отмечены выбранные информационные узлы. Ниже, на рис. 2, синим цветом показан исходный сигнал, оранжевым – результат данного алгоритма. Результат подтверждает нестационарную структуру регистрируемых данных вторичных космических лучей и наличие шума. Сентябрь 2014 Рис. 2. Результат алгоритма 1 На рис. 3 показан результат обнаружения малоамплитудной продолжительной аномальной особенности (отношение сигнал / шум 1.1) в построенном модельном сигнале на фоне коррелированного шума (добавлен аддитивный розовый шум). Обнаружение выполнено на основе применения операции непрерывного вейвлет-преобразования (НВП) (рис. 3в, г) и на основе предложенного комплексного алгоритма (рис. 3 д, е). Следует отметить, что аномальная особенность в зашумленном модельном сигнале не видна (рис. 3б). Полученный результат показывает, что ввиду наличия коррелированного шума её обнаружить на основе непрерывного вейвлет-преобразования невозможно. Предложенный алгоритм позволил подавить шум и обнаружить аномальную особенность. На рис. 4 представлен пример применения комплексного алгоритма к данным нейтронного монитора ст. Оулу за 15–18 июля (слева) и модельным данным (справа), содержащим аномальную особенность. В модельный сигнал добавлялись аномальные особенности вида треугольный импульс с отношением сигнал /шум = 1,5. Момент регистрации Форбуш-эффекта в природных данных [19] и добавленная аномальная особенность в модельные данные отмечены красными пунктирными вертикальными линиями. Результаты комплексного алгоритма представлены по мере поступления данных в систему обработки. Результат алгоритма подтверждает его эффективность как для модельных, так и для природных данных. Алгоритм позволил обнаружить аномальную особенность своевременно. Рис. 3. Результаты обработки: (а) тренд+аномалия; (б) тренд+аномалия+шум; (в, г) результат применения НВП; (д, е) результат применения комплексного алгоритма Рис. 4. Результат обработки: (а) данные нейтронного монитора ст. Оулу; (б) результаты применения комплексного алгоритма к данным нейтронного монитора (обработка выполнена по мере поступления данных в систему обработки); (в) модельные данные, построенные по подобию природных; (г) результаты применения комплексного алгоритма к модельным данным (обработка выполнена по мере поступления данных в систему обработки) В табл. 2 представлен расчет временных затрат на работу комплексного алгоритма. Расчет выполнен в зависимости от объема входных данных. Реализация комплексного алгоритма выполнена в программе, написанной на языке Java в среде разработки IntelliJ IDEA 2020.3.4 [20]. Временные затраты позволяют применять алгоритм в оперативном анализе данных нейтронных мониторов. Табл. 2. Временные затраты на работу комплексного алгоритма (мкс) Операции Объем входных данных (отсчеты) N=2880 N=4320 N=5760 Среднее время, мкс Вывод результата программы 75,45 109,78 127,05 Заключение Результаты исследования показали эффективность предложенного комплексного алгоритма для анализа природных данных и обнаружения аномальных особенностей разной формы и продолжительности. Применение алгоритма позволило обнаружить аномальную особенность малой амплитуды (отношение сигнал / шум 1.1) на фоне коррелированного шума. Данный результат свидетельствует о высокой эффективности разработанного алгоритма. Выполненный расчет временных затрат на выполнение алгоритма показал возможность его применения в режиме, близком к реальному времени, что важно для задач космической погоды. Работа выполнена за счет Государственного задания ИКИР ДВО РАН (рег. № темы 124012300245-2).


