Комплексный алгоритм обнаружения аномальных особенностей в природных временных рядах
Автор: Лисс А.Р., Мандрикова Б.С., Мандрикова О.В.
Журнал: Компьютерная оптика @computer-optics
Рубрика: Численные методы и анализ данных
Статья в выпуске: 6 т.49, 2025 года.
Бесплатный доступ
Предложен комплексный автоматизированный алгоритм анализа природных временных рядов и обнаружения аномальных особенностей. Алгоритм включает в себя алгоритм определения информационных компонент сигнала и алгоритм адаптивной вейвлет-фильтрации сигнала. Алгоритм определения информационных компонент сигнала выполняет подавление коррелированного шума и определение информационных составляющих сигнала. Алгоритм адаптивной вейвлет-фильтрации сигнала выполняет обнаружение аномальных особенностей и оценку их интенсивности. Данные алгоритмы могут применяться как совместно, так и независимо друг от друга. Основу алгоритмов составляют разработанные авторами правила. На основе правил оцениваются параметры пороговой функции и определяется наилучший аппроксимирующий вейвлет. В статье описаны операции комплексного алгоритма и представлена блок-схема его реализации. Также приведены результаты применения комплексного алгоритма с использованием данных вторичных космических лучей и модельных данных, построенных по их подобию. Результаты подтвердили эффективность разработанных правил и предлагаемого комплексного алгоритма.
Вейвлет-преобразование, теория рисков, природные аномалии, космические лучи
Короткий адрес: https://sciup.org/140313265
IDR: 140313265 | DOI: 10.18287/2412-6179-CO-1652
Complex algorithm for detecting anomalous features in natural data
A complex automated algorithm for analyzing natural data and detecting anomalous features is proposed. The algorithm includes an algorithm for determining the information components of a signal and an algorithm for adaptive wavelet filtering of a signal. The algorithm for determining the information components of a signal suppresses correlated noise and determines the information components of a signal. The algorithm for adaptive wavelet filtering of a signal detects anomalous features and estimates their intensity. The algorithms are based on the rules developed by the authors. Based on the rules, the parameters of the threshold function are estimated and the best approximating wavelet is determined. The article describes the operations of the complex algorithm and presents a block diagram of its implementation. Also presented are the results of applying a complex algorithm using data from secondary cosmic rays and model data constructed in their likeness. The results confirmed the effectiveness of the developed rules and the proposed complex algorithm.
Текст научной статьи Комплексный алгоритм обнаружения аномальных особенностей в природных временных рядах
Известной проблемой извлечения информации из данных в большинстве прикладных областей (физика, биология, медицина и др.) является высокая доля неполных априорных знаний об информационном сигнале и шуме. Процедуру выделения полезной информации из природных данных также существенно затрудняет наличие коррелированных шумов. Применение современных нейросетевых методов в некоторых случаях не обеспечивает требуемой точности решения данной задачи. Это связано с существенной нестацио-нарностью природных данных вследствие постоянной изменчивости природных процессов и отсутствием представительной выборки для обучения нейронных сетей. Указанные проблемы требуют усовершенствования методов обработки и анализа природных данных и создания новых более эффективных подходов и методов, в том числе с использованием нейросетевых технологий. Например, в работе [1] для решения задачи обнаружения аномалий в технологических сигналах авторами предлагается подход, основанный на комбинации ансамбля из базовых классификаторов на основе алгоритмов машинного обучения и вейвлет- преобразования. Применение вейвлет-коэффициентов на этапе формирования информативного признакового пространства для обучения классификаторов и консолидации прогнозов позволило повысить точность распознавания и повысить качество мониторинга объектов управления [1]. В работе [2] для задачи обнаружения ранних признаков отказов и поломок оборудования представлен подход к обнаружению аномалий в нестационарных технологических сигналах с использованием преобразования Гильберта–Хуанга совместно со статистической моделью классификации. Способность адаптации к нестационарным данным и высокая детализация в частотно-временной области подхода [2] позволила повысить точность обнаружения моделированных аномалий до 94%.
Задачи обработки и анализа природных данных, ввиду пассивности проводимых экспериментов, составляют еще большую сложность. Например, в работе [3], в области медицины, для оптимизации исследований головного мозга по данным функциональной магнитно-резонансной томографии (МРТ) предложена нейросетевая технология обнаружения ступенчатых аномалий с обучением на частично синтезированных данных с адаптацией на основе метаобучения.
Разработанная процедура формирования синтетического набора данных позволила существенно оптимизировать процедуру нейросетевого обучения [3]. Примером из области космофизики является работа [4], описывающая новый комбинированный метод выявления скрытых аномалий в вариациях галактических космических лучей (КЛ). Метод основан на совмещении спектрально-сингулярного разложения сигналов КЛ и вейвлет-преобразования. Как показано в работе [4], спектрально-сингулярное разложение сигналов КЛ позволяет изучить динамику вариаций, а вейвлет-преобразование позволяет вычислять энергию корот-копериодных вариаций произвольной формы (скрытых аномалий в КЛ) на фоне шума, превышающего по амплитуде полезный сигнал. В работах [5, 6] рассмотрены методы анализа природных данных для задач космической погоды. В частности, в работе [6] предложен автоматизированный метод анализа параметров ионосферы и обнаружения ионосферных аномалий на основе комплексного подхода, объединяющего методы вейвлет-преобразования с моделями авторегрессии – проинтегрированного скользящего среднего. На основе метода [6] исследователями обнаружены ко-роткопериодные аномальные изменения, предшествующие магнитным бурям и характеризующие возникновение колебательных процессов в ионосфере на фоне повышенной солнечной активности, что позволило авторам получить важный прикладной результат.
Объектом исследования являются алгоритмы анализа данных нейтронных мониторов (НМ), отражающих интенсивность вторичных космических лучей в околоземном пространстве [7]. В периоды повышенной солнечной активности в данных НМ наблюдаются аномальные особенности, обнаружение которых важно в задачах космической погоды [7]. Аномальные особенности в данных НМ возникают в случайные моменты времени и имеют разнообразную форму, что усложняет процедуру их обнаружения. Высокая доля неопределенности знаний о полезной составляющей данных НМ и их нестацио-нарность делает неэффективным применение классических методов анализа временных рядов (моделей ARIMA, методов декомпозиции временных рядов и т.п.). Применение методов машинного обучения, в частности нейронных сетей, требует периодической адаптации алгоритмов ввиду существенной изменчивости временного хода данных НМ. Это снижает их эффективность и не обеспечивает возможность получения результата в оперативном режиме.
Учитывая структуру анализируемых данных, в работе предложен комплексный алгоритм обнаружения аномальных особенностей, основанный на синтезе вейвлет-преобразования с адаптивными пороговыми функциями. Методы вейвлет-преобразо-вания имеют обширный набор базисов разной формы и эффективны для анализа данных нестационарной структуры. Использование вейвлетов в работе позволило реализовать операции обнаружения и оценки параметров аномальных особенностей разной формы и длительности, в том числе резких всплесков, особенностей пикообразной формы и др. Компактный носитель вейвлетов обеспечил высокую степень локализации получаемой информации о моментах возникновения аномальных особенностей. Построенный комплексный алгоритм основан на разработанных авторами правилах, применение которых позволяет минимизировать погрешность оценки информационного сигнала. Предложенный алгоритм основан на теории, описанной в работах [6, 8], и включает в себя алгоритм определения информационных компонент сигнала и алгоритм адаптивной вейвлет-фильтрации сигнала. Алгоритм определения информационных компонент сигнала (алгоритм 1) подавляет шум, в том числе коррелированный, и определяет информационные составляющие сигнала. Алгоритм адаптивной вейвлет-филь-трации сигнала (алгоритм 2) путем комбинации дискретного вейвлет-преобразования и пороговых функций обнаруживает аномальные особенности и оценивает их интенсивность. Алгоритм 1 и алгоритм 2 являются законченными и могут быть применены независимо. В статье описаны операции комплексного алгоритма, представлена блок-схема его реализации. Показаны результаты применения комплексного алгоритма с использованием природных данных вторичных космических лучей и модельных данных, построенных по их подобию.
1. Описание комплексного алгоритма
Регистрируемый сигнал рассматривается как комбинация
X [ t ] = F [ t ] + V [ t ], (1)
где F [ t ] - полезный сигнал, F принадлежит пространству Гильберта H [9], V [ t ] – шум.
Выполняя разложение сигнала X в пространстве Н по базису B = { gm } m € N (N - натуральные числа) и применяя пороговые функции, получаем:
F = £ П ( X , gm ) g m , (2)
meN где
, . I x , если I x | > T ,
П ( x ) = \ -
-
[ 0, если | x | < T,
пороговая функция, 0 - скалярное произведение.
На основе операции (2) стоит задача подавить шум и выделить информационные компоненты сигнала. Погрешность оценки (2) для дискретного сигнала F [ tn ], tn € {1, • • •, N}, N — длина сигнала, есть r (F [tn ], F[ tn ]) = E{F [tn ]-X| tn ]2} =
= E ( E| F [ t - ] - X 1 1 - ]| 2 1 = (3)
l t n =1 J
= E J E I X I t n ] , g m I t n ]|2 ’ ,
[ t n e { t n :| X I t n ] , g m I tn ]|< T }
E – математическое ожидание, || || – норма в пространстве H.
Очевидно, погрешность (3) определяется абсолютными значениями коэффициентов |( X, g m ) | разложения по базису и зависит от величины порога T.
Определение величины порога.
Применяя критерий отношения [10, 11] в окрестности O 8 [ t ]={ t n :| t n - t i l < 8 } некоторой точки t i , t i € {1,..., N}, будем иметь:
L ( X 1 1 . ] ) =
W ( X | t i ] / s i ) W ( X | t i ] / s о )
— T 8 ,
где L ( X [ t i ]) – функция правдоподобия, W ( X [ t i ] / s 0 ), W ( X [ t i ] / s 1 ) – плотности вероятностей при отсутствии (справедливости гипотезы Г 0 ) и наличии информационной составляющей сигнала (справедливости гипотезы Г 1 ) соответственно, s 0 , s 1 – возможные состояния сигнала, T 8 - величина порога в окрестности O 8 - некоторой точки t i .
Тогда, используя критерий Неймана–Пирсона [10, 11], для оценки порога Tа, 8 в окрестности O 8 точки t i с заданной доверительной вероятностью а будем решать следующую оптимизационную задачу:
| A W ( X | t i ] / s 0 ) dX =а = const , J 0 W ( X 1 1 , .] / s 1 ) df =y^ max,
где а - заданная ошибка первого рода, у = 1 - Р - мощность критерия, Р - ошибка второго рода, A - критическая область.
Поскольку гипотеза Г 1 в рассматриваемой постановке задачи является простой альтернативой, можно рассматривать только гипотезу Г 0 , так как отклонение Г 0 означает принятие гипотезы Г 1 .
Тогда из соотношений (3) – (5) получаем следующее Правило определения величины порога (Правило 1) : порог Та, 8 в окрестности O 8 точки 1 0 с заданной доверительной вероятностью а будем определять, как
Т а,8 Т а * ° 5 ,
где Т а - а -квантили распред. Стьюдента [11],
\ 1 25 / -------------------------- \2
Й 5 = 2^ E (|X I tn ], gm I tn ]|-|X I tn ] , gm I tn ]|) - выборочное стандартное отклонение величины КX[tn], gm[tn])| в окрестности O8 точки ti,
| X I tn ], gm I tn ]| - среднее значение.
В случае разложения функции X [ t n ] по вейвлет-ба-зису [12, 13], формула (2) примет вид [6, 8]:
N
F I t n ] = EE n ( X I t n ] , T k , n I t n ] ) T k , n I t n ] , (7)
k n =1
где T k , n I t n ] = 2 k 2 T ( 2 k t - n ) - вейвлеты,
П ( X I t n ] , T k , n I t n ] ) =
XI tn ], T k,n 11 ], если | XI tn ], T k,n I tn ]| — Та,k, n , -0, если | XI tn ], T k,n I tn ]|< Та, k, n , пороговые функции, Та,k,n = Та • °k,n - пороги на масштабе k в окрестности O8 точки t = n.
Замечание 1. В операции (7) пороги Т а , k , n , следуя соотношению (6), оцениваются на масштабе k в окрестности O 8 точки t n . Адаптация порогов Т а , k , n под изменяющиеся свойства сигнала позволяет подавить коррелированный шум.
Замечание 2. Попадание вейвлет-коэффициентов в критическую область A (см. соотн. (5)) означает принятие гипотезы Г 1 и, как показано в [8], в вейвлет-про-странстве обеспечивает обнаружение аномальных особенностей сигнала.
Погрешность r (F [tn ], FI tn ]) оценки F (см. (3)), очевидно, зависит от аппроксимирующего вейвлета (см. (6)). Следуя результатам [9], в вейвлет-базисе погрешность может быть оценена как rT (F [tn ], FI tn ]) =
= E min (| F I t n ] ’ T k , n I t n ]| 2 ’ ( ° *, n ) 2 k , n
Тогда, ограничив погрешность (8) величиной rT(F [tn ], FI tn ])< E П,n )2, k,n введем следующее правило определения наилучшего аппроксимирующего вейвлета (Правило 2).
Правило 2. Наилучшим аппроксимирующим вейвлетом Tmin для сигнала F будем считать вейвлет, удовлетворяющий условию rTmn (F [tn ],FI tn ]) = min E (°In )2’ k,n где Q - множество рассматриваемых вейвлетов,
Г] 25_/\ 2~
° I n = А Ь E (I X I t n ] , T k , n I t n ]| - 1 X I t n ] , T k , n I t n ]| ) .
V 28 n=1''
Табл. 1. Погрешности для разных вейвлетов
|
E „ К )2 |
Вейвлет-функция |
|||||
|
X |
coif_1 |
coif_2 |
coif_3 |
db_1 |
db_2 |
db_3 |
|
ст. Инувик |
0,0175 |
0,0170 |
0,0176 |
0,0178 |
0,0174 |
0,0176 |
|
0,0177 |
0,0175 |
0,0174 |
0,0178 |
0,0177 |
0,0173 |
|
|
ст. Оулу |
0,0189 |
0,0187 |
0,0188 |
0,0190 |
0,0189 |
0,0188 |
|
0,0202 |
0,0202 |
0,0201 |
0,0203 |
0,0200 |
0,0201 |
|
|
РН |
6 |
12 |
18 |
2 |
4 |
6 |
|
ЧНМ |
2 |
4 |
6 |
1 |
2 |
4 |
Замечание 3. В данной работе наилучший аппроксимирующий вейвлет определялся в рамках семейств Добеши и Койфлеты [12, 13]. Выбор семейств основывался на таких характеристиках вейвлетов, как гладкость, число нулевых моментов и размер носителя, обоснован в работе [14].
Результаты применения Правила 2 для вейвлетов семейств Добеши и Койфлеты представлены в табл. 1. Оценки выполнялись для вейвлетов порядков 1 – 3, с учетом допустимых размеров их носителей. Погрешности аппроксимации для разных вейвлетов рассчитывались по данным станций Инувик и Оулу в периоды высокой и низкой активности Солнца. В работе учитывались такие характеристики вейвлетов, как размер носителя (РН) и число нулевых моментов (ЧНМ).
Комплексный алгоритм анализа данных и обнаружения аномалий.
Алгоритм определения информационных компонент сигнала (Алгоритм 1):
Шаг 1. Используя базисы вейвлет-пакетов: W0 = ® I = 0 W jp ,{ T j (2 j t - m )} m e H , выполняем разложение сигнала и применяем пороговые функции, величины порогов определяем по правилу 1 :
Базис B jp1 = { T P (2 j t - m )} m e N пространства W jp есть базис
{Tj (2t-m )}meN , если Y\X, T P, m)l2 > £ | (X, T2^ m ) F + E | (X, T 2^ } \2, me Ip me IP me 12 P+1
j me N И— } me N s если £\{X,TP,m)\< £ \ {x,T 2+1,m) p + E \ где множество индексов I1, l = p, 2 p, 2 p +1, m e I1, если |X [ tn ] , TP m [ tn ]| > TP-m , TIP, j,m = T« ' 6P,m ■ Шаг 2. Выполняем вейвлет-восстановление преобразованного на основе шага 1 сигнала JN F [tn ] = EEn (X [tn ] , TPm [tn ]) TP m [tn ] , j=0 m=1 где N – длина сигнала, J – наибольший масштаб. Шаг 3. По правилу 2 определяем наилучший аппроксимирующий вейвлет Tmin ■ На выходе Алгоритма имеем вектор FTmin [tn ] ■ Алгоритм адаптивной вейвлет-фильтрации сигнала (Алгоритм 2): Шаг 1. Выполняем дискретное вейвлет-преобразование сигнала FTmin [tn ] и применяем пороговые функции (величины порогов определяем по правилу 1): N F[tn ] = EEn(FTmn [tn ],Tk,n [tn])Tk,n [tn ], k n=1 П (Ftmn [tn ], Tk,n [tn ]) = = j FTmn [ tn ] , Tk, n [ tn ] , если | FTmn [ tn ] , Tk, n [ tn ]|>To, k, n I 0, если |Ftmn [tn ], Tk,n [tn ]|< Ta,k,n To,k,n = ^ * 6k,n - пороги. Полученный преобразованный сигнал F [tn ] содержит аномальные особенности. Шаг 2. Оцениваем суммарную интенсивность выделенных аномальных особенностей: K E [tn ] = ЕП(FTmn [tn ],Tk,n [tn])■ k=0 Замечание 4. Для обеспечения оперативности получения результата алгоритма и сокращения времени его выполнения в шаге 1 Алгоритма 1 использовался предварительно определённый по Правилу 2 набор вейвлет-функций (см. табл. 1). На рис. 1 представлена блок-схема предлагаемого комплексного алгоритма. Рис. 1. Схема реализации комплексного алгоритма
2. Результаты применения алгоритма В работе использовались природные данные вторичных космических лучей [15] и модельные данные, построенные по их подобию. Вторичные космические лучи – это частицы высоких энергий, регистрируемые наземными станциями нейтронных мониторов [15]. Аномальные изменения в потоке вторичных космических лучей свидетельствуют о возмущениях в околоземном космическом пространстве, которые способны нарушить работу систем спутниковой, навигационной и радиосвязи, а также повысить риск обострения сердечно-сосудистых заболеваний людей [7, 16]. Аномальные изменения в космических лучах могут проявляться в виде так называемых Форбуш-эффектов (внезапное локальное снижение интенсивности космических лучей) [17] и GLE-событий (сильное локальное возрастание интенсивности космических лучей, регистрируемых на поверхности Земли) [18]. На рис. 2 представлен пример дерева вейвлет-паке-тов, построенного по алгоритму определения информационных компонент сигнала. Красным цветом отмечены выбранные информационные узлы. Ниже, на рис. 2, синим цветом показан исходный сигнал, оранжевым – результат данного алгоритма. Результат подтверждает нестационарную структуру регистрируемых данных вторичных космических лучей и наличие шума. Сентябрь 2014 Рис. 2. Результат алгоритма 1 На рис. 3 показан результат обнаружения малоамплитудной продолжительной аномальной особенности (отношение сигнал / шум 1.1) в построенном модельном сигнале на фоне коррелированного шума (добавлен аддитивный розовый шум). Обнаружение выполнено на основе применения операции непрерывного вейвлет-преобразования (НВП) (рис. 3в, г) и на основе предложенного комплексного алгоритма (рис. 3 д, е). Следует отметить, что аномальная особенность в зашумленном модельном сигнале не видна (рис. 3б). Полученный результат показывает, что ввиду наличия коррелированного шума её обнаружить на основе непрерывного вейвлет-преобразования невозможно. Предложенный алгоритм позволил подавить шум и обнаружить аномальную особенность. На рис. 4 представлен пример применения комплексного алгоритма к данным нейтронного монитора ст. Оулу за 15–18 июля (слева) и модельным данным (справа), содержащим аномальную особенность. В модельный сигнал добавлялись аномальные особенности вида треугольный импульс с отношением сигнал /шум = 1,5. Момент регистрации Форбуш-эффекта в природных данных [19] и добавленная аномальная особенность в модельные данные отмечены красными пунктирными вертикальными линиями. Результаты комплексного алгоритма представлены по мере поступления данных в систему обработки. Результат алгоритма подтверждает его эффективность как для модельных, так и для природных данных. Алгоритм позволил обнаружить аномальную особенность своевременно. Рис. 3. Результаты обработки: (а) тренд+аномалия; (б) тренд+аномалия+шум; (в, г) результат применения НВП; (д, е) результат применения комплексного алгоритма Рис. 4. Результат обработки: (а) данные нейтронного монитора ст. Оулу; (б) результаты применения комплексного алгоритма к данным нейтронного монитора (обработка выполнена по мере поступления данных в систему обработки); (в) модельные данные, построенные по подобию природных; (г) результаты применения комплексного алгоритма к модельным данным (обработка выполнена по мере поступления данных в систему обработки) В табл. 2 представлен расчет временных затрат на работу комплексного алгоритма. Расчет выполнен в зависимости от объема входных данных. Реализация комплексного алгоритма выполнена в программе, написанной на языке Java в среде разработки IntelliJ IDEA 2020.3.4 [20]. Временные затраты позволяют применять алгоритм в оперативном анализе данных нейтронных мониторов. Табл. 2. Временные затраты на работу комплексного алгоритма (мкс) Операции Объем входных данных (отсчеты) N=2880 N=4320 N=5760 Среднее время, мкс Вывод результата программы 75,45 109,78 127,05 Заключение Результаты исследования показали эффективность предложенного комплексного алгоритма для анализа природных данных и обнаружения аномальных особенностей разной формы и продолжительности. Применение алгоритма позволило обнаружить аномальную особенность малой амплитуды (отношение сигнал / шум 1.1) на фоне коррелированного шума. Данный результат свидетельствует о высокой эффективности разработанного алгоритма. Выполненный расчет временных затрат на выполнение алгоритма показал возможность его применения в режиме, близком к реальному времени, что важно для задач космической погоды. Работа выполнена за счет Государственного задания ИКИР ДВО РАН (рег. № темы 124012300245-2).


