Статистическая оценка вероятности правильного обнаружения веществ в ИК Фурье-спектрометрии

Автор: Морозов Андрей Николаевич, Кочиков Игорь Викторович, Новгородская Алла Викторовна, Сологуб Александр Александрович, Фуфурин Игорь Леонидович

Журнал: Компьютерная оптика @computer-optics

Рубрика: Обработка изображений: Восстановление изображений, выявление признаков, распознавание образов

Статья в выпуске: 4 т.39, 2015 года.

Бесплатный доступ

В работе рассмотрена задача идентификации веществ по инфракрасным спектрам. В качестве метода идентификации используется последовательное сравнение исследуемого спектра с эталонными спектрами веществ из базы данных. В качестве меры схожести между двумя спектрами используется статистический коэффициент корреляции Пирсона. Рассмотрен случай, когда исследуемый спектр является спектром некоторого вещества в виде заданного спектра из базы данных с аддитивной добавкой белого δ-коррелированного шума с Гауссовым распределением. В этом случае найдены вероятностные характеристики статистического коэффициента корреляции. Введено понятие правильного обнаружения вещества, и найдены теоретические выражения для вероятности правильного обнаружения. Разработана методика определения пороговых значений коэффициента корреляции по заданной вероятности правильной идентификации. В численных экспериментах показана применимость описанных методик.

Еще

Спектроскопия, идентификация, вероятность обнаружения, вероятностный порог обнаружения

Короткий адрес: https://sciup.org/14059403

IDR: 14059403   |   DOI: 10.18287/0134-2452-2015-39-4-614-621

Текст научной статьи Статистическая оценка вероятности правильного обнаружения веществ в ИК Фурье-спектрометрии

Проблема дистанционного контроля загрязнения атмосферы, а также химического контроля воздушной среды промышленных и других важных объектов на сегодняшний день является достаточно актуальной. Причиной этому служит всё больший рост числа загрязняющих веществ, а также производств, выбросы которых не удаëтся определить в непосредственном контакте. Вследствие этого уже более двух столетий ведутся разработки по созданию технологий и методов бесконтактной идентификации. Одним из характерных свойств, являющимся сугубо индивидуальным для каждого вещества, является оптический спектр, что позволяет использовать его как некий идентификатор. Одним из распространëнных методов получения спектров веществ является инфракрасная (ИК) спектрометрия. Выбор именно ИК-области обусловлен тем, что излучение этого диапазона возбуждает колебательное движение молекул или их отдельных фрагментов, вследствие чего происходит ослабление интенсивности только на частотах колебаний молекул, поэтому спектры каждого из веществ являются уникальными, а линии спектра селективными и ярко выраженными.

ИК-спектрометры разделяются на дифракционные и фурье-спектрометры на базе интерферометров. В данной работе будет рассмотрен второй класс приборов, однако описанные методы можно применять и для дифракционного метода. Особенностью фурье-спектрометров является возможность работы с более низкими интенсивностями [1] нежели в дифракционных установках, что позволяет детектировать спектры собственного излучения.

Важной задачей, возникающей при разработке ИК фурье-спектрометра, является выбор способа иден- тификации вещества по восстановленному спектру. Разумеется, возможен анализ химического состава по наличию некоторых характерных полос в спектре, однако более надëжным и точным методом является последовательное сравнение полученного спектра со спектрами уже известных веществ, хранящихся в базе данных эталонных спектров. Очевидно, что идентифицируемый сигнал может быть значительно зашум-лëн, что ещё сильнее усложняет ситуацию. В настоящее время известно множество различных методов и средств решения задач распознавания, таких как: обучаемые нейронные сети [2], использование нечëт-кой логики [3], методы PCA (principal component analysis) [4], а также введение различных мер схожести между данными [5– 11]. Основные работы по поиску и сравнению спектров веществ в базе данных были сделаны Клерком [12] и Луинджи [13]. Также фундаментальная работа по расчëту мер схожести в базе данных была проделана в [14]. Одной из возможных мер схожести является статистический коэффициент корреляции Пирсона [15] (здесь и далее будем считать, что спектры представлены в виде числовых векторов конечной длины):

( x - x ) T( y - y )

  • ■ II x - x llll y - y l ’                                       (}

где x, y - векторы сравниваемых спектров, x - среднее арифметическое компонент вектора x , ||x || - евклидова норма вектора.

Здесь и далее выражение x - x означает вычитание из всех компонент вектора одинаковый скаляр.

Известно, что r ∈ [-1,1], причëм равенство единице достигается только если сигналы линейно зависи- мы, что в случае спектров даëт повод говорить об их идентичности. Чем менее «схожи» спектры, тем ближе величина (1) к нулю. Заметим, что из стремления (1) к единице следует стремление нормы разности спектров к глобальному минимуму. В работах [16– 22] описан метод идентификации по коэффициенту корреляции: сначала величина (1) рассчитывается для исследуемого спектра со всеми спектрами из базы данных, далее выбирается вещество с максимальным коэффициентом корреляции, и если (1) превысили заранее заданный эмпирический порог, то вещество считается идентифицированным.

1.    Вероятностные характеристики коэффициента корреляции

Фишер и Кенни в [23, 24] получили точное теоретическое выражение для функции плотности вероятности коэффициента корреляции Пирсона в случае, когда сравниваются две случайные величины с двумерным гауссовым распределением в известной корреляции. Существенным ограничением является то, что оба вектора должны быть случайными. В свою очередь, при идентификации по базе данных в ИК фурье-спектрометрии эталонные спектры могут считаться точно известными, так как были получены в лабораторных исследованиях путëм множественных усреднений. Также невозможно заранее знать вероятностный коэффициент корреляции без набора множественной статистики.

Предположим, что исследуемый вектор зашумлëн белым аддитивным шумом, имеющим нормальное распределение, тогда итоговый спектр будет иметь такие же характеристики шума из-за свойств преобразования Фурье. То есть исследуемый спектр может быть представлен в виде:

т   т*   т     т   т*

x =τ +ξ , y ,                           (2)

где т*- вектор эталонного спектра, ^ - шумовой вектор, каждая компонента которого имеет нормальное распределение с известными характеристиками N(0,σξ2).

Обозначим через r j коэффициент корреляции спектра X с веществом из базы данных под номером j = 1,..., M , где M – число веществ в базе данных. Будем считать, что база включает в себя вещество со т спектром τ , и пусть его номер j .

Получим явное выражение для коэффициента корреляции в случае, когда спектр X сравнивается со спектром т * . Подставив (2) в (1), получим:

* rj

σ ˆ τ * + σξ r ξ j * σ ˆ τ 2 * + δ 2 + 2 σ ˆ τ * σξ r ξ j *

-    II т* —т*|2

где σ 2 * =          – среднеквадратичное отклонение

т*

спектра τ , характеризующее его интенсивность,

*

j r ξ

ЛT ( т * * )

N σ σ ˆ ξ τ

– коэффициент корреляции чистого шума с эталонным спектром т * ,

δ 2 = ξ-ξ 2 N

среднеквадратичное отклонение шума,

N – число точек в экспериментальном спектре.

Видно, что r j * является функцией от двух случайных величин (4) и (5), имеющих нормальное и хи-квадрат распределения соответственно. Точный анализ функции (3) в этом случае представлен в [25]. Однако можно воспользоваться тем фактом, что в рассматриваемых спектрах число N достаточно велико (обычно от 200 до 800) для того, чтобы рассматривать выражение (5) как точечную оценку дисперсии σξ 2 . Заметим, что в знаменателе (3) складываются

δ 2 и величина 2 σ ˆ τ * σξ r ξ j * . Если принять δ 2 = σξ 2 , то

(2 N - 2) σξ 4 ошибка такой оценки будет составлять

N 2

*

[26], а дисперсию величины 2 σ ˆ τ * σξ r ξ j можно полу-

4 σξ 2 σ ˆ 2 *

чить по теореме о сумме случайных величин:    N τ

Если выполнено условие

(2 N - 2) σξ 4 N 2 σ ˆ 2*

^    » 0,5

σ ξ 2

4 σ 2 σ ˆ 2

« — ^

-

N

1 2 N

,

то можно принять величину δ2 за детерминированную и равную σξ2 . В левой части выражения (6) сто- ит отношение сигнал/шум (SNR). Таким образом, условие (6) можно интерпретировать как требование значительного превышения уровня сигнала над уровнем шума.

С учëтом (6) выражение (3) может быть представлено в виде:

SNR + r ξ j * rj =                             *

SNR + 1 + 2 SNR r ξ j

.

Сходный результат был получен в [27], однако при учëте того, что r ξ j * 0 , что возможно только при N →∞ .

Коэффициент корреляции (7) является функцией только одной случайной величины с известным рас- пределением:

w ( r ξ j *) =

N 2 π exp

С И ^

/

С использованием функции (8), могут быть полу- чены моменты всех порядков.

Для случая j ^ j * коэффициент корреляции за-

пишется в виде

rj _

*

rJj ^SNR + r j

' SNR + 1 + 2 4SNRr^' ’

Математически вероятность такого события запишется следующим образом

P correct _ P [ ( r j * J V j * j * ) Л ( r J * r * ) ]         (11)

где введено r

* _ ( T j -T j ) T ( T - T * )

Рассмотрим отдельно каждую из скобок. Подставим в (11) полученные ранее выражения (7) и (9), тогда

T j -

t j |K -*1 ’

r s J определяет

ся аналогично (4), но для спектра т J , T J - эталонный спектр вещества j в базе данных.

Функция (9) зависит от двух случайных величин, причëм стоит учитывать, что эти величины не являются независимыми. Чтобы найти их совместное распределение, нужно знать корреляционную функцию шума. Примем, что шум является некоррелированным (S i S j / _ о ^ 8 ij , где 8 ij - символ Кронекера. Тогда с учëтом (8) ковариация коэффициентов корреляции запишется

*** jj jj j j cov^ , г ) _ \ г , г ^ ) \ ^ /\ г ) _

_ ( Т * -T * ) T ( т J -T J )_ rJ                         (10)

_    N 2о .д,    _ N ’ т тJ а вероятностный коэффициент корреляции будет равен r jj* .

Таким образом, получены упрощëнные формулы для коэффициентов корреляции (7) и (9), а также найдены свойства случайных величин, входящих в них.

2. Правильное обнаружение вещества

Поскольку исследуемый спектр является зашумлённым, не всегда удаëтся правильно идентифицировать вещество. Возможны случаи, когда, например, будет идентифицировано другое вещество, либо когда сигнал будет расценён как чистый шум и пропущен. На практике необходимо знать, с какой вероятностью было произведено обнаружение. Конкретизируем понятие правильного обнаружения.

Пусть исследуется спектр X вещества j * из базы данных. Тогда обнаружение считается правильным, если коэффициент корреляции r j * превысил коэффициент корреляции со всеми другими веществами, и к тому же превысил некоторый заранее заданный порог rj * .

(      2 ( 1 - r 1y )

1 + r 211

-

Е

N

( r +

r 1 j *

)

1 - r1f

1 + r 1,2 - ( r 1 J + r 2 J )

2 ( 1 - r2j* )

1 - r2j*

Совместная плотность вероятности для вектора Л будет иметь вид

w ( Л )      1---- exp I - 1 Л T ЕЛ

,п е I 2

r( - r { > SSN R ( r j - 1 ) .

Введем величину Ф j :

*

ф * _ r ^ j

j r^

S T ( т * -T * ) S T ( T j -T j )

N oEd, S T

N oEd ,

S T J

.

Из формулы (11) видно, что вероятность правильного обнаружения можно представить как функцию

только одного

Л _ { фр Ф 2 , ^ 2’, ^ ,

случайного

вектора

Ф M } , имеющего длину M (чис-

ло веществ в базе данных), и на позиции j * стоит величина r ^ J * . Видно, что все компоненты вектора Л статистически зависимы и вместе подчиняются многомерному Гауссову распределению. Чтобы найти их совместное распределение, построим ковариационную матрицу для величин Ф i и Ф j . Воспользуемся условиями из (10) для корреляции шума, тогда

cov ( ф i , Ф * ) _

/ .л -л \

1 + r i - ( r i + rJ )

где i , j ^ j *.

Ковариация величин

/ j * _ \ 1 - rJJ cov r , Ф , _------.

\ S J) N

N

,

*

r ^ j и Ф j будет равна:

.

Рассмотрим выражение во второй скобке Подставив (7), получим: *

V SNR + r S j SNR + 1 + 2^ SNRrS"

*

= >  r, .

*           j *

в

Обозначим верхнее и нижнее решение этого выражения относительно r ^ J как Г up и Г down соответственно.

Совместив (13) и (14) и с учетом формулы (8), получим итоговую ковариационную матрицу:

1 - r 1 j *

1 - r

2 j *

••

В итоге вероятность (11) может быть найдена как интеграл от (15) по области допустимых значений:

Pcorrect _ J W(Л) dЛ ,(16)

Г

где Г - область, ограниченная Г up , Г down и неравенством (12).

Опишем кратко полученный алгоритм расчёта вероятности правильного обнаружения:

  • 1.    Исследуемый спектр последовательно сравнивается со всеми веществами из базы данных.

  • 2.    Выбирается вещество, коэффициент корреляции с которым оказался максимальным.

  • 3.    Если максимальный коэффициент корреляции превысил эмпирический порог, то вещество считается идентифицированным.

  • 4.    Запоминается номер идентифицированного вещества.

  • 5.    По этому номеру строится ковариационная матрица X и находятся границы области значений Г .

  • 6.    По формуле (16) находится вероятность правильного обнаружения.

  • 3.    Экспериментальная проверка

Для проверки полученных результатов были проведены численные эксперименты с реальной базой данных спектральных коэффициентов пропускания, состоящей более чем из 50 спектров. Численное моделирование проводилось в MATLAB путём генерации случайных величин с последующим расчëтом различных статистических характеристик. Обычно эксперимент повторялся 1000 – 10000 раз с различны- ми веществами и статистически находились несме-щëнные вероятностные оценки математического ожидания.

На рис.1 изображено сравнение теоретических средних значений, полученных по формулам (7) и (9), с математическими ожиданиями коэффициента корреляции (1) (на рисунке показаны точками). Видно хорошее совпадение результатов, что говорит о применимости оценки (6) для расчётов моментов первого порядка. Далее, на рис. 2, показаны эксперименты по расчёту среднеквадратичного отклонения в сравнении с дисперсиями коэффициентов корреляции для двух пар тестовых веществ. Однако, в этом случае уже наблюдается расхождение при низких значениях отношения «сигнал/шум».

Из (15) и (16) видно, что для расчëта вероятности правильного обнаружения необходимо вести интегрирование по области очень большой размерности (в данном случае dim(Г) = 58 ). Этот факт существенно замедляет скорость работы реальных систем и полностью исключает возможность работы в режиме реального времени. Однако в ходе численных экспериментов было установлено, что в качестве оценки величины (16) может выступать математическое ожидание вероятностей превышения коэффициента корреляции rj над всеми остальными r j :

Р , correct

= — У Р ^ >  г M ^ (

j ) P ( r j j ) ,

причём каждая вероятность в сумме (17) выражается через функции ошибок:

P ( rj * > rj ) = 2 X

X erf

I

+ erf

*

N SNR (1 - r j )

V 4

Рис.1. Зависимость среднего значения E [ r j ] коэффициента корреляции от отношения «сигнал/шум»

Рис.2. Зависимость дисперсии D [ r j ] коэффициента корреляции от отношения «сигнал/шум» SNR

Результаты сравнения (17) с экспериментом показаны на рис. 3. Каждая экспериментальная точка просчитывалась 1000 раз и затем усреднялась. Результаты совпадают даже для низких значений «сигнал/шум». Для случая SNR > 1 для всех веществ показано, что вероятность события r j * r j крайне мала. Поэтому решающую роль играет правый множитель в (17):

Г up ( r j* , SNR )

P ( r j * r j * ) =      j     w ( r i * ) d r(.                (19)

г down ( r j* , SNR )

Выражение (19) удаëтся представить через неэлементарные функции, однако запись является слишком громоздкой, чтобы приводить её в статье. Заметим, что с помощью (19) можно находить пороги для заданной вероятности правильного обнаружения. Хотя зависимость r** (Pcorrect) не выражается явно, опреде- ление порога обнаружения при заданной вероятности может вестись с помощью алгоритма интерполяционного поиска, так как P(rj**) является монотонно убывающей функцией. Трудоëмкость такого алгоритма [28] можно оценить как O(log2 [log2 (1/ε)]) , где ε – допустимая погрешность. Этот результат даёт возможность находить пороги обнаружения веществ при различных отношениях «сигнал/шум», гарантируя заданную вероятность правильного обнаружения (рис. 4).

Рис. 3. Вероятность правильного обнаружения Pcorrect от отношения «сигнал/шум» SNR

Заключение

В работе рассмотрен метод определения вероятностных характеристик коэффициента корреляции Пирсона в случае, когда один из сигналов имеет аддитивную добавку из гауссовского δ-коррелиро-ванного шума, а другой является незашумлëнным. Данный метод предлагается применять для идентификации веществ по их спектрам в фурье-спек-трометрии. Основное допущение метода основывается на замене величины с распределением хи-квадрат на еë статистическую оценку. Показано, что такое приближение применимо при больших отношениях сигнал/шум.

На основе полученных вероятностных характеристик введено понятие вероятности правильного обнаружения вещества и найдено явное теоретическое выражение для этой вероятности. Также найдены уп-рощëнные выражения, позволяющие находить вероятность гораздо быстрее при численном расчёте.

Показано, что вероятность правильного обнаружения зависит от порогового коэффициента корреляции, который ранее определялся эмпирическим путём. Предложена методика, позволяющая находить порог обнаружения по заданной вероятности правильного обнаружения и отношению сиг-нал/шум.

Разработанные методы проверены на реальной базе данных спектров веществ, состоящей из 58 веществ, и показана применимость предложенных методов при выполнении введëнных приближений.

Рис. 4. Пороговый коэффициент корреляции в зависимости от отношения «сигнал/шум» SNR для заданной вероятности правильного обнаружения

Список литературы Статистическая оценка вероятности правильного обнаружения веществ в ИК Фурье-спектрометрии

  • Основы фурье-спектрорадиометрии/А.Н. Морозов, С.И. Светличный. -М.: Наука, 2006. -275 с.
  • Hemmer, M.C. Prediction of Three-Dimensional Molecular Structures Using Information from Infrared Spectra/M.C. Hemmer, J. Gasteiger//Analitica Chimica Acta. -2000. -Vol. 420(2) -P. 145-154. -ISSN 0003-2670.
  • Joined knowledge-and signal processing for infrared spectrum interpretation/F. Ehrentreich//Analitica Chimica Acta. -1999. -Vol. 393. -P. 193-200. -ISSN 0003-2670.
  • Schoonjans, V. Assessing molecular similarity/diversity of chemical structures by FT-IR spectroscopy/V. Schoonjjans, F. Questier//Journal of Pharmaceutical and Biomedical Analysis. -2001. -Vol. 24. -P. 613-627.
  • Лебедев, К.С. Использование баз данных по ИК-и масс-спектрам для установления строения органических соединений/К.С. Лебедев//Журнал аналитической химии. -1993. -Т. 48. -С. 851-863.
  • Varmuza, K. Maximum Common Substructures of Organic Compounds Exhibiting Similar Infrared Spectra/K. Varmuza, P.N. Penchev, H. Scsibrany//Journal of Chemical Information and Computer Sciences Impact. -1998. -Vol. 38. -P. 420-427.
  • Varmuza, K. Large and frequently occurring substructures in organic compounds obtained by library search of infrared spectra/K. Varmuza, P.N. Penchev, H. Scsibrany//Vibrational Spectroscopy. -1999. -Vol. 19. -P. 407-412.
  • Penchev, P.N. Characteristic substructures in sets of organic compounds with similar infrared spectra/P.N. Penchev, K. Varmuza//Computers&Chemistry. -2001. -Vol. 25. -P. 231-237.
  • Varmuza, K. Evaluation of Hitlists from IR Library Searches by the Concept of Maximum Common Substructures/K. Varmuza, N.T. Kochev, P.N. Penchev//Analytical Sciences. -2001. -Vol. 17. -P. 659-662.
  • Derendyaev, B.G. Taxonomy of structures selected from the IR spectroscopy database/B.G. Derendyaev//Journal of Structural Chemistry. -2001. -Vol. 42(2). -P. 271-280.
  • Ehrentreich, F. Three-step procedure for infrared spectrum interpretation/F. Ehrentreich//Analitica Chimica Acta. -Vol. 427(2). -P. 233-244.
  • Clerc, J.T. Perfomance Analysis of Infrared Library Search Systems/J.T. Clerc, E. Pretsch, M. Zurcher//Microchimica Acta . -1986. -Vol. 2. -P. 217-242.
  • Luinge, H.J. Automated interpretation of vibrational spectra/H.J. Luinge//Vibrational Spectroscopy. -1990. -Vol. 1. -P. 3-18.
  • Zurcher, M. General theory of similarity measures for library search systems/M. Zurcher, J.T. Clerc, M. Farkas, E. Pretsch//Analitica Chimica Acta. -Vol. 206(0). -P. 161-172.
  • Pearson, K. Notes on regression and inheritance in the case of two parents/K. Pearson//Proceedings of the Royal Society of London. -1895. -Vol. 58. -P. 240-242.
  • Кочиков, И.В. Распознавание веществ в открытой атмосфере по единичной интерферограмме фурье-спектрорадиометра/И.В. Кочиков, А.Н. Морозов, С.И. Светличный, И.Л. Фуфурин//Оптика и спектроскопия. -2009. -Т. 106, № 5. -С. 743-749.
  • Harig, R. Toxic cloud imaging by infrared spectrometry: A scanning FTIR system for identification and visualization/R. Harig, G. Matz//Field Analytical Chemistry&Technology. -2001. -Vol. 5. -P. 75-90.
  • Beil, A. Remote sensing of atmospheric pollution by passive FTIR spectrometry in Spectroscopic Atmospheric Environmental Monitoring Techniques/A. Beil, R. Daum, G. Matz, R. Harig//Proceedings of SPIE. -1998. -Vol. 3493. -P. 32-43.
  • Clerbaux, C. Trace gas measurements from infrared satellite for chemistry and climate applications/C. Clerbaux, J. Hadji-Lazaro, S. Turquety, G. Mégie, P.-F. Coheur//Atmospheric Chemistry and Physics. -2003. -Vol. 3. -P. 1495-1508.
  • Кочиков, И. Численные процедуры идентификации и восстановления концентраций веществ в открытой атмосфере при обработке единичного измерения фурье-спектрорадиометра/И. Кочиков, А. Морозов, И. Фуфурин//Компьютерная оптика. -2012. -Т. 36, № 4. -С. 554-561.
  • Зайцев, К.И. Высокоточное восстановление спектральных оптических характеристик среды с помощью импульсной терагерцовой спектроскопии/К.И. Зайцев, А.А. Гавдуш, В.Е. Карасик, С.О. Юрченко//Вестник МГТУ им. Н.Э. Баумана. Сер. Естественные науки. -2014. -№ 3. -С. 69-92.
  • Морозов, А.Н. Физические основы расчёта интерферометра с вращающейся пластинкой/А.Н. Морозов, С.И. Светличный, С.Е. Табалин, И.Л. Фуфурин//Оптический журнал. -2013. -Т. 80, № 8. -С. 37-41.
  • Fisher, R.A. On the probable error of a coefficient of correlation deduced from a small sample/R.A. Fisher//Metron. -1921. -Vol. 1(4). -P. 3-32. -Retrieved 2009-03-25.
  • Mathematics of Statistics. Pt. 2/J.F. Kenney, E.S. Keeping. -NY: D Van Nostrand Company, inc., 1951.
  • Васильев, Н.С. Идентификация веществ по сильно искажённым ошибками измерения спектрам/Н.С. Васильев, А.Н. Морозов//Компьютерная оптика. -2014. -Т. 38, № 4. -С. 856-864.
  • Курс теории вероятностей и математической статистики для физиков/Ю.П. Пытьев, И.А. Шишмарëв. -М.: Издательство Московского университета, 1983. -256 с.
  • Benesty, J. On the Importance of the Pearson Correlation Coefficient in Noise Reduction/J. Benesty, Chen Jingdong, H. Yiteng//Audio, Speech and Language Processing, IEEE Transaction on. -2008. -Vol. 16(4). -P. 757-765.
  • Perl, Y. Interpolation search -a log logN search/Y. Perl, A. Itai, H. Avni//Communications of the ACM. -1978. -Vol. 21(7). -P. 550-553.
Еще
Статья научная