Задача моделирования коррелированных многомерных данных

Автор: Ширкунова К.С., Кокин И.В.

Журнал: Мировая наука @science-j

Рубрика: Естественные и технические науки

Статья в выпуске: 7 (16), 2018 года.

Бесплатный доступ

Данная статья посвящена рассмотрению задачи моделирования многомерных данных. Данные при этом являются коррелированными, следовательно, моделирование проводится с учетом вектора средних и ковариационной матрицы. Также смоделированные данные должны иметь аналогичное распределение. Анализ смоделированных данных проводится с помощью методов машинного обучения.

Машинное обучение, ковариационная матрица, печатные платы, моделирование данных

Короткий адрес: https://sciup.org/140263762

IDR: 140263762

Текст научной статьи Задача моделирования коррелированных многомерных данных

Технической диагностикой называется наука о распознавании состояния технической системы. Техническая диагностика решает обширный круг задач, многие из которых являются смежными с задачами других научных дисциплин.

Основной задачей технической диагностики является распознавание состояния технической системы в условиях ограниченной информации.

При решении основной задачи технической диагностики объекта с применением машинного обучения проводится бинарная классификация состояния объекта: объекты подразделяются на исправные и неисправные с помощью моделей, полученным по обучающим выборкам. Качество классификации, которое определяет эффективность машинного обучения, зависит от ряда факторов: объема исходной выборки, метода машинного обучения, способа разделения выборки на обучающую и контрольную части, отбора значимых показателей и других.

Однако, в некоторых ситуациях, объем выборок далек от необходимого числа данных. Например, для качественного машинного обучения требуется более 1000 данных по всем исследуемым показателям и далеко не каждое производство производит такое количество замеров при контроле качества.

Рассмотрим производство печатных плат, в ходе которого сточные воды загрязняются химическими веществами (кислотно-щелочной баланс pH, аммиак NH 4 , нитриты NO 2 , фосфаты P, железо Fe, медь Cu и нефтепродукты). Мониторинг химического состава сточных вод производится 2-3 раза в неделю в контрольной точке (канализационном колодце). При мониторинге необходимо следить не только за неожиданными выбросами (резким повышением или понижением концентрации вещества в воде), но и за допустимыми концентрациями каждого вещества (для рН – 8 мг/л, NH – 100, NO – 0,5, P – 1,1, Fe – 2, Cu – 0,05, н/прод – 0,7).

При этом, по результатам замеров за 2 года наблюдений имеется около 200 данных по каждому из 7 показателей химического состава, что явно недостаточно для машинного обучения. Поэтому встает задача о моделировании данных с распределением, аналогичным исходным данным, а также с соответствующим вектором средних и ковариационной матрицей.

Для моделирования многомерных данных обладающих свойствами реальных многомерных статистических данных нельзя использовать несколько раз процедуры моделирования одномерных данных, потому что в этом случае будут созданы независимые признаки и совместный анализ таких данных теряет смысл.

Многомерная совместная нормальная функция плотности является обобщением двумерного случая. Для многомерной случайной величины         f = (f1, ^,fm) многомерная нормальная плотность определяется по формуле:

f(fi.....fm) = (2л-)т/2 |^|1/2 еХР(- 2 (f — Й^ — ^ — A)

где f = (f1, ^,fm)   - многомерная случайная величина, которая математически представляет собой вектор-столбец:

! - вектором математических ожиданий многомерной случайной величины I :

-Г) Цт/

(I — j!) - разность двух векторов дает вектор-столбец:

I.pv'')

' ^ т   Ц т'

В результате выполнения операции транспонирования получим вектор- строку

(f —!) = [|1 Ml, -Лт

М т ]

2 - ковариационная матрица:

/ а^

2 = ( а 2 2 1 а т1

где а 2 = M[(^q Mq)(^t Mt)] ,

а 22

а 22

гт2

а т2

а1т \ а2т атт/

q =1,2,3,... m , t =1,2,3,^, m ; (а^-а т™ ) -

диагональные элементы представляют собой дисперсии признаков; m - размерность многомерной случайной величины (количество признаков);

Вектор f = (fi, ^,^т) произвольной нормально распределенной случайной величины можно получить специальным линейным преобразованием вектораM = (Mi, ^,Мт) , компоненты которого есть независимые нормально распределенные случайные величины с параметрами, ц = 0, а = 1 .

Преобразование п в ^ производится по формуле:

<^ = Лту + !

В преобразовании участвует некоторая треугольная матрица A:

/    0-110

I    °21

\ °mi omm

Коэффициенты aij могут быть определены с помощью рекуррентной процедуры. Общая рекуррентная формула имеет вид:

O.

o qt

qt

2 r=1 ° qr ° tr

VOt"

-

у t-1 ^r=1

2 o tr

где индексы изменяются в диапазоне 1≤t≤q≤m, а суммы с верхним нулевым приделом равны нулю.

Рассмотрим описанный выше алгоритм моделирования данных. Пусть имеется 159 значений по 7 показателям качества. Необходимо смоделировать еще 1041 значение по каждому из показателей.

Для начала необходимо вычислить вектор средних и ковариационную матрицу исходных данных (рис. 1 и рис. 2 соответственно). Все расчеты производятся в Excel.

вектор средних

7,842

72,11

0,395

0,915

1,577

0,022

0,285

Рис. 1. Вектор средних исходных данных

1

1        . •

4

1

*

7

1

оостов

•омом

6*1*

| ■■

0.10220

0.00007

6000*

2

0.200*

1126.» 1502

LhW

мет

МЛ17

o^uuv

U>l>M

1

6*1*

i.nwi

ошм

6MW1

660027

600116

МХЫ1

4

босом

AM»»

A0W1I

6 04410

0.06161

AC00I1

6,00447

1

0 10020

617117

0,61021

606*1

гак»)

0,01771

0 00142

*

0 0000 7

Q.1MI7

600110

А00011

6017П

0.0010,

000017

С 00000

1.01571

0.00007

600*7

0.001*2

600017

602М1

Рис. 2. Ковариационная матрица исходных данных

Далее необходимо сгенерировать вектор ту объемом 1041 х 7. Для этого воспользуемся пакетом «Анализ данных». Т.к. исходные данные не соответствуют нормальному распределению, то вектор  ту  будем генерировать при условии, что математическое ожидание и дисперсия этих векторов отличаются от 0 и 1, но достаточно близки к ним. Получаем произвольно сгенерированные столбцы вектора т (рис. 3).

ее*юр мормеленой<8 ЦлумеАми cre*^pnpoeeH««wAj

01

h2

л)

М

61

"6

*1

амты

» И 7*61174

А,1М5ЦШ

0,47461 И

0.11112051#

UH4M31D

1.0) 116411

O.WlM

М*7467Я

О^ЮТМОК»

L1162206

0,7107*0421

0,0150561)4

0.1425016»

0,107115

it 169*21644

0,170121ZJ7

L4204 7717

1,100157414

0,471611144

1.19)7452»

0.4ЭК1

0JJM01MI

О.17МММ5

0.064)1*0

ММ675.Ю

OJ191O7W1

0.5Ю00415

L7J6W

0,171199729

1,004110644

1,4/137*1

0.99 2 2964/1

1110452021

1.52911167

О.МЛ)

1гМО2М0П

(1.124 900401

о.о mtn

0 54/4160 2 51

1,1195)7414

0.1610011

0.10W11

0.42/4141)

1,241649011

0.6191492

1.М41ХМЛ/

0^5615 mot >

134111446

0,1 токе

<МЮЛ2«Ю

0,111110175

0.55/41944

1,20214 НМ

1,0402/5/14

0..1ММЛ)

июли

0.412ЛИМ5

0,001503446

1,/еобО/4

1,001 МО 259

О, 744huew

2.14012544

l,0J 1М

MIDMII1

2,14206 ИИ/

41,0101 М

0645494617

1371511371

0.7/4.144/

azwin

Z11WHW1

0,1Л)ШЛ

L ЗВ 1Л155

0,15-161.1771

■ l,iiooi*oe

0,7100915

Рис. 3. Вектор Т случайной величины, распределение которой близко к нормальному

Так же необходимо рассчитать матрицу А (рис. 4).

teerpw^i А 1

1

4

6            У

1

О-ОЫОв"

с осоос

0О0ООС-

ClQOOOO

0.0000»

C00OOD

0.OODOD

2

-1.09971

МЗЖ2

Охта»

0.00000

сооопо

0.00000

S

<102135

■:.ойбс>

0.42391

0.00000

0,00000

С 00000

оосоос

4

6,00461!

0,01915

-0,04505-

0.20415-

оооооо

0.00000

5

L11644

01)054

0.04406

4101440

-0,47025

6

00601/

02)03601

О.ООЖ»

Aoaus-

002197

(L0J061

0^0000

У

0 009^7

АШ7И

0.0UM

ОиШЖ!

O.CHUC

0.00146

амяа

Рис. 4. Матрица преобразования

Теперь есть все данные, необходимые для моделирования новых значений с учетом вектора средних и ковариационной матрицы (рис. 5).

смоделированные значения

pH

аммиак

нитриты

фосфаты

железо

медь

нефтепроду

7,764077061

69,63069

0,223294

0,8278838

0,680131

0,0320497

0,4374978

7,881163463

92,34819

0,026275

0,7339362

2,0109141

0,0307658

0,2051637

7,851039645

114,2831

0,732872

1,1864087

1,1470297

0,0440688

0,0604161

7,803661249

64,84405

0,321486

1,0559895

0,2088294

0,0512114

0,3802101

7,987906313

52,98347

0,87609

0,5700028

3,0453575

0,0222696

0,0208099

7,796309884

131,4354

0,362405

0,9214862

0,7621463

0,0136732

0,2060312

7,85083789

56,25079

0,11002

1,089813

2,8433403

0,0176159

0,1240987

7,873638423

100,1104

0,203225

1,062166

1,3074708

0,0736371

0,2064887

7,833361459

90,31652

0,371347

0,6652116

2,2070665

0,0141964

0,606874

7,756163609

52,80175

0,734947

1,0131565

0,5732404

0,0270907

0,390778

7,866105593

155,654

0,134656

1,260059

2,4293045

0,0202632

0,1370673

7,782977798

16,43259

0,28411

1,0628007

0,5012019

0,009696

0,4566754

Рис. 5. Смоделированные значения по 7 показателям качества сточных вод при производстве печатных плат

Для проверки правильности смоделированных значений, рассчитаем вектор средних (рис. 6) и сравним его с вектором средних исходных данных (рис. 1). Видим, что значения среднего для каждого показателя достаточно близко к истинному.

средние I 7,844896153 73,34393 0,47753 0,90589Б7| 1,7956183 0,0317889 0,2888539

Рис. 6. Вектор средних для смоделированных данных

Для машинного обучения необходимо самостоятельно сгенерировать столбец Y, который определяет исправность (Y=1) или (Y=0) неисправность системы. Если хотя бы один из показателей приближается к своему предельно допустимому значению концентрации, то система считается неисправной.

Далее проведем предобработку данных с помощью методов машинного обучения, реализованных в разработанной программе на языке Python.

Г №«w»w

ч

i

rtx

же

ЬЖ1

1 ж

ие

Г

и

МВ

Ж4

aw

вл

ТЖ*

ахя<

ап

.1!

и

fN

am

ат

ажж

и1

и

TS

Н5

ам

ал

11

wre

ам

ы

• I

LW

*

1*

гл

ем

14В

аж

1Я6Ж

7

и

а*

1.1

АРП

U1

1

14

гл

ат

ip

им

*

741

МУ

774

ат

LT

иг

аги

343

T9

■и

здз

11

алп

Рис. 7. Считывание данных

Первым этапом предварительного анализа данных является вычисление численных характеристик показателей качества – математическое ожидание, дисперсия, ско (рис. 8).

: .w*    • ипмслт. umnwt wenrtwt ажчжмым irrhirww ммаммжж 1лмшеж i rw w «I*. i mwn* tufXjwin. гиимм* меиеша. nemuw. идолы tcj—nn-

nx      "wewesx- «м»*ыше1 r«     i—гт’чм сгштж iwwi амгчжмш- e ^ 'w«»tn жеяыпмям с —пчтлэ irotTinM 'urinna ■ —!?>—?ж utmnM’V r nx •wewev't* жпеав". tmwnm iiit'MiL цашчшв ваигаят. иехижж е wm,w ш * «vrw. s мп V и Mi и

Рис. 8. Подсчет числовых характеристик

По вычисленным значениям стандартного отклонения можно отметить, что третий и пятый показатели качества сточных вод имеют очень большой разброс значений, относительно их средних.

Далее необходимо определить коррелированность показателей между собой и коррелированность каждого из показателей с откликом. В реализованной программе таблица корреляций отображается с помощью цветовой схемы (рис. 9), где чем темнее цвет, тем меньше корреляция между значениями.

Рис. 9. Расчет корреляционной матрицы

Данные на производстве часто содержат пропуски и выбросы, связанные с неисправностями техники, ошибками оператора и другими причинами. В связи с этим, необходимо избавиться от пропусков и выбросов. Первым способом удаления пропусков является удаление строки, содержащей пропуск хотя бы в одном показателе. Однако данный способ может удалить данные, являющиеся важными для дальнейшего исследования. Второй способ - замена пропуска на соседнее по столбцу значение. Минус этого способа в том, что он может увеличить количество выбросов в данных. Последний способ, исследуемый в данной работе, -замена пропуска на среднее значение данного показателя (рис. 10). Данный способ является наиболее оптимальным среди всех, т.к. не оказывает влияния на другие показатели качества и не увеличивает количество выбросов в текущем показателе.

Для обработки выбросов так же возможно применение всех трех способов. На рис. 11 представлена замена выброса на среднее значение.

Рис. 10. Замена пропусков на среднее значение показателя

Рис. 11. Замена выброса на среднее по показателю

Далее необходимо нормализовать данные и перейти к главным компонентам. По нормализованным данным строим главные компоненты и график каменистой осыпи, с помощью которого определим, сколько компонент необходимо использовать (рис. 12-13).

Рис. 12. График каменистой осыпи

• Парашда пивным юыпсмжнгвм

               г                э                <                1                б                ?               ।

J    1Л             -006781703747..  0Л1 Л17В738О6_ 0515315477706-  0X4957^115..  О0013ЮС3176-  0 30016219721-  6JS604X4W-.

4    1.0            -0 0157139670». -051122657881. 0 004«147695 -0X34*115*17.. -МОТ1561П. -МО ЮТЫ». -0 000508996»

)    ПО             -007855 791064- -03X670547881- 001»7Ы66в4«_. -НШ5в67В114Б_. OJ0G4 5O58S221L. -000015472757... -ODXG4488Ha_.

i   то          Ч1мгд8эгт_ чюимпзбХ.  олшв74Г1е«. -аштзмзг*.. олертмгот.. осгозатвок»- -оам^итм..

7   10           -0М1175 7В7Я-  -ЛЛГ$ЗМв?4_ 0М114Пи^44.  -ОаПЦТТщЧ- OjaK^VtiH.. ПДЖ$5 5Г¥74-. -OOGC6164№_.

I    1Л            -0М379119ЮЗ.  П4НЗв5Ы1812_  0003712160193- -00X51773241 - 0^011393X14- О«1633й64171„  ОХИЧИТВ-

5   U           -0 0*746114».  -CJX56I7DO0C.  Ой261йй1Ли aOXiB^OUS.  C-XCW50M*  -ОЮ17®66601. -0 0003*610680.,

10 ПО            ODH197356H- О01П»153142_ 0031893609543- 0033071817940- 0X0447132129- й«П$963С5Г_ 000025607597-

Рис. 13. Переход к главным компонентам

Список литературы Задача моделирования коррелированных многомерных данных

  • Алексеева В.А. Использование методов машинного обучения в задачах бинарной классификации / В.А. Алексеева. - Automation of control Processes № 3 (41) 2015 С. 58-63
  • Биргер, И. А. Техническая диагностика / И. А. Биргер - М.: Машиностроение, 1978. - 240 с.
  • Жуков, Д.А. Задачи обеспечения эффективности машинного обучения при диагностике технических объектов / Д.А.Жуков, В.Н.Клячкин // Современные проблемы проектирования, производства и эксплуатации радиотехнических систем. - 2016. - № 1 (10). - С. 172-174.
  • Клячкин, В.Н. Применение методов машинного обучения при решении задач технической диагностики / В.Н.Клячкин, И.Н. Карпунина, Ю.Е.Кувайскова, А.С.Хорева // Научный вестник УВАУ ГА(И). - 2016. - Т. 8. - С. 158-161.
  • Кувайскова, Ю.Е. Прогнозирование состояния источника водоснабжения в целях обеспечения качества воды / Ю.Е. Кувайскова, Е.М. Булыжев, В.Н. Клячкин, Д.С. Бубырь // Справочник. Инженерный журнал с приложением. - 2016. - №5. - С.37-42
Статья научная