Информационные меры статистической связи для идентификации многомерных по входу объектов
Автор: Савченков Н.Н., Тюмиков Д.К.
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Информатика
Статья в выпуске: 3 т.9, 2007 года.
Бесплатный доступ
В статье приведено доказательство возможности представления информации статистической свя- зи нескольких переменных в виде взвешенной суммы взаимных и взаимных условных информа- ций, вычисленных на различных срезах многомерной плотности распределения. На примерах по- казана возможность использования информационных мер для идентификации статистических свя- зей, показано принципиальное отличие возможностей предлагаемого подхода от существующих.
Короткий адрес: https://sciup.org/148197988
IDR: 148197988
Текст научной статьи Информационные меры статистической связи для идентификации многомерных по входу объектов
— сумма по всем
ik, таким, что ik не равно ik-1, ik не равно ik-2, …, ik не равно i1.
Доказательство приведено в приложении.
Каждый член разложения (2) представляет собой взаимную информацию, вычисленную на различных срезах многомерной плотности распределения. Поскольку в других методах идентификации плотность распределения используется только в качестве весовой функции, а сами моменты вычисляются относительно значений переменных, то предлагаемый метод должен иметь значительные отличия. Как будет видно ниже, основное отличие заключается в способности к определению степени связи между переменными в случае функционально неоднозначных взаимозависимостей.
Для иллюстрации использования информационных мер проведем их сравнение с известными мерами, а именно, с корреляционными и дисперсионными отношениями.
Пример 1. Рассмотрим линейную зависимость выходной переменной y от 3 независимых входных переменных y = x 1 + x 2 + x 3 . Диапазон изменения входных переменных ограничим отрезком [ - 5;4 ] с равномерным распределением значений по диапазону.
В этом случае 1 ^ = !„ 2 = !„ 3 = 0.311, I yX || x 2 I yX 1 | x 3 I yx 2 , X |
= I yx 2 x 3 = I yx 3 ^ 1 = I yx 3 k 2 = 0.632,
I , = 7 , = 7 ,=2.49
yx1|x2x3 yx2|x1x3 yx3|x1x2
■ 1, (,. x2,. x.)=3-433/5!^ 'L 31
= 0.311
,
C 3 2 • C 2
C 3 3 • C 3 2
• У УI = 0.632 yx 1 |x 2
11 Z 2( Z 2 ^ / '|)
" •L L LIyxxi3 = 2.49. Сле- отношение коэффициента корреляции каждой входной переменной к сумме этих коэффициентов также равно 0,333. Такое точное совпадение информационных мер с корреляционными будет наблюдаться только при одинаковом вкладе каждой переменной в выходную, однако оно показывает возможность применения приведенного разложения при анализе взаимозависимостей в статистических данных.
Пример 2. При анализе нелинейных связей сравнение предлагаемого подхода необходимо проведем с дисперсионным анализом, т.к. корреляционный подход не позволяет получить надежных оценок в нелинейном случае. Рассмотрим зависимость выходной переменной y от 3 независимых входных переменных y = x 1 + x 2 2 + x 3. Диапазон изменения входных переменных ограничим отрезком [ - 5;4].
Рассматриваемая зависимость является аддитивной относительно функций от входных переменных, поэтому множественное дисперсионное отношение можно представить в виде суммы парных дисперсионных отношений [2]:
-
1 = П у , x 1 + П у , x 2 + П у , x 3 .
Расчет показывает, что ny , x = 0.787 , П , , x, = П , , x3 = 0.106, что показывает равный вклад первой и третьей переменной в дисперсию выходной, и значительное превышение вклада второй переменной по сравнению с другими.
Соотношение информационных мер также указывает на больший вклад второй входной переменной в выходную:
lx = lx = 0.185, I = 1.05;
yx yx yx отношения вида I
yxi 1
L i ,x .
= 0.333
I yxi 1 | xi
Z 2 ( i 2 # / '|)
■ LL
1 1 Z '2 ( Z 2 # Z 1 )
= 0.333
и
I yxi 1| xi 2 xi
LL . . L '* x ,
11 Z 2 ( Z 2 ^ Z 1 ) Z 3 [ ( Z 3 ^ Z 2 ),( Z 3 ^ Z 1 ) ]
= 0.333
,
т.е. определяют вклад каждой входной переменной в выходную. Для сравнения рассчитаны коэффициенты корреляции, при этом
I„xlx = I„x x = 0.619, I„xlx = Iyx = 1.464
yx 1| x 2 yx 3 | x 2 yx 1 | x 3 yx 3 | x 1
1 , =1.484- I , =/ , =2.35
yx 2| x 1 yx 2| x 3 . ; yx 1| x 2 x 3 yx 3| x 1 x 2 . ,
I =731 I =4019
Iyx 2|x, x3 .3/ Iy (x,, x 2,... x. )
—1— .у I = 0.473
-
1 0 yx 1
C 3 • C1
-
-E EIVX x = 1.189 /12 • x-r1 yx11|x2
3 2 Z 1 ^ A h. ^ Z 1 )
C 3 3 • C 3 2
1 1 / "2 ( Z 2 ^ / "1 ) Z 3 [ ( Z 3 ^ Z 2 ),( Z 3 ^ Z 1 ) ]
= 2.357
Можно заметить, что отношения вида
I yxi 1
^Z yx i! близки к соответствующим парным дисперсионным отношениям (0.13/0.106, 0.739/0.787, 0.13/0.106), что также подтверждает возможность применения вышеприведенного разложения для анализа статистических взаимосвязей.
Пример 3. В завершении, рассмотрим зависимость выходной переменной y от 3 независимых входных переменных y 2 = x ! 2 + x 2 2 + x 3 2 , являющ уюся функцио нально неоднозначной ( y = ± ^x ! 2 + x 22 + x 3 2 ). Диапазон изменения входных переменных ограничим отрезком [ - 5;4 ] .
Расчет как парных корреляций, так и парных дисперсионных отношений, дает нулевую связь выходной переменной с любой из входных, однако выходная переменная зависит от входных, точнее каждому набору значений входных переменных соответствуют два значения выходной переменной. Расчет информационных мер дает результат, говорящий о наличии статистической взаимосвязи:
lx = lx = lx = 0.382, yx yx yx
I yxi 1
Z I >x.
i 1
и
1yx l x 2 I yx l x 3 I yx 2 I x !
= I yx 2 | x 3 = I yx 3 x , = I yx 3 | x 2 0.8 3'-
I = 1 = 1 = 2.163
yX ( | x 2 x 3 yx 2 I x x x 3 yx 3 I x x x 2 . ^^ ,
L,xx x) = 3.376, y ( x 1 , x 2 ,... xn )
c 3 2 • c 2
c 3 • c 3 2
•У I = 0.382 yxi1 , i1
T IX ix = 0.831 yxi1 xi2 , i! i 2( i 2 * i! )
• Z Z . . Z x„ = 2Л63 '! i 2 ( i 2 * i ! ) i 3 [ ( i 3 * i 2 )-( i 3 * i ! ) ]
.
В данном случае все переменные одинаково влияют на выходную, что следует из симметричности формулы относительно входных переменных и того условия, что они независимы и пробегают один диапазон значений с равномерным распределением, при этом все отношения вида
I yxi 1 | xi 2
= 0.333 i 2( i 2 * i !) ________ = 0 333
, Z Z I yx ^ I x, 2 "
i ! i 2 ( i 2 * i ! )
I yx i 1 x i 2 x i 3
ZZ...Z x, " -
11 i 2( i 2 * i ! ) 6 [ ( i 3 * i 2)-( i 3 * i !) ]
т.е. показывают вклад каждой входной переменной в выходную.
ПРИЛОЖЕНИЕ
Доказательство теоремы. Для двух входных переменных формула (1) имеет вид:
I y ( x ! - x 2 ) I yx ! + I yx 2I x ! .
Очевидно, что порядок символов x1 и x2 в данном разложении несуществен, поэтому можно также записать:
I y ( x !- x 2 ) I yx 2 + I yx !I x 2 "
Попарно суммируя левые и правые части (3) и (4), получаем:
2 I y ( x ! , x 2 ) = I yx ! + I yx 21 x + I yx ! + I yx 2 | x !
После деления обеих частей на 2 и группировки подобных членов, получаем:
I = ( + I v ) + ( + )
y ( x 1 , x 2 ) 2 yx 1 yx 1 2 yx 2 | x 1 yx 2 | x 1
Аналогичные выкладки можно провести для любого числа переменных, например, при n=3, получаем:
I,,/T = ( I + I + I., ) + ( I,„l +
y ( x 1 , x 2 , x 3 ) 3 yx 1 yx 2 yx 3 6 yx 1| x 2
+ I yx ! I x 3 + I yx 2 I x ! + I yx 2 I x 3 + I yx 3 I x ! + I yx 3 I x 2 ) + + 3 ( I yx ! I x 2 x 3 + I yx 2 I x ! x 3 + I yx 3 I x ! x 2 ) ;
а при n=4, получаем:
I vCr r X X 1 = ( I vx + I vx + I vx + Iv x ) +X y ( x 1 , x 2 , x 3 , x 4 ) 4 yx 1 yx 2 yx 3 yx 4 12
X ( I yx ! I x 2 + I yx ! I x 3 + I yx ! I x 4 + I yx 2 I x ! + I yx 2 I x 3 + I yx 2 I x 4 +
+ I yx 3 x ! + I yx 3| x 2 + I yx 3| x 4 + I yx 4 x ! + I yx 41 x 2 + I yx 4 | x 3 ) +
+ — • ( I 12
+ I yx 2| x , x 4
yx ! I x 2 x 3 + I yx ! I x 2 x 4 + I yxC ! I x 3 x 4 + I yx 2 I x ! x 3 +
+ 1 yx 2 I x 3 x 4 + 1 yx 3 I x ( x 2 + 1 yx 3 I x ( x 4 + 1 yx 3 I x 2 x 4 +
+ I yx 4 I x ! x 2 + I yx 4 I x ! x 3 + I yx 4 I x 2 x 3 ) + 4 ( I yxC ! I x 2 x 3 x 4
+ I yx 2 I x ! x 3 x 4 + I yx 3 I x ! x 2 x 4 + I yx 4 I x ! x 2 x 3 ) .
+
Замечая, что
1 _ 1
-
2 = с 2 • с 0
1 _ 1
-
3 = с 1 • с 0
с 2 • с 1 ,
с 3 • с 32
и т.д., и используя метод математической индукции, получаем разложение (2). Теорема доказана.
Список литературы Информационные меры статистической связи для идентификации многомерных по входу объектов
- Райбман Н.С., Чадеев В.М. Построение моделей процессов производства. М.: "Энергия", 1975.
- Методы структурной идентификации химико-технологических процессов: Учеб. пособ./Д.К. Тюмиков. Куйбыш. политехн. ин-т. Куйбышев, 1990.
- Стратонович Р.Л. Теория информации. М.:, Сов. радио, 1975.
- Фано Р. Передача информации. Статистическая теория связи: Пер. с англ./Пер. И.А. Овсеевича, М.С. Пинскера; Под ред. Р.Л. Добрушина. М.: Мир. 1965.