Анализ данных и принятие решений с помощью логических закономерностей в форме полуплоскостей
Автор: Игнатьев Николай Александрович, Саидов Дониер Юсупович
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Рубрика: Авиационная и ракетно-космическая техника
Статья в выпуске: 4-2 т.19, 2017 года.
Бесплатный доступ
Рассматривается интеллектуальный анализ данных через решение задач распознавания с учителем. В качестве инструмента для извлечения новых знаний из баз данных предлагается использовать логические закономерности в форме полуплоскостей. Описано 3 способа анализа исходных и латентных признаков на основе: критерия Фишера; отношения внутриклассового сходства и межклассового различия, определяемого через функцию Лагранжа; критерия для вычисления оптимальной границы между значениями из разных классов. Предложена методика отбора информативных наборов признаков с учётом этих способов анализа. Рассматривалось отображение различных описаний объектов на числовую ось. Доказано, что использование оптимальной границы между классами на числовой оси в качестве порога для линейной решающей функции увеличивает обобщающую способность при распознавании. Этот эффект объясняется отказом от предположения о нормальном распределении данных выборки при выборе порога. Предложенная технология анализа данных востребована при разработке интеллектуальных систем.
Логические закономерности в форме полуплоскостей, информативные признаки, обобщающая способность
Короткий адрес: https://sciup.org/148205313
IDR: 148205313
Текст научной статьи Анализ данных и принятие решений с помощью логических закономерностей в форме полуплоскостей
Линейные дискриминантные функции (ЛДФ) широко используются в задачах интеллектуального анализа данных. Низкие затраты вычислительных ресурсов, возможность содержательной интерпретации результатов распознавания в качестве новых знаний являются теми свойствами, которые находят применение их при моделировании процессов и явлений в слабо формализованных предметных областях. При компьютерной реализации ЛДФ не требуется таблицы прецедентов, достаточно хранить в памяти лишь веса признаков. В технических устройствах ЛДФ могут быть представлены в виде электронныхсхем и микросхем чипов.
Для показателей точности распознавания большое значение имеет такое свойство признакового пространства как линейная разделимость объектов классов. Одним из способов обнаружения этого свойства является использование нелинейных преобразований признаков.
Нелинейные преобразования признаков, как правило, приводят к описанию объектовв пространстве (обобщенном пространстве) более высокой размерности, чем исходное. В качестве примера можно привести обобщенные линейные дискриминантные функции пред-
ставляемые с помощью произведений исходных признаков степени не выше 2 и называемыми квадратичными. Обобщенное признаковое пространство можно рассматривать как линейное или спрямляющее, но значительно большей размерности чем исходное.
Переход в спрямляющее пространство объясняется с позиций обобщающей способности алгоритмов распознавания. Теоретически такой подход приемлем, так как повышает меру статистического разнообразия (емкость) класса линейных решающих функций. Доказательство этого факта можно найти в работе В.Н. Вапни-ка [1]. Утверждается, что выборку из m объектов в пространстве из n признаков при n ≥m всегда можно с помощью ЛДФ разделить на два класса 2 m способами. В реальных прикладных задачах отношения между объектами выборок данных определяется скрытыми закономерностями и нет смысла рассматривать все возможные варианты разбиения на классы.
Обучение ЛДФ сводится к вычислению вектора весовых коэффициентов. Среди вычислительных методов безусловным лидером является линейный дискриминант Фишера. Лидерские качества демонстрируются в виде высоких относительно других методов показателях обобщающей способности к распознаванию.
Выводы о существовании признакового пространства с линейной разделимостью объектов классов скорее всего представляет теоретический интерес, но для практического использования, как правило, неприемлемы. Обобщенные функции, которые предлагаются для формиро- вания признакового пространства, увеличивают сложность обучения и реализации ЛДФ на несколько порядков выше, чем на исходном признаковом пространстве.
Исследователи искали ответ на вопрос: с помощью каких нелинейных преобразований строить спрямляющее пространство? В методе SVM[2] такой выбор был сделан на использование ядерных функций. Несмотря на наличие теоретического обоснование метода никаких рекомендаций по выбору ядерных функций не разработано.
В [2] предлагалось решение проблемы линейной разделимости с помощью матриц попарного сходства объектов. Использование этих матриц рассматривалось в качестве одной разновидностей без признакового распознавания. Принцип без признакового распознавания распространяется на такие известные методы как ближайший сосед, к ближайших соседей, базовым свойством которых является локальная компактность по мере близости.
Проблемы поиска информативных признаков как в исходном, так и в расширенном (спрямляющем) пространстве оставалось открытой. Целью отбора была адаптация к той структуре признакового пространства, для которой существует линейная разделимость объектов классов.
Логические закономерности в форме полуплоскостей применяются в интеллектуальном анализе данных. Целью анализа является поиск скрытых закономерностей (новых знаний) из баз (хранилищ) данных.Результаты анализа востребованы при принятии решений в трудно формализуемых задачах.
Сложность формализации заключается в отсутствии единого критерия, для оптимизации которого можно использовать уже известные методы либо разрабатывать новые. Как правило, задачи принятия решения многокритериальные. Получить оптимальное решение по каждому критерию практически невозможно. Выбор критерия (критериев) остается за лицом принимающим решение (ЛПР).
Наиболее известный и широко применяемый на практике критерий Фишера [3] не претендует на полноту исследования структуры данных с помощью логических закономерностей в форме полуплоскостей. В работе предлагаются два новых критерия для решения этой проблемы и методология их использования для принятия решений. Описан эвристический метод отбора информативных наборов признаков в спрямляющем пространстве. Востребованность метода доказывается через вычисление показателей обобщающей способности алгоритмов распознавания, основанных на принципах разделения объектов поверхностями.
ПОСТАНОВКА ЗАДАЧИ
Рассматривается двухклассовая задача распознавания в стандартной постановке. Каждый из объектов выборки E 0 ={ S 1 ,...,S m } принадлежат одному из классов К 1 или К 2 ( E 0 = К 1 U К 2 ) и описываются с помощью n количественных признаков X ( n ) = ( x 1 ,..., xn ). Для распознавания объектов на E 0 используется обобщенные линейные решающие функции вида d ( S )= w1y1+.+wryr , где y c = f c ( S ), f ( S ) е { x a x^ ... x t } , ay е { 0,1 } , j=1, ..., t, t>1.
Считается, что для оценки выбора информативного набора признаков Y ( p )=( y 1 , ..., y p ) используется функционал F ( E 0 , Y ( p )). Требуется определить:
-
- критерии для оценки закономерностей в форме полуплоскостей;
-
- информативный набор признаков
2. КРИТЕРИИ ДЛЯ ОЦЕНКИ ЗАКОНОМЕРНОСТЕЙ В ФОРМЕ ПОЛУПЛОСКОСТЕЙ
Y (P) = arg max F (E0, Y(P)), Л(8)еП‘ где Qt - множество обобщенных функций степени не выше t.
Закономерности в форме полуплоскостей представляют предикат вида
P (x)
n
£ wx - w 0
£ { 0,1 } .
Геометрическим
ме-
стом точек, равноудаленным от двух эталонов из разных классов, является гиперплоскость, значения весовых коэффициентов которой вычисляются через координаты эталонов [4]. В качестве таких эталонов в данной работе предлагается рассматривать векторы математических ожиданий M 1 , M 2 значений признаков объектов по каждому из классов К1 и К2 .
Пусть m 1 е M 1 , m 2 е M 2 - математическое ожидание (среднее-арифметическое) значений признака yr е Q ‘ соответственно в классах К 1 и К2 . Внутриклассовое сходство и межклассовое различие признака y r е Q ‘ по объектам S i е E 0 ( S i =( yu,.,yip )), p>1 вычислим соответственно как
2 2 2 2
0r = £ £ (yr-mi) и уr = £ £ (yr-mVj) ■ j=1 S, eKi j=1 Si eKi ij ij
Для оценки веса (разделяющей способности) wr признака y r е Q ‘ по значениям 9 r , y r предлагается использовать функционал из [5]
£ w ^ i
J ( w ) = -- > min. (1)
£ wYi
При ограничении на веса в (1) £ w = 1 , w>0 функция Лагранжа для решения задачи условной оптимизации имела вид
. . 2 «-- б - / х
L ( « ) = х + ^ | 2 « - 1 I ’
2 wy . I - )
а значения весов вычислялись как w
Y , - 9 , 2 ( Y j - j
Согласно доказанной в [5] теоремы, необходимым и достаточным условием выбора признака yj e Y (p) кандидатом на удаление из набора Y())=(ур™,У)) при ограничении E« = 1, 9, „ ‘ w. > 0 является — = max . Соотношение
- у . У ^ y ( p )
жение в левых скобках (5) представляет внутриклассовое сходство, в правых – межклассовое различие.
Значение wr = w ( yr ) рассматривается как вес признака y r e Y ( p ) , а границы интервалов могут используются для нормирования значений признака объекта Si =( yi1,…,yip ) по формуле y ^- c i y r .
c 3 - c i
3. ОТБОР ИНФОРМАТИВНЫХ НАБОРОВ ПРИЗНАКОВ
9 j
дает возможность оценивать и упорядочивать
признаки по плотности их распределения вокруг математических ожиданий классов. Чем выше плотность, тем меньше значение (2).
Также как и в (2) вычисление внутриклассо-
вого сходства по отдельному признаку исполь-
зуется в критерии Фишера [3] | m1 - m 2|2
, s, + s 2
в котором сумма внутриклассового разброса s + s 2 = 9 r , а m 1 -m2 естьразность математических ожиданий классов K1 и K2 на числовой оси.
Отличный от (2) и (3) критерий рассчитан на анализ порядка расположения объектов классов на числовой оси [6]. Пусть
S , S ,..., S (4) r 1 r 2 rm
Задача поиска информативных наборов признаков для линейной разделимости объектов классов K1 и K2 является NP полной. Из этого следует вывод, что кроме полного перебора других способов решить задачу поиска глобального экстремума функционала F ( E0 ,Y ( p )) не существует. Используя некоторые эвристики, можно получить локальный экстремум функционала.
Смысл использования эвристик для решения проблемы линейной разделимости сводится к следующему. Пусть Ωt – множество обобщенных функций степени не выше t . На множестве пар ( y , , y j ) c Y ( p ) рассматривается сокращенный перебор с целью поиска экстремума по критерию Фишера
Ф ( w ) = * m l m 2! ^ max. (6)
*s i + S 2
последовательность объектов, упорядоченная по невозрастанию значений признака y r e Y ( p ) . Упорядоченное множество значений (4) разделяется на два непересекающихся интервала [ c1,c2 ], ( c2,c3 ], каждый из которых рассматривается как градация номинального признака. Критерий для определения границы c2 основывается на проверке гипотезы (утверждения) о том, что каждый из двух интервалов содержит значения количественного признака объектов только одного класса.
Пусть u 1, u 2 – количество значений (4) некоторого количественного признака y e Y ( p ) класса Ki , i =1,2 соответственно в интервалах [ c 1 ,c2 ], ( c2,c3 ], K, | > 1 , v - порядковый номер элемента упорядоченной по возрастанию последовательности (4) из E0 определяющий границы интервалов как c 1 = S r , c 2 = S r , c 3 = S m . Критерий
Критерий (6) отличается от (3) тем, что для линейной проекции описаний объектов на числовую ось необходимо вычислять значения вектора весов w .Приемлемым считается результат, при котором точность распознавания на обучении по ( y , , y j ) c Y ( p ) не ниже чем на исходном наборе X ( n ).
Для вычисления коэффициентов дискриминантной функции d(y)=w1yi+w2yj+w0 по паре ( y , , y j ) c Y ( p ) сформируем матрицу ковариаций Z =| Z 11 Z 1 2 I и вектор-столбец разностей
V z 21 z 22 7
[ m1 - m 2 1 1 1 2 2
, где m , m j , m , m j математические m j - m 22 7
ожидания по признакам yi , yj соответственно в классе K1 и K2 . Решение системы линейных алгебраических уравнений
w ( y ) =
EEU (U -1)
d = 1 - = 1 ___________________
El K-I(l Kl-1)
V , = 1 7
[ EE и (i K 37- u l d = 1 ' - '
2I К J K 2|
V
1 2
W 1 z 11 + W 2 Z 12 = mi - mi
1 2
« 1 z 21 + w 2 z 22 = mj - mj
^ max c! < c 2 < c3
позволяет вычислять оптимальное значение границы между интервалами [ c1,c2 ], ( c2,c3 ]. Выра-
дает искомые значения весов w1 , w2 дискриминантной функции.
Выбор коэффициентов линейного дискриминанта Фишера по (7) связан с предположением, что выборка данных распределена по
нормальному закону. Исходя из этого предположения выбор порога дискриминантный функции d ( y ) производится как
W 0 = - ( w ( m i I K 1 1 + m i I K 21) + w 2 ( m ' I K 1 1 + m2 K 2 1)) / m . (8)
Способ выбора порога без всяких предположений о природе среды впервые был предложен в [7]. Значение порога вычислялось по границе c2 интервалов [c1,c2], (c2,c3] по (5) как c 2 + u (S) w = —2—’
где u ( S )= wy + wy , , S =( у1,™,У р ), u ( S e ( c 2 , c 3 ] - бли-жайщий к c2 объект E0 на числовой оси.
4. ВЫЧИСЛИТЕЛЬНЫЙ ЭКСПЕРИМЕНТ
Для вычислительного эксперимента были взяты 4 выборки данных из [6, 8, 9], содержащих представителей двух непересекающихся классов. Для описания объектов использовались признаки, измеренные в интервальных шкалах. Параметры выборок представлены в табл. 1.
Вычислительный эксперимент проводился на объектах выборок с описанием как в исходном так и в спрямляющем пространстве. Спрямляющее пространство было представлено обобщенными функциями степени не выше 2. Сравнительный анализ данных на выборке Chelust по критериям (2),(3),(5) представлен в табл. 2.
Нетрудно заметить, что между значениями критериев (см. табл. 2) нет линейной или квазилинейной зависимости. Многообразие отношений на множестве значений свидетельствует как о сложности структуры данных так сложности принятия решения по ним.
Значения 0,8001 по критерию (5)на признаках x4 x5 , x5 x6 и x6 указывает на то, что порядок
Таблица 1. Параметры выборок данных
№ |
Выборка данных |
Количество |
|
Объектов |
признаков |
||
1 |
Australian |
690 |
14 |
2 |
Chelust |
42 |
6 |
3 |
Gipertaniya |
147 |
29 |
4 |
Seeds |
140 |
7 |
Таблица 2. Сравнительный анализ данных Chelust по критериям (2), (3), (5)
Из максимального значения 0,9107 по критерию (5) следует вывод, что свойство линейной разделимости среди всех признаков из табл. 2 наиболее выражено у x4 x5 . Несмотря на менее выраженное свойство линейной разделимости, показатель плотности распределения (среднеквадратичное отклонение от математических ожиданий классов) у x4 по (2) выше чем у x4 x5 . Относительно малое значение отклонения (0,0819 относительно 0,0946) указывает на более высокую плотность распределения.
Влияние выбора порога дискриминантной функции w0 с предположением о нормальности распределения выборки по критерию Фишера [3] и по критерию (5) по аналогии соответственно с (8) и (9) на исходных наборах признаков приводится в табл. 3.
Значение критерия (5), равное 1,0, по определению означает, что представители классов на числовой осине пересекаются между собой. Корректное (без ошибок) распознавание объ- ектов на выборках Chelust и Seeds служат подтверждением этому определению.
Эффект от выбора значения порога по (8) или (9) в спрямляющем пространстве на данных Chelust демонстрируется в табл. 4 и рис. 1.
На рис. 1.a и 1.b показана последовательность расположения объектов классов по первой и второй паре признаков из табл. 4. В границах интервалов [ c1 ,c2 ], ( c2 ,c3 ] по (5) содержатся представители соответственно классов K2 и K1 . При пороге, вычисленном по (8) (на рис. 1 указан жирной чертой), число ошибок равно соответственно 2 и 4.
Сравнивая результаты по данным Chelust из табл. 3 и табл. 4 отметим, что корректное распознавание в спрямляющем пространстве достигнуто за счет использования обобщенных функций не выше 2 степени. Для вычисления этих функций будет достаточно задать значения исходных признаков x1 , x4 , x5 или x2 , x4 , x5 , x6 .
ЗАКЛЮЧЕНИЕ
В работе рассмотрена проблема выбора решений в трудно формализуемых задачах путем анализа закономерностей в форме полуплоско-
Таблица 3. Точность распознавания в исходном пространстве признаков
№ |
Выборка данных |
Значение критерия |
Число ошибок при выборе порога по критерию |
||
(3) |
(5) |
(6) |
(5) |
||
1 |
Australian |
0,0088 |
0,6176 |
96 |
84 |
2 |
Chelust |
0,5446 |
1,0000 |
3 |
0 |
3 |
Gipertaniya |
0,2180 |
0,672 |
8 |
1 |
4 |
Seeds |
0,1616 |
1,0000 |
2 |
0 |
Таблица 4. Точность распознавания в спрямляющем пространстве
№ |
Комбинации из пар признаков |
Значение критерия |
Число ошибок при выборе порога по критерию |
||
(3) |
(5) |
(8) |
(9) |
||
1 |
x 1 x 5 , x 4 x 5 |
0,5426 |
1,0 |
2 |
0 |
2 |
x 2 x 6 , x 4 x 5 |
0,2870 |
1,0 |
4 |
0 |
X |
Ж |
XX |
X |
X |
X X |
X |
О |
о |
|> о ш |
О® (ПО ООО ОО О |
о аю |
-4.7 |
-1.45 |
0 |
2.3 |
a )
Ж |
X |
X |
X X |
X X X |
о ар | о о оо ер ® оаро ар |
О ООО® |
-4.58 |
1 -1.31 |
0 |
'"2.48 |
b)
Рис. 1. Последовательность расположения объектов классов и границы пороговна числовой оси стей. Предложены критерии для анализа и методология их использования, которая востребована для разработки и управления технических устройств на основе систем искусственного интеллекта.
Список литературы Анализ данных и принятие решений с помощью логических закономерностей в форме полуплоскостей
- Вапник В.Н. Восстановление закономерностей по эмпирическим данным. М.: Наука. 1979. 447 с.
- Середин О.С. Линейные методы распознавания образов на множестве объектов произвольной природы, представленные попарными сравнениями. Общий случай//Известия Тульского государственного университета. Естественные науки. 2012. Вып. 1. С. 141-152.
- Дуда Р., Харт П. Распознавание образов и анализ сцен. Мир. 1976. 512 с.
- Ту Дж., Гонсалес Р. Пpинципы pаспознавания обpазов. М: Миp, 1978.416 с.
- Игнатьев Н.А. Выбор минимальной конфигурации нейронных сетей//Вычислительные технологии.2001.Т.6. №1. С. 23-28.
- Игнатьев Н.А. Вычисление обобщенных показателей и интеллектуальный анализ данных//Автоматика и телемеханика. 2011. № 5. С.183-190.
- Игнатьев Н.А., Нуржонов Ш.Ю. Выбор параметров регуляризации для повышения обобщающей способности дискриминантных функций//Узбекистон Республикаси Курол Кучлари академияси нинг хабарлари. 2014. Т. 1. № 1(14).С. 81-87.
- Knowledge discovering from clinical data based on classification tasks solving/N.A. Ignat’ev, F.T. Adilova, G.R. Matlatipov, P.P. Chernysh//Medinfo. Amsterdam: ios press. 2001. pp. 1354-1358.
- Index of/ml/machine-learning-databases. URL: http://archive.ics.uci.edu/ml/machine-learning-databases/(дата обращения 14.03.2017).