Исследование моделей и процедур самоконфигурации генетического программирования для формирования деревьев принятия решений в задачах интеллектуального анализа данных

Автор: Липинский Л.В., Кушнарева Т.В.

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 3 т.17, 2016 года.

Бесплатный доступ

Исследуются механизмы самоконфигурации алгоритма генетического программирования для автоматизированного формирования деревьев принятия решений. Рассматриваются известные и хорошо зарекомендовавшие себя в задачах самоконфигурирования генетического алгоритма модели Population-Level Dynamic Probabilities (PDP) и Individual-Level Dynamic Probabilities (IDP). За счет общности процедур выбора эволюционных операторов данные подходы достаточно просто обобщаются на все эволюционные алгоритмы в целом и на алгоритм генетического программирования в частности. Однако указанные процедуры ограничены в выборе конфигурации и управлении ходом эволюции. Такие пути развития эволюционного поиска, как перезапуск, введение в популяцию новых случайных индивидов, кардинальное изменение параметров и изменение ресурсов поиска (добавление итераций, расширение популяции и т. п.), сложно включить в PDP и IDP. Кроме того, процесс принятия решения, т. е. изменение конфигурации поискового алгоритма, скрыт от пользователя. Пользователь может наблюдать лишь результаты этого выбора. Рассматривается альтернативный подход к самоконфигурированию эволюционных алгоритмов с помощью нечеткого контроллера. Процедура принятия решения и управления конфигурацией поиска в нечетких логических системах аналогична рассуждению эксперта и легко обобщается на большинство путей и настроек эволюционного поиска, которые применяет в своей работе опытный пользователь. Кроме того, пользователь может включить в нечеткий контроллер те эвристические правила и процедуры, которые сам использует в своей практике. Показывается принципиальная возможность применения нечеткой системы управления для самоконфигурирования алгоритма генетического программирования в задаче автоматизированного формирования деревьев принятия решения. Предложен минимальный набор нечетких правил и лингвистических переменных, позволяющий управлять эволюционным поиском. Обсуждается потенциал нечеткого контроллера и пути повышения эффективности процедуры самоконфигурации. Сравнение эффективности процедур самоконфигурирования проводится на практических задачах - классификации ирисов Фишера и прогнозировании побочных эффектов при лечении эпилепсии. Проводится анализ статистической значимости различий в эффективности подходов и обсуж- даются результаты. Гибридный эволюционный алгоритм автоматизированного формирования деревьев принятия решений на основе генетического программирования с реализованными процедурами самоконфигурации может быть применен в различных областях, в том числе и в ракетно-космической отрасли.

Еще

Генетический алгоритм, генетическое программирование, деревья принятия решений, нечеткий контроллер, самоконфигурация

Короткий адрес: https://sciup.org/148177597

IDR: 148177597 | УДК: 159.688

Текст научной статьи Исследование моделей и процедур самоконфигурации генетического программирования для формирования деревьев принятия решений в задачах интеллектуального анализа данных

Введение. Алгоритм автоматизированного формирования деревьев принятия решений методом генетического программирования [1; 2] показал свою эффективность при решении тестовых и прикладных задач [3–5]. Следовательно, его дальнейшая модернизация для повышения скорости работы, удобства пользователя и уровня автоматизации является актуальной задачей. Для улучшения алгоритма были рассмотрены и реализованы три процедуры самоконфи-гурации: Population-Level Dynamic Probabilities (PDP), Individual-Level Dynamic Probabilities (IDP) [6] и управление с помощью нечеткого контроллера [7]. Данные процедуры позволят снизить участие пользователя в настройке алгоритма, что, в свою очередь, приведет к повышению скорости работы, удобства интерфейса и уменьшит риск человеческого фактора. Следовательно, данный алгоритм можно будет применять для решения задачи ракетно-космической отрасли, где требуется высокая точность и минимизация рисков.

Population-Level Dynamic Probabilities и IndividualLevel Dynamic Probabilities. Метод PDP работает следующим образом: вероятности использования генетических операторов напрямую зависят от успешности одного или другого оператора, т. е. чем успешнее действие оператора, тем чаще он используется. Вероятности рассчитываются по формуле (1):

ров рассчитываются для каждого индивида отдельно по формуле (2):

p = P all +

(max cntk +1 - cnt 'j) * (100 - n * p all) 1< k < n n *(maxcntk+1) -^^ cnt kj

Г *(100 - n * P all ) scale

success² 20 ⁿ

-----^, P all = —^, scale X r j ^, used - n j = 1

где success – это число успешных применений -го оператора; used – общее число применений - го оператора; n – общее число операторов [6; 7].

В методе IDP каждому индивиду популяции присваивается счетчик (cnt j ) по числу неудачных применений оператора. Вероятности применения операто-

20 Pall = —, n где n – общее число операторов [6; 7].

Нечеткий котроллер. Нечеткий контроллер – это регулятор, построенный на базе нечетких правил [8–10]. Общую схему регулятора можно увидеть на рис. 1.

Управление системы на основании нечеткой логики состоит из трех основных этапов:

1) фаззификация;
2) нечеткий вывод;
3) дефаззификация.

На этапе фаззификации четкий вход (информация об управляемом объекте) переводится в нечеткую точку (если вход – скаляр) или точки (если вход – вектор), в соответствии с лингвистическими переменными.

На этапе нечеткого вывода по имеющимся нечетким точкам, полученным на этапе фаззификации, и базе нечетких правил находится нечеткий выход. Нечеткий выход представляет собой нечеткое множество, конкретный элемент которого выбирается на следующем этапе.

На заключительном этапе дефаззификации нечеткий выход, полученный на предыдущем этапе, переводят в четкий, используя соответствующие лингвистические переменные. Существуют несколько возможных вариантов такого перехода, например, первый максимум: из нечеткого множества (нечеткого выхода) выбирают наименьший элемент, принадлежность которого равна максимуму из принадлежностей точек, полученных при фаззификации.

Нечеткий контроллер управляет вероятностями селекции ( p s ), скрещивания ( p c ) и мутации ( p m ) на основании таких показателей, как номер итерации ( N i ), разнообразие популяции ( I i ) и средняя пригодность (sred i ). Общая схема управления представлена на рис. 2.

На рис. 3–5 представлены функции принадлежности для каждого входа и выхода.

В табл. 1–3 представлены базы правил. Формируются они следующим образом. Например, если номер итерации большой и разнообразие популяции не из-

менилось, то вероятность мутации изменяется слабо. Базы правил формулируются на основе многократного решения различных задач и обобщения полученного опыта.

Самоконфигурирующийся гибридный эволюционный алгоритм автоматизированного проектирования деревьев принятия решений. Три настройки были реализованы в существующем алгоритме, главное рабочее окно программы можно увидеть на рис. 6.

Рис. 1. Схема нечеткого контроллера

Рис. 2. Общая схема управления

µ ( N i ) t

µ ( I i )

Большой

Маленький

Средний

20 40 60 80

N i

Слабое Среднее Сильное

0 0,2 0,4 0,6 0,8 I i

µ (sred i )

Функция принадлежности для номера итерации ( N_i , для 100 итераций)

Функция принадлежности для разнообразия ( I i )

µ ( p m )

Низкая Средняя Высокая

0 0,2 0,4 0,6 0,8 p m

Функция принадлежности для вероятности мутации ( p_m )

Рис. 3. Функции принадлежности входных и выходных параметров

µ ( p s ) A

Маленька я Средняя Большая

0 0,2 0,4 0,6 0,8 sred i

Низкая

Высокая

0,4

0,6

P s

Функция принадлежности для средней пригодности (sred _i ) для каждого типа селекции

Функция принадлежности для вероятности селекции ( p_si ) для каждого типа селекции

Рис. 4. Функции принадлежности для каждого входного и выходного параметра селекции

µ (sred i )

µ ( p c )

▲ ^{Маленькая} Средняя Большая

0 0,2 0,4 0,6 0,8 ^sred i

Низкая

Высокая

0,4

0,6

P c

Функция принадлежности для средней пригодности (sred _i ) для каждого типа скрещивания

Функция принадлежности для вероятности скрещивания ( p_сi ) для каждого типа скрещивания

Рис. 5. Функции принадлежности для каждого входного и выходного параметра скрещивания

Таблица 1

N i	I i	p m
Если номер большой	и разнообразие сильное	то вероятность мутации не изменяется
Если номер меньше или равен среднему	и разнообразие ниже или равно слабому	то вероятность мутации изменяется сильно
Если номер больше или равен среднему	и разнообразие ниже или равно слабому	то вероятность мутации изменяется средне
Если номер меньше или равен среднему	и разнообразие среднее	то вероятность мутации изменяется средне
Если номер большой	и разнообразие среднее	то вероятность мутации изменяется слабо
Если номер меньше или равен среднему	и разнообразие сильное	то вероятность мутации изменяется слабо

Таблица 2

Sred 1 Sred 2 Sred 3	P 1 1 P 3 1 P 2
Если средние пригодности одинаковые (большие, средние или маленькие)	то вероятности становятся равными
Если две средние пригодности большие, а одна средняя	то две соответствующие вероятности селекции увеличиваются, а одна уменьшается
Если две средние пригодности средние, а одна маленькая	то две соответствующие вероятности селекции увеличиваются, а одна уменьшается
Если две средние пригодности средние, а одна большая	то две соответствующие вероятности селекции уменьшаются, а одна увеличивается
Если две средние пригодности маленькие, а одна средняя	то две соответствующие вероятности селекции уменьшаются, а одна увеличивается
Если одна средняя пригодность большая, вторая средняя, а третья маленькая	то соответствующие вероятности: увеличивается, не изменяется, уменьшается

База правил для управления скрещиванием

Таблица 3

Sred 1 Sred 2	P 1	P 3
Если средние пригодности изменились одинаково	то вероятности становятся равными
Если sred 1 > sred 2	то вероятность одноточечного скрещивания увеличивается	то вероятность случайного скрещивания уменьшается
Если sred₁< sred₂	то вероятность одноточечного скрещивания уменьшается	то вероятность случайного скрещивания увеличивается

База правил для управления мутацией

База правил для управления селекцией

Решение задачи классификации ирисов Фишера и задачи прогнозирования побочных эффектов при лечении эпилепсии. Оценка работоспособности алгоритма с реализованными методами самонастройки была проведена на репрезентативном множестве тестовых задач, решение одной из которых (классификации ирисов Фишера [11]) представлено в табл. 4 для сравнения эффективности настроек. После оценки было проведено исследование предложенного подхода на практической задаче прогнозирования нежелательных явлений при лечении эпилепсии [12]. Для решения этой задачи была построена выборка, содержащая сведения об около ста пациентах. Для каждого пациента в выборке были определены следующие параметры.

1. Входные: пол, возраст, степень обследования, характеристика приступов, МРТ, ВЭМ, терапевтический лекарственный мониторинг, фармакогенетика, вид мутации по трем цитохромам, наличие нежелательных лекарственных явлений.
2. Выходные: группа риска нежелательных явлений и со стороны каких систем организма есть нежелательные явления.

По первому выходу представлены 5 градаций: низкая, средняя, высокая группа риска, не уточнялась и данных для определения недостаточно. Для второго выхода выделены 11 систем: не зарегистрированы нежелательные явления, со стороны центральной нервной системы, со стороны желудочно-кишечного тракта, со стороны эндокринной системы, поражение кожи и ногтей, со стороны мочевыделительной системы, со стороны репродуктивной системы, данных для определения недостаточно, а также есть случаи, когда нежелательные явления проявлялись со стороны нескольких систем одновременно.

Алгоритму были предоставлены достаточные и равные вычислительные ресурсы. Проведены исследования всех трех подходов, получены результаты по 40 запускам для каждого подхода, рассчитываемые по формуле (3), впоследствии усредненные и отраженные в табл. 4. Также в табл. 4 содержится усредненный результат работы алгоритма без самонастройки:

n error = —, n

где error – ошибка классификации; n о – число неверно расклассифицированных измерений; n – общее число измерений.

Статистический анализ результатов. Для сравнения эффективности подходов был проведен статистический анализ [13].

Была выдвинута нулевая гипотеза о том, что нет статистически значимого различия между каждыми двумя генеральными совокупностями, т. е. их математические ожидания равны ( H 0 : M [ X ] = M [ Y ]), при конкурирующей гипотезе, что математическое ожидание первой совокупности больше, чем у второй ( H 1 : M [ X ] > M [ Y ]). Так как независимые выборки произвольно распределены и их дисперсии неизвестны, но при этом они имеют объем, больше 30 каждая, то выборочные средние распределены приближенно нормально, а выборочные дисперсии являются достаточно хорошими оценками генеральных дисперсий. Тогда можно применить следующий критерий (формула (4)):

X - Y

ID в ( X ) + D в ( Y )

Критическая область в данном случае правосторонняя (рис. 7), уровень значимости равен 0,05, критическая точка равна 1,65 [14; 15]. Значения критерия соответствующих выборок приведены в табл. 5 и 6 (при z набл < z кр гипотеза H 0 принимается, иначе отвергается).

Таблица 4

Методы/задачи	Классификация ирисов Фишера	Прогнозирование побочных реакций при лечении эпилепсии
Алгоритм без самонастройки	0,044	0,173
IDP	0,02	0,153
PDP	0,022	0,156
Настройка с помощью нечеткого контроллера	0,016	0,132

Результаты работы алгоритма с разными настройками

α = 0,05

Z кр = 1,65

Рис. 7. Правосторонняя критическая область

Таблица 5

Попарный статистический анализ для задачи классификации ирисов

	IDP	PDP	Настройка с помощью нечеткого контроллера
Алгоритм без самонастройки	3,28	2,31	5,02
IDP		0,90	1,86
PDP			2,65

Таблица 6

Попарный статистический анализ для задачи прогнозирования побочных явлений

	IDP	PDP	Настройка с помощью нечеткого контроллера
Алгоритм без самонастройки	2,04	1,69	4,37
IDP		0,46	2,38
PDP			2,82

Заключение. Проведенный попарный статистический анализ результатов выявил следующие результаты: алгоритм с любой процедурой самоконфигуриро-вания лучше, чем без нее; управление с помощью нечеткого контроллера лучше, чем методы PDP и IDP, при этом последние не имеют статистически значимого различия между собой, поэтому несравнимы. Следует заметить, что у нечеткого контроллера есть и дополнительные преимущества: прозрачность принятия решения, широкие возможности в управлении (включение перезапуска, добавление новых случайных индивидов и т. д.).

Последующая разработка процедур автоматизированной настройки правил позволит существенно увеличить эффективность алгоритма.

Список литературы Исследование моделей и процедур самоконфигурации генетического программирования для формирования деревьев принятия решений в задачах интеллектуального анализа данных

Кушнарева Т. В., Липинский Л. В. Алгоритм генетического программирования для автоматизированного формирования деревьев принятия решения//Материалы XVIII Междунар. науч. конф., посвященной 90-летию со дня рождения генерального конструктора ракетно-космических систем академика М. Ф. Решетнева/СибГАУ. Красноярск, 2014. Т. 2. С. 84-86.
Гибридный эволюционный алгоритм автоматизированного формирования деревьев принятия решения/Липинский Л. В. //Вестник СибГАУ. 2014. № 5 (57). С. 85-92.
Кушнарева Т. В., Липинский Л. В. Автоматизированное формирование деревьев принятия решения для прогнозирования побочных эффектов при лечении эпилепсии//Актуальные проблемы авиации и космонавтики: материалы XI Междунар. науч.-практ. конф., посвященной празднованию 55-летия Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева/СибГАУ. Красноярск, 2015. Т. 1. С. 334-336.
Кушнарева Т. В., Липинский Л. В. Анализ и интерпретация результатов при автоматизированном формировании деревьев принятия решений методом генетического программирования//Материалы XIX Междунар. науч. конф., посвященной 55-летию Сибирского государственного аэрокосмического университета имени академика М. Ф. Решетнева/СибГАУ. Красноярск, 2015. Т. 2. С. 57-59.
Кушнарева Т. В. О применении деревьев принятия решения в задачах медицинской диагностики//Проспект Свободный -2015: материалы науч. конф., посвященной 70-летию Великой Победы (15-25 апр. 2015, г. Красноярск)/Сиб. федер. ун-т. Красноярск, 2015. C. 31-32.
Niehaus J., Banzhaf W. Adaption of operator probabilities in genetic programming//Proceeding EuroGP ’01: Proceedings of the 4th European Conference on Genetic Programming. London: Springer-Verlag Publ, 2001. Vol. 2038 of LNCS. P. 325-336.
Рутковская Д., Пилиньский М., Рутковский Л. Нейронные сети, генетические алгоритмы и нечеткие системы. М.: Горячая линия. Телеком. 2006. C. 91-106.
Yuceer C., Oflazer K. A rotation, scaling and translation invariant pattern classification system//Pattern Recognition. 1993. Vol. 26. P. 687-710.
Zadeh L. A. Fuzzy sets//Information and control. 1965. Vol. 8. P. 338-353.
Zadeh L. A. The concept of linguistic variables and its application to approximate reasoning//Information sciences. 1975. No 8(3). P. 199-249.
Fisher R. A. The Use of Multiple Measurements in Taxonomic Problems//Annals of Eugenics. 1936. Vol. 7, iss. 2. P. 179-188.
Академик . URL: http://dic.academic.ru/dic.nsf/enc_medicine/36047/Эпилепсия (дата обращения: 10.1.2013).
Гмурман В. Е. Теория вероятностей и математическая статистика: учеб. пособие для вузов. М.: Высш. шк., 2003. С. 303-304.
Прикладная статистика: Основы моделирования и первичная обработка данных/С. А. Айвазян М.: Финансы и статистика, 1983. 471 с.
Румшиский Л. З. Математическая обработка результатов эксперимента. М.: Наука, 1971. 192 с.

Еще