Об одном алгоритме классификации с использованием коллективов непараметрических моделей
Автор: Агафонов Евгений Дмитриевич, Мангалова Екатерина Сергеевна
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 2 (42), 2012 года.
Бесплатный доступ
Обсуждается проблема построения непараметрического классификатора. Рассматривается подход к построению модели решающего правила в случае большой размерности вектора признаков и больших объемов выборки. Предлагается алгоритм коллективной оценки к ближайших соседей, позволяющий существенно сократить число требуемых вычислительных операций. Работа алгоритма демонстрируется на прикладной задаче.
Классификация, коллективы решающих правил, оценка к ближайших соседей
Короткий адрес: https://sciup.org/148176818
IDR: 148176818
Текст научной статьи Об одном алгоритме классификации с использованием коллективов непараметрических моделей
В современных теории и практике компьютерного анализа данных классификация занимает важное место. В настоящее время существует множество подходов к решению задачи классификации в случае, когда исследователю доступна случайная выборка измерений классифиционных признаков с указаниями учителя [1; 2]. Многие из этих подходов основаны на использовании байесовой процедуры принятия решения, когда решающее правило можно формировать в классе непараметрических регрессионных моделей. Однако высокая вычислительная сложность при реализации соответствующих алгоритмов затрудняет использование указанного подхода для случаев, когда размерность вектора признаков и объем обучающей выборки достаточно велики. Авторами предложен алгоритм классификации с использованием метода k ближайших соседей, предполагающий декомпозицию задачи с использованием коллективов решающих правил и упорядочиванием выборки.
Рассмотрим алгоритм построения непараметрического классификатора на примере двуальтернативной задачи распознавания образов.
Пусть ( x i , y i ) , i = 1, n - обучающая выборка, где x i = ( x d , d = 1, D ) , i = 1, n - значения признаков классифицируемых объектов (среди признаков есть как непрерывные, так и дискретные); y i – указания учителя об их принадлежности к одному из двух классов:
[ 1, X i e^,
У - = 1
[- 1, x - eQ 2 ;
( x i , y i ) , i = 1, m - экзаменующая выборка. Условные плотности вероятности распределения значений признаков x для обоих классов неизвестны.
Решающее правило имеет вид
[ x- eQ 1 , f ( x - ) > C ,
[xleO1, f(xi )< C, где C - порог отсечения, C e [-1, 1]; fx) - решающая функция, f (x) e [-1, 1]. В качестве оценки решающей функции fˆ (x) будем использовать непараметрическую статистику [3]:
f ( x ) =
nD
Z у- П ф i = 1 d = 1

nD
ЕП ф i = 1 d = 1

где Ф – ядерная функция; c n – параметры размытости, удовлетворяющие следующим свойствам: cn > 0; lim c n = 0; lim n ( c n ) D = да .
n ^да n ^да
Введем следующие обозначения:
– TP ( C ) – верно классифицированные положительные примеры, принадлежащие первому классу;
– TN ( C ) – верно классифицированные отрицательные примеры, принадлежащие второму классу;
– FN ( C ) – положительные примеры, классифицированные как отрицательные (ошибка I рода);
– FP ( C ) – отрицательные примеры, классифицированные как положительные (ошибка II рода);
– TPR ( C ) – доля истинно положительных примеров: TPR ( C ) =---- TP ( C )----;
TP ( C ) + FN ( C )
– FPR ( C ) – доля ложно положительных примеров:
FPR ( C ) =--- FP ( C )---.
TN ( C ) + FP ( C )
Зависимость TPR ( C ) от FPR ( C ) образуют кривую ROC (рис. 1).

Рис. 1. Кривая ROC
Оптимизация по параметрам размытости c n происходит в режиме holdout [4] из условия максимума AUC – площади под кривой ROC [5].
Построение решающей функции (1) для неусеченного ядра Ф во всех точках экзаменующей выборки потребует O ( nm ) вычислительных операций. При использовании усеченных ядер время вычисления сокращается, так как локальное усреднение производится только в окрестности каждой точки экзаменующей выборки.
Однако если учесть, что для оптимизации параметров размытости c n необходимо повторять процедуру оценивания решающей функции (1) несколько раз, то применение этой функции для выборок большого объема потребует значительного количества вычислительных ресурсов [6]. Сократить количество вычислительных операций для построения оценки регрессии возможно за счет применения линейных непараметрических коллективов решающих правил, смысл которых состоит в декомпозиции исходной задачи, построении семейства локальных решающих функций и последующей их организации в едином линейном решающем правиле [1].
Для построения локальных (частных) решающих функций предлагается формировать наборы признаков x ( j ) , j = 1, N из исходных x = ( x 1 , x 2 ,,,,, xD ) , причем каждый набор признаков x( j) должен содер жать только один непрерывный признак и произволь ное число дискретных . Семейство частных решающих функций f j ( x ( j )) ( j = 1, N ) строится на основании
модель, оптимизация критерия AUC производится по одному параметру – числу ближайших соседей k .
Предлагаемый алгоритм работает следующим образом (рис. 2). Для построения оценки в точке i 1 достаточно ближайших соседей, для которых значения признака x l - 1 равны 1, Объем подвыборки, значения признака x l - 1 элементов которой равны 3, меньше 2 к , и при построении оценки в точке i 2 происходит включение в оценку элементов соседней подвыборки.

Рис. 2. Работа алгоритма коллективной оценки k ближайших соседей для упорядоченной выборки
обучающих выборок V j = ( x i ( j ), y, , i = 1, n ), j = 1, N ,
Процедуру построения частной модели можно условно разбить на два этапа: упорядочивание выборки V j и оценку k ближайших соседей.
Зададим процедуру упорядочивания выборки.
Пусть сформирован набор признаков
x ( j ) = ( x 1 , x 2 ,
..
,, x l ) , где x 1 , x 2,,,,, x1 1 - дискретные
Для построения одной частной решающей функции во всех точках экзаменующей выборки требуется O ( km ) вычислительных операций.
Интеграция частных решающих функций f j ( x ( j )) ( j = 1, N ) в линейном коллективе решающих правил f ˆ( x ) [1] осуществляется в соответствии с процедурой
N
f( x) = Е wjfi(x (j)), j=1
признаки; x l – непрерывный признак, l < D . На первом шаге производится упорядочивание выборки V j по x 1 , далее – упорядочивание подвыборок с одина- 12
ковыми значениями признаков x по x и так до непрерывного признака x l включительно.
К упорядоченному массиву наблюдений можно применить оценку k ближайших соседей:
где W j ( j = 1, N ) - положительные веса, для которых справедливо равенство
N
Е w j = 1,
j = 1
v + к
Еф
xi
^^^^^^»

f x1 ) =
i = v - к
i * v
c
x n
yi
где v – индекс точки экзаменующей выборки в упорядоченной выборке V j ; c nx – максимальное расстояние от x1 до x i 1 такое, что | i - v | < к , Таким образом, не-
зависимо от числа признаков, включенных в частную
В силу того что веса w j оптимизируются после построения ча стных решающих функций f j ( x ( j )) ( j = 1, N ), перестроения моделей с целью оптимизации не требуется.
Таким образом, сокращение количества вычислительных операций достигается как за счет сокращения количества одновременно настраиваемых параметров, так и за счет экономии вычислительных ресурсов при построении решающих функций.
Численные исследования алгоритма проводились на данных Give Me Some Credit [7], содержащих информацию о кредитной истории 150 000 клиентов банка. Требовалось синтезировать решающее правило, позволяющее отнести клиента к одному из двух классов: заемщикам с наличием или отсутствием
выплат, просроченных на срок более 90 дней за 2 следующих года.
Непрерывные признаки: x 1 – общий баланс по кредитным картам, деленный на сумму кредитного лимита; x 2 – возраст заемщика; x 3 – ежемесячные выплаты долгов, алиментов, расходы на проживание, деленные на ежемесячный доход; x 4 – ежемесячный доход.
Дискретные признаки: x 5 – количество просроченных выплат на срок от 30 до 59 дней за 2 предыдущих года (7 различных значений для 99,756 % наблюдений, 0,179 % наблюдений – пропуски данных); x 6 – количество открытых кредитов (кредиты на покупку автомобиля и ипотека) и кредитных карт (27 значений для 99,4 % наблюдений); x 7 – количество просроченных выплат на срок более 90 дней за 2 предыдущих года (7 значений для 99,752 % наблюдений, 0,179 % наблюдений – пропуски данных); x 8 – количество ипотечных займов (8 значений для 99,799 % наблюдений); x 9 – количество просроченных выплат на срок от 60 до 89 дней за 2 предыдущих года; x 10 – число иждивенцев (8 значений для 97,36 % наблюдений, 2,616 % наблюдений – пропуски данных).
По признакам x 5 , x 6 , x 7 , x 8 , x 9 , x 10 можно производить последовательные сортировки, а по переменным x 1 , x 2 , x 3 , x 4 – вычислять оценку k ближайших соседей. В качестве ядерной функции выбрано треугольное ядро [6].
Наборы признаков формировались последовательным добавлением дискретных признаков x 5 , x 6 , x 7 , x 8 , x 9 , x 10 к непрерывным признакам x 1 , x 2 , x 3 , x 4 . Значения AUC для частных решающих функций (2), построенных по выборкам V j со всевозможными наборами из одного и двух признаков, приведены в табл. 1, с наборами из двух и трех признаков – в табл. 2.
Учет признака x 6 при построении частной решающей функции по непрерывному признаку x 1 и признака x 10 при построении частной решающей функции по непрерывному признаку x 2 привел к уменьшению критерия качества (см. значения, выделенные курсивом в табл. 1).
В результате была получена убывающая по AUC последовательность наборов признаков. Наибольшему значению AUC соответствует набор признаков ( x 7 , x 9, x 5, x 8, x 1), AUC = 0,851 9.
Таблица 1
Значения AUC для частных моделей, построенных с использованием одного или двух признаков
x 1 |
0,782 8 |
0,819 7 |
0,779 0 |
0,818 1 |
0,785 2 |
0,810 2 |
0,786 5 |
x 2 |
0,633 2 |
0,754 0 |
0,652 4 |
0,733 5 |
0,651 1 |
0,713 1 |
0,632 9 |
x 3 |
0,578 6 |
0,723 0 |
0,638 7 |
0,715 1 |
0,641 6 |
0,677 4 |
0,587 1 |
x 4 |
0,580 4 |
0,723 1 |
0,605 8 |
0,695 4 |
0,605 4 |
0,672 0 |
0,595 1 |
Признак |
– |
x 5 |
x 6 |
x 7 |
x 8 |
x 9 |
x 10 |
Таблица 2
Значения AUC для частных моделей, построенных с использованием двух или трех признаков
x 1 |
0,819 7 |
0,816 5 |
0,841 6 |
0,827 2 |
0,836 9 |
0,821 4 |
x 2 |
0,754 0 |
0,769 7 |
0,798 3 |
0,761 3 |
0,779 7 |
0,753 0 |
x 3 |
0,723 0 |
0,759 6 |
0,786 1 |
0,752 5 |
0,760 6 |
0,726 6 |
x 4 |
0,723 1 |
0,747 7 |
0,774 4 |
0,739 6 |
0,755 8 |
0,730 3 |
Признак |
x 5 |
x 5 x 6 |
x 5 x 7 |
x 5 x 8 |
x 5 x 9 |
x 5 x 10 |
x 1 |
0,816 6 |
0,779 0 |
0,817 3 |
0,784 5 |
0,809 6 |
0,775 4 |
x 2 |
0,764 7 |
0,652 4 |
0,737 3 |
0,656 7 |
0,719 4 |
0,646 8 |
x 3 |
0,751 8 |
0,638 7 |
0,725 8 |
0,660 7 |
0,707 1 |
0,632 6 |
x 4 |
0,741 5 |
0,605 8 |
0,705 2 |
0,610 8 |
0,688 6 |
0,615 3 |
Признак |
x 6 x 5 |
x 6 |
x 6 x 7 |
x 6 x 8 |
x 6 x 9 |
x 6 x 10 |
x 1 |
0,842 1 |
0,820 1 |
0,818 1 |
0,822 2 |
0,834 6 |
0,816 9 |
x 2 |
0,797 1 |
0,744 5 |
0,733 5 |
0,741 8 |
0,766 5 |
0,733 4 |
x 3 |
0,784 1 |
0,736 6 |
0,715 1 |
0,745 7 |
0,752 8 |
0,718 4 |
x 4 |
0,777 0 |
0,713 5 |
0,695 4 |
0,7144 |
0,7377 |
0,705 6 |
Признак |
x 7 x 5 |
x 7 x 6 |
x 7 |
x 7 x 8 |
x 7 x 9 |
x 7 x 10 |
x 1 |
0,821 3 |
0,775 2 |
0,823 2 |
0,785 2 |
0,815 6 |
0,788 2 |
x 2 |
0,759 8 |
0,657 9 |
0,740 5 |
0,651 1 |
0,723 3 |
0,651 9 |
x 3 |
0,750 3 |
0,662 4 |
0,743 1 |
0,641 6 |
0,716 9 |
0,647 6 |
x 4 |
0,738 5 |
0,611 2 |
0,711 4 |
0,605 4 |
0,690 2 |
0,617 1 |
Признак |
x 8 x 5 |
x 8 x 6 |
x 8 x 7 |
x 8 |
x 8 x 9 |
x 8 x 10 |
Окончание табл. 2
x 1 |
0,832 2 |
0,807 3 |
0,831 7 |
0,813 3 |
0,810 2 |
0,808 0 |
x 2 |
0,779 8 |
0,727 9 |
0,766 4 |
0,724 3 |
0,713 1 |
0,712 6 |
x 3 |
0,760 9 |
0,716 6 |
0,753 7 |
0,719 4 |
0,677 4 |
0,680 7 |
x 4 |
0,756 0 |
0,694 4 |
0,732 4 |
0,694 2 |
0,672 0 |
0,684 6 |
Признак |
x 9 x 5 |
x 9 x 6 |
x 9 x 7 |
x 9 x 8 |
x 9 |
x 9 x 10 |
x 1 |
0,816 2 |
0,770 0 |
0,815 5 |
0,780 4 |
0,806 6 |
0,786 5 |
x 2 |
0,751 8 |
0,646 8 |
0,731 6 |
0,651 0 |
0,711 9 |
0,632 9 |
x 3 |
0,725 6 |
0,631 0 |
0,713 9 |
0,646 8 |
0,680 6 |
0,585 7 |
x 4 |
0,728 5 |
0,615 3 |
0,703 4 |
0,617 0 |
0,682 5 |
0,585 1 |
Признак |
x 10 x 5 |
x 10 x 6 |
x 10 x 7 |
x 10 x 8 |
x 10 x 9 |
x 10 |
На основе анализа результатов построения частных моделей с различными наборами признаков были сделаны выводы о степени влияния каждого признака на отклик относительно других, т. е. было проведено ранжирование непрерывных и дискретных признаков:
x > x > x > x , x5 ® x7 ® x9 > x8 > x6 > x 10, где a > b означает, что влияние признака a выше влияния признака b; a ≈ b – однозначное сравнение влияния не может быть произведено.
Объединение частных моделей в линейный коллектив позволяет повысить качество модели: при объединении 5 частных моделей AUC = 0,861 1, при объединении 13 частных моделей AUC = 0,864 1, дальнейшее же увеличение коллектива к существенному увеличению AUC не приводит. Объединение проводилось последовательным добавлением случайно выбранной частной модели к коллективу. В случае отсутствия улучшения качества модели добавленная частная модель удалялась. За первоначальный коллектив была взята частная модель, построенная по набору признаков ( x 7 , x 9 , x 5 , x 8 , x 1 ) и оптимальная в смысле AUC. Для решения задачи выбора оптимального набора признаков потребовалось построить 42 частные модели: 4 – для выбора непрерывного признака, 6 – для выбора первого дискретного признака, 5 – для выбора второго дискретного признака, 4 – для выбора третьего дискретного признака, 3 – для выбора четвертого дискретного признака и 24 = 4! для определения порядка дискретных признаков.
Предлагаемый алгоритм сравнивался с алгоритмами, вычислительные затраты которых также линейно зависят от объема выборки и количества элементов в коллективе:
– бинарное дерево регрессии [2] (89 вершин) – AUC = 0,852 4;
– алгоритм Random Forest [8] (500 деревьев) – AUC = 0,864 2.
При равных показателях критерия AUC предлагаемый алгоритм требует меньшее количество вычислительных ресурсов.