Восстановление пропущенных наблюдений при классификации объектов
Автор: Алексеева Венера Арифзяновна, Донцова Юлия Сергеевна, Клячкин Владимир Николаевич
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Статья в выпуске: 6-2 т.16, 2014 года.
Бесплатный доступ
Рассматривается задача классификации объектов, при которой часть исходной информации утрачена, и ее необходимо восстановить. Исследуется эффективность различных методов восстановления пропущенных наблюдений. Проводится сравнительный анализ эффективности 4 методов восстановления нечисловых данных при классификации объектов.
Восстановление, наблюдение, классификация, объект, моделирование
Короткий адрес: https://sciup.org/148203541
IDR: 148203541
Текст научной статьи Восстановление пропущенных наблюдений при классификации объектов
Рассматривается задача классификации объектов, в которой каждый объект характеризуется m -мерным вектором признаков ( X 1 ... X m ) . Предположим, что некоторые наблюдаемые значения данных признаков, которые имеют нечисловую природу, были утрачены ( X i = N ) в силу определенных обстоятельств (см. табл. 1). Следовательно, возникает задача восстановления нечисловых данных.
Таблица 1. Выборка данных с пропущенными значениями для n объектов
X 1 |
X 2 |
X 3 |
X 4 |
… |
X m |
|
1 |
x 11 |
x 12 |
N |
x 14 |
… |
x 1 m |
2 |
x 21 |
N |
x 23 |
x 24 |
… |
x 2 m |
3 |
x 31 |
x 32 |
x 33 |
x 34 |
… |
N |
… |
||||||
n |
x n1 |
… N |
… N |
… N |
… |
x nm |
Проблема восстановления пропущенных данных исследуемых объектов возникает при решении многих практических задач. В матрицах исходных наблюдений по разным причинам (неисправность измерительного прибора, грубая ошибка при подготовке данных, удаление резко выделяющихся наблюдений и т.д.) могут появляться пропуски отдельных элементов или каких-то частей выборки. Исключать по причине потери данных из дальнейшего исследования весь объект (строку, в которой обнаружены пропуски) или признак (столбец, в котором
обнаружены пропуски) нецелесообразно. Неполная априорная информация объектов, как правило, усложняет процесс построения и дальнейшего применения различных математических моделей, а также может привести к неадекватным результатам. В связи с этим возникает задача поиска наилучшего метода восстановления пропущенных наблюдений по некоторому критерию качества. Выбор критерия восстановления стертых данных производится исходя из характера последующей обработки данных и в зависимости от окончательных целей исследования [1].
В зависимости от решаемой проблемы исследователю может потребоваться либо оценить некоторые параметры при наличии пропущенных значений, либо оценить сами пропущенные значения, либо то и другое вместе. Две последние задачи требуют больше исходных допущений, чем задача оценки параметров. Методы их решения основаны на использовании некоторой избыточной информации, которая возникает вследствие связи между признаками.
В настоящее время наиболее распространенными методами по восстановлению пропущенных данных являются такие, как заполнение пропусков средними значениями, метод ближайших соседей, регрессионный метод, метод максимального правдоподобия и ЕМ-алгоритм, алгоритм ZET, алгоритм ZetBraid, метод Бартлетта, Resampling, эволюционный метод и другие. Однако перечисленные методы работают с данными объектов, значения которых представлены в числовой форме [2-3]. Для решения сформулированной задачи (с учетом нечисловой природы наблюдений) воспользуемся следующими методами [4-5].
Метод 1: замена пропущенных значений на моду. Как правило, мода представляет собой значение на множестве наблюдений, которое встречается наиболее часто. Поскольку наблюдаемые значения объекта носят случайный характер, определим по имеющимся данным дискретное распределение пропущенного параметра (см. табл. 2) и затем во всех записях, где он отсутствует, проставим его моду. Этот способ хорошо применять, когда отсутствующих данных относительно мало.
Таблица 2. Дискретное распределение пропущенного параметра по всей выборки
N |
N = X 1 |
N = X 2 |
N = X 3 |
N = X 4 |
N = X m |
|
P |
p 1 |
p 2 |
p 3 |
p 4 |
p m |
11 признаками [6]. Из данной выборки сформируем тестовую выборку, на которой случайным образом смоделируем различные типы пропусков (в начале выборки, в конце выборки, в середине выборки, несколько пропусков подряд и т.д.), к которым применимы методы восстановления пропущенных значений. Результаты применения этих методов представлены в виде таблиц. Заметим, что замена пропущенного значения на моду с использованием условного распределения по присутствующим параметрам (метод 2) в рассматриваемой выборке верно восстановила менее половины пропущенных значений.
здесь p 1 ,…, pm – вероятности, причем
m
E P i ( N = Х,) = 1.
i = 1
Метод 2: замена пропущенного значения на моду, но с использованием условного распределения по присутствующим параметрам. Данный метод (см. табл. 3) в отличие от первого метода требует больше вычислений.
Таблица 3. Условное распределение пропущенного параметра для первого объекта
m
i: E py = 1.
j = 1
всех
Метод 3: моделирование пропущенных данных с использованием дискретного распределения пропущенного параметра, но теперь в каждом случае (для каждого объекта) производится случайный эксперимент с использованием этого распределения, и на место отсутствующего значения записывается исход этого эксперимента.
Метод 4: моделирование пропущенных данных с использованием условного распределения по присутствующим параметрам, но теперь в каждом случае (для каждого объекта) производится случайный эксперимент с исполь- зованием этого условного распределения, и на место отсутствующего значения записывается исход этого эксперимента.
Для верификации описанных выше методов рассмотрим выборку, состоящую из 1000 объектов, каждый из которых характеризуется
Таблица 4. Результаты восстановления пропущенных значений с помощью метода 1
№ эксп. |
Верно восстановленные значения |
Ошибочно восстановленные значения |
1 |
87% |
13% |
2 |
86% |
14% |
3 |
86% |
14% |
4 |
85% |
15% |
Таблица 5. Результаты восстановления пропущенных значений с помощью метода 3
№ эксп. |
Верно восстановленные значения |
Ошибочно восстановленные значения |
1 |
92% |
8% |
2 |
93% |
7% |
3 |
90% |
10% |
4 |
92% |
8% |
Таблица 6. Результаты восстановления пропущенных значений с помощью метода 4
№ эксп. |
Верно восстановленные значения |
Ошибочно восстановленные значения |
1 |
92% |
8% |
2 |
93% |
7% |
3 |
90% |
10% |
4 |
92% |
8% |
Представленные в табл. 4-6 результаты исследования позволяют сделать вывод о том, что третий и четвертый метод с использованием распределения параметра (простого и условного) для каждого объекта имеют более высокую точность восстановления пропущенных значений – не менее 90%. Следовательно, применение данных методов позволит сохранить в исходной выборке больше полезной информации, которая необходима для адекватного построения математических моделей при решении практических задач классификации объектов.
Рассмотренный пример позволяет предложить следующий алгоритм восстановления пропущенных значений:
-
1. Из заданной (исходной) выборки отбирается подмножество данных, не имеющих пропущенных значений.
-
2. На этом подмножестве моделируются различные типы пропусков, характерных для исходной выборки.
-
3. Смоделированные пропущенные данные восстанавливаются с использованием различных методов.
-
4. По доле верно восстановленных значений выбирается наилучший метод.
-
5. Этот метод используется для восстановления реально пропущенных (а не смоделированных) данных в исходной выборке.
-
2.
-
3.
-
4.
-
5.
-
6.
Работа выполнена в рамках задания Минобрнауки России №2014/232.
Список литературы Восстановление пропущенных наблюдений при классификации объектов
- Айвазян, С.А. Прикладная статистика. Основы моделирования и первичная обработка данных/С.А. Айвазян, И.С. Енюков, Л.Д. Мешалкин. -М.: Финансы и статистика, 1983. 471 с.
- Злоба, Е. Статистические методы восстановления пропущенных данных/Е. Злоба, И. Яцкие//Computer Modelling & New Technologies. 2002. Vol. 6, № 1. P. 51-61.
- Снитюк, В.Е. Эволюционный метод восстановления пропусков в данных//Сборник трудов междунар. конф. «Интеллектуальный анализ информации». -Киев: 2006. С. 262-271.
- Шепелева, М.В. Модели кредитного и поведенческого скоринга. http://www.masters.donntu.edu.ua/2006/kita/shepeleva/library/metod%20scoring.pdf
- Chen, G.G. Bound and collapse bayesian reject inference when data are missing not at random/G.G. Chen, T. Astebro//Mathematical Approaches to Credit Risk Management. Conference Proceedings, Banff International Research Station for Mathematical Innovation and Discovery. 2003. 205 p.
- Клячкин, В.Н. Сравнительный анализ точности нелинейных моделей при прогнозировании состояния системы на основе марковской цепи/В.Н. Клячкин, Ю.С. Донцова//Известия Самарского научного центра Российской академии наук. 2013. Т. 15. № 4(4). С. 924-927.