Обобщение комбинированного метода «факторный анализ + таксономия»
Бесплатный доступ
Рассматривается обобщенный метод анализа данных наблюдений, необходимый для обнаружения закономерностей, оценки важности признаков объектов и нахождения скрытых факторов. Предлагаемый метод основан на использовании дискриминантного анализа, таксономии и оценки информативности подсистем признаков. Анализ данных предполагает не только поиск глубинных факторов, но и обнаружение скрытых закономерностей. Предложена модель задачи обнаружения закономерностей, заключающаяся в ее сведении к дискриминантному анализу - задаче разделения множеств. При этом оказалось достаточным рассмотрение случая разбиения на два класса. При отсутствии аналитического описания этого разбиения работать с объектами можно только по их взаимодействию с приборами и экспертизами. Тогда восстановление классов производится по соответствующим прецедентным множествам. Конкретные приложения полученных результатов - задачи поиска закономерностей в неформализованных задачах математической экономики, математической биологии и медицины. В статье показано, что теория алгоритмов позволяет анализировать не только неформализованные задачи, но и в принципе неформализуемые.
Дискриминантный анализ, таксономия, структура гиперграфа, теория алгоритмов
Короткий адрес: https://sciup.org/147155031
IDR: 147155031 | DOI: 10.14529/ctcr150217
Текст краткого сообщения Обобщение комбинированного метода «факторный анализ + таксономия»
Анализ данных наблюдений позволяет описывать группировки в множестве объектов и множестве их признаков. Это нужно для обнаружения закономерностей, оценки важности признаков объектов и нахождения скрытых факторов. Этот анализ можно проводить на основе дискриминантного анализа, таксономии и оценки информативности подсистем признаков [1–8]. Ранее мы предложили таксономию столбцов матрицы объект/признак для факторного анализа данных наблюдений. Факторами являются латентные признаки, линейными комбинациями которых определяются наблюдаемые признаки. Здесь предлагается некоторое обобщение этого метода. Оказывается, структура факторов (в том числе структура расстояний между ними) определяется структурой некоторых таксонов. Такую методику мы с аспирантом Д.В. Гилевым применили в задаче поиска закономерностей в медицине [9].
Пусть А – прецедентная выборка в множестве М в линейном пространстве L, A = B U C, пересечение множеств В и С пусто. Мы имеем в виду, что М – генеральная совокупность объектов из L, А – прецедентное множество описаний объектов, В и С – прецедентные подмножества двух классов.
Имеем таблицу наблюдений объектов двух классов с указанием значений предикатов:
Классы |
Объекты |
Предикаты |
р(х) |
р(y) |
B |
{x} |
р |
1 |
–1 |
C |
{y} |
–1 |
1 |
Преобразуем таблицу к следующему виду:
Объекты |
Предикат |
p(z) |
|
z є В U (-C) |
{ z} |
1 |
Предполагаем, что В U (–С) можно считать матрицей (в общем случае бесконечной), строки которой – векторы состояния объектов в выбранном пространстве признаков. Положим
[В U (–С) ]* = D, где *– оператор транспонирования, D – множество столбцов массива векторов В U (–C). Эти рассуждения понятны в конечномерном случае.
Применим к множеству D операцию таксономии:
TAXON (D) = U Di ( i є I).
Обычно требуют, чтобы при различных i и j таксоны Di, Dj не пересекались. Но в нашем подходе (когда мы ищем факторы) они могут пересекаться.
Определим фактор fi = z(Di), где z – операция вычисления некоторого среднего элемента множества. В частности, z(N) – это может быть средний арифметический вектор множества N:
z(N) =Σ (x є N)/|N| , где |N| – число элементов множества N. Эта формула имеет простой смысл в конечномерном случае.
Вообще, вид элемента z(N) определяется содержательным смыслом решаемой задачи.
Интерпретация фактора fi есть функция смыслов факторов, входящих в таксон Di.
При этом мы рассматриваем тот случай, когда Di есть i-я максимальная по включению совместная подсистема системы
ф(z) > 0, z є D, ф є Ф.
В этом случае таксоны могут пересекаться.
Это система относительно искомого преобразования ф, применяемого в задачах таксономии. Если она совместна, то имеется только один таксон и соответственно один фактор. Однако чаще всего в прикладных задачах она несовместна и определяет несколько факторов.
Структуру гиперграфа максимальных по включению совместных подсистем (связанная с структурой факторов) глубоко исследовал М.Ю. Хачай [10]. Эти разработки важны в методе комитетов для несовместных задач прогнозирования, классификации и распознавания.
Определим расстояние между факторами через расстояния между соответствующими таксонами. Это расстояние может быть определено как среднее значение расстояний между элементами таксонов, либо как расстояние между центрами тяжести таксонов.
Анализ данных предполагает не только поиск глубинных факторов, но и обнаружение скрытых закономерностей.
Здесь я хочу предложить одну из моделей задачи обнаружения закономерностей.
Во-первых, замечу, что эту задачу можно свести к дискриминантному анализу – задаче разделения множеств. При этом достаточно рассмотреть случай разбиения на два класса. Конкретные приложения – решённые нами задачи поиска закономерностей в неформализованных задачах математической экономики, математической биологии и медицины. Интересно, что теория алгоритмов позволяет анализировать не только неформализованные задачи, но и в принципе нефор-мализуемые. При этом опираются на теоремы Гёделя.
Теперь предположим, что мы располагаем следующей информацией. Есть конечное множество векторов состояний объектов. Предполагается, что оно разбито на классы, но аналитическое описание этого разбиения вначале отсутствует. Более того, объекты представляют собой «вещи в себе», но работать с ними можно по их взаимодействию с приборами и экспертизами. Результат такого взаимодействия - представление объекта как вектора х в линейном пространстве L.
Моделирование разбиения пространства L на два класса Х1 и Х2 зависит от выбора класса L* разделяющих функций. Классы разделяются выражением y = f(x), f – искомая функция из L*. При этом
Х1 содержится в множестве {x: f(x) > 0};
Х2 – в множестве {x: f(x) < 0};
Граница Г между классами – в множестве {x: f(x) = 0}.
Восстановление классов производится по прецедентным множествам А. В, и С из классов Х1, Х2 и Г соответственно.
Приложения: социология, биология и медицина
Работа поддержана РНФ № 14 – 11 – 00109.
Мазуров В.Д.
Список литературы Обобщение комбинированного метода «факторный анализ + таксономия»
- Загоруйко, Н.Г. Прикладные методы анализа данных и знаний/Н.Г. Загоруйко. -Новосибирск: Институт математики, 1999. -267 с.
- Браверманн, Э.М. Структурные методы обработки эмпирических данных/Э.М. Браверманн, И.Б. Мучник. -М.: Наука, 1983. -404 с.
- Мазуров, В.Д. Нейронные сети и экспертизы/В.Д. Мазуров, Н.И. Потанин//Тезисы конференции ИММ Уро РАН. -1983.
- Вапник, В.Н. Теория распознавания образов/В.Н. Вапник. -М.: Наука, 1974. -416 с.
- Мазуров, В.Д. Упорядочить хаос/В.Д. Мазуров, И.И.Еремин//Известия УрГУ. Серия «Общественные науки». -2001. -21. -С. 6-9.
- Донской, В.И. Синтез согласованных линейных оптимизационных моделей по прецедентной информации/В.И. Донской//Ученые записки ТНУ. Сер. «Физ.-мат. науки». -2010. -Т. 23. -№ 2. -С. 56-65.
- Калядин, Н.И. Конструктивизация моделей классификации конечных объектов/Н.И. Калядин//Изв. ИМИ УдГУ. -2007. -№ 1(38). -231 c.
- Мазуров, В.Д. Метод комитетов в задачах оптимизации и классификации/В.Д. Мазуров. -М.: Наука, 1990. -248 с.
- Мазуров, В.Д. Модель динамики объектов в противоречивых условиях/В.Д. Мазуров, Д.В. Гилев//Sworld. Problems and ways of their solution in science, transport and so on. -2012. -December -P. 34-41.
- Хачай, М.Ю. Комитетные решения несовместных систем ограничений и методы обучения распознаванию: дис. … д-ра физ.-мат. наук/М.Ю. Хачай. -Екатеринбург, 2004. -175 с.