Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение

Автор: Зеньков Игорь Владимирович, Лапко Александр Васильевич, Лапко Василий Александрович, Им Сергей Тхекдеевич, Тубольцев Виталий Павлович, Авдеенок Валерий Леонидович

Журнал: Компьютерная оптика @computer-optics

Рубрика: Обработка изображений, распознавание образов

Статья в выпуске: 2 т.45, 2021 года.

Бесплатный доступ

Предлагается непараметрический алгоритм автоматической классификации статистических данных большого объёма. Основу алгоритма составляет процедура оптимальной дискретизации области значений случайной величины. Под классом понимается компактная группа наблюдений случайной величины, соответствующих одномодальному фрагменту плотности вероятности. Рассматриваемый алгоритм автоматической классификации основан на «сжатии» исходной информации на основе декомпозиции многомерного пространства признаков. В результате статистическая выборка большого объёма преобразуется в массив данных, составленный из центров многомерных интервалов дискретизации и соответствующих им частот принадлежности случайных величин. Для обоснования процедуры оптимальной дискретизации используются результаты исследования асимптотических свойств регрессионной оценки плотности вероятности ядерного типа. Из условия минимума среднеквадратического отклонения регрессионной оценки плотности вероятности определяются оптимальные количества интервалов дискретизации области значений одномерной и двухмерной случайных величин. Полученные результаты обобщаются на дискретизацию области значений многомерной случайной величины. Формула оптимальной дискретизации содержит составляющую, которая характеризуется нелинейным функционалом от плотности вероятности. Устанавливается аналитическая зависимость обнаруженной составляющей от коэффициента контрэксцесса одномерной случайной величины. Для независимых компонент многомерной случайной величины определяется методика расчёта оценок оптимального количества интервалов дискретизации случайных величин и их длин. На этой основе разрабатывается непараметрический алгоритм автоматической классификации, который основан на последовательной процедуре проверки близости центров многомерных интервалов дискретизации и соотношений между частотами принадлежности случайных величин из исходной выборки этим интервалам. Для дополнительного повышения вычислительной эффективности предлагаемого алгоритма автоматической классификации используется многопоточный метод его программной реализации. Практическая значимость разработанных алгоритмов подтверждается результатами их применения при обработке данных дистанционного зондирования.

Еще

Алгоритм автоматической классификации, многомерная гистограмма, регрессионная оценка плотности вероятности, дискретизация области значений случайной величины, выборки большого объёма, коэффициент контрэксцесса, данные дистанционного зондирования

Еще

Короткий адрес: https://sciup.org/140257383

IDR: 140257383   |   DOI: 10.18287/2412-6179-CO-801

A nonparametric algorithm for automatic classification of large multivariate statistical data sets and its application

A nonparametric algorithm for automatic classification of large statistical data sets is proposed. The algorithm is based on a procedure for optimal discretization of the range of values of a random variable. A class is a compact group of observations of a random variable corresponding to a unimodal fragment of the probability density. The considered algorithm of automatic classification is based on the «compression» of the initial information based on the decomposition of a multidimensional space of attributes. As a result, a large statistical sample is transformed into a data array composed of the centers of multidimensional sampling intervals and the corresponding frequencies of random variables. To substantiate the optimal discretization procedure, we use the results of a study of the asymptotic properties of a kernel-type regression estimate of the probability density. An optimal number of sampling intervals for the range of values of one- and two-dimensional random variables is determined from the condition of the minimum root-mean square deviation of the regression probability density estimate. The results obtained are generalized to the discretization of the range of values of a multidimensional random variable. The optimal discretization formula contains a component that is characterized by a nonlinear functional of the probability density. An analytical dependence of the detected component on the antikurtosis coefficient of a one-dimensional random variable is established. For independent components of a multidimensional random variable, a methodology is developed for calculating estimates of the optimal number of sampling intervals for random variables and their lengths. On this basis, a nonparametric algorithm for the automatic classification is developed. It is based on a sequential procedure for checking the proximity of the centers of multidimensional sampling intervals and relationships between frequencies of the membership of the random variables from the original sample of these intervals. To further increase the computational efficiency of the proposed automatic classification algorithm, a multithreaded method of its software implementation is used. The practical significance of the developed algorithms is confirmed by the results of their application in processing remote sensing data.

Еще

Список литературы Непараметрический алгоритм автоматической классификации многомерных статистических данных большого объёма и его применение

  • Дорофеюк, А.А. Алгоритмы автоматической классификации (обзор) / А.А. Дорофеюк // Автоматика и телемеханика. - 1971. - № 12. - С. 78-113.
  • Дорофеюк, А.А. Методология экспертно-классифика-ционного анализа в задачах управления и обработки
  • сложноорганизованных данных (история и перспективы развития) / А.А. Дорофеюк // Проблемы управления. -2009. - № 3(1). - С. 19-28.
  • Цыпкин, Я.З. Основы теории обучающихся систем / Я.З. Цыпкин. - М.: Наука, 1970. - 252 с.
  • Васильев, В.И. Особенности алгоритмов самообучения и кластеризации / В.И. Васильев, С.Н. Эш // Управляющие системы и машины. - 2011. - № 3. - С. 3-9.
  • Лапко, А.В. Непараметрический алгоритм автоматической классификации в условиях статистических данных большого объема / А.В. Лапко, В.А. Лапко // Информатика и системы управления. - 2018. - Т. 57, № 3. -С. 59-70. - DOI: 10.22250/isu.2018.57.59-70.
  • Лапко, А.В. Непараметрический алгоритм выделения классов, соответствующих одномодальным фрагментам плотности вероятности многомерных случайных величин / А.В. Лапко, В.А. Лапко, С.Т. Им, В.П. Тубольцев, B.Л. Авдеенок // Автометрия. - 2019. - Т. 55, № 3. - C. 22-30. - DOI: 10.15372/AUT20190303.
  • Лапко, А.В. Регрессионная оценка многомерной плотности вероятности и её свойства / А.В. Лапко, В.А. Лапко // Автометрия. - 2014. - Т. 50, № 2. - С. 50-56.
  • Лапко, А.В. Оптимальный выбор количества интервалов дискретизации области изменения одномерной случайной величины при оценивании плотности вероятности / А.В. Лапко, В.А. Лапко // Измерительная техника. - 2013. - № 7. - С. 24-27.
  • Лапко, А.В. Выбор оптимального количества интервалов дискретизации области значений двухмерной случайной величины / А.В. Лапко, В.А. Лапко // Измерительная техника. - 2016. - № 2. - С. 14-17.
  • Лапко, А.В. Метод дискретизации области значений многомерной случайной величины / А.В. Лапко, B.А. Лапко // Измерительная техника. - 2019. - № 1. - C. 16-20. - DOI: 10.32446/0368-1025it.2019-1-16-20.
  • Лапко, А.В. Оценивание интеграла от квадрата плотности вероятности одномерной случайной величины / А.В. Лапко, В.А. Лапко // Измерительная техника. - 2020. - № 7. - С. 2228. - DOI: 10.32446/0368-1025it.2020-7-22-28.
  • Kharuk, V.I. Climate-induced northerly expansion of Siberian silkmoth range / V.I. Kharuk, S.T. Im, K.J. Ranson, M.N. Yagunov // Forests. - 2017. - Vol. 8, Issue 8. - 301. -DOI: 10.3390/f8080301.
  • Kharuk, V.I. Siberian silkmoth outbreaks surpassed geocli-matic barrier in Siberian Mountains / V.I. Kharuk, S.T. Im, V.V. Soldatov // Journal of Mountain Science. - 2020. -Vol. 17. - P. 1891-1900. - DOI: 10.1007/s11629-020-5989-3.
Еще