Анализ эффективности алгоритмов кластеризации мультимодальных выборок с помощью компьютерного моделирования педагогического эксперимента

Автор: Абитов Р.Н., Сафин Р.С.

Журнал: Science for Education Today @sciforedu

Рубрика: Математика и экономика для образования

Статья в выпуске: 2 т.14, 2024 года.

Бесплатный доступ

Проблема и цель. Статья посвящена проблеме первичной обработки данных педагогических экспериментов, имеющих мультимодальный характер. Целью публикации является выявление наиболее эффективных и универсальных алгоритмов кластеризации данных педагогических экспериментов. Методология. В исследовании использовался метод моделирования педагогического эксперимента. Представлен анализ 5 алгоритмов кластеризации. Оценка эффективности алгоритмов кластеризации проводилась по доле наблюдений с ошибками кластеризации на различных уровнях допустимости и коэффициенту подобия Жаккара. Для оценки влияния параметров моделирования педагогического эксперимента и показателей описательной статистики на эффективность алгоритмов кластеризации использовался регрессионный анализ. Результаты. Дана оценка эффективности различных алгоритмов кластеризации данных, а также проведен корреляционный и регрессионный анализ факторов, влияющих на показатели эффективности кластеризации. Наиболее эффективными алгоритмами кластеризации мультимодальных выборок являются алгоритм К-средних и агломеративный иерархический алгоритм. Заключение. Результаты, полученные в данной публикации, могут использоваться для статистического анализа данных педагогических, психологических, социологических, биологических и медицинских исследований.

Еще

Моделирование педагогического эксперимента, алгоритмы кластеризации данных, мультимодальные выборки, педагогический анализ данных

Короткий адрес: https://sciup.org/147242885

IDR: 147242885   |   DOI: 10.15293/2658-6762.2402.06

Список литературы Анализ эффективности алгоритмов кластеризации мультимодальных выборок с помощью компьютерного моделирования педагогического эксперимента

  • Абитов Р. Н. Пути повышения валидности и повторяемости экспериментальных педагогических исследований // Казанский педагогический журнал. – 2022. – № 4. – С. 79–90. DOI: https://10.51379/kpj.2022.154.4.009 URL: https://elibrary.ru/item.asp?id=49482910
  • Ершов К. С., Романова Т. Н. Анализ и классификация алгоритмов кластеризации // Новые информационные технологии в автоматизированных системах. – 2016. – № 19. – С. 274–279. URL: https://elibrary.ru/item.asp?id=25864070
  • Подвальный С. Л., Плотников А. В., Белянин А. М. Сравнение алгоритмов кластерного анализа на случайном наборе данных // Вестник Воронежского государственного технического университета. – 2012. – Т. 8, № 5. – С. 4–6. URL: https://elibrary.ru/item.asp?id=17743528
  • Сивоголовко Е. В. Методы оценки качества чёткой кластеризации // Компьютерные инструменты в образовании. – 2011. – № 4. – С. 14–31. URL: https://elibrary.ru/item.asp?id=21786023
  • Xiaowei Xu, Ester M., Kriegel H.-P., Sander J. A distribution-based clustering algorithm for mining in large spatial databases // Proceedings 14th International Conference on Data Engineering. DOI: https://doi.org/10.1109/icde.1998.655795
  • Azzalini A., Valle A. D. The multivariate skew-normal distribution // Biometrika. – 1996. – Vol. 83 (4). – P. 715–726. DOI: https://doi.org/10.1093/biomet/83.4.715
  • Banfield J. D., Raftery A. E. Model-based Gaussian and non-Gaussian clustering // Biometrics. – 1993. – Vol. 49 (3). – P. 803–821. DOI: https://doi.org/10.2307/2532201
  • Cheng M.-Y., Hall P. Calibrating the excess mass and dip tests of modality // Journal of the Royal Statistical Society: Series B: Statistical Methodology. – 1998. – Vol. 60 (3). – P. 579–589. DOI: https://doi.org/10.1111/1467-9868.00141
  • Rodriguez M. Z., Comin C. H., Casanova D., Bruno O. M., Amancio D. R., Costa L. da F., Rodrigues F. A. Clustering algorithms: A comparative approach // PloS ONE. – 2019. – Vol. 14 (1). – P. e021023. DOI: https://doi.org/10.1371/journal.pone.0210236
  • Reynolds A. P., Richards G., de la Iglesia B., Rayward-Smith V. J. Clustering rules: a comparison of partitioning and hierarchical clustering algorithms // Journal of Mathematical Modelling and Algorithms. – 2006. – Vol. 5 (4). – P. 475–504. DOI: https://doi.org/10.1007/s10852-005-9022-1
  • Kinnunen T., Sidoroff I., Tuononen M., Fränti P. Comparison of clustering methods: A case study of text-independent speaker modeling // Pattern Recognition Letters. – 2011. – Vol. 32 (13). – P. 1604–1617. DOI: https://doi.org/10.1016/j.patrec.2011.06.023
  • Ameijeiras-Alonso J., Crujeiras R. M., Rodríguez-Casal A. Mode testing, critical bandwidth and excess mass // TEST. – 2018. – Vol. 28 (3). – P. 900–919. DOI: https://doi.org/10.1007/s11749-018-0611-5
  • Fisher N. I., Marron J. S. Mode testing via the excess mass estimate Fisher N.I. Mode testing via the excess mass estimate // Biometrika. – 2001. – Vol. 88 (2). – P. 499–517. DOI: https://doi.org/10.1093/biomet/88.2.499
  • Fowlkes E. B., Mallows C. L. A method for comparing two hierarchical clusterings: Rejoinder // Journal of the American statistical association. – 1983. – Vol. 78 (383). – P. 584. DOI: https://doi.org/10.2307/2288123
  • Guha S., Rastogi R., Shim K. Cure: an efficient clustering algorithm for large databases. Information Systems. – 2001. – Vol. 26 (1). – P. 35–58. DOI: https://doi.org/10.1016/s0306-4379(01)00008-4
  • Guha S., Rastogi R., Shim K. ROCK: a robust clustering algorithm for categorical attributes // Proceedings 15th International Conference on Data Engineering. 1999. (Cat. No.99CB36337). DOI: https://doi.org/10.1109/icde.1999.754967
  • Hartigan J. A., Hartigan P. M. The dip test of unimodality // The annals of Statistics. – 1985. – Vol. 13 (1). – P. 70–84. DOI: https://doi.org/10.1214/aos/1176346577
  • Jung Y. G., Kang M. S., Heo J. Clustering performance comparison using K-means and expectation maximization algorithms // Biotechnology & Biotechnological Equipment. – 2014. – Vol. 28 (sup1). – P. S44–S48. DOI: https://doi.org/10.1080/13102818.2014.949045
  • Karypis G., Eui-Hong Han, Kumar V. Chameleon: Hierarchical clustering using dynamic modeling // Computer. – 1999. – Vol. 32 (8). – P. 68–75. DOI: https://doi.org/10.1109/2.781637
  • Kruskal W. H., Wallis W. A. Errata: Use of Ranks in One-Criterion Variance Analysis // Journal of the American Statistical Association. – 1953. – Vol. 48 (264). – P. 907. DOI: https://doi.org/10.2307/2281082
  • Ankerst M., Breunig M. M., Kriegel H.-P., Sander J. OPTICS: Ordering points to identify the clustering structure // ACM Sigmod record. – 1999. – Vol. 28 (2). – P. 49–60. DOI: https://doi.org/10.1145/304181.304187
  • Rand W. M. Objective criteria for the evaluation of clustering methods // Journal of the American Statistical association. – 1971. – Vol. 66 (336). – P. 846–850. DOI: https://doi.org/10.1080/01621459.1971.10482356
  • Sculley D. Web-scale k-means clustering // Proceedings of the 19th international conference on World wide web. – 2010. – P. 1177–1178. DOI: https://doi.org/10.1145/1772690.1772862
  • Shi J., Malik J. Normalized cuts and image segmentation // IEEE Transactions on pattern analysis and machine intelligence. – 2000. – Т. 22. – № 8. – С. 888-905. DOI: https://doi.org/10.1109/cvpr.1997.609407
  • Silverman B. W. Using kernel density estimates to investigate multimodality // Journal of the Royal Statistical Society: Series B (Methodological). – 1981. – Vol. 43 (1). – P. 97–99. DOI: https://doi.org/10.1111/j.2517-6161.1981.tb01155.x
  • Ward J. H. Hierarchical grouping to optimize an objective function // Journal of the American statistical association. – 1963. – Vol. 58 (301). – P. 236–244. DOI: https://doi.org/10.1080/01621459.1963.10500845
  • Wilkin G. A., Huang X. K-means clustering algorithms: implementation and comparison // Second International Multi-Symposiums on Computer and Computational Sciences (IMSCCS 2007). – 2007. – P. 133–136. DOI: https://doi.org/10.1109/imsccs.2007.51
  • Xu D., Tian Y. A comprehensive survey of clustering algorithms // Annals of Data Science. – 2015. – Vol. 2 (2). – P. 165–193. DOI: https://doi.org/10.1007/s40745-015-0040-1
  • Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // ACM sigmod record. – 1996. – Vol. 25 (2). – P. 103–114. DOI: https://doi.org/10.1145/235968.233324
Еще
Статья научная