Анализ эффективности алгоритмов кластеризации мультимодальных выборок с помощью компьютерного моделирования педагогического эксперимента
Автор: Абитов Р.Н., Сафин Р.С.
Журнал: Science for Education Today @sciforedu
Рубрика: Математика и экономика для образования
Статья в выпуске: 2 т.14, 2024 года.
Бесплатный доступ
Проблема и цель. Статья посвящена проблеме первичной обработки данных педагогических экспериментов, имеющих мультимодальный характер. Целью публикации является выявление наиболее эффективных и универсальных алгоритмов кластеризации данных педагогических экспериментов. Методология. В исследовании использовался метод моделирования педагогического эксперимента. Представлен анализ 5 алгоритмов кластеризации. Оценка эффективности алгоритмов кластеризации проводилась по доле наблюдений с ошибками кластеризации на различных уровнях допустимости и коэффициенту подобия Жаккара. Для оценки влияния параметров моделирования педагогического эксперимента и показателей описательной статистики на эффективность алгоритмов кластеризации использовался регрессионный анализ. Результаты. Дана оценка эффективности различных алгоритмов кластеризации данных, а также проведен корреляционный и регрессионный анализ факторов, влияющих на показатели эффективности кластеризации. Наиболее эффективными алгоритмами кластеризации мультимодальных выборок являются алгоритм К-средних и агломеративный иерархический алгоритм. Заключение. Результаты, полученные в данной публикации, могут использоваться для статистического анализа данных педагогических, психологических, социологических, биологических и медицинских исследований.
Моделирование педагогического эксперимента, алгоритмы кластеризации данных, мультимодальные выборки, педагогический анализ данных
Короткий адрес: https://sciup.org/147242885
IDR: 147242885 | УДК: 37.012.4+159.9.072 | DOI: 10.15293/2658-6762.2402.06
Analysis of the effectiveness of clustering algorithms for multimodal samples using computer simulation of an educational experiment
Introduction. The article is devoted to the problem of primary data processing of pedagogical experiments having a multimodal character. The purpose of the study is to identify the most effective and universal clustering algorithms for pedagogical experiments. Materials and Methods. The study used the method of modeling a pedagogical experiment. The analysis of 5 clustering algorithms is conducted. The effectiveness of clustering algorithms was evaluated based on the proportion of observations with clustering errors at various tolerance levels and the Jacquard similarity coefficient. Regression analysis was used to assess the influence of modeling parameters of a pedagogical experiment and indicators of descriptive statistics on the effectiveness of clustering algorithms. Results. The assessment of the effectiveness of various data clustering algorithms is provided, as well as a correlation and regression analysis of factors affecting clustering efficiency indicators was carried out. Conclusions. The most effective clustering algorithms for multimodal samples include the K-means algorithm and the agglomerative hierarchical algorithm. The results obtained in this research can be used for statistical analysis of pedagogical, psychological, sociological, biological and medical research data.
Список литературы Анализ эффективности алгоритмов кластеризации мультимодальных выборок с помощью компьютерного моделирования педагогического эксперимента
- Абитов Р. Н. Пути повышения валидности и повторяемости экспериментальных педагогических исследований // Казанский педагогический журнал. – 2022. – № 4. – С. 79–90. DOI: https://10.51379/kpj.2022.154.4.009 URL: https://elibrary.ru/item.asp?id=49482910
- Ершов К. С., Романова Т. Н. Анализ и классификация алгоритмов кластеризации // Новые информационные технологии в автоматизированных системах. – 2016. – № 19. – С. 274–279. URL: https://elibrary.ru/item.asp?id=25864070
- Подвальный С. Л., Плотников А. В., Белянин А. М. Сравнение алгоритмов кластерного анализа на случайном наборе данных // Вестник Воронежского государственного технического университета. – 2012. – Т. 8, № 5. – С. 4–6. URL: https://elibrary.ru/item.asp?id=17743528
- Сивоголовко Е. В. Методы оценки качества чёткой кластеризации // Компьютерные инструменты в образовании. – 2011. – № 4. – С. 14–31. URL: https://elibrary.ru/item.asp?id=21786023
- Xiaowei Xu, Ester M., Kriegel H.-P., Sander J. A distribution-based clustering algorithm for mining in large spatial databases // Proceedings 14th International Conference on Data Engineering. DOI: https://doi.org/10.1109/icde.1998.655795
- Azzalini A., Valle A. D. The multivariate skew-normal distribution // Biometrika. – 1996. – Vol. 83 (4). – P. 715–726. DOI: https://doi.org/10.1093/biomet/83.4.715
- Banfield J. D., Raftery A. E. Model-based Gaussian and non-Gaussian clustering // Biometrics. – 1993. – Vol. 49 (3). – P. 803–821. DOI: https://doi.org/10.2307/2532201
- Cheng M.-Y., Hall P. Calibrating the excess mass and dip tests of modality // Journal of the Royal Statistical Society: Series B: Statistical Methodology. – 1998. – Vol. 60 (3). – P. 579–589. DOI: https://doi.org/10.1111/1467-9868.00141
- Rodriguez M. Z., Comin C. H., Casanova D., Bruno O. M., Amancio D. R., Costa L. da F., Rodrigues F. A. Clustering algorithms: A comparative approach // PloS ONE. – 2019. – Vol. 14 (1). – P. e021023. DOI: https://doi.org/10.1371/journal.pone.0210236
- Reynolds A. P., Richards G., de la Iglesia B., Rayward-Smith V. J. Clustering rules: a comparison of partitioning and hierarchical clustering algorithms // Journal of Mathematical Modelling and Algorithms. – 2006. – Vol. 5 (4). – P. 475–504. DOI: https://doi.org/10.1007/s10852-005-9022-1
- Kinnunen T., Sidoroff I., Tuononen M., Fränti P. Comparison of clustering methods: A case study of text-independent speaker modeling // Pattern Recognition Letters. – 2011. – Vol. 32 (13). – P. 1604–1617. DOI: https://doi.org/10.1016/j.patrec.2011.06.023
- Ameijeiras-Alonso J., Crujeiras R. M., Rodríguez-Casal A. Mode testing, critical bandwidth and excess mass // TEST. – 2018. – Vol. 28 (3). – P. 900–919. DOI: https://doi.org/10.1007/s11749-018-0611-5
- Fisher N. I., Marron J. S. Mode testing via the excess mass estimate Fisher N.I. Mode testing via the excess mass estimate // Biometrika. – 2001. – Vol. 88 (2). – P. 499–517. DOI: https://doi.org/10.1093/biomet/88.2.499
- Fowlkes E. B., Mallows C. L. A method for comparing two hierarchical clusterings: Rejoinder // Journal of the American statistical association. – 1983. – Vol. 78 (383). – P. 584. DOI: https://doi.org/10.2307/2288123
- Guha S., Rastogi R., Shim K. Cure: an efficient clustering algorithm for large databases. Information Systems. – 2001. – Vol. 26 (1). – P. 35–58. DOI: https://doi.org/10.1016/s0306-4379(01)00008-4
- Guha S., Rastogi R., Shim K. ROCK: a robust clustering algorithm for categorical attributes // Proceedings 15th International Conference on Data Engineering. 1999. (Cat. No.99CB36337). DOI: https://doi.org/10.1109/icde.1999.754967
- Hartigan J. A., Hartigan P. M. The dip test of unimodality // The annals of Statistics. – 1985. – Vol. 13 (1). – P. 70–84. DOI: https://doi.org/10.1214/aos/1176346577
- Jung Y. G., Kang M. S., Heo J. Clustering performance comparison using K-means and expectation maximization algorithms // Biotechnology & Biotechnological Equipment. – 2014. – Vol. 28 (sup1). – P. S44–S48. DOI: https://doi.org/10.1080/13102818.2014.949045
- Karypis G., Eui-Hong Han, Kumar V. Chameleon: Hierarchical clustering using dynamic modeling // Computer. – 1999. – Vol. 32 (8). – P. 68–75. DOI: https://doi.org/10.1109/2.781637
- Kruskal W. H., Wallis W. A. Errata: Use of Ranks in One-Criterion Variance Analysis // Journal of the American Statistical Association. – 1953. – Vol. 48 (264). – P. 907. DOI: https://doi.org/10.2307/2281082
- Ankerst M., Breunig M. M., Kriegel H.-P., Sander J. OPTICS: Ordering points to identify the clustering structure // ACM Sigmod record. – 1999. – Vol. 28 (2). – P. 49–60. DOI: https://doi.org/10.1145/304181.304187
- Rand W. M. Objective criteria for the evaluation of clustering methods // Journal of the American Statistical association. – 1971. – Vol. 66 (336). – P. 846–850. DOI: https://doi.org/10.1080/01621459.1971.10482356
- Sculley D. Web-scale k-means clustering // Proceedings of the 19th international conference on World wide web. – 2010. – P. 1177–1178. DOI: https://doi.org/10.1145/1772690.1772862
- Shi J., Malik J. Normalized cuts and image segmentation // IEEE Transactions on pattern analysis and machine intelligence. – 2000. – Т. 22. – № 8. – С. 888-905. DOI: https://doi.org/10.1109/cvpr.1997.609407
- Silverman B. W. Using kernel density estimates to investigate multimodality // Journal of the Royal Statistical Society: Series B (Methodological). – 1981. – Vol. 43 (1). – P. 97–99. DOI: https://doi.org/10.1111/j.2517-6161.1981.tb01155.x
- Ward J. H. Hierarchical grouping to optimize an objective function // Journal of the American statistical association. – 1963. – Vol. 58 (301). – P. 236–244. DOI: https://doi.org/10.1080/01621459.1963.10500845
- Wilkin G. A., Huang X. K-means clustering algorithms: implementation and comparison // Second International Multi-Symposiums on Computer and Computational Sciences (IMSCCS 2007). – 2007. – P. 133–136. DOI: https://doi.org/10.1109/imsccs.2007.51
- Xu D., Tian Y. A comprehensive survey of clustering algorithms // Annals of Data Science. – 2015. – Vol. 2 (2). – P. 165–193. DOI: https://doi.org/10.1007/s40745-015-0040-1
- Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // ACM sigmod record. – 1996. – Vol. 25 (2). – P. 103–114. DOI: https://doi.org/10.1145/235968.233324