Научные статьи \ Философия. Психология \ Психология

Анализ эффективности алгоритмов кластеризации мультимодальных выборок с помощью компьютерного моделирования педагогического эксперимента

Автор: Абитов Р.Н., Сафин Р.С.

Журнал: Science for Education Today @sciforedu

Рубрика: Математика и экономика для образования

Статья в выпуске: 2 т.14, 2024 года.

Бесплатный доступ

Проблема и цель. Статья посвящена проблеме первичной обработки данных педагогических экспериментов, имеющих мультимодальный характер. Целью публикации является выявление наиболее эффективных и универсальных алгоритмов кластеризации данных педагогических экспериментов. Методология. В исследовании использовался метод моделирования педагогического эксперимента. Представлен анализ 5 алгоритмов кластеризации. Оценка эффективности алгоритмов кластеризации проводилась по доле наблюдений с ошибками кластеризации на различных уровнях допустимости и коэффициенту подобия Жаккара. Для оценки влияния параметров моделирования педагогического эксперимента и показателей описательной статистики на эффективность алгоритмов кластеризации использовался регрессионный анализ. Результаты. Дана оценка эффективности различных алгоритмов кластеризации данных, а также проведен корреляционный и регрессионный анализ факторов, влияющих на показатели эффективности кластеризации. Наиболее эффективными алгоритмами кластеризации мультимодальных выборок являются алгоритм К-средних и агломеративный иерархический алгоритм. Заключение. Результаты, полученные в данной публикации, могут использоваться для статистического анализа данных педагогических, психологических, социологических, биологических и медицинских исследований.

Еще

Моделирование педагогического эксперимента, алгоритмы кластеризации данных, мультимодальные выборки, педагогический анализ данных

Короткий адрес: https://sciup.org/147242885

IDR: 147242885 | УДК: 37.012.4+159.9.072 | DOI: 10.15293/2658-6762.2402.06

Список литературы Анализ эффективности алгоритмов кластеризации мультимодальных выборок с помощью компьютерного моделирования педагогического эксперимента

Абитов Р. Н. Пути повышения валидности и повторяемости экспериментальных педагогических исследований // Казанский педагогический журнал. – 2022. – № 4. – С. 79–90. DOI: https://10.51379/kpj.2022.154.4.009 URL: https://elibrary.ru/item.asp?id=49482910
Ершов К. С., Романова Т. Н. Анализ и классификация алгоритмов кластеризации // Новые информационные технологии в автоматизированных системах. – 2016. – № 19. – С. 274–279. URL: https://elibrary.ru/item.asp?id=25864070
Подвальный С. Л., Плотников А. В., Белянин А. М. Сравнение алгоритмов кластерного анализа на случайном наборе данных // Вестник Воронежского государственного технического университета. – 2012. – Т. 8, № 5. – С. 4–6. URL: https://elibrary.ru/item.asp?id=17743528
Сивоголовко Е. В. Методы оценки качества чёткой кластеризации // Компьютерные инструменты в образовании. – 2011. – № 4. – С. 14–31. URL: https://elibrary.ru/item.asp?id=21786023
Xiaowei Xu, Ester M., Kriegel H.-P., Sander J. A distribution-based clustering algorithm for mining in large spatial databases // Proceedings 14th International Conference on Data Engineering. DOI: https://doi.org/10.1109/icde.1998.655795
Azzalini A., Valle A. D. The multivariate skew-normal distribution // Biometrika. – 1996. – Vol. 83 (4). – P. 715–726. DOI: https://doi.org/10.1093/biomet/83.4.715
Banfield J. D., Raftery A. E. Model-based Gaussian and non-Gaussian clustering // Biometrics. – 1993. – Vol. 49 (3). – P. 803–821. DOI: https://doi.org/10.2307/2532201
Cheng M.-Y., Hall P. Calibrating the excess mass and dip tests of modality // Journal of the Royal Statistical Society: Series B: Statistical Methodology. – 1998. – Vol. 60 (3). – P. 579–589. DOI: https://doi.org/10.1111/1467-9868.00141
Rodriguez M. Z., Comin C. H., Casanova D., Bruno O. M., Amancio D. R., Costa L. da F., Rodrigues F. A. Clustering algorithms: A comparative approach // PloS ONE. – 2019. – Vol. 14 (1). – P. e021023. DOI: https://doi.org/10.1371/journal.pone.0210236
Reynolds A. P., Richards G., de la Iglesia B., Rayward-Smith V. J. Clustering rules: a comparison of partitioning and hierarchical clustering algorithms // Journal of Mathematical Modelling and Algorithms. – 2006. – Vol. 5 (4). – P. 475–504. DOI: https://doi.org/10.1007/s10852-005-9022-1
Kinnunen T., Sidoroff I., Tuononen M., Fränti P. Comparison of clustering methods: A case study of text-independent speaker modeling // Pattern Recognition Letters. – 2011. – Vol. 32 (13). – P. 1604–1617. DOI: https://doi.org/10.1016/j.patrec.2011.06.023
Ameijeiras-Alonso J., Crujeiras R. M., Rodríguez-Casal A. Mode testing, critical bandwidth and excess mass // TEST. – 2018. – Vol. 28 (3). – P. 900–919. DOI: https://doi.org/10.1007/s11749-018-0611-5
Fisher N. I., Marron J. S. Mode testing via the excess mass estimate Fisher N.I. Mode testing via the excess mass estimate // Biometrika. – 2001. – Vol. 88 (2). – P. 499–517. DOI: https://doi.org/10.1093/biomet/88.2.499
Fowlkes E. B., Mallows C. L. A method for comparing two hierarchical clusterings: Rejoinder // Journal of the American statistical association. – 1983. – Vol. 78 (383). – P. 584. DOI: https://doi.org/10.2307/2288123
Guha S., Rastogi R., Shim K. Cure: an efficient clustering algorithm for large databases. Information Systems. – 2001. – Vol. 26 (1). – P. 35–58. DOI: https://doi.org/10.1016/s0306-4379(01)00008-4
Guha S., Rastogi R., Shim K. ROCK: a robust clustering algorithm for categorical attributes // Proceedings 15th International Conference on Data Engineering. 1999. (Cat. No.99CB36337). DOI: https://doi.org/10.1109/icde.1999.754967
Hartigan J. A., Hartigan P. M. The dip test of unimodality // The annals of Statistics. – 1985. – Vol. 13 (1). – P. 70–84. DOI: https://doi.org/10.1214/aos/1176346577
Jung Y. G., Kang M. S., Heo J. Clustering performance comparison using K-means and expectation maximization algorithms // Biotechnology & Biotechnological Equipment. – 2014. – Vol. 28 (sup1). – P. S44–S48. DOI: https://doi.org/10.1080/13102818.2014.949045
Karypis G., Eui-Hong Han, Kumar V. Chameleon: Hierarchical clustering using dynamic modeling // Computer. – 1999. – Vol. 32 (8). – P. 68–75. DOI: https://doi.org/10.1109/2.781637
Kruskal W. H., Wallis W. A. Errata: Use of Ranks in One-Criterion Variance Analysis // Journal of the American Statistical Association. – 1953. – Vol. 48 (264). – P. 907. DOI: https://doi.org/10.2307/2281082
Ankerst M., Breunig M. M., Kriegel H.-P., Sander J. OPTICS: Ordering points to identify the clustering structure // ACM Sigmod record. – 1999. – Vol. 28 (2). – P. 49–60. DOI: https://doi.org/10.1145/304181.304187
Rand W. M. Objective criteria for the evaluation of clustering methods // Journal of the American Statistical association. – 1971. – Vol. 66 (336). – P. 846–850. DOI: https://doi.org/10.1080/01621459.1971.10482356
Sculley D. Web-scale k-means clustering // Proceedings of the 19th international conference on World wide web. – 2010. – P. 1177–1178. DOI: https://doi.org/10.1145/1772690.1772862
Shi J., Malik J. Normalized cuts and image segmentation // IEEE Transactions on pattern analysis and machine intelligence. – 2000. – Т. 22. – № 8. – С. 888-905. DOI: https://doi.org/10.1109/cvpr.1997.609407
Silverman B. W. Using kernel density estimates to investigate multimodality // Journal of the Royal Statistical Society: Series B (Methodological). – 1981. – Vol. 43 (1). – P. 97–99. DOI: https://doi.org/10.1111/j.2517-6161.1981.tb01155.x
Ward J. H. Hierarchical grouping to optimize an objective function // Journal of the American statistical association. – 1963. – Vol. 58 (301). – P. 236–244. DOI: https://doi.org/10.1080/01621459.1963.10500845
Wilkin G. A., Huang X. K-means clustering algorithms: implementation and comparison // Second International Multi-Symposiums on Computer and Computational Sciences (IMSCCS 2007). – 2007. – P. 133–136. DOI: https://doi.org/10.1109/imsccs.2007.51
Xu D., Tian Y. A comprehensive survey of clustering algorithms // Annals of Data Science. – 2015. – Vol. 2 (2). – P. 165–193. DOI: https://doi.org/10.1007/s40745-015-0040-1
Zhang T., Ramakrishnan R., Livny M. BIRCH: an efficient data clustering method for very large databases // ACM sigmod record. – 1996. – Vol. 25 (2). – P. 103–114. DOI: https://doi.org/10.1145/235968.233324

Еще