Научные статьи \ Математика. Естественные науки \ Математика \ Теория вероятностей и математическая статистика

Генетический алгоритм условной оптимизации для проектирования информативных признаков в задачах классификации

Автор: Денисов М.А., Сопов Е.А.

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, вычислительная техника и управление

Статья в выпуске: 1 т.22, 2021 года.

Бесплатный доступ

Проектирование признаков в машинном обучении является перспективным, но недостаточно изученным направлением. Создание нового пространства признаков из исходного набора позволяет повысить эффективность алгоритма машинного обучения, применяемого для решения сложных задач интеллектуального анализа данных. Некоторые методы отбора часто способны одновременно при увеличении точности классификации уменьшить исходное пространство, что особенно актуально в эпоху больших данных. В работе предлагается новый подход машинного обучения к решению задачи классификации на основе методов проектирования информативных признаков. Проектирование информативных признаков осуществляется с помощью методов извлечения и отбора. На основании исходных данных созданы новые множества признаков, которые включают исходные признаки и признаки, полученные методом главных компонент. Выбор эффективного подмножества информативных признаков реализуется с использованием генетического алгоритма. Для того чтобы избежать переобучения и создания тривиальных классификаторов, на функцию пригодности генетического алгоритма накладываются ограничения, требующие определенного количества признаков исходной выборки, а также определенного количества признаков, полученных методом главных компонент. Проведен сравнительный анализ эффективности следующих алгоритмов классификации: k-ближайших соседей, метод опорных векторов и случайный лес. Эксперименты по исследованию эффективности проводятся путем решения прикладных задач бинарной классификации из репозитория задач машинного обучения UCI Machine Learning. В качестве критерия эффективности выбрана мера macro F1-score. Результаты численных экспериментов показали, что точность классификации предложенным подходом превосходит решения, полученные на исходном наборе признаков и при случайном отборе (оценка границы снизу). Причем, увеличение точности характерно для всех типов задач (выборки, у которых количество признаков больше числа объектов, а также объемом 500 значений и более). Подтверждена статистическая значимость результатов.

Еще

Отбор признаков, извлечение признаков, генетический алгоритм, условная оптимизация

Короткий адрес: https://sciup.org/148322014

IDR: 148322014 | УДК: 519.254 | DOI: 10.31772/2712-8970-2021-22-1-18-31

Список литературы Генетический алгоритм условной оптимизации для проектирования информативных признаков в задачах классификации

Guzella T. S., Caminhas W. M. A review of machine learning approaches to spam filtering // Expert Systems with Applications. 2009. Vol. 36, No. 7. P. 10206-10222.
Ballestar M. T., Grau-Carles P., Sainz J. Predicting customer quality in e-commerce social networks: a machine learning approach // Review of Managerial Science. 2019. Vol. 13, No. 3. P. 589-603.
Bahlmann C., Haasdonk B., Burkhardt H. Online handwriting recognition with support vector machines-a kernel approach // Proceedings Eighth International Workshop on Frontiers in Handwriting Recognition. 2002. P. 49-54.
Kononenko I. Machine learning for medical diagnosis: history, state of the art and perspective // Artificial Intelligence in medicine. 200l. Vol. 23, No. l. P. 89-109.
Kouziokas G. N. Machine learning technique in time series prediction of gross domestic product // Proceedings of the 2lst Pan-Hellenic Conference on Informatics. 2017. P. l-2.
John G. H., Kohavi R., Pfleger K. Irrelevant features and the subset selection problem // Machine Learning Proceedings. 1994. P. l2l-l29.
Kira K., Rendell L. A. A practical approach to feature selection // Machine Learning Proceedings. 1992. P.249-256.
Rendell L., Seshu R. Learning hard concepts through constructive induction: Framework and rationale // Computational Intelligence. 1990. Vol. 6, No. 4. P. 247-270.
Liu H., Motoda H. Feature extraction, construction and selection: A data mining perspective. Massachusetts : Kluwer Academic Publishers, 1998. 453 p.
Duboue P. The Art of Feature Engineering: Essentials for Machine Learning. Cambridge : Cambridge University Press. 2020. 270 p.
Zheng A., Casari A. Feature engineering for machine learning: principles and techniques for data scientists. Sebastopol : O'Reilly Media Inc., 20l8. l93 p.
Feature selection: A data perspective / Li J., Cheng K., Morstatter F. et al. // ACM Computing Surveys (CSUR). 2017. Vol. 50, No. 6. P. 1-45.
Park M. S., Na J. H., Choi J. Y. PCA-based feature extraction using class information // 2005 IEEE International Conference on Systems, Man and Cybernetics. 2005. Vol. 1. P. 341-345.
Abdi H., Williams L. J. Principal component analysis // Wiley interdisciplinary reviews: computational statistics. 2010. Vol. 2, No. 4. P. 433-459.
Markovitch S., Rosenstein D. Feature generation using general constructor functions // Machine Learning. 2002. Vol. 49, No. 1. P. 59-98.
Hirsh H., Japkowicz N. Bootstrapping training-data representations for inductive learning: A case study in molecular biology // AAAI-94 Proceedings. 1994. P. 639-644.
Sutton R. S., Matheus C. J. Learning polynomial functions by feature construction // Machine Learning Proceedings. 1991. P. 208-212.
Zhao H., Sinha A. P., Ge W. Effects of feature construction on classification performance: An empirical study in bank failure prediction // Expert Systems with Applications. 2009. Vol. 36, No. 2. P. 2633-2644.
Pagallo G. Haussler D. Boolean feature discovery in empirical learning // Machine learning. 1990. Vol. 5, No. 1. P. 71-99.
Matheus C. J., Rendell L. A. Constructive Induction on Decision Trees // IJCAI'89: Proceedings of the 11th international joint conference on Artificial intelligence. 1989. Vol. 89. P. 645-650.
Krawiec K. Genetic programming-based construction of features for machine learning and knowledge discovery tasks // Genetic Programming and Evolvable Machines. 2002. Vol. 3, No. 4. P.329-343.
Smith M. G., Bull L. Genetic programming with a genetic algorithm for feature construction and selection // Genetic Programming and Evolvable Machines. 2005. Vol. 6, No. 3. P. 265-281.
An investigation into feature construction to assist word sense disambiguation / Specia L., Srinivasan A., Sachindra J. et al. // Machine Learning. 2009. Vol. 76, No. 1. P. 109-136.
Khalid S., Khalil T., Nasreen S. A survey of feature selection and feature extraction techniques in machine learning // 2014 Science and Information Conference. 2014. P. 372-378.
Кривенко М. П. Критерии значимости отбора признаков классификации // Информатика и её применения. 2016. Т. 10, №. 3. С. 32-40.
Miao J., Niu L. A survey on feature selection // Procedia Computer Science. 2016. Vol. 91. P.919-926.
Chandrashekar G., Sahin F. A survey on feature selection methods // Computers & Electrical Engineering. 2014. Vol. 40, No. 1. P. 16-28.
A survey on evolutionary computation approaches to feature selection / Xue B., Zhang M., Browne W. et al. // IEEE Transactions on Evolutionary Computation. 2015. Vol. 20, No. 4. P. 606-626.
Coello C. Theoretical and numerical constraint-handling techniques used with evolutionary algorithms: a survey of the state of the art // Computer methods in applied mechanics and engineering. 2002. Vol. 191, No. 11-12. P. 1245-1287.
Barbosa H. J. C., Lemonge A. C. C. An adaptive penalty method for genetic algorithms in constrained optimization problems // Frontiers in Evolutionary Robotics, 2008.
UCI Machine Learning Repository [Электронный ресурс]. URL: https://archive.ics.uci.edu/ ml/index.php (дата обращения: 09.01.2021).
Opitz J., Burst S. Macro f1 and macro f1. Препринт: arXiv:1911.03347. [Электронный ресурс]. URL: https://arxiv.org/abs/1911.03347 (дата обращения: 25.02.2021).
Scikit-learn: Machine learning in Python / Pedregosa F., Varoquaux G., Gramfort A. et al. // Journal of machine Learning research. 2011. Vol. 12. P. 2825-2830.
Dong G, Liao G., Liu H, Kuang G. A review of the autoencoder and its variants: A comparative perspective from target recognition in synthetic-aperture radar images // IEEE Geoscience and Remote Sensing Magazine. 2018. Vol. 6, No. 3. P. 44-68.

Еще