Применение методов машинного обучения для предсказания сердечно-сосудистых заболеваний на малых наборах данных

Автор: Каледина Елена Александровна, Каледин Олег Евгеньевич, Кулягина Таисия Ивановна

Журнал: Проблемы информатики @problem-info

Рубрика: Прикладные информационные технологии

Статья в выпуске: 1 (54), 2022 года.

Бесплатный доступ

Благодаря увеличению вычислительной мощности и генерации больших объемов данных алгоритмы искусственного интеллекта в настоящее время активно используются для выполнения широкого круга медицинских задач. Одной из важнейших областей, в которых может быть полезно применение искусственного интеллекта, в частности, методов машинного обучения, - это диагностика заболеваний и прогнозирование их возможных исходов. В настоящей статье описывается процесс использования алгоритмов машинного обучения для предсказания риска развития неблагоприятных сердечно-сосудистых событий у пациентов с диагностированной артериальной гипертензией в ближайшие 12, 24 и 36 месяцев. Отличительной чертой данной задачи является использование в качестве обучающего дата-сета локальных данных, собранных в отдельном регионе РФ. Данная особенность может улучшить адаптированность предсказательной модели к возможным локальным особенностям развития сердечно-сосудистых заболеваний, однако и имеет существенный недостаток - малое количество обучающих данных. В работе рассмотрена одна из возможных формальных математических постановок рассматриваемой задачи, указаны этапы формирования дата-сета и исследованы предсказательные алгоритмы машинного обучения на малых наборах для создания модели расчета рисков сердечно-сосудистых заболеваний. Представленные результаты позволяют говорить о возможности использования моделей машинного обучения для повышения точности прогнозирования сердечно-сосудистых рисков.

Еще

Алгоритмы машинного обучения, анализ данных, предсказание сердечно-сосудистых заболеваний

Короткий адрес: https://sciup.org/143179066

IDR: 143179066   |   УДК: 004.89   |   DOI: 10.24412/2073-0667-2022-1-66-76

Applying machine learning for prediction of cardiovascular diseases on small data sets

As a result of increasing computing power and generating large amounts of data, artificial intelligence algorithms are currently being actively used to perform a wide range of medical tasks. One of the most important areas in which the use of artificial intelligence can be useful is the diagnosis of various diseases and the prediction of their possible outcomes. Cardiovascular diseases are one of the main factors of mortality and disability in most countries of the world, including the Russian Federation. The most important risk factor for two major cardiovascular diseases (myocardial infarction and cerebral stroke) is arterial hypertension. Therefore, the main task of primary prevention of cardiovascular diseases (CVD) is the timely detection of a high risk of fatal CVD in patients with diagnosed uncomplicated arterial hypertension. The use of machine learning algorithms can solve this problem and significantly improve the accuracy of predicting cardiovascular diseases and their complications. Machine learning methods are the main tool of artificial intelligence, the use of which allows you to automate the processing and analysis of big data, identify hidden or non-obvious patterns on this basis, and extract new knowledge. This article describes the process of using machine learning algorithms to predict the risk of developing adverse cardiovascular events in patients with diagnosed arterial hypertension in the next 12, 24 and 36 months. The analysis included 16 predictors, which are a combination of both standard indicators of the risk of cardiovascular diseases (age, male sex, smoking, elevated cholesterol, impaired uric acid metabolism), and some specific indicators. A distinctive feature of this task is the use of local data collected in a separate region of the Russian Federation as a training data set. This feature can improve the adaptability of the predictive model to possible local features of the development of cardiovascular diseases, however, it also has a significant drawback - a small amount of training data, which contributes to model retraining and, as a result, a decrease in its ability to generalize. The target feature in the study is a binary predictive vector of major adverse cardiovascular events at three reference time points. Due to the fact that censoring, as well as some of the considered cardiovascular diseases, can occur simultaneously or be repeated throughout all or part of the observation period, the study is formally presented as a solution to the multilabel classification problem. The paper indicates the stages of forming a data set and explores predictive machine learning algorithms on small sets to create a model for calculating the risks of cardiovascular diseases. The advantages and disadvantages of individual ensemble methods of machine learning machine learning methods (binary relevance, multioutput classifier, label powerset, MLkNN, classifier chain) for the development of predictive algorithms in the conditions of the problem are shown. From the results of the study, we can say that the machine learning algorithms - multioutput classifier and labelpowerset on a small dataset showed the best result among all the analyzed methods for assessing the development of cardiovascular diseases. This fact makes it relevant to study the application of this method on samples of large volumes, with the inclusion of a larger set of risk factors.

Еще

Список литературы Применение методов машинного обучения для предсказания сердечно-сосудистых заболеваний на малых наборах данных

  • Баланова Ю.А., Шальнова С. А., Имаева А. Э., Капустина А. В., Муромцева Г. А., Евстифеева С.Е., Тарасов В. И., Редько А.Н., Викторова И. А., Прищепа Н.Н., Якушин С. С., Бойцов С. А., Драпкина О.М. Распространенность артериальной гипертонии, охват лечением и его эффективность в Российской // Рациональная Фармакотерапия в Кардиологии. 2019. № 15 4. С. 450-466.
  • Симерзин В. В., Гаглоева И. В., Гарькина С. В. Современная концепция профилактики сердечно-сосудистых заболеваний // Вестник СамГУ. Естественнонаучная серия. 2007. № 9/1 59. С. 296-306.
  • Conroy R. М., Pyorala К., Fitzgerald А. Р. et al. Estimation of ten-year risk of fatal cardiovascular disease in Europe: the SCORE project // European Heart Journal. 2003. N 24. P. 987-1003.
  • Гусев А. В., Гаврилов Д. В., Корсаков И.Н., Серова Л.М., Новицкий Р. Э., Кузнецова Т. Ю. Перспективы использования методов машинного обучения для предсказания сердечнососудистых заболеваний // Искусственный интеллект в здравоохранении. 2019. № 3. С. 41-47.
  • Poplin R., Varadarajan A.V., Blumer К., et al. Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning // Nat Biomed Eng. 2018. V. 2. N 3. P. 158-164.
  • Quesada J. A., Lopez-Pineda A., Gil-Guillen V.F., et al. Machine learning to predict cardio vascular risk // The international journal of clinical practice. 2019. V. 73. N 10. el3389.
  • Zack C.J., Senecal C., Kinar Y. et al. Leveraging Machine Learning Techniques to Forecast Patient Prognosis After Percutaneous Coronary Intervention // JACC Cardiovasc Interv. 2019 V. 12. N 14. P. 1304-1311.
  • Tai F., Lin H.-T. Multilabel Classification with Principal Label Space Transformation. // Neural Comput., 24-9, 2012. P. 2508-2542.
  • Gibaja E., Ventura S. A Tutorial on Multilabel Learning // ACM Computing Surveys. 2015. Vol. 47, N. 3. P. 1-38.
  • Tsoumakas G., Katakis I., Vlahavas I. Data Mining and Knowledge Discovery Handbook. Springer, 2010. P. 667-685.
  • Zhang M.-L., Zhou Z.-H. A Review on MultiLabel Learning Algorithms // IEEE Transactions on Knowledge and Data Engineering. 2014. Vol. 26, Iss. 8. P. 1819-1837.
Еще