Модель машинного обучения для обнаружения COVID-19 на ранней стадии по аномалиям в ритме сердца
Автор: Межов М.С., Козицин В.О., Кацер Ю.Д.
Журнал: Вестник Донского государственного технического университета @vestnik-donstu
Рубрика: Информатика, вычислительная техника и управление
Статья в выпуске: 1 т.23, 2023 года.
Бесплатный доступ
Введение. Электронные устройства, способные собирать данные по телеметрии индивидуума, открыли перспективы доклинического выявления признаков COVID-19. Известные решения предполагают анализ информации, которую сложно получить в моменте. Речь идет, например, о состоянии крови или ПЦР-тесте. Это существенно ограничивает возможности интеграции алгоритмов с наручными гаджетами. При этом сердечно-сосудистая система как объект наблюдения достаточно информативна, съем данных хорошо проработан. В статье описана задача детекции ковидных аномалий в ритмограммах. Цель работы - создание математической модели на базе алгоритмов машинного обучения для автоматизации процесса выявления ковидных аномалий в ритме сердца. Показана возможность интеграции полученных результатов с фитнесс-браслетами и умными часами.Материалы и методы. В работе задействовали открытый стек технологий: Python, Scikit-learn, Lightgbm. При оценке качества моделей для бинарной классификации использовалась метрика F1. Изучены 229 ритмограмм сердца (кардиоинтервалографий) пациентов с COVID-19. Наличие или отсутствие признаков аномалии определялось с учетом времени ритмограммы и интервалов между сердцебиениями. Графически показаны отклонения, которые могут свидетельствовать о заражении. По итогам разведочного анализа собран перечень признаков, указывающих на аномалию.Результаты исследования. В результате проделанной работы получена математическая модель, которая детектирует специфичные для COVID-19 аномалии сердечного ритма с точностью 83 %. Выявлены и ранжированы основные признаки, определяющие прогностическую способность модели. Это текущее значение интервала между ударами сердца, производные в последующей и предыдущей точках измерения продолжительности сердцебиения, первая производная в текущей точке и отклонение от медианы текущего значения длительности RR-интервала. Первый показатель в этом перечне признан наиболее значимым, последний - наименее. Для целей машинного обучения оценивался потенциал пяти алгоритмов: IsolationForest, LGBMClassifier, RandomForestClassifier, ExtraTreesClassifier, SGDOneClassSVM. Визуализированы нормальные и аномальные результаты наблюдений в изолирующих деревьях. Установлен параметр, который соответствует вероятности регулярного наблюдения за пределами нормы, и выбрано его значение - 0,11. С учетом данного показателя построен график для модели SGDOneClassSVM. По набору данных с применением техники перекрестной проверки рассчитана метрика качества. Речь идет о ритмограмме с временны́м рядом наблюдений, снятых за один непрерывный интервал времени у одного человека. Описан пошаговый процесс получения усредненных значений метрики для каждой модели. При сравнении самый высокий показатель зафиксирован у модели LGBMClassifier, наименьшие - у SGDOneClassSVM и IsolationForest.Обсуждение и заключения. Полученная математическая модель занимает мало места в памяти мобильного устройства, то есть не предъявляет значимых требований к вычислительным ресурсам. Решение обладает приемлемым качеством детекции для доклинического скрининга связанных с COVID-19 сердечно-сосудистых нарушений. Алгоритм обнаруживает аномалии в 83 % случаев. Для записи ритмограммы достаточно 4 минут. Предлагаемый сценарий использования интегрированного решения лаконичен и легко реализуем. Широкое использование разработки может способствовать выявлению COVID-19 на ранней стадии.
Covid-19, причины смерти ковид-положительных пациентов, осложнения в работе сердечно-сосудистой системы, пцр-тест, доклинический контроль сердечно-сосудистой системы, встроенные датчики частоты пульса, ритмограмма, rr-интервал, электрокардиограмма сердца, аномальное по продолжительности сердцебиение, сердцебиение с аномальным ритмом, машинное обучение, алгоритм lgbmclassifier
Короткий адрес: https://sciup.org/142238084
IDR: 142238084 | DOI: 10.23947/2687-1653-2023-23-1-66-75
Список литературы Модель машинного обучения для обнаружения COVID-19 на ранней стадии по аномалиям в ритме сердца
- Турсунова Н.Д., Шафигулина И.С., Гребенникова И.В. и др. Патогенетические аспекты влияния COVID-19 на сердечно-сосудистую систему человека. European Journal of Natural History. 2022;1:73-77.
- Молодченков А.И., Григорьев О.Г., Шарафутдинов Я.Н. Автоматическое выявление значений факторов ^ риска заболеваний с помощью методов искусственного интеллекта и технологии интернета вещей. К Информационные технологии и вычислительные системы. 2021;1:83-96. https://doi.org/10.14357/20718632210109
- Polevaya S.A., Eremin E.V., Bulanov N.A., et al. Event-Related Telemetry of Heart Rhythm for Personalized Remote Monitoring of Cognitive Functions and Stress under Conditions of Everyday Activity. Modern Technologies in Medicine. 2019;11(1):109-115. http://dx.doi.org/10.17691/stm2019.11.L13
- Kouame Amos Brou, Ivan Smirnov, Mabouh Moise Hermann. Comparison of Machine Learning Models for Coronavirus Prediction. Advanced Engineering Research (Russia). 2022;22(1):67-75. https://doi.org/10.23947/2687-1653-2022-22-1-67-75
- Ashish Bhargava, Elisa Akagi Fukushima, Miriam Levine, et al. Predictors for Severe COVID-19 Infection. Clinical Infectious Diseases. 2020;71:1962-1968. https://doi.org/10.1093/cid/ciaa674
- Красюкова Ю.И., Вахрушева Т.А. Модель машинного обучения для определения вероятности заболевания COVID-19 по первичным признакам. Интеллектуальные ресурсы — региональному развитию. 2021;2:67-71.
- Alaa Tharwat. Classification Assessment Methods. Applied Computing and Informatics. 2021;17(1):174.https://doi.org/10.1016/j.aci.2018.08.003
- Yupeng Xu, Hao Dong, Mingzhu Zhou, et al. Improved Isolation Forest Algorithm for Anomaly Test Data Detection. Journal of Computer and Communications. 2021;9(8):49-51. https://doi.org/10.4236/jcc.2021.98004
- Bruce P., Bruce A., Gedeck P. Practical Statistics for Data Scientists, 2nd ed. Boston: O'Reilly Media; 2020. 342 p.
- Breiman L. Random Forests. Machine Learning. 2001;45:5-32. https://doi.org/10.1023/A:1010933404324
- Geurts P., Ernst D., Wehenkel L. Extremely Randomized Trees. Machine Learning. 2006;63:3-42. https://doi.org/10.1007/s10994-006-6226-1
- Kaur H., Singh G., Minhas J. A Review of Machine Learning Based Anomaly Detection Techniques. International Journal of Computer Applications Technology and Research. 2013;2(2):185-187. http://dx.doi.org/10.7753/IJCATR0202.1020
- Кацер Ю.Д., Козицин В.О., Максимов И.В. Методы обнаружения неисправностей оборудования АЭС. Известия высших учебных заведений. Ядерная энергетика. 2019;4:5-27. https://doi.org/10.26583/npe.2019.4.01
- Daniya T., Geetha M., Suresh Kumar K. Dr. Classification and Regression Trees with Gini Index. Advances in Mathematics Scientific Journal. 2020;9(10):8237-8247. http://dx.doi.org/10.37418/amsj.9.10.53
- Valliappa Lakshmanan, Sara Robinson, Michael Munn. Machine Learning Design Patterns: Solutions to Common Challenges in Data Preparation, Model Building, andMLOps, 1st ed. Boston: O'Reilly Media; 2020. 408 p.