Определение предикторов неблагоприятного исхода в подострый период инфекции SARS-CoV-2 с помощью методов машинного обучения

Автор: Долгалв И.В., Вражнов Д.А., Толмачев И.В., Старикова Е.Г., Каверина И.С., Завьялова М.В.

Журнал: Сибирский журнал клинической и экспериментальной медицины @cardiotomsk

Рубрика: Цифровые технологии в медицине и здравоохранении

Статья в выпуске: 1 т.40, 2025 года.

Бесплатный доступ

Введение. Патологические изменения систем и органов после перенесенного COVID-19 могут приводить к отложенному смертельному исходу. При этом одной из особенно значимых систем-мишеней постковидных изменений является кардиоваскулярная система.Цель исследования: выявление с помощью методов машинного обучения (МО) показателей, имеющих прогностическую ценность при определении неблагоприятного исхода подострого COVID-19.Материал и методы. В исследование были включены 212 человек, госпитализированных после перенесенного ранее в тяжелой форме COVID-19. Ретроспективно пациенты были разделены на 2 группы: 140 пациентов, которые были выписаны из стационара с заключением об улучшении состояния, и 72 пациента, умершие в период госпитализации. Всем пациентам проводились общеклинический, биохимический анализы, оценка свертывающей системы крови. Для анализа данных были использованы следующие методы МО: метод опорных векторов, случайный лес, стохастический градиентный бустинг. Валидация полученных моделей производилась методом перекрестной 10-кратной проверки совместно с ROC-AUC анализом (Receiver Operation Characteristics - Area Under Curve).Результаты. В созданных нами предиктивных моделях предикторами смертельного исхода для методов случайный лес и стохастический градиентный бустинг являлись мочевина и температура тела; для машины опорных векторов - количество эритроцитов, эозинофилов и моноцитов, международное нормализованное отношение (МНО).Выводы. В проведенном исследовании две предиктивные модели, созданные с помощью методов МО, случайный лес и стохастический градиентный бустинг, показали, что прогностическое значение имеют изменения двух показателей: уровня мочевины и температуры тела. Метод опорных векторов выявил другие предикторы, а именно количество эритроцитов, эозинофилов и моноцитов, МНО. Нами был применен метод голосования, на основе которого в качестве информативных признаков были установлены уровень мочевины и температура тела. Методы МО случайный лес и стохастический градиентный бустинг продемонстрировали схожие результаты, мы не учитывали данные, полученные с помощью метода опорных векторов. Подобный подход выбора предиктивной модели голосованием часто используется при оценке данных методами искусственного интеллекта. Возможно, повышение уровня мочевины являлось пусковым механизмом, ведущим к эндотелииту и последующему инфаркту миокарда, до того, как развилась острая почечная недостаточность.

Еще

Covid-19, постковидные изменения, машинное обучение, мочевина, температура тела, количество эритроцитов, количество эозинофилов, количество моноцитов, международное нормализованное отношение, сердечно-сосудистая система

Короткий адрес: https://sciup.org/149147883

IDR: 149147883   |   DOI: 10.29001/2073-8552-2025-40-1-199-208

Текст научной статьи Определение предикторов неблагоприятного исхода в подострый период инфекции SARS-CoV-2 с помощью методов машинного обучения

Currently recovery after COVID-19 (relief of acute symptoms, negative PCR test) is not a guarantee of complete recovery of the body. Pathological changes in systems and organs significantly worsen the health of patients and can lead to delayed death. The World Health Organization has defined the term post-COVID-19 to refer to cases of persistent symptoms after 3 months of SARS-CoV-2 infection определила термин «пост-COVID-19» для обозначения случаев сохранения симптомов после 3 мес. инфекции SARS-CoV-2, длящихся не менее 2 мес. и не объясняемых каким-либо другим заболеванием1.

В литературе существует более подробная классификация состояний после перенесенной инфекции SARS-CoV-2. Так, пост-острый COVID-19 определяется как стойкие симптомы и/или отсроченные или долгосрочные осложнения инфекции SARS-CoV-2 в течение 4 нед. после появления симптомов [1]. Далее исследователи делят заболевание на две категории: (1) подострый или продолжающийся симптоматический COVID-19, который включает симптомы и аномалии, присутствующие в течение 4–12 нед. после острого течения COVID-19; (2) хронический или пост-COVID-19 синдром, который включает симптомы и аномалии, сохраняющиеся или присутствующие после 12 нед. от начала острого COVID-19 и не связанные с альтернативными диагнозами [2].

Постковидные изменения могут затронуть различные органы и системы организма человека, но одной из особенно значимых систем-мишеней является кардиоваскулярная система [3, 4].

Вовлечение сердечно-сосудистой системы, подтвержденное методом магнитно-резонансной томографии сердца, наблюдалось у 78% лиц, выздоровевших от острой инфекции COVID-19, независимо от ранее существовавших состояний, тяжести и течения начальных проявлений инфекции или наличия ранее сердечных симптомов [5]. Изменения в сердечно-сосудистой системе после перенесенного COVID-19 включают миокардит, аритмии, перикардит, тромбоэмболии, инфаркт миокарда, внезапную смерть, сердечную недостаточность [6, 7]. При этом даже инфекция SARS-CoV2 средней степени тяжести, не требующая госпитализации, приводила к патологическим изменениям не только в сердечно-сосудистой системе, но и в других органах [8].

В настоящее время в литературе имеется достаточное количество данных, позволяющих строить прогностические модели (ПМ), способные определить, в какой форме будет протекать заболевание у пациента и, следовательно, помочь с дальнейшей маршрутизацией [9]. При этом нет исследований, которые работают на этапе, когда острые симптомы уже купированы, но полученные организмом при заболевании повреждения могут спровоцировать смертельный исход.

Методы машинного обучения (МО) активно применяются для построения ПМ на основе медицинских данных. Это обусловлено рядом факторов. Во-первых, классические статистические методы опираются на строгие математические предположения, например, о виде распределения признака в популяции, пропорциональности рисков, что часто нарушается в медицинских данных. Во-вторых, классические методы математической статистики плохо работают на неоднородных данных (информация представлена категориальными и количественными переменными), которые сильно коррелируют между собой. Недостатком подобных подходов является слабая интерпретируемость получаемых моделей, что является критическим аспектом в области обработки медицинских данных. Интерпретируемость моделей МО достигается lasting at least 2 months and not explained by any other disease1. There is a more detailed classification of conditions after a SARS-CoV infection in the literature. Thus, post-acute COVID-19 is defined as persistent symptoms and/or delayed or long-term complications of SARS-CoV-2 infection within 4 weeks after the onset of symptoms [1]. The researchers further divide the disease into two categories: (1) subacute or ongoing symptomatic COVID-19, which includes symptoms and abnormalities, present for 4-12 weeks after the acute course of COVID-19; and (2) chronic or post-COVID-19 syndrome, which includes symptoms and abnormalities that persist or are present after 12 weeks from the onset of acute COVID-19 and are not associated with alternative diagnoses [2].

Post-COVID changes can affect various organs and systems of the human body, but one of the most affected target systems is the cardiovascular system [3, 4].

Involvement of the cardiovascular system, confirmed by magnetic resonance imaging (MRI) of the heart, was observed in 78% of people who recovered from acute COVID-19 infection, regardless of pre-existing conditions, severity and course of initial manifestations of infection or the presence of previous cardiac symptoms [5]. Changes in the cardiovascular system after COVID-19 include myocarditis, arrhythmias, pericarditis, thromboembolism, myocardial infarction, sudden death, and heart failure [6, 7]. At the same time, even a moderate SARS-CoV-2 infection that did not require hospitalization led to pathological changes not only in the cardiovascular system, but also in other organs [8].

Currently, there is a sufficient amount of data in the literature that allows us to build prognostic models (PM) that can determine in what form the disease will progress and, therefore, help with further routing [9]. At the same time, there are no studies that describe the situation when acute symptoms have already been resolved, but the damage received by the body during the disease can provoke a fatal outcome.

Machine learning (ML) methods are actively used to build predictive models based on medical data. This is due to a number of factors. Classical statistical methods rely on strict mathematical assumptions, for example, the type of distribution of a trait in a population, the proportionality of risks, which is often violated in medical data. Classical methods of mathematical statistics do not work well on heterogeneous data (information is represented by categorical and quantitative variables), which strongly correlate with each other. The disadvantage of such approaches is the weak interpretability of the resulting models, which is a critical aspect in the field of medical data processing. Interpretability of ML models is achieved by finding informative predictors. F1-score metrics, specificity/sensitivity/accuracy, ROC-AUC analysis are widely used to assess the quality of models [10].

The purpose of this study was to identify, using ML methods, indicators with predictive value for determining the adverse outcome of subacute COVID-19. In our retrospective study, we analyzed routine clinical indicators obtained from patients during hospitalization. Then predictors of death were identified using ML.

путем нахождения информативных предикторов. Для оценки качества моделей широко используются метрики F1-score, специфичность / чувствительность / точность, ROC-AUC анализ [10].

Цель настоящего исследования: выявление показателей, имеющих прогностическую ценность определения неблагоприятного исхода подострого COVID-19. В проведенном нами ретроспективном исследовании были проанализированы рутинные клинические показатели, полученные у пациентов при госпитализации. Далее с помощью МО выявлены лабораторные показатели, имеющие предиктивную ценность для определения смертельного исхода.

Материал и методы

В исследование были включены 212 человек, госпитализированных в клиники СибГМУ после перенесенного ранее в тяжелой форме COVID-19, согласно маршрутизации, утвержденной Департаментом здравоохранения Томской области. На момент госпитализации все пациенты имели отрицательный COVID-19 ПЦР тест.

Критерии включения: 1) подтвержденный ПЦР COVID-19 в течение 3 мес. до госпитализации; 2) рентгенологические данные, свидетельствующие о перенесенной пневмонии; 3) наличие симптомов, требующих наблюдения в стационаре; 4) возраст старше 50 лет.

Критерии исключения: 1) возраст менее 50 лет.

Ретроспективно пациенты были разделены на 2 группы: 140 пациентов, которые были выписаны из стационара с заключением об улучшении состояния, и 72 пациента, умершие в период госпитализации. Средний возраст пациентов составил 71 год.

Клинические обследования проводили согласно стандартам оказания специализированной медицинской помощи в условиях стационара в соответствии с установленным диагнозом. Всем больным не менее двух раз в сутки выполняли термометрию, измеряли уровни систолического (САД) и диастолического артериального давления (ДАД), сатурацию крови, частоту дыхательных движений (ЧДД), частоту сердечных сокращений (ЧСС) и пульса.

Общий анализ крови включал определение числа эритроцитов, тромбоцитов, лейкоцитов, исследовали лейкоцитарную формулу, скорость оседания эритроцитов (СОЭ), а также показатели гемоглобина и гематокрита. Анализ выполняли на приборе Sysmex XN-1000 (Япония). В биохимическое исследование крови, которое проводили на биохимическом анализаторе Architect c4000 (США, Япония), входило определение содержания мочевины, креатинина, С-реактивного белка (СРБ), аспартатаминотрансферазы (АСТ), аланинаминотрансферазы (АЛТ).

Анализ системы свертывания крови включал определение фибриногена, активированное частичное тромбопластиновое время (АЧТВ) и международное нормализованное отношение (МНО) (Sysmex CS2000i, Япония).

Венозную кровь забирали утром натощак из локтевой вены в количестве 5 мл, стабилизировали К3ЭДТА.

Методы МО являются мощным инструментом анализа медицинских данных с целью построения прогностических моделей. Последовательность алгоритмов, состоящая из предварительной обработки, уменьшение размерности, создание ПМ, ее валидация, выделение информативных признаков образует конвейер МО. Обяза-

Material and Methods

The study included 212 people admitted to SSMU clinics after previous severe COVID-19.

Inclusion criteria: 1) confirmed PCR of COVID-19 within 3 months prior to hospitalization; 2) X-ray data indicating pneumonia; 3) the presence of symptoms requiring hospital monitoring; 4) age over 50 years.

Exclusion criterion: 1) the age less than 50 years old.

Retrospectively, the patients were divided into 2 groups: 140 patients discharged from the hospital with an improvement in their state and 72 patients died during hospitalization. The average age of the patients was 71 years.

Clinical examinations were conducted in accordance with the standards of specialized medical care in a hospital setting and corresponded to the established diagnoses. Thermometry was performed at least twice a day, the levels of systolic and diastolic blood pressure (SBP, DBP), blood saturation, respiratory rate (BR), heart rate (HR) and pulse were measured.

The blood test included the determination of the number of erythrocytes, platelets, leukocytes, the leukocyte formula, erythrocyte sedimentation rate (ESR) was studied, as well as hemoglobin and hematocrit indicators. The analysis was performed on the Sysmex XN-1000 device (Japan). The biochemical blood test included the determination of urea, creatinine, C-reactive protein (CRP), Aspartate aminotransferase (AST), Alanine aminotransferase (ALT) and was performed on an Architect c4000 biochemical analyzer (USA, Japan).

The analysis of the blood coagulation system included the determination of fibrinogen, activated Partial Prothrombin Time (APTT) and INR (Sysmex CS2000i) (Japan).

Venous blood was taken in the morning on an empty stomach from the ulnar vein in an amount of 5 ml, stabilized with K3EDTA.

ML methods are a powerful tool for analyzing medical data in order to build PM. A sequence of algorithms consisting of preprocessing, dimensionality reduction, creation of a PM, its validation, and the allocation of informative features forms the ML pipeline. The mandatory elements of the pipeline are the creation of a PM and its validation, the remaining steps are optional. ML methods generate PM based on examples marked up by experts, which form a training sample. The quality control of the trained model is carried out on a set of examples that did not participate in the training – a test sample.

In this work, the method of filling in gaps and filtering incomplete data is used as a preliminary data processing. A wide range of methods for filling in gaps is provided in the literature, but the choice of the best one depends on the input data. Given the relatively small size of the data set under study, a simple method of filling in gaps was proposed: if there are few gaps (less than 30 percent of the total), zero values are filled in, otherwise the data about the criteria is removed from consideration.

Reduction of input data dimension was not used, because these methods transform the original predictor space and complicate interpretability.

The creation of PM was implemented by such ML methods as the support vector machine, random forest, stochastic gradient boosting. The choice of these ML methods is due to the need to solve the problem of identifying informative predictors (signs). All of the above algorithms have the "built-in" ability to determine the degree of importance тельными элементами конвейера являются создание ПМ и ее валидация, остальные шаги опциональны. Методы МО генерируют ПМ на основе размеченных экспертами примеров, совокупность которых образует обучающую выборку. Проверку качества обученной модели осуществляли на наборе примеров, не участвовавших в обучении, – на тестовой выборке.

В представленной работе, в качестве предварительной обработки данных использовали метод заполнения пропусков и фильтрация неполных данных. В литературе приводится широкий набор методов заполнения пропусков, однако выбор наилучшего зависит от входных данных. Учитывая относительно небольшой размер исследуемого набора данных, был предложен простой метод заполнения пропусков: если пропусков мало (менее 30% от общего числа), используется заполнение нулевыми значениями, в противном случае данные об исследуемом признаке удаляются из рассмотрения.

Уменьшение размерности входных данных не использовалось, поскольку данные методы преобразуют исходное пространство предикторов и усложняют интерпретируемость.

Создание ПМ было реализовано такими методами МО, как метод опорных векторов, случайный лес, стохастический градиентный бустинг. Выбор данных методов МО обусловлен необходимостью решения задачи выделения информативных предикторов (признаков). Все вышеуказанные алгоритмы обладают «встроенной» возможностью определения степени важности предиктора в процессе создания ПМ.

Идея метода опорных векторов заключается в поиске гиперплоскости (например, для двумерных данных это прямая, для трехмерных – плоскость и т. д.) разделяющая данные таким образом, чтобы максимизировать суммарное расстояние от векторов из одного класса до нее. Наиболее близкие к разделяющей гиперплоскости называются опорными. Степень близости определяет величину информационного вклада.

Методы случайный лес и стохастический градиентный бустинг используют бинарные деревья для построения ПМ. Различие заключается в том, что стохастический градиентный бустинг последовательно обучает новые деревья для коррекции ошибок предыдущих, а случайный лес параллельно обучает большой массив деревьев и принимает итоговое решение, например, путем голосования большинством. Поскольку в обоих методах используются бинарные деревья, можно в явном виде в узлах ветвления вычислять наиболее информативные предикторы. Кроме того, вышеперечисленные методы хорошо себя зарекомендовали в задачах анализа медицинских данных высокой размерности и малых выборок рассмотрения [11].

Валидация полученных моделей производилась методом перекрестной 10-кратной проверки совместно с ROC-AUC анализом (Receiver Operation Characteristics – Area Under Curve). Суть метода заключается в разбиении набора исходных данных на 10 поднаборов одинакового размера и построения 10 моделей на полученных поднаборах. Для каждой модели строится ROC-AUC график, показывающий зависимость чувствительности от 1-специфичности. Площадь под графиком изменяется в диапазоне [0; 1]. Чем ближе значение площади к 0 или 1, тем меньше ошибок совершает модель. Если площадь близка к 0,5, модель случайно предсказывает результат.

of the predictor in the process of creating a PM. The idea of the SVM is to find a hyperplane (for example, for two– dimensional data it is a straight line, for three-dimensional data it is a plane, etc.) separating the data in such a way as to maximize the total distance from vectors from one class to it. The closest to the separating hyperplane are called reference. The degree of proximity determines the amount of information contribution.

The random forest and stochastic gradient boosting methods use binary trees to construct PM. The difference is that the stochastic gradient boosting consistently trains new trees to correct the errors of previous ones, while the random forest simultaneously trains a large array of trees and makes the final decision, for example, by majority vote. Since both methods use binary trees, it is possible to explicitly calculate the most informative predictors at the branch nodes. In addition, the above methods have proven themselves well in the tasks of analyzing high-dimensional medical data and small samples of examination [11].

Validation of the obtained models was performed by the method of 10-fold cross-validation with ROC–AUC analysis (Receiver Operation Characteristics - Area Under Curve). The content of the method is to divide a set of source data into 10 subsets of the same size and build 10 models on the obtained subsets. For each model, a ROC-AUC graph is constructed showing the dependence of sensitivity on 1-specificity. The area under the graph varies in the range [0; 1]. The closer the area value is to 0 or 1, the fewer errors the model makes. If the area is close to 0.5, the model randomly predicts the result.

Results

In the PM we created, the predictors of mortality were urea and body temperature for random forest and stochastic gradient boosting methods, erythrocyte, eosinophil and monocyte counts, and INR level for support vector machine (Fig. 1).

All presented models passed validation, the ROC-AUC curves were developed, showing that the area under the curve varies in the range from 0.67 to 1. This indicates a high predictive value of the models (Fig. 2).

Discussion

Статья научная