Сравнительный анализ моделей машинного обучения для прогнозирования антрациклин-индуцированной кардиотоксичности у пациентов с онкогематологическими заболеваниями
Автор: Эль-Хатиб М.А., Солопов М.В., Склянная Е.В., Попандопуло А.Г.
Журнал: Сибирский онкологический журнал @siboncoj
Рубрика: Клинические исследования
Статья в выпуске: 5 т.24, 2025 года.
Бесплатный доступ
Цель исследования – разработка и валидация модели прогнозирования антрациклин-индуцированной кардиотоксичности (АИК) у пациентов с онкогематологическими заболеваниями. Задача решалась в два этапа: сравнительный анализ эффективности различных алгоритмов машинного обучения для выбора наиболее точной и устойчивой модели; идентификация наиболее значимых клинико-инструментальных предикторов на основе лучшей из протестированных моделей. Материал и методы. В проспективное исследование включено 155 пациентов (возраст 18–74 года) с онкогематологическими заболеваниями, получавших антрациклины. Анализировались клинические данные, уровни биомаркеров (NT-proBNP, тропонин I) и эхокардиографические параметры диастолической функции (E', E/E', LAVI). Данные проходили предобработку (стандартизация, one-hot encoding), дисбаланс классов устранялся методом SMOTETomek. Модели обучались и оценивались с использованием 5-кратной стратифицированной кросс-валидации по метрикам F1-меры, AUC-ROC, точности и полноты. Результаты. Статистически значимыми предикторами АИК явились уровни NT-proBNP (p<0,001), TropI (p=0,004), эхокардиографические параметры E' (p<0,001) и LAVI (p<0,001). Включение возраста и соотношения E/E' дополнительно улучшило прогностическую ценность моделей. Логистическая регрессия продемонстрировала наилучшую производительность (F1 0,943 ± 0,070, AUC-ROC 0,963 ± 0,051) при идеальной точности (1,00 ± 0,00) и высокой полноте (0,90 ± 0,12). Линейный дискриминантный анализ показал сопоставимые результаты (F1 0,921 ± 0,066, AUC-ROC 0,963 ± 0,046). Анализ важности признаков в наиболее эффективных моделях (LogReg, LDA) выявил, что наибольший вклад в прогноз вносит эхокардиографический параметр E'. Линейные модели превзошли более сложные алгоритмы (нейронные сети, ансамблевые методы) в данном исследовании. Заключение. Линейные модели, в частности логистическая регрессия, показывают высокую точность и надежность в прогнозировании АИК при использовании комбинации биомаркеров и эхокардиографических показателей диастолической функции в качестве предикторов. Данные модели обладают потенциалом для клинического применения с целью стратификации риска и своевременного начала кардиопротективной терапии. Необходима дальнейшая валидация модели на выборках пациентов из разных медицинских центров.
Антрациклин-индуцированная кардиотоксичность, машинное обучение, прогнозирование, биомаркеры, эхокардиография, онкогематология
Короткий адрес: https://sciup.org/140312761
IDR: 140312761 | УДК: 616.15-006-08-06:615.273:616.12 | DOI: 10.21294/1814-4861-2025-24-5-27-39
Текст научной статьи Сравнительный анализ моделей машинного обучения для прогнозирования антрациклин-индуцированной кардиотоксичности у пациентов с онкогематологическими заболеваниями
Антрациклиновые антибиотики, такие как доксорубицин и даунорубицин, остаются краеугольным камнем в лечении многих онкологических, в том числе гематологических, заболеваний благодаря их высокой эффективности в подавлении репликации и репарации ДНК опухолевых клеток [1, 2]. Однако их клиническое применение существенно ограничивается риском развития антрациклин-индуцированной кардиотоксичности (АИК), которая может манифестировать как в острой, так и в отсроченной форме, приводя к дисфункции левого желудочка (ЛЖ) и сердечной недостаточности. Основными механизмами антрациклин-индуцированного повреждения миокарда считаются окислительный стресс, вызванный генерацией активных форм кислорода [3, 4], ингибирование топоизомеразы II бета в кардиомиоцитах [5] и потенциальная дисрегуляция ренин-ангиотензин-альдостероновой системы [6].
Распространенность АИК варьирует в зависимости от критериев диагностики и исследуемой популяции. В одном исследовании с участием 100 онкологических пациентов кардиотоксичность, определенная как снижение фракции выброса левого желудочка (ФВЛЖ) менее 60 %, была выявлена у 31 % пациентов [7], в то время как другое исследование сообщило о развитии кардиомиопатии у 15 % пациентов [8]. Метаанализ показал, что клинически выраженная кардиотоксичность встречается у 6 % пациентов, получающих антра-циклины, а субклиническая – у 18 % [9]. Ключевыми факторами риска являются кумулятивная доза антрациклинов, крайние возрастные группы, а также наличие сопутствующих сердечно-сосудистых заболеваний и факторов риска, таких как артериальная гипертензия и сахарный диабет [7, 9].
Своевременная диагностика и мониторинг АИК имеют решающее значение для предотвращения необратимого повреждения миокарда. Современный подход включает оценку с помощью инструментальных и лабораторных методов. Эхокардиография является основным методом оценки систолической функции ЛЖ, при этом оценка глобальной продольной деформации (GLS) показывает большую чувствительность в выявлении ранних субклинических изменений по сравнению с традиционной оценкой ФВЛЖ [10, 11]. Методики
3D-трекинга спеклов (3D-STI) и тканевой допплерографии могут дополнительно повысить точность диагностики [12, 13]. Магнитно-резонансная томография (МРТ) сердца с использованием T1- и T2-картирования и оценки позднего накопления гадолиния позволяет выявлять отек, диффузный и очаговый фиброз миокарда, однако применение этой процедуры ограничено её доступностью и стоимостью [14, 15]. Среди биомаркеров наиболее изучены высокочувствительный тропонин I (hs-cTnI) и N-концевой промозговой натрийуретический пептид (NT-proBNP), повышение которых ассоциировано с повреждением кардиомиоцитов и риском развития сердечной недостаточности соответственно [10, 11, 16, 17]. Комбинированное использование биомаркеров и эхокардиографических параметров, таких как GLS, может улучшить раннее выявление пациентов с высоким риском АИК [18, 19]. Перспективными, но требующими дальнейшего изучения остаются маркеры фиброза (ST2, Galectin-3) и ишемического повреждения (H-FABP) [20, 21]. Тем не менее существующие методы имеют ограничения, включая вариабельность измерений при эхокардиографии, недостаточную специфичность биомаркеров и отсутствие стандартизированных протоколов мониторинга, что затрудняет точное и своевременное прогнозирование риска [22].
Таким образом, в настоящее время с целью раннего выявления антрациклиновых повреждений сердца используются многочисленные неинвазивные методы. Однако ни один из них не является строго специфичным, в связи с чем для исключения возможных диагностических ошибок требуется тщательная интерпретация полученных результатов. Необходимо отметить, что несовершенство диагностики на данный момент не позволяет четко определить ранние доклинические критерии АИК и вовремя предотвратить развитие необратимой кардиальной дисфункции. В связи с вышесказанным необходимость исходной оценки риска развития АИК и выявления категорий пациентов высокого риска среди больных, не имеющих явных, клинически значимых факторов сердечно-сосудистого риска на момент инициации противоопухолевой терапии, включающей в себя кардиотоксичные агенты, не вызывает сомнений.
В последние годы методы машинного обучения (МО) все активнее применяются в кардиоонкологии для решения задач прогнозирования и стратификации риска развития АИК. Модели МО способны интегрировать большие объемы гетерогенных данных (клинических, инструментальных, лабораторных) для выявления сложных нелинейных взаимосвязей и построения точных прогностических моделей. Например, разработаны номограммы на основе регрессионной модели LASSO, интегрирующие уровни NT-proBNP, GLS и клинические переменные и показавшие хоро- шую прогностическую ценность [23]. В работах с использованием логистической регрессии и регрессии LASSO идентифицированы ключевые предикторы кардиотоксичности [24, 25]. Методы неконтролируемого обучения, такие как кластерный анализ, применялись для идентификации различных фенотипов кардиотоксичности, что потенциально может способствовать персонализации подходов к ведению пациентов [26]. Трансферное обучение использовалось для создания моделей на основе данных ЭКГ [27], а модель случайного леса продемонстрировала высокую точность (AUС-ROC 0,88) в прогнозировании кардиотоксичности [28].
Существует пробел в сравнительных исследованиях, оценивающих эффективность различных алгоритмов МО на одном и том же наборе данных для прогнозирования АИК. Большинство исследований фокусируются на разработке и валидации одной конкретной модели. Кроме того, вопросы интерпретируемости моделей МО и их валидации на независимых внешних когортах остаются критически важными для внедрения этих технологий в клиническую практику [29, 30]. Также необходимо учитывать этические аспекты, связанные с использованием данных пациентов и потенциальной предвзятостью алгоритмов.
Несмотря на растущую популярность сложных моделей, таких как нейронные сети и ансамблевые методы, в медицинской диагностике, их применение на относительно небольших клинических выборках сопряжено с риском переобучения и низкой интерпретируемостью. Возникает важный научный и практический вопрос: оправдано ли усложнение моделей в задаче прогнозирования АИК, или же классические, интерпретируемые подходы могут обеспечить сопоставимую или даже более высокую точность?
Целью исследования является разработка и валидация прогностической модели АИК, основанной на последовательном подходе. Первым шагом являются критическая оценка и сравнительный анализ эффективности серии алгоритмов МО – от классических линейных моделей до сложных ансамблей и нейронных сетей. Вторым шагом, после определения наиболее производительной и надежной модели, является анализ ее структуры для выявления и интерпретации ключевых клинико-инструментальных предикторов, вносящих наибольший вклад в риск развития АИК. Такой двухэтапный дизайн исследования позволяет не только построить точный прогностический инструмент, но и углубить клиническое понимание факторов риска.
Материал и методы
В исходно проведенное проспективное исследование было включено 155 пациентов в возрасте от 18 до 74 лет, проходивших лечение по пово- ду онкогематологических заболеваний, включая острый миелобластный лейкоз (31 %), острый лимфобластный лейкоз (9 %), лимфогранулематоз (12 %) и неходжкинские лимфомы (48 %). Условиями включения являлись возраст от 18 до 74 лет, установленный диагноз онкогематологического заболевания, по поводу которого планировались антрациклин-содержащие курсы химиотерапии (ХТ), и информированное согласие на участие. Критериями исключения были наличие в анамнезе врожденных и приобретенных пороков сердца, стенокардии напряжения, перенесенного инфаркта миокарда, дилатационной, гипертрофической и рестриктивной кардиомиопатии, гипертонической болезни, сердечной недостаточности, эндокринной патологии, алкогольной и/или наркотической зависимости, ВИЧ-инфекции, а также ожидаемая продолжительность жизни менее 6 мес.
На I этапе исследования пациенты были разделены на 2 группы в зависимости от возраста в соответствии с классификацией возрастов Всемирной организации здравоохранения: 1-ю группу составили 67 пациентов в возрасте 18–44 лет (условно, группа молодого возраста), 2-ю – 88 пациентов в возрасте 45–74 лет (условно, группа среднего и пожилого возраста).
Существенных различий по полу, площади поверхности тела и кумулятивной дозе антра-циклинов между сравниваемыми группами не было (p>0,05). Далее пациентам проводилось определение уровней кардиальных биомаркеров (тропонин I, NT-proBNP), а также оценивались основные структурно-функциональные параметры сердца. Все обследования выполнялись дважды – до начала антрациклин-содержащих курсов ХТ и после достижения кумулятивной дозы 250 мг/м2 по доксорубицину.
В ходе исследования проводился сбор клиникоинструментальных данных, включая возраст, сведения о проводимой терапии антрациклина-ми (доксорубицин, даунорубицин, идарубицин, митоксантрон), уровни кардиомаркеров, а также эхокардиографические параметры. Полученные данные использовались для последующей оценки и анализа развития АИК. Критериями развития КТ считали: изменения сегмента ST; нарушения ритма и проводимости, удлинение интервала QT по данным стандартной ЭКГ и ее суточного мониторирования; снижение ФВЛЖ менее 50 % или более чем на 10 % от исходного значения по данным двухмерной Эхо-КГ.
Второй этап проспективного исследования начинался после достижения пациентами кумулятивной дозы 250 мг/м2 по доксорубицину. Больные находились под динамическим наблюдением в течение 5 лет. Каждые 6 мес после окончания антрациклин-содержащей химиотерапии проводились сбор жалоб, объективный осмотр, выполнялась трансторакальная Эхо-КГ с последующей оценкой основных структурно-функциональных параметров сердца.
Для выявления клинических и лабораторных параметров, ассоциированных с развитием АИК, проведен статистический анализ данных. Первоначально выполнен корреляционный анализ для оценки взаимосвязи между каждой из исследуемых переменных и развитием АИК. Анализируемые переменные включали возраст, факт проведения лечения, уровень N-терминального промозгового натрийуретического пептида (NT-proBNP), уровень тропонина I (TropI), а также эхокардиографические показатели диастолической функции: скорость раннего диастолического наполнения (E'), соотношение пиковой скорости трансмитрального потока к E' (E/E'), а также индекс объема левого предсердия (LAVI).
Для более детальной оценки различий был проведен сравнительный анализ между группами пациентов с наличием (n=18) и отсутствием (n=137) АИК. Для каждой переменной рассчитаны описательные статистики (среднее значение, медиана, стандартное отклонение) отдельно для каждой группы. Выбор статистического теста для сравнения групп зависел от типа данных и их распределения. Для категориальных переменных использовался критерий χ2 Пирсона. Для непрерывных переменных предварительно проводилась проверка на нормальность распределения с помощью теста Шапиро–Уилка. При нормальном распределении данных в обеих группах применялся t-критерий Стьюдента. В случае отсутствия нормального распределения хотя бы в одной из групп использовался непараметрический U-критерий Манна–Уитни. Различия считались статистически значимыми при уровне p<0,05.
Дополнительно, для оценки мультиколлинеарности между непрерывными предикторами был рассчитан фактор инфляции дисперсии (variance inflation factor, VIF). Статистическая обработка данных выполнялась с использованием языка программирования Python v3.12.8 и библиотек pandas v2.2.3, scipy v1.15.2, statsmodels v0.14.4, numpy v2.2.4, matplotlib v3.10.1 и seaborn v0.13.2.
Для прогнозирования АИК проведено сравнительное исследование серии алгоритмов МО: AdaBoost, K-ближайших соседей (KNN), линейного дискриминантного анализа (LDA), логистической регрессии (LogReg), нейронных сетей (NN), случайного леса (RF), стохастического градиентного спуска (SGD), метода опорных векторов (SVM), XGBoost и нейронных сетей (NN). Обучение алгоритмов было реализовано с использованием библиотек scikit-learn v1.6.1 и PyTorch v2.6.0. Непрерывные клинико-инструментальные признаки подверглись стандартизации методом StandardScaler, а категориальные признаки преобразовывались через one-hot encoding с исключением первого столбца для минимизации мультикол-
Таблица 1/table 1
Метрики качества моделей машинного обучения
Machine learning model quality metrics
Метрика/ Metric
Описание/Description
Клиническая интерпретация в контексте прогнозирования АИК/ Clinical interpretation in AIC prediction context
Точность/ Precision
Доля истинно положительных прогнозов среди всех положительных прогнозов/
The proportion of true positive predictions among all positive predictions.
Показывает, какая доля пациентов, отмеченных моделью как группа риска, действительно подвержена АИК. Высокая точность минимизирует ложноположительные диагнозы и ненужные вмешательства/
Shows the proportion of patients identified as at-risk who actually develop AIC. High precision minimizes false positives and unnecessary interventions.
Полнота/ Recall
Доля истинно положительных прогнозов среди всех реальных положительных случаев/
The proportion of actual positives correctly identified.
Показывает, какую долю пациентов с реальным риском АИК модель смогла выявить. Высокая полнота критически важна для минимизации риска пропуска пациентов, нуждающихся в кардиопротективной терапии/
Shows how many actual at-risk patients were identified. High recall is critical to minimize missing patients needing cardioprotective therapy.
Гармоническое среднее между точ- Комплексный показатель, балансирующий между точностью и полнотой.
F1-мера/ ностью и полнотой/ Особенно полезен при несбалансированных классах/
F1-score Harmonic mean of precision and Balanced metric between precision and recall. Especially useful with imbal- recall. anced classes.
Оценивает общую способность модели различать пациентов с риском
Площадь под ROC-кривой/ АИК и без него. Значение ≈1 указывает на превосходную различительную
AUC-ROC Area under the Receiver Operating способность/
Characteristic curve. Measures overall ability to discriminate between at-risk and safe patients. Value
≈1 indicates excellent discriminative power.
Примечание: таблица составлена авторами.
Note: created by the authors.
линеарности. Устранение дисбаланса классов, характерного для исходных данных, выполнено с применением гибридного подхода SMOTETomek, сочетающего синтетическую генерацию примеров миноритарного класса и удаление шумовых точек мажоритарного класса. Для поиска оптимальных гиперпараметров моделей применялся подход, сочетающий GridSearchCV для моделей с ограниченным пространством параметров (LogReg, LDA) и RandomizedSearchCV для моделей с обширным пространством гиперпараметров (KNN, SVM, RF, AdaBoost, XGBoost, SGD).
Исследуемые нейросетевые архитектуры были представлены многослойными перцептронами с вариативным количеством скрытых слоев, функциями активации ReLU и LeakyReLU, а также слоями батч-нормализации (batch normalization) и отсева (dropout) для регуляризации. Процесс оптимизации нейросетей включал кастомную функцию потерь RecallFocusedLoss, направленную на снижение доли ложноотрицательных прогнозов, и адаптивный планировщик ReduceLROnPlateau, автоматически корректирующий скорость обучения в зависимости от динамики валидационных потерь. Наиболее эффективная конфигурация нейросети избиралась на основе максимизации ключевых метрик на валидационных данных для сравнения с другими алгоритмами.
Оценка эффективности моделей проведена методом стратифицированной 5-кратной кроссвалидации с расчетом точности (precision), полноты (recall), F1-меры и AUC-ROC. Интерпретация данных метрик приведена в табл. 1. Порог классификации для каждой модели определялся путем максимизации F1-меры, что позволило балансировать между чувствительностью и специфичностью. Итоговые метрики, усредненные по всем фолдам, были дополнены стандартными отклонениями для оценки стабильности моделей.
Результаты
Проведен корреляционный анализ для оценки взаимосвязи между исследуемыми параметрами и развитием АИК (рис. 1). Наиболее выраженная положительная корреляция с АИК наблюдалась для эхокардиографического показателя E' (r=0,50). Умеренная положительная корреляция выявлена для индекса LAVI (r=0,36) и уровня NT-proBNP (r=0,32). Более слабая положительная корреляция отмечена для уровня TropI (r=0,22), факта проведения лечения (r=0,12) и показателя E/E' (r=0,10). Возраст показал слабую отрицательную корреляцию (r=-0,18) с развитием АИК.
Сравнительный анализ клинико-лабораторных показателей между группами пациентов с АИК и без АИК выявил значимые различия по ключевым параметрам (табл. 2). В группе с АИК зарегистрированы достоверно более высокие уровни биомаркеров кардиального повреждения: медиана NT-proBNP составила 193,5 пг/мл против 134,0 пг/мл в контрольной группе (p<0,001, U-критерий Манна–Уитни), а уровень TropI достигал 0,52 нг/мл по сравнению с 0,33 нг/мл у пациентов без АИК (p=0,004, U-критерий Манна–Уитни).
Рис. 1. Тепловая карта коэффициентов корреляции Пирсона между исследуемыми клинико-лабораторными, эхокардиографическими параметрами и развитием антрациклин-индуцированной кардиотоксичности. Примечание: рисунок выполнен авторами Fig. 1. Heatmap of Pearson correlation coefficients between the investigated clinical, laboratory, and echocardiographic parameters and the development of anthracycline-induced cardiotoxicity. Note: created by the authors
Клинико–лабораторные параметры у пациентов с АИК и без нее
Clinical and laboratory parameters in patients with and without aiC
Таблица 2/table 2
|
Параметр/Parameter |
АИК/AIC Среднее ± SD/ Медиана/ Критерий/ p–value Mean ± SD Median Criterion |
|
Возраст/Age |
– 0,61 ± 0,49 1,00 + 0,33 ± 0,49 0,00 χ² 0,0518 |
|
Лечение/Treatment |
– 0,48 ± 0,50 0,00 + 0,67 ± 0,49 1,00 χ² 0,2208 |
|
NT-proBNP (пг/мл/pg/mL) |
– 133,18 ± 55,67 134,02 Манна–Уитни/ + 190,20 ± 36,73 193,53 Mann–Whitney 8,93×10⁵ |
|
Тропонин I (нг/мл)/ Troponin I (ng/mL) |
– 0,32 ± 0,17 0,33 Манна–Уитни/ + 0,43 ± 0,18 0,52 Mann–Whitney 0,00428 |
|
E' (см/с/cm/s) |
– 8,34 ± 3,26 8,35 Манна–Уитни/ 595×10⁻⁸ + 14,16 ± 3,52 14,22 Mann–Whitney , |
|
E/E' |
– 11,21 ± 5,34 9,87 Манна–Уитни/ 03553 + 12,93 ± 6,57 10,88 Mann–Whitney , |
|
LAVI (мл/м²/mL/m²) |
– 22,50 ± 3,98 22,22 t-критерий/ + 27,24 ± 4,31 28,35 t-test 5,69×10 |
Примечание: таблица составлена авторами.
Note: created by the authors.
Эхокардиографическое исследование выявило значимые различия в показателях диастолической функции: медиана E' в группе с АИК составила 14,2 см/с против 8,35 см/с в контрольной группе (p<0,001, U-критерий Манна–Уитни). Параметр LAVI демонстрировал статистически значимое увеличение до 27,2 ± 4,3 мл/м² у пациентов с АИК по сравнению с 22,5±4,0 мл/м² в группе контроля (p<0,001, t-критерий Стьюдента).
При этом не выявлено статистически значимых различий между группами по возрасту (p=0,052, χ2-критерий), факту проведения терапии (p=0,221,
Рис. 2. Сравнение кардиальных биомаркеров между группами пациентов с АИК и без нее. Боксплоты показывают распределение значений: (А) NT-proBNP (пг/мл); (Б) тропонин I (нг/мл); (В) E' (см/с), (Г) E/E', (Д) LAVI (мл/м²). Синие боксплоты соответствуют пациентам без АИК, красные – пациентам с АИК. Боксплоты отображают медиану (центральная линия), межквартильный размах (границы бокса) и выбросы (точки за пределами усов). Примечание: рисунок выполнен авторами
Fig. 2. Comparison of cardiac biomarkers between patients with and without AIC. Box plots show the distribution of values for: (A) NT-proBNP (pg/mL), (B) troponin I (ng/mL), (C) E’ (cm/s), (D) E/E’, (E) LAVI (mL/m²). Blue box plots represent patients without AIC, red box plots represent patients with AIC. Box plots display the median (center line), interquartile range (box boundaries), and outliers (points beyond whiskers). Note: created by the authors
χ2-критерий) и показателю соотношения E/E' (p=0,355, U-критерий Манна–Уитни), хотя отмечалась тенденция к более молодому возрасту пациентов в группе с АИК. Полученные данные свидетельствуют о значимом влиянии антрацикли-новой терапии на маркеры кардиального повреждения и параметры сердечной функции.
Проверка на мультиколлинеарность с использованием VIF для непрерывных переменных (NT_proBNP, TropI, E', E/E', LAVI) показала низкие значения VIF для всех признаков (максимальный VIF=1,35 для E'). Это свидетельствует об отсутствии значимой линейной зависимости между предикторами, что позволяет включать их совместно в регрессионные модели.
Ведущими предикторами АИК, выявленными в результате статистического анализа, стали NT-proBNP и E', демонстрирующие высокую дискри-минативную способность. Параметр NT-proBNP (p<0,001; r=0,32) отражает объемную перегрузку миокарда, а E' (p<0,001; r=0,50) – ранние нарушения диастолической функции, что подтверждается их выраженной межгрупповой вариабельностью (рис. 2). TropI (p=0,004; r=0,22) и LAVI (p<0,001; r=0,36), несмотря на умеренную корреляцию с исходом, дополнили модели за счет интеграции данных о прямом повреждении кардиомиоцитов и внутрисердечной гемодинамике. Эти четыре параметра, включенные во все версии моделей, обеспечили базовую прогностическую мощность, достигая AUC-ROC >0,88.
Включение параметров E/E' и возраста, несмотря на их пограничную статистическую значимость в одномерном анализе, существенно повысило прогностическую эффективность моделей. Например, для логистической регрессии добавление этих признаков привело к увеличению F1-меры с 0,876 до 0,943, AUC-ROC – с 0,955 до 0,963, а полнота возросла с 0,85 до 0,90, что критически важно для минимизации ложноотрицательных прогнозов.
В ходе исследования проведена комплексная оценка эффективности девяти алгоритмов МО для прогнозирования АИК. Ключевые метрики (F1-мера, AUC-ROC) анализировались в контексте клинической релевантности, воспроизводимости и вычислительной эффективности (рис. 3).
Модель логистической регрессии продемонстрировала максимальную прогностическую точность при сохранении высокой полноты (0,90), достигнув F1 0,943 и AUC-ROC 0,963. Нулевое стандартное отклонение точности подтвердило её устойчивость в стратификации риска, что особенно значимо для клинических решений, требующих минимизации ложноположительных диагнозов. Линейный дискриминантный анализ показал сопоставимую эффективность (F1 0,921, AUC-ROC
Рис. 3. Комплексный анализ производительности алгоритмов машинного обучения для прогнозирования АИК. Комбинированная диаграмма демонстрирует сравнительную оценку девяти алгоритмов машинного обучения: логистическая регрессия (LogReg), линейный дискриминантный анализ (LDA), метод опорных векторов (SVM), k-ближайших соседей (KNN), случайный лес (RF), адаптивный бустинг (Ada), градиентный бустинг (XGB), стохастический градиентный спуск (SGD) и нейронная сеть (NN).
A – сравнение F1-меры; Б – производительность по метрике AUC-ROC; В – диаграмма рассеяния «точность против полноты». Все доверительные интервалы рассчитаны на основе стандартных отклонений, полученных при кросс-валидации.
Примечание: рисунок выполнен авторами
Fig. 3. Comprehensive performance analysis of machine learning algorithms for AIC prediction. The composite figure presents a comparative assessment of nine machine learning algorithms: logistic regression (LogReg), linear discriminant Analysis (LDA), support vector machine (SVM), k-nearest neighbors (KNN), random forest (RF), adaptive boosting (Ada), gradient boosting (XGB), stochastic gradient descent (SGD), and neural network (NN). A –F1-score comparison; B – AUC-ROC performance; C – precision vs. recall scatter plot. Confidence intervals were calculated based on standard deviations derived from cross-validation. Note: created by the authors
0,963), однако с более низким показателем точности 0,96.
На основе сравнительного анализа нейросетевых архитектур наиболее эффективным оказался многослойный персептрон с тремя скрытыми слоями размерностью 64, 32 и 16 нейронов с dropout-регуляризацией 0,3, 0,2 и 0,1 соответственно. В качестве функции активации использовалась LeakyReLU. Модель обучалась с размером батча 64, скоростью обучения 0,0001 и коэффициентом регуляризации весов 1e-05. Такая нейронная сеть, несмотря на высокие метрики (F1 0,921, AUC-ROC 0,946), потребовала на два порядка больше вычислительных ресурсов (29,89 с против 0,54 с для LogReg), что ставит под вопрос её практическую применимость.
Нелинейные алгоритмы (SVM, KNN) показали умеренную эффективность (F1 0,89–0,88), при этом KNN выделился максимальной вариабельностью F1-меры, возможно, из-за чувствительности к шуму в гетерогенных клинических данных. Ансамблевые методы (RF, XGBoost) обеспечили высокую
AUC-ROC (>0,93), но уступили линейным моделям в точности прогнозирования.
Анализ важности признаков проводился с использованием абсолютных значений коэффициентов для логистической регрессии и коэффициентов линейных дискриминантных функций для LDA (рис. 4). Результаты показали, что наиболее значимым предиктором кардиотоксичности в обеих моделях является показатель E' (LDA: 3.956, LogReg: 2.311), за которым следуют различные комбинации эхокардиографических и биохимических маркеров. LDA продемонстрировала более высокие абсолютные значения важности для большинства признаков по сравнению с логистической регрессией, что указывает на различные механизмы весового распределения между алгоритмами.
Обсуждение
Сравнительная эффективность моделей
Ключевым и, возможно, контринтуитивным результатом нашей работы стало то, что классические линейные модели (LogReg и LDA) превзошли
Рис. 4. Сравнение важности прогностических маркеров в моделях логистической регрессии (LogReg) и линейного дискриминантного анализа (LDA).
Примечание: рисунок выполнен авторами
Fig. 4. Comparison of predictive biomarker importance in logistic regression (LogReg) and linear discriminant analysis (LDA) models. Note: created by the authors более сложные алгоритмы, включая нейронные сети и ансамблевые методы. Этот вывод имеет практическое значение, поскольку он ставит под сомнение мнение о необходимости применения «черных ящиков» для достижения максимальной точности. Наши результаты показывают, что на данных с выраженной, но преимущественно линейной взаимосвязью между предикторами и исходом простые и полностью интерпретируемые модели не только не уступают, но и выигрывают в надежности и устойчивости прогноза.
Сравнение с результатами предыдущих исследований
Сравнение с литературными данными показывает, что достигнутые в представленном исследовании показатели эффективности превышают результаты предыдущих работ. В исследовании, посвященном прогнозированию кардиотоксичности у больных раком молочной железы, сравнивалось несколько алгоритмов МО. Лучшую точность в прогнозировании показала модель многослойного перцептрона с AUC 0,66, а при валидации для прогнозирования сердечной недостаточности со сниженной фракцией выброса та же модель достигла AUC 0,81 [31]. Модель регрессии LASSO для прогнозирования АИК у детей с гематологическими опухолями, включающая такие переменные, как кумулятивная доза антрациклина, фракция выброса и NT-proBNP, достигла значения AUC-ROC 0,773 [23]. Для диагностики субклинической кардиотоксичности, вызванной антрациклином, у пациентов с острым лейкозом с использованием уровней PLT и NT-proBNP модель логистической регрессии достигла AUC-ROC 0,713 [32]. Наши лучшие модели (LogReg, LDA) показали AUC-ROC 0,963, что является самым высоким результатом среди сравниваемых исследований.
Интересно, что в работе W.T. Chang et al. [31] лучшие результаты показала именно нейронная сеть, тогда как в нашем исследовании линейные модели (LogReg, LDA) значительно превзошли нейросетевые и ансамблевые алгоритмы. Это расхождение подчеркивает важность подбора модели под конкретный набор данных, целевую переменную и используемые предикторы. Например, в исследовании W.T. Chang et al. [31] ключевыми детерминантами в модели логистической регрессии были использование трастузумаба, наличие гипертензии и доза антрациклина, в отличие от нашего набора, сфокусированного на биомаркерах (NT-proBNP, TropI) и параметрах диастолической функции (E', LAVI).
Исследуемая нами когорта состояла из взрослых пациентов (возраст 18–74 года) с различными онкогематологическими заболеваниями. Другие исследования фокусировались на специфических группах (например, дети [23], больные раком молочной железы [31]). Различия в возрасте, типе злокачественных новообразований и схемах лечения могут влиять на факторы риска и, следовательно, на прогностическую силу моделей. В нашей работе при первичном статистическом анализе возраст показал слабую отрицательную корреляцию с кардиотоксичностью, однако включение его в список параметров усилило прогностическую способность алгоритмов.
Клиническая интерпретация и значимость предикторов
Несмотря на высокие показатели AUC-ROC, важно отметить, что модель логистической регрессии достигла идеальной точности (1,00) при сохранении высокой полноты (0,90). Это делает ее полезной для клинического применения, где минимизация ложноотрицательных прогнозов (пропуск пациентов с риском) является приоритетом, но и высокая точность (избегание ненужных вмешательств у пациентов без риска) также важна. Нейронные сети, хотя и показали сравнимую эффективность с LogReg и LDA, требовали больше вычислительных ресурсов, что ограничивает их применимость.
В этом исследовании ключевыми предикторами стали NT-proBNP, E', TropI и LAVI, с дополнительным вкладом E/E' и возраста. Этот набор включает как биомаркеры повреждения миокарда и объемной перегрузки, так и эхокардиографические параметры диастолической функции. Сочетание этих параметров, вероятно, позволило моделям идентифицировать различные аспекты развивающейся кардиотоксичности. В других исследованиях использовались иные наборы предикторов (например, LVEF, GLS, кумулятивная доза антрациклина), что может влиять на итоговую производительность моделей [23, 26, 31, 32].
Полученные результаты анализа важности признаков выявили ключевые различия в интерпретации предикторов АИК между наиболее эффективными алгоритмами (LogReg и LDA). Доминирование показателя E' в обеих моделях согласуется с современными представлениями о ранней диастолической дисфункции как предвестнике кардиотоксических осложнений. Примечательно, что LDA придает существенно большее значение индексу объема левого предсердия (LAVI: 2,144 vs 1,168) и отношению E/E’ (1,947 vs 1,150), что может отражать способность дискриминантного анализа лучше выявлять нелинейные взаимосвязи между показателями диастолической функции. Относительно низкая важность тропонина I в обеих моделях (LDA: 0,984, LogReg: 0,702) предполагает, что эхокардиографические параметры могут быть более чувствительными ранними маркерами кардиотоксичности по сравнению с традиционными биохимическими показателями повреждения миокарда, что имеет важное значение для мониторинга пациентов, получающих антрациклины.
Ограничения исследования
Ключевым ограничением исследования является относительно небольшой размер выборки (155 пациентов), а также малое количество целевых событий (случаев развития АИК). Несмотря на то, что применение техники SMOTETomek для устранения дисбаланса классов способствовало улучшению и стабилизации производительности моделей в отношении миноритарного класса, мы понимаем, что никакие методы ресэмплинга не могут полностью заменить данные, полученные на более крупной когорте. В связи с этим достигнутые показатели эффективности моделей следует интерпретировать с осторожностью. Поэтому полученные результаты стоит рассматривать как предварительные, а разработанные модели – как пилотные.
В дальнейших исследованиях необходима валидация обученных и возможное дообучение моделей на более крупных и независимых внешних когортах для подтверждения их прогностической способности. Кроме того, исследование фокуси- ровалось на прогнозировании АИК на основе данных, собранных в определенные моменты времени; в будущих исследованиях необходимо обратить внимание на динамическое прогнозирование с учетом изменений параметров во времени.