Применение технологий искусственного интеллекта для прогнозирования риска рецидива при раке поджелудочной железы. Систематический обзор литературы и метаанализ
Автор: Манукян М.Ш., Павлова В.И., Абдулаева Р.Ш., Геворкян Т.Г., Гордеев С.С.
Журнал: Злокачественные опухоли @malignanttumors
Рубрика: Обзоры и аналитика
Статья в выпуске: 4 т.15, 2025 года.
Бесплатный доступ
Проведен систематический обзор и мета анализ 10 исследований (2019–2024 гг.), оценивающих диагностическую точность алгоритмов искусственного интеллекта (ИИ) для прогнозирования рецидивов рака поджелудочной железы (РПЖ). Объединенные оценки чувствительности и специфичности составили 0,77 [95 % ДИ: 0,58–0,95] и 0,79 [95 % ДИ: 0,57–1,00] соответственно. Ключевыми ограничениями работы являлась высокая гетерогенность (I² > 98 %), которая может быть связана с малым числом включенных исследований, и недостаточная стандартизация методов валидации. Введение: Использование технологий искусственного интеллекта открывает новые возможности в прогнозировании течения рака поджелудочной железы. Цель: Проведение мета анализа диагностической точности алгоритмов ИИ (чувствительности и специфичности) для прогнозирования рецидивов РПЖ и сравнительный анализ эффективности различных типов алгоритмов. Методы: Был проведен систематический поиск литературы в ведущих научных базах данных, охватывающий публикации за период с 2019 по 2024 годы. В обзор включены исследования, в которых применялись методологии искусственного интеллекта для прогнозирования риска рецидива рака поджелудочной железы. Поиск и анализ данных осуществлялись в три этапа: первичный поиск исследований по ключевым словам и критериям включения; скрининг заголовков и аннотаций для отбора релевантных работ; детальная оценка полных текстов отобранных статей. Синтез данных включал анализ производительности моделей ИИ, типов используемых данных (клинические, геномные, радиологические и др.), а также стратегий валидации и тестирования предложенных алгоритмов. Для мета анализа чувствительности и специфичности использована модель случайных эффектов с расчетом объединенных оценок, 95 % доверительных интервалов и показателей гетерогенности (I², τ²). Дополнительно выполнена мета регрессия для оценки влияния типа алгоритма на чувствительность. Статистический анализ проведен в R (пакет metafor) с визуализацией лесных диаграмм. Результаты: Данный систематический обзор включил 10 исследований, из которых 5 были отобраны для метаанализа. Результаты демонстрируют объединенную чувствительность 0,77 [95 % ДИ: 0,58–0,95] и специфичность 0,79 [95 % ДИ: 0,57–1,00] алгоритмов ИИ для прогнозирования рецидивов РПЖ. При анализе отдельных типов алгоритмов искусственные нейронные сети (ANN) показали объединенную чувствительность 0,87 [0,73–1,01], а метод опорных векторов (SVM) имел отрицательный коэффициент влияния на чувствительность (–0,45 [–0,69 — −0,21]). Мета анализ выявил высокую гетерогенность между исследованиями (I² = 98,84 % для чувствительности и I² = 99,42 % для специфичности), что требует осторожности при интерпретации результатов. Заключение: ИИ модели демонстрируют потенциал для прогнозирования рецидивов РПЖ, но требуют стандартизации данных и проспективной валидации в клинической практике.
Рак поджелудочной железы, ранний рецидив, искусственный интеллект, машинное и глубокое обучение, прогностические факторы
Короткий адрес: https://sciup.org/140313476
IDR: 140313476 | DOI: 10.18027/2224-5057-2025-064
Текст научной статьи Применение технологий искусственного интеллекта для прогнозирования риска рецидива при раке поджелудочной железы. Систематический обзор литературы и метаанализ
Выявление пациентов с высоким риском прогрессирования рака поджелудочной железы (РПЖ) позволяет рассмотреть возможность изменения тактики лечения, включая эскалацию режимов терапии, проведение неоадъювантной терапии или оптимизацию подходов к динамическому наблюдению после радикального лечения. Согласно данным литературы, своевременное выявление прогрессирования РПЖ и раннее начало лечения положи- тельно влияют на показатели общей выживаемости (ОВ) [1]. Однако в настоящее время в клинической практике отсутствуют надежные инструменты для прогнозирования прогрессирования, что затрудняет выделение групп пациентов, требующих более интенсивного наблюдения.
В 2024 году был проведен мета-анализ 64 исследований, посвященных изучению различных прогностических факторов раннего рецидива РПЖ [1]. В анализируемых работах было выделено несколько статистически значимых параметров: уровень онкомаркера CA19-9, отсутствие адъювантной химиотерапии, поражение лимфатических узлов, степень дифференцировки опухоли и ее размеры. На основе этих данных были разработаны номограммы, демонстрирующие С-индекс в диапазоне от 0,656 до 0,734. Несмотря на определенную прогностическую способность, эти шкалы не нашли широкого применения в клинической практике из-за их ограниченной эффективности [2–4].
Исследователи сталкиваются с рядом ограничений, включая гетерогенность пациентов, необходимость формирования больших выборок и наличие неочевидных факторов, влияющих на прогноз, которые не учитываются в классических дизайнах исследований. Эти ограничения подчеркивают необходимость разработки новых подходов к анализу данных и прогнозированию.
Быстрый прогресс в области вычислительных технологий и расширение технических возможностей делают искусственный интеллект (ИИ) многообещающим инструментом для решения указанных проблем. Однако остается неясным, насколько эти подходы превосходят традиционные номограммы, особенно с учетом значительных интеллектуальных и финансовых затрат, связанных с внедрением ИИ [5–7].
Несмотря на растущее количество исследований, посвященных применению ИИ в прогнозировании РПЖ, остается неясным, какие типы данных и методологии ИИ обеспечивают наиболее надежные результаты. В данном обзоре мы систематизируем результаты различных исследований, посвященных применению ИИ для прогнозирования рецидивов и прогрессирования РПЖ на основе клинических параметров, а также оценим потенциальное влияние этих подходов на клиническую практику.
МАТЕРИАЛЫ И МЕТОДЫ
Для достижения поставленной цели был проведен систематический поиск научной литературы, охватывающий статьи, опубликованные в период с 2019 по 2024 годы. Поиск осуществлялся в четырех ведущих онлайн-базах данных: PubMed, ScienceDirect, NATURE, MedRXiv, BioRXiv и Google Scholar. Основной поисковый запрос был сформулирован следующим образом: «(“Artificial intelligence» OR “Machine learning» OR “Deep learning» OR “supervised learning» OR “unsupervised learning» OR “reinforcement learning») AND (“Pancreatic Cancer» OR “Pancreatic adenocarcinoma») AND (diagnose OR detect OR predict* OR screen*)». Этот запрос использовался для поиска в базах данных PubMed и Google Scholar. Однако из-за ограничений на количество символов в других базах данных (ScienceDirect, NATURE, MedRXiv и BioRXiv) был применен сокращенный вариант запроса: *«(Artificial intelligence OR Machine learning OR Deep learning) AND (Pancreatic Cancer) AND (predict) AND (Pancreas)».
В обзор были включены только те исследования, которые соответствовали определенным критериям. Рассматривались работы, посвященные применению методов искусственного интеллекта (ИИ) для прогнозирования риска прогрессирования рака поджелудочной железы, с акцентом на клинические параметры. Включены статьи из рецензируемых журналов, при этом клинические случаи, материалы конференций, обзоры, диссертации, аннотации и редакционные статьи были исключены. Исследования, использующие не-ИИ методы для диагностики рака поджелудочной железы, а также работы, предоставляющие исключительно теоретическую основу для моделей ИИ без практического применения, также не рассматривались. Ограничений по методам, дизайну или географическому расположению исследований не применялось, однако учитывались только публикации на английском языке.
Процесс отбора исследований состоял из трех этапов. На первом этапе был проведен поиск литературы в указанных базах данных, после чего для удаления дубликатов среди найденных исследований использовался инструмент Rayyan. На втором этапе два независимых рецензента проанализировали заголовки и аннотации всех найденных статей, исключив исследования, не соответствующие теме обзора. На заключительном этапе рецензенты независимо рассмотрели полные тексты статей, прошедших предыдущий этап, а все несоответствия между рецензентами разрешались в ходе обсуждения. Для оценки уровня согласия между рецензентами был рассчитан коэффициент Каппа Коэна, значение которого составило 0,93 для анализа полных текстов, что свидетельствует о высоком уровне согласия.
После извлечения данных из исследований был проведен нарративный синтез. Основной фокус — методы ИИ (SVM, нейронные сети, случайные леса), их цели, характеристики, источники данных и языки программирования. Также анализировались метрики: точность, специфичность, чувствительность, прецизионность. Данные систематизировали в Microsoft Excel.
Далее мы провели мета-анализ исследований для оценки специфичности и чувствительности различных алгоритмов искусственного интеллекта, а также метарегрессию для оценки влияния различных алгоритмов искусственного интеллекта (ИИ) на показатель чувствительности. В связи с ожидаемой гетерогенностью между исследованиями при мета-анализе использована модель случайных эффектов (Random-Effects Model). Проведена оценка общего объединенного эффекта (с 95% доверительным интервалом), степень гетерогенности (τ², I², Q-тест) отдельно для специфичности и чувствительности. Анализ выполнен в программном обеспечении R (пакет metafor) c визуализацией лесных диаграмм.
РЕЗУЛЬТАТЫ ПОИСКА
Сначала мы идентифицировали 23539 статей, используя 6 баз данных: PubMed (n = 417), Science Direct (n = 3587), NATURE (n = 537), Google Scholar (n = 18100), BioRXiv (n = 737) и MedRxiv (n = 161). Все статьи из PubMed были проанализированы на основе заданного запроса. Из-за большого объема статей из Science Direct, BioRxiv и Google Scholar
DL (Deep Learning) — Глубокое обучение;
ML (Machine Learning) — Машинное обучение;
RF (Random Forest) — Случайный лес;
LR (Logistic Regression) — Логистическая регрессия;
K-NNA (K-Nearest Neighbors) — Метод k-ближайших соседей;
NN (Neural Networks) — Нейронные сети;
Decision tree — дерево решений;
SVM (Support Vector Machine) — Метод опорных векторов;
XG-Boost (Extreme Gradient Boosting) — Экстремальный градиентный бустинг;
Bayesian nets — Байесовские сети;
Ensemble trees — ансамблевые деревья;
Cox model — модель пропорциональных рисков Кокса;
Bagging — Бэггинг;
EGBM (Extreme Gradient Boosting Machine) — Экстремальный градиентный бустинг;
Рисунок 1. Типы использованных методов искусственного интеллекта (n = 10 исследований
Figure 1. Types of artificial intelligence methods used (n = 10 studies)
Таблица 1. Характеристики техник ИИ, использованных в каждом исследовании
Table 1. Characteristics of the AI techniques used in each study
Из 1006 проанализированных статей 966 были исключены по следующим причинам: 317 статей не относились к искусственному интеллекту, 185 статей не были сосредоточены на раке поджелудочной железы, 191 статья являлась литературным обзором, и 273 статьи не имели отношения к риску рецидива. В конечном итоге было выделено 40 статей, из них 30 были исключены в связи с несоответствием изучаемых параметров (включались не только клинические данные, но и радиомика, геномика или патомика). В конечном итоге было включено в анализ 10 статей.
ХАРАКТЕРИСТИКИ ВКЛЮЧЕННЫХ СТАТЕЙ
Все включенные исследования были опубликованы в рецензируемых журналах (10/10, 100%). Количество участников в включенных исследованиях варьировало от 45 до 24044, медиана составила 188 пациентов.
ХАРАКТЕРИСТИКИ ИСПОЛЬЗУЕМЫХ ТЕХНИК ИИ
Типы используемых техник искусственного интеллекта представлены на рисунке 1.
Во всех 10 исследованиях (100%) использовали алгоритмы машинного обучения, в одной работе также применялся алгоритм глубокого обучения (10%). В исследованиях применялись различные алгоритмы ИИ, нейронные сети использовались в 60% работ, случайный лес — 40%, а древо решений — в 30% случаев. Подробная информация касательного характеристик применяемых алгоритмов представлена в таблице 1.
Из методов валидации 10-кратная кросс-валидация применялась в 20% исследований. В 40% работ метод валидации не был указан.
Среди изученных алгоритмов XGBoost (экстремальный градиентный бустинг) и нейронные сети продемонстрировали следующие результаты.
При XGBoost чувствительность составила 94,96%, специфичность — 93,62%, AUC0,933 (95% ДИ 0,906–0,958). Результаты применения нейронных сетей варьировались в исследованиях, чувствительность данного алгоритма составила 82–91 % и специфичность — 38–89%.
Отдельное внимание стоит уделить параметрам, анализируемым в исследованиях. Большинство из них имело схожий спектр оцениваемых характеристик, но лабораторные показатели и проведение нео- или адъювантной терапии отражены в 30% работ, а сопутствующие заболевания оценивались в 40% исследований. Подробнее оцениваемые параметры отражены в таблице 2.
МЕТА-АНАЛИЗ
Результаты чувствительности и специфичности метода были представлены в 5 исследованиях, на основе которых проведен мета-анализ.
Чувствительность
В анализ вошли данные пяти независимых исследований (n = 45–654), в которых сравнивались следующие модели:
-
• Искусственные нейронные сети (ANN),
-
• Логистическая регрессия, метод опорных векторов (SVM), случайный лес, k-ближайших соседей (KNN),
-
• Нелинейный SVM,
-
• XGBoost.
Таблица 2. Основные клинические параметры, используемые в исследованиях
Table 2. Main clinical parameters used in the studies
|
Категория параметров |
Параметры |
Ссылки на |
|
|
исследования |
% статей |
||
|
Демографические данные |
Возраст, пол, национальность, ИМТ, курение, алкоголизм, наследственность |
1–10 |
100% |
|
Опухолевые характеристики |
Размер опухоли, стадия (T, N), степень дифференцировки, гистологический тип, локализация первичной опухоли |
1–10 |
100% |
|
Лабораторные показатели |
Уровень CA19–9, РЭА, билирубин, альбумин, АЛТ, АСТ, креатинин |
3,6,8 |
30% |
|
Хирургические параметры |
Вид операции, края резекции, вовлеченность сосудов, периневральная/лимфо-васкулярная инвазия Резекция портальной вены Послеоперационные осложнения |
1,2,4,5,7,8,10 |
70% |
|
Лечение |
Неоадъювантная химиотерапия, адъювантная химиотерапия, лучевая терапия |
4,6,7 |
30% |
|
Сопутствующие заболевания |
Сахарный диабет 2 типа, сердечная недостаточность, вирусный гепатит B |
3,6,7,8 |
40% |
|
Иные признаки |
ECOG, саркопения, механическая желтуха и проводилась ли декомпрессия желчных протоков |
1,4,9 |
30% |
Иссл(доммн1 Eo-lirrato [95% Cfl
№i«5.P «4«1 0*45^ -------------------- 0 7410 57.0 33]
Чорочу Й. е< Л |п - BSt| 4< D 95 |0 91. С 97|
Йфп£|£ №Р311$ ■ И ■ Q91 №37. D95I
3*4 J * S<. (" " АЭ1--^-- 0« 1031.057]
Т»чПиГ.(Л1й![ ■--■--■ PS7 1077.037]
Об ши* эффект (tfljr**H4rf афФс"1ы) ^-- С 77 |Й 55 С 95]
I------------------------------------------------------1------------------------------------------------------1------------------------------------------------------1------------------------------------------------------1
-
4.1 4 4 в 5 а4 1
U^iV С ТМ ■ «Л * кСС ТЪ
Рисунок 2. График forest plot объединенных оценок чувствительности по включенным исследованиям
Figure 2. Forest plot of pooled sensitivity estimates from included studies
Результаты мач-рагре^сии анилина алгоритм# ни на чуоттытальлоеть
Eiiiauca p»%Cg
А кН,
CVjOTJ. 1.01] 4 П|ЛЛ. ««] <1411-064 O .11J РИЦ) 10, «.Я]
чадом Ячмамл Оаомл Тиа Ямам Гоча . 5УЫ нчн ЧхЯЛнНРтЪ
Л U «оса I
41 Й 05 1 тй
‘^КТГ->*М|'ЧСЧ № М> >чн^1АГ»™.ь. _1ЧИАЯ-_|
Рисунок 3. График forest plot для оценки влияния алгоритма ИИ на чувствительность
Figure 3. Forest plot for assessing the impact of the AI algorithm on sensitivity
Учитывая малое число включенных исследований и ожидаемую высокую гетерогенность, применена модель случайных эффектов (Random-Effects Model).
Объединенная оценка чувствительности составила 0,77 [95% ДИ: 0,58–0,95], что указывает на умеренно высокую диагностическую точность (рис. 2). Однако была получена высокая гетерогенность между исследованиями I² = 98,84% (p < 0,0001), при τ² = 0,0436 (SE = 0,0319). Высокий I² при относительно низком τ² может объясняться малым числом исследований (k= 5). Диапазон чувствительности составил от 0,42 [0,32–0,52] [12] до 0,95 [0,93–0,97] [16].
Анализ влияния типа алгоритма на показатели чувствительности выявил следующее.
Алгоритмы ANN показали коэффициент 0,87 [95% ДИ: 0,73–1,01], алгоритм SVM продемонстрировал коэффициент -0,45 [95% ДИ: -0,69 — -0,21] (рис. 3).
Специфичность
На основе тех же 5 исследований проведен мета-анализ для оценки специфичности различных алгоритмов искусственного интеллекта. Также применена модель случайных эффектов (Random-Effects Model).
Объединенная оценка специфичности составила 0,79 [95% ДИ: 0,57–1,00], что указывает на высокую диагностическую точность. Однако обнаружена высо-
|
Исследование |
Ылимарфксп |
|
Ш* S.₽ *1 al (n = lit ■---’ |
0 73|0 5Q.0K| |
|
Noporft tt^-fn ■ eo -■- |
0 W |0 92.0 »| |
|
■rVakiAt s et$i pi = 21® ----«----- |
00»|0 К.0«| |
|
ВД1 at# {h >93) -*- |
uOaiuSS. 1 41} |
|
Teng Z. ei *i (n « 2211 —•— |
0 9010 5 6.0 941 |
|
Q 7910 57.1 CO| |
|
|
1 г |
Ссеииймчносг ь
Рисунок 4. График forest plot объединенных оценок специфичности по включенным исследованиям
Figure 4. Forest plot of pooled specificity estimates from included studies
Таблица 3. Основные показатели гетерогенности в мета-анализах
Table 3. Main indicators of heterogeneity in meta-analyses
Наблюдается разброс показателей специфичности: так, в работе Baig Z. et al. результат был равен 0,98 [0,95–1,01], а в исследовании Walczak S. et al. — 0,38 [0,32–0,44]. В трех оставшихся работах специфичность была выше 0,9. (рис. 4)
В таблице 3 представлены показатели гетерогенности между мета-анализами чувствительности и специфичности.
ОБСУЖДЕНИЕ
Анализ данных литературы показал, что методы машинного обучения (ML) и глубокого обучения (DL) активно применяются для прогнозирования отдалённых результатов лечения РПЖ.
Проведенный мета-анализ продемонстрировал высокую прогностическую эффективность алгоритмов ИИ в предсказании рецидивов рака поджелудочной железы. Наиболее стабильным и эффективным алгоритмом для оценки чувствительности модели был ANN (0,87 [0,73– 1,01]), но полученные результаты требуют осторожной интерпретации. Основной проблемой стала высокая гетерогенность (I² > 98 %), обусловленная разнородностью используемых алгоритмов, различиями в раз- мерах выборок и методологических подходах. Например, только 30% исследований учитывали уровень онкомаркера CA19-9, а методы валидации в 40% работ не были указаны. Малый объем включенных исследований (k = 5) привел к широким доверительным интервалам, что снижает надежность выводов. Кроме того, потенциальное смещение публикаций, связанное с включением только работ, сообщающих положительные результаты, могло исказить общие оценки. Для преодоления этих ограничений необходима стандартизация протоколов исследований, включая обязательное описание методов валидации и использование единых критериев оценки клинических параметров. Помимо этого, есть еще несколько трудностей для внедрения ИИ в клиническую практику. Для обучения ИИ-моделей требуются большие объемы данных, что может быть ограничено в условиях реальной клиниче- ской практики. Также внедрение ИИ-технологий требует значительных финансовых и интеллектуальных затрат, что может стать барьером для их широкого применения. Добавление геномных и радиомических параметров в модели ИИ могут позволить повысить их точность, но в тоже время интеграция изображений и молекулярных сигнатур в модели приведет к еще большим сложностям к их интеграции в клиническую практику. Поэтому вопрос об оптимизации учитываемых клинических параметров остается важным для улучшения прогностической ценности модели.
Таким образом, несмотря на положительные результаты, дальнейшие исследования должны быть направлены на устранение методологических недостатков и обеспечение воспроизводимости моделей в реальной клинической среде.