Возможность прогнозировнаия рецидива при анализе банка данных пациентов с перипротезной инфекцией тазобедренного сустава

Автор: Божокин М.С., Божкова С.А., Кочиш А.А., Корнева Ю.С., Никонорова М.Л., Далул Ф., Артюх В.А.

Журнал: Вестник медицинского института "РЕАВИЗ": реабилитация, врач и здоровье @vestnik-reaviz

Рубрика: Информационно-вычислительные технологии в медицине

Статья в выпуске: 5 т.15, 2025 года.

Бесплатный доступ

Введение. Заболевания и травмы опорно-двигательного аппарата являются актуальной проблемой для миллионов людей. Заболевания и повреждения гиалинового хряща приводят к дальнейшей деградации крупных суставов, которая не поддаётся консервативным методам лечения и на поздних стадиях требует выполнения эндопротезирования сустава, что в 3% случаев приводит к развитию инфекционных осложнений, принятое называть перипротезной инфекцией. Цель: оценка возможности предсказания рецидива перипротезной инфрекции тазобедренного сустава с применением языка программирования Python на основе структурированного банка данных с последующим анализом факторов, влияющих на исход лечения профильных пациентов. Материал и методы. В качестве исходных данных для выполнения работы была использована информация о пациентах, прошедших лечение с 2010 по 2022 год в Центре Р.Р. Вредена по поводу перипротезной инфекции тазобедренного сустава. Результаты. Итоговый банк данных включает 1611 пациентов, описание каждого пациента включает 101 атрибут. Создан авторский алгоритм прогнозирования риска развития перипротезной инфекции на основе созданного банка данных. Обсуждение. Банк данных даёт возможность прогнозировать риск развития рецидива перипротезной инфекции и проанализизировать причины, которые к этому приводят. После коррекции схемы лечения пациентов можно избежать или минимизировать его дальнейшее развитие. Заключение. Анализ архивных данных уточняет понимание причин рецидива перипротезной инфекции и позволяет консолидировать опыт травматологов-ортопедов относительно ведения данной когорты пациентов. Подтверждается гипотеза о том, что прогнозирование риска рецидива перипротезной инфекции возможно осуществить сразу после санирующей операции.

Еще

Перипротезная инфекция [D016459], эндопротезирование тазобедренного сустава [D019644], рецидив [D012008], прогнозирование [D011379], базы данных [D030541], машинное обучение [D000069550], факторы риска [D012307], Python [D012984], реэндопротезирование [D012086], анализ больших данных [D057225]

Еще

Короткий адрес: https://sciup.org/143185350

IDR: 143185350   |   УДК: 616.728.2-089.844-06-022.7-037   |   DOI: 10.20340/vmi-rvz.2025.5.ITM.1

Текст научной статьи Возможность прогнозировнаия рецидива при анализе банка данных пациентов с перипротезной инфекцией тазобедренного сустава

Заболевания и травмы опорно-двигательного аппарата являются актуальной проблемой для миллионов людей. Среди них остеоартрит крупных суставов занимает особое место, поражая каждый год около 500 миллионов человек по всему миру [1]. При терминальной стадии остеоартрита выполняется эндопротезирование поражённого сустава. Тотальное эндопротезирование тазобедренного сустава (ЭП ТБС) является высокоэффективным вмешательством, которое позволяет повысить качество жизни и восстановить прежнюю двигательную активность пациента [2]. Однако в 1–3% случаев развиваются инфекционные осложнения в виде перипротезной инфекции (ППИ), лечение которой требует значительных дополнительных экономических затрат. При этом хронизация инфекционного процесса существенно снижает качество жизни и повышает риск инвалидизации пациентов [3–5]. Таким образом, лечение и профилактика ППИ являются актуальной задачей современной ортопедии.

Особый интерес вызывает прогнозирование риска рецидива ППИ, что также значительно увеличивает продолжительность лечения и затраты на него системы здравоохранения [6]. Определение факторов, повышающих риск рецидива, является важной задачей, решение которой может позволить своевременно скорректировать схему лечения ППИ и предупредить развитие неблагоприятного исхода лечения [7]. В НМИЦ ТО имени Р.Р. Вредена (Центр) накоплен большой опыт лечения пациентов с ППИ, разработаны алгоритмы определения рисков развития рецидива, но данные алгоритмы не автоматизированы и определены на небольших группах пациентов [8, 9].

Целью статьи является анализ возможности прогнозирования рецидива ППИ тазобедренного сустава с помощью Python на основе создания структурированной базы данных и последующего анализа факторов, влияющих на исход лечения профильных пациентов.

Материалы и методы

Работа была проведена с использованием информации о пациентах с ППИ ТБС, пролеченных в Центре в период с 2010 до 2022 гг. В 2010 году в Центре был создан локальный регистр пациентов ППИ ТБС на основе прикладной программы Acсess (2007 г.) фирмы Microsoft Office. За прошедшие годы в регистр внесены данные более 1892 пациентов с ППИ ТБС. Кроме того, в базу данных добавлены данные о рецидиве хронического инфекционного процесса у пациентов. В 2022 г. весь накопленный материал был перенесён в прикладную программу Microsoft Excel (2016 г.).

Выделим следующие блоки в исходных данных:

Информационный блок

  • 1.    Пациенты : информационная карта пациентов с диагнозом ППИ, создана сотрудниками Центра в 2012 году на основе архивов болезней (например, телефон, email, СНИЛС и пр.).

  • 2.    Неинфекционные ревизии : данные о всех асептических ревизиях в области ТБС до возникновения инфекции.

  • 3.    Инфекционные ревизии : данные о всех инфекционных ревизиях в области ТБС до первой госпитализации в Центре.

  • 4.    Предыдущие инфекции : данные о предыдущих случаях инфекционного процесса (абсцесс, флегмона, остеомиелит) в области ТБС до первой госпитализации в Центр.

  • 5.    Другие операционные вмешательства : данные о любых обширных хирургических вмешательствах до первой госпитализации в Центр.

Блок госпитализации в отделение гнойной хирургии Центра

  • 1.    История болезни: клинический диагноз, тип ППИ, дата манифестации ППИ, общесоматический статус пациента.

  • 2.    Операция : данные о санирующей операции (тип, длительность, объём кровопотери, используемые металлоконструкции) и деталях (доступ, наличие/расположение свищевого хода, признаки инфекционного поражения мягких тканей и кости, дефекты костной ткани).

  • 3.    Гемотрансфузии общее: тип и объём перелитых компонентов крови.

  • 4.    Антимикробный гель: использование антимикробного геля для локального применения.

  • 5.    Трансплантаты : использование костных трансплантатов.

  • 6.    Дооперационная микробиология : возбудитель ППИ со спектром антимикробной чувствительности.

  • 7.    Послеоперационная : возбудитель ППИ со спектром антимикробной чувствительности.

Все пациенты при поступлении в Центр подписывали информированное согласие для обработки персональных и медицинских данных. При создании банка данных на основе перечисленных блоков использовался программный код на языке программирования Python 3.10.9. Сбор данных осуществлялся с использованием различных инструментов и библиотек Python. Для работы с файлами Excel использовалась библиотека openpyxl , которая позволяет переключаться между листами в одном файле форматов .xlsx, .xlsm, .xltx и . xltm .

Предварительная обработка и очистка данных – это важные этапы в подготовке данных при анализе методами машинного обучения, Очистка данных включала поиск пропусков в данных. Пропущенные значения заполняли, исходя из логической целесообразности, средним, медианным значением или модой. Для обнаружения аномалии и выбросов в данных применялся кластерный анализ. Обработка выбросов проводилась методом межквартильного размаха (IQR) .

Инструменты Python, используемые для предварительной подготовки

Pandas : очистка, фильтрация и преобразования данных. На каждом этапе код дописывался таким образом, чтобы финальный результат получался за одну итерацию с сохранением резервных копий. Дубликаты данных, информация о пациентах не заполненная более чем на 30%, и пациенты с отсутствующей характеристикой по рецидиву автоматически удалялись общем регистре (регистрах).

NumPy: преобразование категориальных переменных. По некоторым показателям качественные атрибуты заменялись количественными с последующим логическим анализом.

Datetime: вычисление разницы в месяцах (например, дата поступления – дата выписки), количественная оценка даты.

Matplotlib, Seaborn: визуализация данных, выявления выбросов и аномалий.

Все этапы предварительной обработки медицинских данных авторами были автоматизированы путём написания кода на языке Python.

Перечислим проведённые этапы, которые позволяют в дальнейшем проводить анализ методами машинного обучения:

  • 1.    Сбор данных – обеспечивает полноту и репрезентативность выборки.

  • 2.    Оценка данных – включает проверку данных на наличие пропущенных значений, дубликатов или аномалий.

  • 3.    Очистка данных – позволяет удалить дубликаты, обработать пропущенные значения, определить и устранить выбросы.

  • 4.    Трансформация данных – при трансформации кодируются категориальные критерии, создаются новые признаки или атрибуты.

  • 5.    Обработка данных – окончательная обработка удаляет ненужные атрибуты и подготавливает dataframe для дальнейшего обучения моделей машинного обучения. Визуализация тепловой карты базировалась на библиотеках Matplotlib и Numpy. Диаграмма рассеивания построена методом t-SNE (T-distributed stochastic neighbor embedding).

Результаты и обсуждение

Финальное количество пациентов в созданном банке данных составило 1809 человек, описание каждого пациента включало 146 атрибутов. После формирования единого файла удалось получить вторичные данные о пациентах, которые первоначально располагались в разных базах данных: разница дат исследуемых событий, суммирование различных комбинаций коморбидных факторов, выраженных в балльном исчислении.

После проведения очистки и предварительной подготовки данных получен единый банк данных с 1611 уникальными пациентами, каждый из которых описан 101 уникальным атрибутом. Условием уникальности пациентов является одновременное совпадение фамилии (string) и даты рождение в формате (datetime). Добавились новые атрибуты описания паицентов: продолжительность влияния развития риска рецидива ППИ, суммарное количество баллов по коморбидным заболеваниям. При переводе качественных данных в количественные учитывалась «тяжесть» категориального признака.

Сформированный банк данных отражён в тепловой карте корреляционной матрицы (рис. 1), где каждая ячейка окрашена в соответствии с коэффициентом корреляции между соответствующей парой атрибутов.

Тепловая карта представляет важную и структурированную информацию о корреляции атрибутов, влияющих на риск рецидива ППИ. Наиболее значимые взаимные корреляции, выявленные с помощью тепловой карты: диабет и его тип, наркомания, курение, алкогольная зависимость, количество дренажей, кровопотеря при операции, время удаления дренажа, показатели крови (СРБ, количество тромбоцитов), тип спейсера, применение антибиотика в спейсере, а также суммарный балл коморбидных факторов. Следует отметить, что до настоящего времени аналогичные построения анализа рисков рецидива ППИ не проводились.

sex diabed-ws5(ll) chsn-ws5(16) duh-sis-ws5(21) hematol-ws5(26) met-stat-ws5(31)

1H по Цукаяма (4 Tnna)-ws6(37) фации (первого 3Tana)-ws6(42) л аспират при пункции-«5б(47)

Эритроцито в_до-ws6(52)

1алочкоядерных_после-«5б(57)

CPB_nocne-ws6(62)

Доп антибиотик-»5б(б7) npoHTOcaH-ws6(72) czp-gemtra ns-ws7{77)

anmikgel-d-ws8(82)

strep-dooper-ws9(87)

pinib-peptostrep-dooper-ws9(92)

DeltaDateD(97)

Столбец17

Столбец13

Столбец155

Столбец16О

Рисунок 1. Тепловая карта корреляции

Figure 1. Correlation heatmap

Разработаны следующие алгоритмы:

– заполнения атрибута «рецидив»: поиск пациентов с рецидивом на всех листах по фамилии и дате рождения, учитывается частота встречаемости рецидива у пациента. При выполнении всех условий в столбец записывается «1» при наличии рецидива и «0», если рецидив не подтверждается;

– определения даты санирующей операции: совпадение минимальной даты операционного вмешательства у пациента в двух различных листах за исключением даты ЭС.

Построенная диаграмма рассеивания (рис. 2) отображает присутствие или отсутствие рецидива в виде точек в двухмерной плоскости. Пациенты с рецидивом окрашены жёлтым цветом, без рецидива – синим. Методом t-SNE (T-distributed stochastic neighbor embedding) многомерные данные преобразуются в двумерный массив, и новое распределение переменных в максимальной степени сохраняет закономерности и общую структуру исходных данных.

Следует отметить, что облако рассеивания вытянуто вдоль горизонтальной оси и не имеет наклона, что визуально характеризует отсутствие связи между пациентами с рецидивом и без рецидива. Этот важнейший факт, на наш взгляд, подтверждает нашу гипотезу о том, что на основе большого объёма данных принципиально возможно прогнозировать развитие рецидива ППИ в ранние после санирующей операции сроки и своевременно внести коррективы в тактику лечения для предупреждения неблагоприятного исхода лечения.

Процесс добавления новых пациентов в созданный банк данных представлен на рисунке 3.

За последние 50 лет накопилось огромное количество информации о пациентах, которое позволяет изучать популяции людей и определять статистическую силу научных гипотез на качественно новом уровне. Цифровизация здравоохранения с внесением данных пациентов в электронные регистры позволяет задействовать современный инструментарий при проведении статистического анализа.

Рисунок 2. Диаграмма рассеяния данных методом t-SNE: жёлтый – рецидив, синий – без рецидива Figure 2. Scatter diagram of data using the t-SNE method: yellow – relapse, blue – no relapse

Рисунок 3. Процесс добавления данных

Figure 3. Process of adding data

Оценка риска развития ППИ имеет основополагающее значение для проведения её профилактики после тотального ЭС. Разработаны шкалы и калькуляторы, включающие различные факторы риска, оценкой релевантности которых в настоящее время занимаются исследователи [11]. Так, в 2018 г. на основании данных 1035 случаев ППИ ТБС и коленного сустава учёные проанализировали 42 вероятных фактора риска развития ППИ, из которых лишь 17 оказались прогностически значимыми. Среди них – перенесённые ранее открытые хирургические вмешательства, злоупотребление наркотиками, процедура ревизии и инфицирование вирусом иммунодефицита человека (ВИЧ). Результатом исследования стало создание первичного калькулятора расчёта риска развития рецидива перипротезной инфекции (РП) [10].

Исследования, посвящённые изучению прогнозирования исходов лечения пациентов с ППИ немногочисленны, а описанные факторы риска развития рецидива гетерогенны. Отдельной сложностью является отсутствие большого набора данных для всестороннего анализа предпосылок развития рецидива ППИ. До недавнего времени исследователи заостряли своё внимание на отдельных факторах и анализировали корреляционную связь их непосредственно с РП. Например, Schwolow F. и соавт. (2022) анализировали факторы, связанные с имплантацией конкретного протеза, а Wang Q. и соавт. (2022) уже учитывали данные лабораторного анализа [11]. Расширение списка анализируемых параметров лабораторных исследований дало исследователям новые факторы, влияющие на исход лечения, что отражено в работе [12]. В дальнейшем выборку показателей начали расширять, и в неё вошли микробные ассоциации, которые также значимо влияют на риск развития рецидива [13]. В другом исследовании было показано, что на исход лечения значимо влияют особенности антибактериальной терапии, что является ещё одной группой факторов, связанных с вероятностью развития рецидива инфекционного процесса [14]. Однако в этих исследованиях взаимосвязь разнообразных факторов между собой никак не учитывалась, несмотря на то, что, по мнению авторов, она несо- мненно есть. Отдельно следует отметить, что все исследования, посвящённые оценке риска рецидива ППИ, были выполнены на небольших выборках [15, 16], что не позволяет оценить вклад совокупности факторов, либо оценивались какие-то определённые группы факторов, в то время как, по-видимому, необходимо включать в анализ всю многокомпонентную систему пациент–эндопротез-операция–микроорганизмы.

На наш взгляд, необходима принципиально другая методика – разработка автоматизированной системы прогнозирования риска рецидива ППИ, которая будет учитывать отдельные факторы, а также их сочетание и взаимосвязь. Для решения задачи необходимо выполнить большой объём подготовительной работы, сформировать массив структурированных и очищенных данных для дальнейшего анализа с помощью цифровых технологий. Наиболее эффективным вариантом расчёта риска рецидива ППИ станет создание автоматической программы, основанной на разработанном алгоритме, которая позволит однозначно ответить на вопрос о возможности рецидива и вероятности этого события.

Заключение

По результатам работы был сформирован структурированный банк данных пациентов с рецидивом ППИ и доказана возможность предсказания риска рецидива ППИ на основании большого объёма данных. Появилась возможность проанализировать атрибуты (факторы и их комбинации), влияющие на рецидив ППИ, а также статистически оценить взаимную корреляцию факторов между собой. В дальнейшем планируется создание программного инструмента, прогнозирующего риск развития рецидива ППИ, следовательно, появится возможность изменять тактику ведения пациента в зависимости от присутствующих факторов риска и их сочетания. Настоящее исследование стало первым шагом в этом направлении. В дальнейшем анализ банка данных позволит уточнить понимание причин рецидива ППИ и консолидировать опыт травматологов-ортопедов относительно ведения данной когорты пациентов.