Диагностическая эффективность отдельных систем автоматического анализа КТ-изображений в выявлении ишемического инсульта в бассейне средней мозговой артерии

Автор: Андропова П.Л., Гаврилов П.В., Колесникова П.А., Кушнер А.В., Владзимирский А.В., Васильев Ю.А., Трофимова Т.Н.

Журнал: Сибирский журнал клинической и экспериментальной медицины @cardiotomsk

Рубрика: Клинические исследования

Статья в выпуске: 3 т.38, 2023 года.

Бесплатный доступ

Актуальность. Диагностика ишемического инсульта, с учетом его эпидемиологии, имеет высокую значимость в современной медицинской практике. Одним из наиболее перспективных методов решения данной задачи является внедрение систем автоматического анализа (САА) в стандартный рабочий процесс в качестве вспомогательного инструмента интерпретации лучевых изображений.Цель: сравнительная оценка эффективности отдельных САА КТ-изображений в выявлении ишемического инсульта в бассейне средней мозговой артерии (СМА).Материал и методы. В исследование включено три анонимизированных (A, B, C) программных продукта на основе технологии искусственного интеллекта. Аналитическая валидация осуществлялась на базе, включающей 100 пациентов, поступивших в Елизаветинскую больницу Санкт-Петербурга с подозрением на ишемический инсульт в бассейне СМА, которым были выполнены нативные КТ-исследования головного мозга. Ишемический инсульт у половины пациентов был подтвержден на основе клинических данных и проведения КТ-ангиографии сосудов головного мозга и брахиоцефальных артерий, а также КТ-перфузии. Проводилась оценка показателей эффективности выявления комплекса признаков ранних ишемических изменений (посредством автоматической сегментации и ранжирования балла по шкале ASPECTS) в бассейне СМА (чувствительность, специфичность, отношение правдоподобия положительного результата, отношение правдоподобия отрицательного результата, точность). Также в статье приведен график, позволяющий оценить качество бинарной классификации, - характеристические кривые (ROC-кривые).Результаты. По результатам исследования определено, что все рассмотренные программы не достигли пороговых значений точности (диапазон от 0,67 до 0,75), необходимой для программ, согласно клиническим рекомендациям (0,80). Алгоритмы показали вариативность показателей чувствительности и специфичности. Одна из САА (А) имела высокую чувствительность (0,88), но при этом низкую специфичность (0,46), что свидетельствует о ее переобучении и склонности к гипердиагностике. Остальные алгоритмы (B, C) показали низкую чувствительность (0,6; 0,55) и высокую специфичность (0,9; 0,8).Заключение. Выявленная точность тестируемых САА КТ-изображений свидетельствует о необходимости их дальнейшей доработки. Возможность и варианты внедрения САА остаются дискуссионными и требуют дальнейшего изучения. Особое внимание следует уделить оценке их комплементарного использования врачами лучевыми диагностами.

Еще

Искусственный интеллект, ишемический инсульт, компьютерная томография

Короткий адрес: https://sciup.org/149143143

IDR: 149143143   |   DOI: 10.29001/2073-8552-2023-39-3-194-200

Текст научной статьи Диагностическая эффективность отдельных систем автоматического анализа КТ-изображений в выявлении ишемического инсульта в бассейне средней мозговой артерии

Диагностика ишемического инсульта, с учетом его эпидемиологии, имеет высокую значимость в современной медицинской практике. Повышение уровня точности выявления острого нарушения мозгового кровообращения (ОНМК), а также снижение межэкспертной вариативности относительно методик оценки ранних ишемических изменений напрямую влияют не только на маршрутизацию пациентов, но и на функциональный исход заболевания. Одним из наиболее перспективных методов решения данной задачи является внедрение систем автоматического анализа (САА) в стандартный рабочий процесс в качестве вспомогательного инструмента интерпретации лучевых изображений. На данный момент, согласно утвержденной Национальной стратегии развития искусственного интеллекта [1], в Российской Федерации активно ведутся исследования по разработке и внедрению в систему здравоохранения методов поддержки принятия решений в диагностике различных заболеваний (в том числе ишемического инсульта) на основе искусственного интеллекта. Но одной из главных задач перед разработчиками САА является достижение их системами пороговых значений эффективности, сопоставимых с врачами рентгенологами с небольшим стажем (до 3 лет) в ургентной нейрорадиологии. В ранее опубликованном исследовании [2] мы протестировали 21 специалиста с различным стажем и опытом в ургентной медицине. Врачи были разделены на группы, согласно специфике работы (Региональный сосудистый центр (РСЦ) и стационары общего профиля (СОП)), а также стажу (до 3 лет, от 3 до 8 лет и более 8 лет). Точность среди специалистов РСЦ варьировалась от 88,3 до 93,8%, среди специалистов стационаров другого профиля – от 75,0 до 85,0%. С учетом этих данных в текущем исследовании принимали участие программные продукты, точность которых была более 75,0% на этапе аналитической валидации, выполненной разработчиками программ.

Цель исследования: сравнить показатели эффективности трех САА КТ-изображений в выявлении ишемического инсульта в бассейне средней мозговой артерии (СМА).

Материал и методы

Дизайн исследования

Для тестирования нами было выбрано три программы автоматического анализа ишемического инсульта в бассейне СМА, созданные на основе методов искусственного интеллекта, определяющих себя как комплексы поддержки принятия решений при оценке данных медицинских изображений.

Критериями отбора САА для тестирования являлись:

– Возможность тестового онлайн-доступа.

– Указание функции выявления ранних ишемических изменений и оценка их по шкале ASPECTS в описании программного продукта.

– Заявленная точность в диагностике ишемического инсульта в бассейне СМА более 75%.

Согласно критериям включения, было выбрано три программных продукта (две системы отечественных разработчиков и одна система иностранного производства). Поскольку целью исследования ставилась общая сравнительная оценка диагностических показателей, имеющихся в настоящее время САА, а не оценка того или иного продукта, все программы, включенные в исследование, были анонимизированы (A, B, C).

Методом аналитической валидации было произведено тестирование программных обеспечений на эталонном наборе данных (база лучевых изображений), подготовленном в соответствии с клинической задачей, а также зарегистрированном в соответствии с регламентом [3]. Набор данных КТ-изображений был аналогичен базе данных из ранее проведенного исследования [2], в котором оценивалась эффективность врачей рентгенологов с различным стажем и опытом в выявлении ишемического инсульта в бассейне СМА.

База данных

В данном исследовании использовалась база лучевых изображений, состоящая из 100 КТ-исследований пациентов, поступивших в Региональный сосудистый центр г. Санкт-Петербурга за период с 1 июля по 30 декабря 2021 г. с подозрением на острый ишемический инсульт (согласно шкале догоспитальной оценки тяжести инсульта – LAMS). Диагноз ишемического инсульта был установлен врачом неврологом на основании клинических данных в соответствии с рекомендациями Министерства здравоохранения Российской Федерации и верифицирован с помощью проведения КТ-ангиографии сосудов головного мозга, КТ-перфузии. По данным КТ-ангиографии и КТ-перфузии, у 30 пациентов диагноз не подтвердился, у 20 пациентов диагноз «ишемический инсульт» был исключен на основе отсутствия патологических изменений (ишемии) при контрольном КТ-исследовании в течение 24 ч от первоначальных диагностических мероприятий (свидетельство о регистрации базы данных RU 2022620850).

Этическая экспертиза

Было получено разрешение от независимого этического комитета на проведение данного ретроспективного исследования. Получение информированного добровольного согласия пациентов не требовалось.

Методы статистического анализа данных

При проведении статистического анализа были использованы методы описательной статистики. Для каждой включенной в исследование САА рассчитаны показатели эффективности выявления комплекса признаков ранних ишемических изменений (посредством автоматической сегментации и ранжирования балла по шкале ASPECTS) в бассейне СМА (чувствительность, специфичность, отношение правдоподобия положительного результата, отношение правдоподобия отрицательного результата, точность). Также в статье приведен график (рис. 1), позволяющий оценить качество бинарной классификации, – характеристические кривые (ROC-кривые) [4]. При анализе все метрики оценивались в диапазоне 0–1: < 0,6 – непригодно; 0,61…0,8 – требуется доработка; > 0,81 – может быть допущено к клинической валидации [3].

Анализ выполнен с использованием программы SPSS STATISTICS 19 и языка программирования Python.

Ограничения исследования

Алгоритм С не оценил 16 КТ-исследований (из 100) головного мозга из представленного независимого набора данных вследствие неустранимой технической ошибки при загрузке лучевых изображений.

Результаты

Результаты анализа базы лучевых изображений и характеристические кривые представлены в таблице и на рисунке 1.

Таблица. Сравнительная характеристика систем автоматического анализа в оценке КТ-изображений пациентов с ишемическим инсультом в бассейне средней мозговой артерии

Table. Comparative characteristics of artificial intelligence–based automated computed tomography image analysis systems in detecting middle cerebral artery stroke

Показатели диагностической эффективности Diagnostic performance indicator

Программа А

Program A

Программа В Program B

Программа С

Program C

а (TP) истинно положительные a (TP) truly positive

44

30

22

b (FP) ложноположительные

b (FP) false positive

27

5

9

c (FN) ложноотрицательные c (FN) false negative

6

20

18

d (TN) истинно отрицательные d (TN) truly negative

23

45

35

Не было определено Was not determined

0

0

16

Чувствительность Sensitivity

0,88

0,60

0,55

Специфичность Specificity

0,46

0,90

0,80

Отношение правдоподобия положительного результата Positive predictive value

1,63

6,00

2,69

Окончание табл. End of table

Показатели диагностической эффективности Diagnostic performance indicator

Программа А

Program A

Программа В Program B

Программа С

Program C

Отношение правдоподобия отрицательного результата Negative predictive value

0,26

0,44

0,57

Точность Accuracy

0,67

0,75

0,68

В исследовании все отобранные САА имели точность в диапазоне от 0,67 до 0,75, что, согласно клиническим рекомендациям [3], свидетельствует о необходимости их дальнейшей доработки. Наибольшую точность параметра, определяющего количество правильно установленных суждений, продемонстрировала программа В (0,75). Специфичность программы В (0,90) также была выше по сравнению с результатами остальных программ (0,46; 0,80).

Программа А показала высокий показатель по определению истинно положительных результатов (44), при этом специфичностью этой программы достаточно низкая (0,46), программа определила 27 ложноположительных результатов, что является признаком гипердиагностики и переобучения. Точность данной программы ниже точности результатов других программ. При этом программа продемонстрировала высокую чувствительность, что влияет на снижение риска гиподиагностики.

Программа B показала самые высокие показатели специфичности (0,90) при невысокой чувствительности (0,60), что позволит при ее доработке и достижении необходимых суммарных параметров диагностической точности рекомендовать данный алгоритм как метод первичной оценки с быстрой сортировкой пациентов с предполагаемым инсультом и выявления тех пациентов, которые в первую очередь требуют внимания врача.

Ограничением оценки диагностической эффективности одного из алгоритмов (С) стала невозможность интерпретации им 16 КТ-исследований головного мозга из представленного независимого набора данных за счет неустранимой технической ошибки при загрузке лучевых изображений. В свою очередь, точность программы С незначительно выше результатов программы А, она продемонстрировала большое количество ложноотрицательных результатов, что свидетельствует о ее склонности к гиподиагностике.

Низкая чувствительность программ является параметром, показывающим низкую эффективность при определении пациентов с ОНМК, так как часть результатов будет классифицироваться как отрицательные. Таким образом, алгоритмам В и С требуется дальнейшая доработка (с дальнейшим обучением) в целях повышения эффективности анализа.

Отношение правдоподобия положительного результата показывает, во сколько раз выше вероятность получить положительный результат у пациентов с ОНМК, чем у здоровых участников. Наивысшего результата достигла программа В, что подтверждает высокие показатели специфичности. По отношению правдоподобия отрицательного результата самые высокие показатели проде- монстрировала программа С, что является результатом низкой чувствительности программы.

Для оценки взаимосвязи чувствительности и специфичности были построены ROC-кривые с вычислением площади под кривой (AUC) для всех анализируемых групп (см. рис. 1). Анализ показателей выявил, что только результаты, полученные при помощи программы В, дают значения (AUC = 0,75), близкие к рекомендованным параметрам, согласно клиническим рекомендациям, предсказания других программ ниже.

Рис. 1. ROC-кривые с вычислением площади под кривой (AUC) для всех анализируемых программ

Fig. 1. ROC curves with curve area calculation (AUC) for all analyzed programs

Обсуждение

По результатам исследования ни одна из рассмотренных систем автоматического выявления инсульта на основе КТ-изображений не достигла необходимых пороговых значений точности, согласно клиническим рекомендациям.

Для анализа актуальности внедрения программ с текущими характеристиками была произведена сравнительная оценка параметров эффективности программ с результатами тестирования (на вышеописанной выборке пациентов) четырех врачей с экспертной квалификацией (работающих в РСЦ более 8 лет, с большим опытом оценки КТ-изображений пациентов с ишемическим инсультом в бассейне СМА), а также врачей со стажем менее 3 лет без / с опытом работы в РСЦ из ранее опубликованного исследования [2].

Точность всех САА была значительно ниже результатов врачей с экспертной квалификацией (0,94), и также была ниже результатов оценки врачей, работающих в сосудистых центрах и с опытом менее 3 лет (0,88). Один из алгоритмов (B) имел сравнительную точность с врачами со стажем менее 3 лет и без опыта работы в ургентной нейрорадиологии (0,75). Наибольшее значение отношения правдоподобия положительного результата было выявлено также у врачей с экспертной квалификацией (со стажем от 8 лет в РСЦ), при этом данный показатель в 5 раз превышал наилучший результат у программ (6,00

против 30,17). Значения правдоподобия положительного результата у групп врачей со стажем менее 3 лет вне зависимости от опыта в РСЦ также выше (11,20 с опытом, 7,82 без опыта), чем у программ, тестируемых в данном исследовании (А – 1,63; В – 6,00; С – 2,69).

Следует отметить, что показатель точности (0,80), согласно рекомендациям, позволяющий допустить программу до клинической валидации, в данном случае дискутабелен. Врачи РСЦ вне зависимости от стажа достигли более высоких показателей диагностической эффективности, чем уровень обозначенного параметра в клинических рекомендациях.

К примеру, в исследовании П.В. Гаврилова и соавт. [5], посвященном выявлению округлых образований в легких на рентгенограммах, в зависимости от стажа врача-рентгенолога и его опыта в работы в торакальной радиологии точность специалистов без опыта составила 0,73, а с опытом достигла 0,77. Показатели чувствительности и специфичности в выявлении округлых образований легких также были несколько выше (0,81; 0,75), чем у врачей без опыта (0,75; 0,72), однако существенно не различались. При подобных результатах специалистов показатель, формально допускающий тестируемую программу к дальнейшей клинической валидации, представляется актуальным.

Однако, согласно результатам тестирования врачей с различным стажем и опытом в диагностике ишемического инсульта, данный показатель релевантен только для врачей без опыта в ургентной медицине и со стажем менее 3 лет.

Также стоит учитывать наличие трудно диагностируемой патологии. К примеру, в диссертационном исследовании А.А. Мелдо [6], посвященном разработке и внедрению системы искусственного интеллекта в лучевой диагностике очаговых образований легких, выборки КТ-исследований, представленных для оценки врачей, были разделены на трудно интерпретируемые случаи («типичный рак легкого», «не типичный рак легкого» и «не рак легкого») и случаи с преимущественно типичными паттернами визуализации («типичный рак легкого», «не рак легкого»). Точность пяти врачей с различным (более 5 лет и менее 5 лет) стажем в диагностике онкологических заболеваний при интерпретации первой выборки составляла от 0,51 до 71,1, при оценке второй выборки – от 0,82 до 0,96. С учетом такого выраженного диапазона значений точности в исследовании требуется дифференциация показателя, формально допускающего тестируемую программу к дальнейшей клинической валидации, в группе данной патологии.

Вероятно, существует необходимость учитывать текущие показатели эффективности врачей при диагностике различных патологических процессов для определения критериев допуска алгоритмов к клинической валидации. В противном случае, внедрение САА может привести к отрицательной динамике точности выявления патологических изменений за счет интерференции в отношении специалистов без опыта либо может снизить доверие к программе за счет генерируемых очевидно неправильных результатов.

САА, включенные в данное исследование, ввиду недостаточного уровня точности, высокого риска гиподиагностики (В и С) и гипердиагностики (А) требуют дальнейшего совершенствования, их промежуточного тестирования на публично недоступных эталонных наборах данных.

Одним из перспективных направлений совершенствования САА является создание баз данных КТ-исследо- ваний пациентов с острым ишемическим инсультом, с верификацией ОНМК с помощью магнитно-резонансной томографии (МРТ), особенно если такие исследования проведены в первые часы после инсульта и с небольшим интервалом времени между КТ и МРТ соответственно. Такие базы могут быть использованы для обучения САА на предмет выявления ранних ишемических изменений на КТ-изображениях, подтвержденных данными МР-ис-следований. Подобное направление развития САА может быть полезным не только для увеличения точности автоматического анализа, но и для повышения уровня доверия врачей к алгоритмам искусственного интеллекта.

Заключение

Несмотря на то, что использование алгоритмов искусственного интеллекта является перспективным направлением, точность тестируемых систем автоматического выявления ишемического инсульта требует их дальнейшей доработки. Для более полного понимания диагностических возможностей данных программных продуктов следует продолжать клинические испытания как методом аналитической валидации на различных выборках, так и методом клинической валидации.

Необходимо рассмотреть возможность индивидуального подхода к пороговым значениям допуска программах продуктов к клинической валидации на основе результатов аналитической валидации в зависимости от типа патологических изменений и показателей диагностической эффективности врачей в их выявлении.

Возможность и варианты внедрения САА остаются дискуссионными, требуют дальнейшего изучения. Особого внимания требует оценка их комплементарного использования с врачами лучевыми диагностами.

Список литературы Диагностическая эффективность отдельных систем автоматического анализа КТ-изображений в выявлении ишемического инсульта в бассейне средней мозговой артерии

  • Указ Президента Российской Федерации от 10.10.2019 г. № 490 "О развитии искусственного интеллекта в Российской Федерации" (вместе с Национальной стратегией развития искусственного интеллекта на период до 2030 года). URL: http://www.kremlin.ru/acts/bank/44731 (31.08.2023).
  • Андропова П.Л., Гаврилов П.В., Казанцева И.П., Домиенко О.М., Наркевич А.Н., Колесникова П.А. и др. Оценка межэкспертной согласованности врачей-рентгенологов в диагностике ишемического инсульта в бассейне средней мозговой артерии с помощью компьютерной томографии. Медицинская визуализация. 2023;27. DOI: 10.24835/1607-0763-1315
  • Морозов С.П., Владзимирский А.В., Кляшторный В.Г., Андрейченко А.Е., Кульберг Н.С., Гомболевский В.А. и др. (сост.) Клинические испытания программного обеспечения на основе интеллектуальных технологий (лучевая диагностика). Серия "Лучшие практики лучевой и инструментальной диагностики". М.; 2019:34.
  • Васильев А.Ю., Малый А.Ю., Серова Н.С. Анализ данных лучевых методов исследования на основе принципов доказательной медицины: учебное пособие. М.: ГЭОТАР-Медиа; 2008:32. EDN: QLRTQF
  • Гаврилов П.В., Ушков А.Д., Смольникова У.А. Выявление округлых образований в легких при цифровой рентгенографии: роль опыта работы врача-рентгенолога. Медицинский альянс. 2019;(2):51-56. URL: item.asp?id=38073049 (31.08.2023). EDN: ZQNOQH
  • Мелдо А.А. Разработка и внедрение системы искусственного интеллекта в лучевой диагностике очаговых образований в легких: дис. … д-ра мед. наук; 3.1.25. Санкт-Петербург; 2022:235. URL: http://www.almazovcentre.ru/wp-content/uploads/%D0%94%D0%B8%D1%81%D1%81%D0%B5%D1%80%D1%82%D0%B0%D1%86%D0%B8%D1%8F-%D0%9C%D0%B5%D0%BB%D0%B4%D0%BE-%D0%90%D0%90.pdf (31.08.2023). EDN: PWQQZX
Еще
Статья научная