Объем выборки для оценки диагностической точности программного обеспечения на основе технологий искусственного интеллекта в лучевой диагностике

Автор: Бобровская Т. М., Васильев Ю. А., Никитин Н. Ю., Владзимирский А. В., Омелянская О. В., Четвериков С. Ф., Арзамасов К. М.

Журнал: Сибирский журнал клинической и экспериментальной медицины @cardiotomsk

Рубрика: Цифровые технологии поддержки решений в медицине

Статья в выпуске: 3 т.39, 2024 года.

Бесплатный доступ

Введение. Проблема обоснования объема выборки является актуальной для различных научных и практических задач. Однако при всем многообразии существующих на сегодня методов вопрос определения минимального количества исследований для валидации программного обеспечения (ПО) на основе технологий искусственного интеллекта (ТИИ) остается открытым.Цель: определить минимальное количество исследований, необходимых для проведения валидации ПО на основе ТИИ, для решения задач лучевой диагностики с учетом баланса классов «норма» / «патология».Материал и методы. Анализировались результаты работы ПО на основе ТИИ на наборе данных из 123 301 уникального анонимизированного маммографического исследования. Оценивались выставленные значения по шкале BiRADS: 0 - в случае диагностирования врачом 1-го или 2-го класса Bi-RADS («норма») и 1 - в случае классов Bi-RADS 3, 4, 5 («патология»). Изначально баланс классов в исследовании составлял 89,3% («норма») / 10,7% («патология»). Из общего набора данных случайным образом формировалась выборка заданного объема и баланса классов «норма» / «патология», рассчитывалась площадь под кривой операционной характеристики приемника (AUC ROC). Для статистического обоснования описанные действия повторялись 10 000 раз для всех исследуемых объемов и балансов классов. В результате применения данного алгоритма были получены зависимости средних значений AUC ROC от количества исследований для пяти балансов классов (доля «патологии»: 10, 20, 30, 40 и 50%). Далее был проведен анализ законов распределения и поведения AUC ROC в зависимости от количества исследований.Результаты. Максимальное значение коэффициента вариации значений AUC ROC для 10% доли «патологии» достигается при количестве исследований, равном 190; для 20% - 80 исследований; для 30% - 120 исследований, для 40% - 110 исследований, а для 50% - 70 исследований.Заключение. При тестировании ПО на основе ТИИ, а также систем поддержки принятия врачебных решений необходимо учитывать, что количество исследований, отражающих наибольшую неоднородность значений AUC ROC (наибольшее отклонение от среднего значения), различно для разных балансов классов. Баланс классов задается, исходя из возможностей исследователя, а минимальный объем - 190 при доле «патологии» 10%, 80 - при 20%, 120 - при 30%, 110 - при 40%, 70 - при 50%.

Еще

Искусственный интеллект, размер выборки, статистические методы, валидация, лучевая диагностика

Короткий адрес: https://sciup.org/149146306

IDR: 149146306 | DOI: 10.29001/2073-8552-2024-39-3-188-198

Список литературы Объем выборки для оценки диагностической точности программного обеспечения на основе технологий искусственного интеллекта в лучевой диагностике

Chervyakov N.I., Lyakhov P.A., Deryabin M.A., Nagornov N.N., Valueva M.V., Valuev G.V. Residue number system-based solution for reducing the hardware cost of a convolutional neural network. Neurocomputing. 2020;407:439–453. DOI: 10.1016/j.neucom.2020.04.018.
Aggarwal R., Sounderajah V., Martin G., Ting D.S.W., Karthikesalingam A., King D. et al. Diagnostic accuracy of deep learning in medical imaging: a systematic review and meta-analysis. npj Digit. Med. 2021;4:65. DOI: 10.1038/s41746-021-00438-z.
Тыров И.А., Васильев Ю.А., Арзамасов К.М., Владзимирский А.В., Шулькин И.М., Омелянская О.В. и др. Оценка зрелости технологий искусственного интеллекта для здравоохранения: методология и ее применение на материалах московского эксперимента по компьютерному зрению в лучевой диагностике. Врач и информационные технологии. 2022;4:76–92. Tyrov I.A., Vasilev Yu.A., Arzamasov K.M., Vladzimirskyy A.V., Shulkin I.M., Omelyanskaya O.V. et al. Assessment of the maturity of artificial intelligence technologies for healthcare: methodology and its application based on the use of innovative computer vision technologies for medical image analysis and subsequent applicability in the healthcare system of Moscow. Medical doctor and information technology. 2022;4:76–92 (In Russ.). DOI: 10.25881/18110193_2022_4_76.
He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 27–30 June, 2016. IEEE Computer Society; 2015;2016:770–778. DOI: 10.1109/CVPR.2016.90.
Гусев А.В., Морозов С.П., Кутичев В.А., Новицкий Р.Э. Нормативно-правовое регулирование программного обеспечения для здравоохранения, созданного с применением технологий искусственного интеллекта, в Российской Федерации. Медицинские технологии. Оценка и выбор. 2021;(1):36–45. Gusev A.V., Morozov S.P., Kutichev V.A., Novitsky R.E. Legal regulation of artificial intelligence software in healthcare in the Russian Federation. Medical Technologies. Assessment and Choice. 2021;(1):36–45. (In Russ.) DOI: 10.17116/medtech20214301136.
Васильев Ю.А., Владзимирский А.В. (ред.) Компьютерное зрение в лучевой диагностике: первый этап Московского эксперимента: Монография; 2-е изд., перераб. и дополн. М.: Издательские решения, 2023;376. Vasilev YU.A., Vladzymyrskyy A.V. (eds.) Komp’yuternoe zrenie v luchevoj diagnostike: pervyj etap Moskovskogo eksperimenta: Monografiya. 2-e izdanie, pererabotannoe i dopolnennoe. Moscow: Izdatel’skie resheniya, 2023;376. (In Russ.).
Ramspek C.L., Jager K.J., Dekker F.W., Zoccali C., van Diepen M. External validation of prognostic models: what, why, how, when and where? Clin. Kidney J. 2021;14(1). DOI: 10.1093/ckj/sfaa188.
Четвериков С.Ф., Арзамасов К.М., Андрейченко А.Е., Новик В.П., Бобровская Т.М., Владзимирский А.В. Подходы к формированию выборки для контроля качества работы систем искусственного интеллекта в медико-биологических исследованиях. Современные технологии в медицине. 2023;15(2):19–25. Chetverikov S.F., Arzamasov K.M., Andreichenko A.E., Novik V.P., Bobrovskaya T.M., Vladzimirskyy A.V. Approaches to sampling for quality control of artificial intelligence in biomedical research. Modern Technologies in Medicine. 2023;15(2):19–25. (In Russ.). DOI: 10.17691/stm2023.15.2.02.
Васильев Ю.А., Бобровская Т.М., Арзамасов К.М., Четвериков С.Ф., Владзимирский А.В., Омелянская О.В. и др. Основополагающие принципы стандартизации и систематизации информации о наборах данных для машинного обучения в медицинской диагностике. Менеджер здравоохранения. 2023;(4):28–41. Vasilev Y.A., Bobrovskaya T.M., Arzamasov K.M., Chetverikov S.F., Vladzymyrskyy A.V., Omelyanskaya O.V. et al. Medical datasets for machine learning: fundamental principles of standartization and systematization. Manager Zdravookhranenia. 2023;(4):28–41. (In Russ.). DOI: 10.21045/1811-0185-2023-4-28-41.
Васильев Ю.А., Арзамасов К.М., Владзимирский А.В., Омелянская О.В., Бобровская Т.М., Шарова Д.Е. и др. Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта: учеб. пособие. М.: Издательские решения; 2024:140. ISBN: 978-5-0062-1244-2. Vasilev YU.A., Arzamasov K.M., Vladzimirskij A.V., Omelyanskaya O.V., Bobrovskaya T.M. et al. Podgotovka nabora dannyh dlya obucheniya i testirovaniya programmnogo obespecheniya na osnove tekhnologii iskusstvennogo intellekta: Uchebnoe posobie. Moscow: Izdatel’skie resheniya; 2024:140. (In Russ.). ISBN: 978-5-0062-1244-2.
Collins G.S., Ogundimu E.O., Altman D.G. Sample size considerations for the external validation of a multivariable prognostic model: a resampling study. Stat. Med. 2016;35(2):214–226. DOI: 10.1002/sim.6787.
Harrell F.E., Lee K.L., Mark D.B. Multivariable prognostic models: issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Stat. Med. 1996;15(4):361–387. DOI: 10.1002/(SICI)1097-0258(19960229)15:4<361::AID-SIM168-3.0.CO;2-4.
Vergouwe Y., Steyerberg E.W., Eijkemans M.J.C., Habbema J.D.F. Substantial effective sample sizes were required for external validation studies of predictive logistic regression models. J. Clin. Epidemiol. 2005;58(5):475–483. DOI: 10.1016/j.jclinepi.2004.06.017.
Riley R.D., Debray T.P.A., Collins G.S., Archer L., Ensor J., van Smeden M. et al. Minimum sample size for external validation of a clinical prediction model with a binary outcome. Stat. Med. 2021;40(19):4230–4251. DOI: 10.1002/sim.9025.
Breast Imaging Reporting & Data System. American College of Radiology [Internet]. [cited 2024 Jan 23]. URL: https://www.acr.org/Clinical-Resources/Reporting-and-Data-Systems/Bi-Rads (16.04.2024).
Павлович П.И., Бронов О.Ю., Капнинский А.А., Абович Ю.А., Рычагова Н.И. Сравнительное исследование результатов анализа данных цифровой маммографии системы на основе искусственного интеллекта «Цельс» и врачей-рентгенологов. Digital Diagnostics. 2021;2(2S):22–23. Pavlovich P.I., Bronov O.Y., Kapninsky A.A., Abovich Y.A., Rychagova N.I. Comparative study of the digital mammography data analysis system based on artificial intelligence “Celsus” and radiologists. Digital Diagnostics. 2021;2(2S):22–23. (in Russ.). DOI: 10.17816/DD83184.
Kashyap R.L. (ed.) Dynamic stochastic models from empirical data: eBook, Vol. 122. Elsiever B.V.; USA: Academic Press, 1976. ISBN: 978-0-12-400550-1.
Васильев Ю.А., Владзимирский А.В., Омелянская О.В., Шулькин И.М. Арзамасов К.М., Никитин Н.Ю. Оценка зрелости технологий искусственного интеллекта для здравоохранения: методические рекомендации. Вып. 123. М.: Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы;. 2023:28. Assessment of maturity of artificial intelligence technologies for healthcare: methodological recommendations; issue 123. Moscow: Scientific and Practical Clinical Centre of Diagnostics and Telemedicine Technologies of the Moscow City Health Department; 2023:28.

Еще

Статья научная