Объем выборки для оценки диагностической точности программного обеспечения на основе технологий искусственного интеллекта в лучевой диагностике
Автор: Бобровская Т. М., Васильев Ю. А., Никитин Н. Ю., Владзимирский А. В., Омелянская О. В., Четвериков С. Ф., Арзамасов К. М.
Журнал: Сибирский журнал клинической и экспериментальной медицины @cardiotomsk
Рубрика: Цифровые технологии поддержки решений в медицине
Статья в выпуске: 3 т.39, 2024 года.
Бесплатный доступ
Введение. Проблема обоснования объема выборки является актуальной для различных научных и практических задач. Однако при всем многообразии существующих на сегодня методов вопрос определения минимального количества исследований для валидации программного обеспечения (ПО) на основе технологий искусственного интеллекта (ТИИ) остается открытым.Цель: определить минимальное количество исследований, необходимых для проведения валидации ПО на основе ТИИ, для решения задач лучевой диагностики с учетом баланса классов «норма» / «патология».Материал и методы. Анализировались результаты работы ПО на основе ТИИ на наборе данных из 123 301 уникального анонимизированного маммографического исследования. Оценивались выставленные значения по шкале BiRADS: 0 - в случае диагностирования врачом 1-го или 2-го класса Bi-RADS («норма») и 1 - в случае классов Bi-RADS 3, 4, 5 («патология»). Изначально баланс классов в исследовании составлял 89,3% («норма») / 10,7% («патология»). Из общего набора данных случайным образом формировалась выборка заданного объема и баланса классов «норма» / «патология», рассчитывалась площадь под кривой операционной характеристики приемника (AUC ROC). Для статистического обоснования описанные действия повторялись 10 000 раз для всех исследуемых объемов и балансов классов. В результате применения данного алгоритма были получены зависимости средних значений AUC ROC от количества исследований для пяти балансов классов (доля «патологии»: 10, 20, 30, 40 и 50%). Далее был проведен анализ законов распределения и поведения AUC ROC в зависимости от количества исследований.Результаты. Максимальное значение коэффициента вариации значений AUC ROC для 10% доли «патологии» достигается при количестве исследований, равном 190; для 20% - 80 исследований; для 30% - 120 исследований, для 40% - 110 исследований, а для 50% - 70 исследований.Заключение. При тестировании ПО на основе ТИИ, а также систем поддержки принятия врачебных решений необходимо учитывать, что количество исследований, отражающих наибольшую неоднородность значений AUC ROC (наибольшее отклонение от среднего значения), различно для разных балансов классов. Баланс классов задается, исходя из возможностей исследователя, а минимальный объем - 190 при доле «патологии» 10%, 80 - при 20%, 120 - при 30%, 110 - при 40%, 70 - при 50%.
Искусственный интеллект, размер выборки, статистические методы, валидация, лучевая диагностика
Короткий адрес: https://sciup.org/149146306
IDR: 149146306 | УДК: 616-073.7:004.8:004.658 | DOI: 10.29001/2073-8552-2024-39-3-188-198
Sample size for assessing a diagnostic accuracy of AI-based software in radiology
Introduction. Determining the minimum sample size for solving various tasks is an extremely important and at the same time unexplored problem. There are many methods, but most of them are not applicable for AI-based software validation.Aim: To consider a methodology for determining a balance of classes “norm”/ “abnormality” and propose a statistical approach to determine the data amount necessary for testing AI-based software (validation).Material and Methods. The results of AI-based software were analyzed using dataset of mammograms. Mammograms were classified by the presence of breast cancer (“abnormality”) and the absence of breast cancer (“norm”). The general set contains 123,301 unique studies. The original balance of classes in the study was “norm” 89.3%/“abnormality” 10.7%. As the results of AI-based software (ML-algorithm), a probability of the presence of pathology in the entire study was taken. The following values were used as empirical data (GT): 0 - in case of Bi-RADS classes 1 or 2 diagnosed by a doctor, and 1 - in case of Bi-RADS classes 3, 4, 5. Each data sample is transferred to AI-based software for processing. Quality metrics are calculated based on its results: AUC ROC. All the described actions were repeated 10,000 times for all the studied balances of “norm”/”abnormality”. Based on the results of AUC ROC calculations, mean values were calculated for different random data series with the same balances. Mean AUC ROC values were subjected to analysis.Results. A maximum value of the coefficient of variation of AUC ROC values for 10% “abnormality” share is achieved at the number of studies equal to 190; for the 20% share, it is 80 studies; for the 30% share - 120 studies, for the 40% share - 110 studies, and for the 50% share - 70 studies.Conclusion. Summarizing the conducted study results, it can be concluded that when testing AI-based software, it is necessary to consider that the number of studies reflecting the greatest heterogeneity of AUC ROC values (the largest deviation from the mean value) is different for various class balances. If the purpose of validation is to establish the worst-case behavior of AUC ROC values, then for the studied AI-based software, the “abnormality” share should be 10%, and the number of studies 190. If the validation is carried out under conditions of a limited amount of data, then the “abnormality” share should be 50% and the number of studies equal to 70.
Список литературы Объем выборки для оценки диагностической точности программного обеспечения на основе технологий искусственного интеллекта в лучевой диагностике
- Chervyakov N.I., Lyakhov P.A., Deryabin M.A., Nagornov N.N., Valueva M.V., Valuev G.V. Residue number system-based solution for reducing the hardware cost of a convolutional neural network. Neurocomputing. 2020;407:439–453. DOI: 10.1016/j.neucom.2020.04.018.
- Aggarwal R., Sounderajah V., Martin G., Ting D.S.W., Karthikesalingam A., King D. et al. Diagnostic accuracy of deep learning in medical imaging: a systematic review and meta-analysis. npj Digit. Med. 2021;4:65. DOI: 10.1038/s41746-021-00438-z.
- Тыров И.А., Васильев Ю.А., Арзамасов К.М., Владзимирский А.В., Шулькин И.М., Омелянская О.В. и др. Оценка зрелости технологий искусственного интеллекта для здравоохранения: методология и ее применение на материалах московского эксперимента по компьютерному зрению в лучевой диагностике. Врач и информационные технологии. 2022;4:76–92. Tyrov I.A., Vasilev Yu.A., Arzamasov K.M., Vladzimirskyy A.V., Shulkin I.M., Omelyanskaya O.V. et al. Assessment of the maturity of artificial intelligence technologies for healthcare: methodology and its application based on the use of innovative computer vision technologies for medical image analysis and subsequent applicability in the healthcare system of Moscow. Medical doctor and information technology. 2022;4:76–92 (In Russ.). DOI: 10.25881/18110193_2022_4_76.
- He K., Zhang X., Ren S., Sun J. Deep residual learning for image recognition. Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 27–30 June, 2016. IEEE Computer Society; 2015;2016:770–778. DOI: 10.1109/CVPR.2016.90.
- Гусев А.В., Морозов С.П., Кутичев В.А., Новицкий Р.Э. Нормативно-правовое регулирование программного обеспечения для здравоохранения, созданного с применением технологий искусственного интеллекта, в Российской Федерации. Медицинские технологии. Оценка и выбор. 2021;(1):36–45. Gusev A.V., Morozov S.P., Kutichev V.A., Novitsky R.E. Legal regulation of artificial intelligence software in healthcare in the Russian Federation. Medical Technologies. Assessment and Choice. 2021;(1):36–45. (In Russ.) DOI: 10.17116/medtech20214301136.
- Васильев Ю.А., Владзимирский А.В. (ред.) Компьютерное зрение в лучевой диагностике: первый этап Московского эксперимента: Монография; 2-е изд., перераб. и дополн. М.: Издательские решения, 2023;376. Vasilev YU.A., Vladzymyrskyy A.V. (eds.) Komp’yuternoe zrenie v luchevoj diagnostike: pervyj etap Moskovskogo eksperimenta: Monografiya. 2-e izdanie, pererabotannoe i dopolnennoe. Moscow: Izdatel’skie resheniya, 2023;376. (In Russ.).
- Ramspek C.L., Jager K.J., Dekker F.W., Zoccali C., van Diepen M. External validation of prognostic models: what, why, how, when and where? Clin. Kidney J. 2021;14(1). DOI: 10.1093/ckj/sfaa188.
- Четвериков С.Ф., Арзамасов К.М., Андрейченко А.Е., Новик В.П., Бобровская Т.М., Владзимирский А.В. Подходы к формированию выборки для контроля качества работы систем искусственного интеллекта в медико-биологических исследованиях. Современные технологии в медицине. 2023;15(2):19–25. Chetverikov S.F., Arzamasov K.M., Andreichenko A.E., Novik V.P., Bobrovskaya T.M., Vladzimirskyy A.V. Approaches to sampling for quality control of artificial intelligence in biomedical research. Modern Technologies in Medicine. 2023;15(2):19–25. (In Russ.). DOI: 10.17691/stm2023.15.2.02.
- Васильев Ю.А., Бобровская Т.М., Арзамасов К.М., Четвериков С.Ф., Владзимирский А.В., Омелянская О.В. и др. Основополагающие принципы стандартизации и систематизации информации о наборах данных для машинного обучения в медицинской диагностике. Менеджер здравоохранения. 2023;(4):28–41. Vasilev Y.A., Bobrovskaya T.M., Arzamasov K.M., Chetverikov S.F., Vladzymyrskyy A.V., Omelyanskaya O.V. et al. Medical datasets for machine learning: fundamental principles of standartization and systematization. Manager Zdravookhranenia. 2023;(4):28–41. (In Russ.). DOI: 10.21045/1811-0185-2023-4-28-41.
- Васильев Ю.А., Арзамасов К.М., Владзимирский А.В., Омелянская О.В., Бобровская Т.М., Шарова Д.Е. и др. Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта: учеб. пособие. М.: Издательские решения; 2024:140. ISBN: 978-5-0062-1244-2. Vasilev YU.A., Arzamasov K.M., Vladzimirskij A.V., Omelyanskaya O.V., Bobrovskaya T.M. et al. Podgotovka nabora dannyh dlya obucheniya i testirovaniya programmnogo obespecheniya na osnove tekhnologii iskusstvennogo intellekta: Uchebnoe posobie. Moscow: Izdatel’skie resheniya; 2024:140. (In Russ.). ISBN: 978-5-0062-1244-2.
- Collins G.S., Ogundimu E.O., Altman D.G. Sample size considerations for the external validation of a multivariable prognostic model: a resampling study. Stat. Med. 2016;35(2):214–226. DOI: 10.1002/sim.6787.
- Harrell F.E., Lee K.L., Mark D.B. Multivariable prognostic models: issues in developing models, evaluating assumptions and adequacy, and measuring and reducing errors. Stat. Med. 1996;15(4):361–387. DOI: 10.1002/(SICI)1097-0258(19960229)15:4<361::AID-SIM168-3.0.CO;2-4.
- Vergouwe Y., Steyerberg E.W., Eijkemans M.J.C., Habbema J.D.F. Substantial effective sample sizes were required for external validation studies of predictive logistic regression models. J. Clin. Epidemiol. 2005;58(5):475–483. DOI: 10.1016/j.jclinepi.2004.06.017.
- Riley R.D., Debray T.P.A., Collins G.S., Archer L., Ensor J., van Smeden M. et al. Minimum sample size for external validation of a clinical prediction model with a binary outcome. Stat. Med. 2021;40(19):4230–4251. DOI: 10.1002/sim.9025.
- Breast Imaging Reporting & Data System. American College of Radiology [Internet]. [cited 2024 Jan 23]. URL: https://www.acr.org/Clinical-Resources/Reporting-and-Data-Systems/Bi-Rads (16.04.2024).
- Павлович П.И., Бронов О.Ю., Капнинский А.А., Абович Ю.А., Рычагова Н.И. Сравнительное исследование результатов анализа данных цифровой маммографии системы на основе искусственного интеллекта «Цельс» и врачей-рентгенологов. Digital Diagnostics. 2021;2(2S):22–23. Pavlovich P.I., Bronov O.Y., Kapninsky A.A., Abovich Y.A., Rychagova N.I. Comparative study of the digital mammography data analysis system based on artificial intelligence “Celsus” and radiologists. Digital Diagnostics. 2021;2(2S):22–23. (in Russ.). DOI: 10.17816/DD83184.
- Kashyap R.L. (ed.) Dynamic stochastic models from empirical data: eBook, Vol. 122. Elsiever B.V.; USA: Academic Press, 1976. ISBN: 978-0-12-400550-1.
- Васильев Ю.А., Владзимирский А.В., Омелянская О.В., Шулькин И.М. Арзамасов К.М., Никитин Н.Ю. Оценка зрелости технологий искусственного интеллекта для здравоохранения: методические рекомендации. Вып. 123. М.: Научно-практический клинический центр диагностики и телемедицинских технологий Департамента здравоохранения города Москвы;. 2023:28. Assessment of maturity of artificial intelligence technologies for healthcare: methodological recommendations; issue 123. Moscow: Scientific and Practical Clinical Centre of Diagnostics and Telemedicine Technologies of the Moscow City Health Department; 2023:28.