Сравнение моделей машинного обучения для прогнозирования коронавируса

Бесплатный доступ

Коронавирус, также известный как COVID-19, впервые обнаружен в Ухане (Китай) в декабре 2019 г. Он представляет собой семейство вирусов, начиная от простуды и заканчивая тяжелым острым респираторным синдромом (ТОРС). Симптомы такого вируса схожи с симптомами простуды или сезонных заболеваний. Как и другие респираторные вирусы, он в основном передается воздушно-капельным путем во время кашля или чихания. Поэтому распознавание COVID-19 требует тщательного лабораторного анализа, а сокращение ресурсов распознавания является серьезной научной задачей. Всемирная организация здравоохранения (ВОЗ) 11.03.2020 объявила COVID-19, вызванный SARS-CoV-2, пандемией, поскольку во всем мире произошел экспоненциальный рост числа случаев заболеваний, а спрос на интенсивные койки и соответствующие структуры намного превысил существующие возможности. Первыми примерами этому являются регионы Италии. Бразилия зарегистрировала первый случай SARS-CoV-2 26.02.2020. Передача вируса в этой стране очень быстро перешла от завезенных случаев к местным и, наконец, общинным миссиям, а федеральное правительство Бразилии объявило о национальной общинной передаче 20.03.2020. В штате Сан-Паулу с населением около 12 млн человек, где находится больница Альберта Эйнштейна, по состоянию на 23.03.2020 зарегистрировано 477 случаев заболевания и 30 связанных с ними смертей, а 27.03.2020 имели место уже 1223 случая COVID-19 с 68 сопутствующими смертями. Для замедления распространения вируса в штате Сан-Паулу были введены карантин и меры социального дистанцирования. Одним из мотивов этой проблемы является тот факт, что в контексте обширной системы здравоохранения с возможным ограничением тестирования SARS-CoV-2 нецелесообразно тестировать каждый случай, а результаты тестов могут быть использованы при проверке только целевой субпопуляции. Целью работы является построение на основе машинного обучения модели, способной прогнозировать обнаружение SARS-CoV-2 по медицинским данным. Для этого проводится сравнение различных классификационных моделей машинного обучения и определяется лучшая из них с целью прогнозирования коронавирусов. Сравнение основано на лицах в классе 1, т. е. с положительным тестом. Поэтому необходимо определить модель машинного обучения с лучшим отзывом и F1-баллом для класса 1.Материалы и методы. За основу принят набор данных с открытым исходным кодом из израильской больницы Альберта Эйнштейна в Сан-Паулу. Для исследования использованы модели машинного обучения: RandomForests (RF), K-ближайший сосед (KNN), Машина опорных векторов (SVM), Логистическая регрессия (LR), Дерево решений (DT) и AdaBoost (AB), а также 10-временная техника перекрестной проверки. Проведена оценка некоторых показателей производительности машинного обучения, таких как точность, отзыв и оценка F1.Результаты исследования. Из 5644 человек, протестированных во время пандемии COVID-19, 5086 человек дали отрицательный результат и 558 человек - положительный. При этом поддержка машинных векторов показала лучшие результаты в обнаружении коронавируса с отзывом - 75 % и оценкой F1 - 60 % по сравнению с моделями: Random drill, KNN, LR, AB и DT.Обсуждение и заключение. Установлено, что при использовании алгоритмов AB достигается большая точность, однако стабильность алгоритма LSVM является более высокой. Поэтому его можно рекомендовать как полезный нструмент для выявления COVID-19.

Еще

Выявление covid-19, классификация, модели машинного обучения

Короткий адрес: https://sciup.org/142234456

IDR: 142234456

Статья научная