Сравнительный обзор методов машинного обучения для анализа больших данных
Автор: Алексеева Е.С., Мазурова В.Д.
Журнал: Международный журнал гуманитарных и естественных наук @intjournal
Рубрика: Технические науки
Статья в выпуске: 12-3 (99), 2024 года.
Бесплатный доступ
Современная медицина активно внедряет методы машинного обучения для анализа медицинских данных и повышения точности диагностики. Применение таких методов в классификации диабета позволяет автоматизировать процесс выявления заболевания, улучшая результаты и снижая вероятность пропуска случаев заболевания. В данной статье проведён сравнительный анализ пяти популярных алгоритмов машинного обучения: линейной регрессии, логистической регрессии, дерева решений, случайного леса и градиентного бустинга. Исследование показало, что градиентный бустинг демонстрирует наилучший баланс между точностью и полнотой, минимизируя количество ошибок классификации. Применение машинного обучения в медицинской диагностике способствует раннему выявлению диабета и улучшению качества лечения, позволяя медицинским специалистам принимать более обоснованные решения.
Машинное обучение, линейная регрессия, логистическая регрессия, дерево решений, случайный лес, градиентный бустинг, классификация
Короткий адрес: https://sciup.org/170208575
IDR: 170208575 | DOI: 10.24412/2500-1000-2024-12-3-262-266
A comparative review of machine learning methods for big data analysis
Modern medicine is actively implementing machine learning methods to analyze medical data and improve diagnostic accuracy. The use of such methods in the classification of diabetes makes it possible to automate the process of detecting the disease, improving results and reducing the likelihood of missing cases. This article provides a comparative analysis of five popular machine learning algorithms: linear regression, logistic regression, decision tree, random forest and gradient boosting. The study showed that gradient boosting demonstrates the best balance between accuracy and completeness, minimizing the number of classification errors. The use of machine learning in medical diagnostics helps to detect diabetes early and improve the quality of treatment, allowing medical professionals to make more informed decisions.
Текст научной статьи Сравнительный обзор методов машинного обучения для анализа больших данных
Современная медицина переживает эпоху активной цифровой трансформации, в рамках которой машинное обучение становится важным инструментом для анализа больших данных и решения сложных диагностических задач. В условиях роста заболеваемости диабетом, являющимся одним из ключевых факторов риска для здоровья населения, особую актуальность приобретает применение инновационных методов анализа данных для своевременной диагностики и прогнозирования. Диабет – это заболевание, которое может оставаться незамеченным на ранних стадиях, что увеличивает риск развития осложнений. Использование машинного обучения для классификации диабета предоставляет возможность повысить точность диагностики и минимизировать человеческий фактор в процессе принятия решений.
Учитывая распространённость этого заболевания по всему миру и сложность своевременного определения его на ранних стадиях, актуальность применения машинного обучения в диагностике диабета особенно высока. Диабет является одной из ведущих причин смертности и инвалидности, что делает важным поиск новых подходов к его диагностике. Использование методов машинного обучения позволяет анализировать медицинские данные более глубоко и точно, что способствует ранней диагностике и персонализированному подходу к лечению каждого пациента.
В данной работе рассматриваются пять популярных алгоритмов машинного обучения – линейная регрессия, логистическая регрессия, дерево решений, случайный лес и градиентный бустинг [6, c. 751]. Целью исследования является определение наиболее эффективного метода для классификации диабета на основе сравнительного анализа их работы.
В процессе работы будут продемонстрированы и оценены результаты применения указанных алгоритмов на примере набора данных о диабете. Для каждой модели будет проведён анализ качества классификации с использованием четырёх ключевых метрик: точности, точности для положительного класса, полноты и F1-метрики. Данные метрики являются стандартными для задач классификации и позволяют оценить работу модели, учитывая как её способность правильно классифицировать объекты, так и её склонность к ошибкам [8, c. 390].
Сравнение моделей будет проведено с целью выявления наиболее эффективного метода для решения задачи классификации диабета. На рисунке 1 представлены данные, размещенные в открытом доступе на Kaggle [7], на основе которых было проведено сравнение.
Pregnancies Glucose BloodPressure SkinThickness Insulin BMI DiabetesPedigreeFunction Age Outcome
0 6 148 72 35 0 33.6 0.627 501
-
1 1 85 66 29 0 26.6 0.351 310
-
2 8 183 64 0 0 23.3 0.672 321
-
3 1 89 66 23 94 28.1 0 167 210
-
4 0 137 40 35 168 43.1 2.288 331
Рис. 1. Исходные данные
Перейдем непосредственно к обзору и применению алгоритмов машинного обучения.
Линейная регрессия
Линейная регрессия – это метод машинного обучения, который используется для моделирования зависимости между одной или несколькими независимыми переменными и целевой переменной. Однако, данный метод изначально не предназначен для решения задач классификации и может иметь ограничения в ситуациях с дисбалансом классов, как это происходит в медицинских задачах, где важно правильно выявлять редкие случаи заболевания [5, c. 178].
Результаты применения линейной регрессии к задаче классификации диабета показали умеренные показатели точности модели. Согласно матрице ошибок, модель правильно определила 121 случай отсутствия диабета и 48 случаев наличия диабета. Однако, в 32 случаях модель не смогла выявить заболевание (ложноотрицательные результаты), а в 30 случаях ошибочно предсказала наличие диабета у здоровых пациентов (ложноположительные результаты). Данные ошибки свидетельствуют о том, что модель имеет недостаточную чувствительность и точность, что критично для медицинской диагностики.
Метрики качества классификации показали следующее: точность составила 73%, что указывает на умеренную способность модели правильно классифицировать данные. Точность для положительного класса была 62%, что означает наличие значительного числа ложноположительных результатов. Полнота составила 60%, что отражает высокий риск пропуска реальных случаев заболевания. F1-Score равнялся 0.61, что демонстрирует недостаточную эффективность модели в контексте задачи.
Таким образом, несмотря на возможность применения линейной регрессии для задач классификации, её результаты в данной задаче показывают невысокую эффективность.
Логистическая регрессия
Логистическая регрессия – это метод классификации, который использует логистическую функцию для прогнозирования вероятности принадлежности наблюдения к определённому классу [3, c. 77]. В отличие от линейной регрессии, этот метод лучше подходит для задач бинарной классификации, таких как прогнозирование заболевания.
Для задачи классификации диабета логистическая регрессия показала улучшение по сравнению с линейной, но всё ещё имеет определённые ограничения на медицинских данных. Матрица ошибок показала, что модель правильно предсказала 120 случаев без диабета и 50 случаев с диабетом. Однако в 31 случае модель ошибочно предсказала наличие диабета у здоровых пациентов, а в 30 случаях не смогла выявить заболевание у пациентов с диабетом.
Точность модели составила 74%, что является улучшением по сравнению с линейной регрессией, но в медицинской диагностике эта метрика может быть недостаточно информативной. Точность для положительного класса составила 62%, что указывает на значительное количество ложноположительных результатов, а полнота также составила 62%, что означает, что 38% случаев заболевания были пропущены. Значение F1-Score составило 0.62, что свидетельствует о сбалансированности точности и полноты, но подчеркивает ограниченность модели для диагностики диабета.
Таким образом, несмотря на улучшение по сравнению с линейной регрессией, логистическая регрессия не полностью удовлетворяет требованиям для точной диагностики диабета.
Дерево решений
Дерево решений – это алгоритм машинного обучения, который используется для классификации и регрессии. Оно представляет собой структуру, где каждый внутренний узел соответствует проверке условия на определённый признак, каждая ветвь – возможному результату этой проверки, а каждый лист – предсказанному значению или классу.
Алгоритм строит дерево, разделяя данные на основе критериев, таких как Gini или информация Энтропии, чтобы минимизировать неопределённость. Дерево решений легко интерпретируется, но склонно к переобучению, особенно на малых данных [4, c. 134]. Этот метод особенно эффективен для задач, где важно понимать, как модель принимает решения.
Применение дерева решений к задаче классификации диабета показало улучшение по сравнению с линейной и логистической регрессией, особенно по метрике точности. Матрица ошибок показала, что модель правильно предсказала 75 случаев, когда диабет отсутствовал, и 40 случаев, когда диабет был присутствующим. Однако в 24 случаях модель ошибочно предсказала отсутствие заболевания, когда диабет был на самом деле, и в 15 случаях не смогла выявить диабет у пациентов с заболеванием.
Точность модели составила 75%, что является относительно высоким результатом, но в медицинских задачах точность может быть менее информативной, особенно при дисбалансе классов. Точность для положительного класса составила 62%, что указывает на значительное количество ложноположительных результатов. Полнота составила 73%, что является улучшением по сравнению с предыдущими моделями, и показывает, что модель эффективно выявляет большинство реальных случаев заболевания. Значение F1-Score составило 0.67, что демонстрирует сбалансированное соотношение точности и полноты, но всё же отражает наличие некоторых ошибок.
В целом, дерево решений показало хорошие результаты по точности и полноте, что делает его более подходящим для классификации диабета по сравнению с линейной и логистической регрессией. Однако модель всё ещё имеет пространство для улучшения, например, в снижении числа ложноположи- тельных и ложных отрицательных результатов.
Случайный лес
Случайный лес – это ансамблевый метод машинного обучения, который объединяет множество деревьев решений. Основная идея заключается в том, чтобы обучить несколько независимых деревьев на случайных подмножествах данных и признаков, а затем объединить их предсказания (например, путём голосования в классификации или усреднения в регрессии). Этот метод снижает вероятность переобучения, характерного для отдельных деревьев, и делает модель более устойчивой и точной [2, c. 85].
Основываясь на матрице ошибок, применение случайного леса к задаче классификации диабета показало, что модель правильно предсказала 77 случаев, когда диабет отсутствовал, и 34 случая, когда он был присутствующим. Однако модель ошиблась в 22 случаях, предсказав отсутствие заболевания, и в 21 случае неверно определила наличие диабета.
Точность модели составила 72%, что важно для медицинской диагностики, однако необходимо учитывать другие метрики. Точность для положительного класса составила 61%, а полнота – 62%. F1-Score составил 0.61, что демонстрирует сбалансированную работу модели, но оставляет пространство для улучшений.
Градиентный бустинг
Градиентный бустинг – это метод ансамблевого обучения, который строит модель в виде последовательности слабых моделей (обычно деревьев решений), где каждая последующая модель исправляет ошибки предыдущих. Этот процесс минимизирует функцию ошибки за счёт градиентного спуска [1, c. 60]. Градиентный бустинг широко применяется для задач классификации и регрессии, поскольку обеспечивает высокую точность, устойчивость к переобучению и хорошую работу с данными, содержащими сложные зависимости.
Основываясь на матрице ошибок, применение градиентного бустинга к задаче классификации диабета показало, что модель правильно предсказала 78 случаев, когда диабет отсутствовал, и 37 случаев, когда диабет был диагностирован.
Однако в 21 случае модель ошибочно предсказала отсутствие заболевания, а в 18 случаях не смогла выявить заболевание, что указывает на наличие ошибок, которые требуют внимания.
Точность модели составила 75%, что является хорошим результатом для данной задачи. Однако важно отметить, что точность может быть менее информативной при значительном дисбалансе классов. Точность для положительного класса составила 64%, что демонстрирует меньше ложноположительных ошибок по сравнению с предыдущими методами, но всё ещё значительное количество неверных предсказаний. Полнота составила 67%, что является хорошим результатом, так как модель смогла выявить 67% всех реальных случаев заболевания.
Значение F1-Score составило 0.65, что показывает сбалансированное соотношение точности и полноты, подтверждая, что модель эффективно классифицирует диабет и минимизирует количество пропущенных случаев заболевания.
Градиентный бустинг показал хорошие результаты и может быть полезным для медицинской диагностики, где важно не только правильно классифицировать, но и минимизировать количество ложных пропусков заболевших.
В таблице 1 представлено наглядное сравнение полученных метрик всех рассмотренных алгоритмов.
Таблица 1. Сравнительная таблица
|
Линейная регрессия |
Логистическая регрессия |
Дерево решений |
Случайный лес |
Градиентный бустинг |
|
|
Accuracy |
73% |
74% |
75% |
72% |
75% |
|
precision |
62% |
62% |
62% |
61% |
64% |
|
recall |
60% |
62% |
73% |
62% |
67% |
|
F1-score |
0.61 |
0.62 |
0.67 |
0.61 |
0.65 |
Таким образом, результаты исследования показали, что градиентный бустинг является наиболее эффективным методом для классификации диабета. Он обеспечивает хороший баланс между точностью и полнотой, что особенно важно в медицинской диагностике, где критично минимизировать как ложноположительные, так и ложноотрицательные результаты.
Дерево решений и логистическая регрессия также показали удовлетворительные результаты, однако их эффективность ограничивается в условиях дисбаланса классов. Случайный лес оказался менее эффективным, чем ожидалось, возможно, из-за недостаточной настройки гиперпараметров. Линейная регрессия, как и предполагалось, не подходит для решения задач классификации.
Также разработанные модели есть возмож ность улучшить, для этого следует:
-
1. Использовать методы балансировки классов, такие как взвешивание классов или
- оверсемплинг.
-
2. Оптимизировать гиперпараметры моде лей.
-
3. Рассмотреть использование ансамблевых методов с учётом особенностей медицинских данных.
Результаты данного исследования могут быть полезны для разработки более точных инструментов диагностики диабета и их применения в медицинской практике.
Список литературы Сравнительный обзор методов машинного обучения для анализа больших данных
- Джункеев У. Прогнозирование инфляции в России на основе градиентного бустинга и нейронных сетей // Деньги и кредит. - 2024. - Т. 83. № 1. - С. 53-76. EDN: RKGTAF
- Петров С.В. Использование метода "случайный лес" при построении моделей надежности // Информатика, моделирование, автоматизация проектирования (ИМАП-2022). XIV Международная научно-практическая конференция студентов, аспирантов и молодых ученых: сборник научных трудов. - Ульяновск, 2022. - C. 84-88. EDN: HBAMFW
- Стрельников В.Г., Трунов А.С. Применение метода логистической регрессии для задачи классификации текстов судебных решений // Телекоммуникации и информационные технологии. - 2017. - Т. 4. № 2. - С. 75-78. EDN: YMHZQJ
- Трифонова О.Н. Анализ методов поиска идей для решения проблем в бизнесе методом построения дерева проблем и дерева решений // Фундаментальные и прикладные исследования в современном мире. - 2015. - № 9 (2). - С. 131-135. EDN: TNJIZZ
- Хижняк С.В. Множественная линейная регрессия vs простая линейная регрессия в фитопатологии // Наука и образование: опыт, проблемы, перспективы развития. Материалы XIV международной научно-практической конференции. Том Часть II. - 2015. - C. 178-181. EDN: VOUULD
- Cheng Sh. Classification of spam e-mail based on naïve bayes classification model // Highlights in science, engineering and technology. - 2023. - № 39. - C. 749-753. EDN: THFNQK
- Kaggle. - [Электронный ресурс]. - Режим доступа: https://www.kaggle.com/(Дата обращения 27.11.2024).
- Masrom S., Abdul Samad N.H., Septiyanti R., Roslan N., Rahman.A. Machine learning prediction for academic misconduct prediction: an analysis of binary classification metrics // Bulletin of electrical engineering and informatics. - 2024. - № 13 (1). - С. 388-395. EDN: OFWQAB