Сравнительный обзор методов машинного обучения для анализа больших данных

Автор: Алексеева Е.С., Мазурова В.Д.

Журнал: Международный журнал гуманитарных и естественных наук @intjournal

Статья в выпуске: 12-3 (99), 2024 года.

Бесплатный доступ

Современная медицина активно внедряет методы машинного обучения для анализа медицинских данных и повышения точности диагностики. Применение таких методов в классификации диабета позволяет автоматизировать процесс выявления заболевания, улучшая результаты и снижая вероятность пропуска случаев заболевания. В данной статье проведён сравнительный анализ пяти популярных алгоритмов машинного обучения: линейной регрессии, логистической регрессии, дерева решений, случайного леса и градиентного бустинга. Исследование показало, что градиентный бустинг демонстрирует наилучший баланс между точностью и полнотой, минимизируя количество ошибок классификации. Применение машинного обучения в медицинской диагностике способствует раннему выявлению диабета и улучшению качества лечения, позволяя медицинским специалистам принимать более обоснованные решения.

Еще

Машинное обучение, линейная регрессия, логистическая регрессия, дерево решений, случайный лес, градиентный бустинг, классификация

Короткий адрес: https://sciup.org/170208575

IDR: 170208575 | DOI: 10.24412/2500-1000-2024-12-3-262-266

Текст научной статьи Сравнительный обзор методов машинного обучения для анализа больших данных

Современная медицина переживает эпоху активной цифровой трансформации, в рамках которой машинное обучение становится важным инструментом для анализа больших данных и решения сложных диагностических задач. В условиях роста заболеваемости диабетом, являющимся одним из ключевых факторов риска для здоровья населения, особую актуальность приобретает применение инновационных методов анализа данных для своевременной диагностики и прогнозирования. Диабет – это заболевание, которое может оставаться незамеченным на ранних стадиях, что увеличивает риск развития осложнений. Использование машинного обучения для классификации диабета предоставляет возможность повысить точность диагностики и минимизировать человеческий фактор в процессе принятия решений.

Учитывая распространённость этого заболевания по всему миру и сложность своевременного определения его на ранних стадиях, актуальность применения машинного обучения в диагностике диабета особенно высока. Диабет является одной из ведущих причин смертности и инвалидности, что делает важным поиск новых подходов к его диагностике. Использование методов машинного обучения позволяет анализировать медицинские данные более глубоко и точно, что способствует ранней диагностике и персонализированному подходу к лечению каждого пациента.

В данной работе рассматриваются пять популярных алгоритмов машинного обучения – линейная регрессия, логистическая регрессия, дерево решений, случайный лес и градиентный бустинг [6, c. 751]. Целью исследования является определение наиболее эффективного метода для классификации диабета на основе сравнительного анализа их работы.

В процессе работы будут продемонстрированы и оценены результаты применения указанных алгоритмов на примере набора данных о диабете. Для каждой модели будет проведён анализ качества классификации с использованием четырёх ключевых метрик: точности, точности для положительного класса, полноты и F1-метрики. Данные метрики являются стандартными для задач классификации и позволяют оценить работу модели, учитывая как её способность правильно классифицировать объекты, так и её склонность к ошибкам [8, c. 390].

Сравнение моделей будет проведено с целью выявления наиболее эффективного метода для решения задачи классификации диабета. На рисунке 1 представлены данные, размещенные в открытом доступе на Kaggle [7], на основе которых было проведено сравнение.

Pregnancies Glucose BloodPressure SkinThickness Insulin BMI DiabetesPedigreeFunction Age Outcome

0 6 148 72 35 0 33.6 0.627 501

1 1 85 66 29 0 26.6 0.351 310

2 8 183 64 0 0 23.3 0.672 321

3 1 89 66 23 94 28.1 0 167 210

4 0 137 40 35 168 43.1 2.288 331

Рис. 1. Исходные данные

Перейдем непосредственно к обзору и применению алгоритмов машинного обучения.

Линейная регрессия

Линейная регрессия – это метод машинного обучения, который используется для моделирования зависимости между одной или несколькими независимыми переменными и целевой переменной. Однако, данный метод изначально не предназначен для решения задач классификации и может иметь ограничения в ситуациях с дисбалансом классов, как это происходит в медицинских задачах, где важно правильно выявлять редкие случаи заболевания [5, c. 178].

Результаты применения линейной регрессии к задаче классификации диабета показали умеренные показатели точности модели. Согласно матрице ошибок, модель правильно определила 121 случай отсутствия диабета и 48 случаев наличия диабета. Однако, в 32 случаях модель не смогла выявить заболевание (ложноотрицательные результаты), а в 30 случаях ошибочно предсказала наличие диабета у здоровых пациентов (ложноположительные результаты). Данные ошибки свидетельствуют о том, что модель имеет недостаточную чувствительность и точность, что критично для медицинской диагностики.

Метрики качества классификации показали следующее: точность составила 73%, что указывает на умеренную способность модели правильно классифицировать данные. Точность для положительного класса была 62%, что означает наличие значительного числа ложноположительных результатов. Полнота составила 60%, что отражает высокий риск пропуска реальных случаев заболевания. F1-Score равнялся 0.61, что демонстрирует недостаточную эффективность модели в контексте задачи.

Таким образом, несмотря на возможность применения линейной регрессии для задач классификации, её результаты в данной задаче показывают невысокую эффективность.

Логистическая регрессия

Логистическая регрессия – это метод классификации, который использует логистическую функцию для прогнозирования вероятности принадлежности наблюдения к определённому классу [3, c. 77]. В отличие от линейной регрессии, этот метод лучше подходит для задач бинарной классификации, таких как прогнозирование заболевания.

Для задачи классификации диабета логистическая регрессия показала улучшение по сравнению с линейной, но всё ещё имеет определённые ограничения на медицинских данных. Матрица ошибок показала, что модель правильно предсказала 120 случаев без диабета и 50 случаев с диабетом. Однако в 31 случае модель ошибочно предсказала наличие диабета у здоровых пациентов, а в 30 случаях не смогла выявить заболевание у пациентов с диабетом.

Точность модели составила 74%, что является улучшением по сравнению с линейной регрессией, но в медицинской диагностике эта метрика может быть недостаточно информативной. Точность для положительного класса составила 62%, что указывает на значительное количество ложноположительных результатов, а полнота также составила 62%, что означает, что 38% случаев заболевания были пропущены. Значение F1-Score составило 0.62, что свидетельствует о сбалансированности точности и полноты, но подчеркивает ограниченность модели для диагностики диабета.

Таким образом, несмотря на улучшение по сравнению с линейной регрессией, логистическая регрессия не полностью удовлетворяет требованиям для точной диагностики диабета.

Дерево решений

Дерево решений – это алгоритм машинного обучения, который используется для классификации и регрессии. Оно представляет собой структуру, где каждый внутренний узел соответствует проверке условия на определённый признак, каждая ветвь – возможному результату этой проверки, а каждый лист – предсказанному значению или классу.

Алгоритм строит дерево, разделяя данные на основе критериев, таких как Gini или информация Энтропии, чтобы минимизировать неопределённость. Дерево решений легко интерпретируется, но склонно к переобучению, особенно на малых данных [4, c. 134]. Этот метод особенно эффективен для задач, где важно понимать, как модель принимает решения.

Применение дерева решений к задаче классификации диабета показало улучшение по сравнению с линейной и логистической регрессией, особенно по метрике точности. Матрица ошибок показала, что модель правильно предсказала 75 случаев, когда диабет отсутствовал, и 40 случаев, когда диабет был присутствующим. Однако в 24 случаях модель ошибочно предсказала отсутствие заболевания, когда диабет был на самом деле, и в 15 случаях не смогла выявить диабет у пациентов с заболеванием.

Точность модели составила 75%, что является относительно высоким результатом, но в медицинских задачах точность может быть менее информативной, особенно при дисбалансе классов. Точность для положительного класса составила 62%, что указывает на значительное количество ложноположительных результатов. Полнота составила 73%, что является улучшением по сравнению с предыдущими моделями, и показывает, что модель эффективно выявляет большинство реальных случаев заболевания. Значение F1-Score составило 0.67, что демонстрирует сбалансированное соотношение точности и полноты, но всё же отражает наличие некоторых ошибок.

В целом, дерево решений показало хорошие результаты по точности и полноте, что делает его более подходящим для классификации диабета по сравнению с линейной и логистической регрессией. Однако модель всё ещё имеет пространство для улучшения, например, в снижении числа ложноположи- тельных и ложных отрицательных результатов.

Случайный лес

Случайный лес – это ансамблевый метод машинного обучения, который объединяет множество деревьев решений. Основная идея заключается в том, чтобы обучить несколько независимых деревьев на случайных подмножествах данных и признаков, а затем объединить их предсказания (например, путём голосования в классификации или усреднения в регрессии). Этот метод снижает вероятность переобучения, характерного для отдельных деревьев, и делает модель более устойчивой и точной [2, c. 85].

Основываясь на матрице ошибок, применение случайного леса к задаче классификации диабета показало, что модель правильно предсказала 77 случаев, когда диабет отсутствовал, и 34 случая, когда он был присутствующим. Однако модель ошиблась в 22 случаях, предсказав отсутствие заболевания, и в 21 случае неверно определила наличие диабета.

Точность модели составила 72%, что важно для медицинской диагностики, однако необходимо учитывать другие метрики. Точность для положительного класса составила 61%, а полнота – 62%. F1-Score составил 0.61, что демонстрирует сбалансированную работу модели, но оставляет пространство для улучшений.

Градиентный бустинг

Градиентный бустинг – это метод ансамблевого обучения, который строит модель в виде последовательности слабых моделей (обычно деревьев решений), где каждая последующая модель исправляет ошибки предыдущих. Этот процесс минимизирует функцию ошибки за счёт градиентного спуска [1, c. 60]. Градиентный бустинг широко применяется для задач классификации и регрессии, поскольку обеспечивает высокую точность, устойчивость к переобучению и хорошую работу с данными, содержащими сложные зависимости.

Основываясь на матрице ошибок, применение градиентного бустинга к задаче классификации диабета показало, что модель правильно предсказала 78 случаев, когда диабет отсутствовал, и 37 случаев, когда диабет был диагностирован.

Однако в 21 случае модель ошибочно предсказала отсутствие заболевания, а в 18 случаях не смогла выявить заболевание, что указывает на наличие ошибок, которые требуют внимания.

Точность модели составила 75%, что является хорошим результатом для данной задачи. Однако важно отметить, что точность может быть менее информативной при значительном дисбалансе классов. Точность для положительного класса составила 64%, что демонстрирует меньше ложноположительных ошибок по сравнению с предыдущими методами, но всё ещё значительное количество неверных предсказаний. Полнота составила 67%, что является хорошим результатом, так как модель смогла выявить 67% всех реальных случаев заболевания.

Значение F1-Score составило 0.65, что показывает сбалансированное соотношение точности и полноты, подтверждая, что модель эффективно классифицирует диабет и минимизирует количество пропущенных случаев заболевания.

Градиентный бустинг показал хорошие результаты и может быть полезным для медицинской диагностики, где важно не только правильно классифицировать, но и минимизировать количество ложных пропусков заболевших.

В таблице 1 представлено наглядное сравнение полученных метрик всех рассмотренных алгоритмов.

Таблица 1. Сравнительная таблица

	Линейная регрессия	Логистическая регрессия	Дерево решений	Случайный лес	Градиентный бустинг
Accuracy	73%	74%	75%	72%	75%
precision	62%	62%	62%	61%	64%
recall	60%	62%	73%	62%	67%
F1-score	0.61	0.62	0.67	0.61	0.65

Таким образом, результаты исследования показали, что градиентный бустинг является наиболее эффективным методом для классификации диабета. Он обеспечивает хороший баланс между точностью и полнотой, что особенно важно в медицинской диагностике, где критично минимизировать как ложноположительные, так и ложноотрицательные результаты.

Дерево решений и логистическая регрессия также показали удовлетворительные результаты, однако их эффективность ограничивается в условиях дисбаланса классов. Случайный лес оказался менее эффективным, чем ожидалось, возможно, из-за недостаточной настройки гиперпараметров. Линейная регрессия, как и предполагалось, не подходит для решения задач классификации.

Также разработанные модели есть возмож ность улучшить, для этого следует:

1. Использовать методы балансировки классов, такие как взвешивание классов или
оверсемплинг.
2. Оптимизировать гиперпараметры моде лей.
3. Рассмотреть использование ансамблевых методов с учётом особенностей медицинских данных.

Результаты данного исследования могут быть полезны для разработки более точных инструментов диагностики диабета и их применения в медицинской практике.

Список литературы Сравнительный обзор методов машинного обучения для анализа больших данных

Джункеев У. Прогнозирование инфляции в России на основе градиентного бустинга и нейронных сетей // Деньги и кредит. - 2024. - Т. 83. № 1. - С. 53-76. EDN: RKGTAF
Петров С.В. Использование метода "случайный лес" при построении моделей надежности // Информатика, моделирование, автоматизация проектирования (ИМАП-2022). XIV Международная научно-практическая конференция студентов, аспирантов и молодых ученых: сборник научных трудов. - Ульяновск, 2022. - C. 84-88. EDN: HBAMFW
Стрельников В.Г., Трунов А.С. Применение метода логистической регрессии для задачи классификации текстов судебных решений // Телекоммуникации и информационные технологии. - 2017. - Т. 4. № 2. - С. 75-78. EDN: YMHZQJ
Трифонова О.Н. Анализ методов поиска идей для решения проблем в бизнесе методом построения дерева проблем и дерева решений // Фундаментальные и прикладные исследования в современном мире. - 2015. - № 9 (2). - С. 131-135. EDN: TNJIZZ
Хижняк С.В. Множественная линейная регрессия vs простая линейная регрессия в фитопатологии // Наука и образование: опыт, проблемы, перспективы развития. Материалы XIV международной научно-практической конференции. Том Часть II. - 2015. - C. 178-181. EDN: VOUULD
Cheng Sh. Classification of spam e-mail based on naïve bayes classification model // Highlights in science, engineering and technology. - 2023. - № 39. - C. 749-753. EDN: THFNQK
Kaggle. - [Электронный ресурс]. - Режим доступа: https://www.kaggle.com/(Дата обращения 27.11.2024).
Masrom S., Abdul Samad N.H., Septiyanti R., Roslan N., Rahman.A. Machine learning prediction for academic misconduct prediction: an analysis of binary classification metrics // Bulletin of electrical engineering and informatics. - 2024. - № 13 (1). - С. 388-395. EDN: OFWQAB

Еще