Использование гибридной модели на основе ВPNN-BC для диагностики рака молочной железы
Бесплатный доступ
Исследование посвящено разработке гибридной модели для диагностики рака молочной железы по данным Wisconsin Breast Cancer Dataset (WBCD). Предлагается двухэтапная архитектура BPNN-BC: на первом этапе нейронная сеть обратного распространения ошибки (BPNN) выполняет первичную классификацию после предобработки данных (замена выбросов медианой, нормализация признаков), на втором этапе наблюдения с низкой уверенностью решения направляются в байесовский классификатор (BC) для уточнения результата. В вычислительных экспериментах модель демонстрирует высокую точность: BPNN достигает 94,6 % на тестовой выборке, а BC обеспечивает 100 % корректных ответов – на выборке сложных случаев (8 наблюдений). Подход снижает ошибки второго рода, повышает устойчивость к выбросам и даёт интерпретируемые вероятностные оценки, что важно для клинической практики. Показано, что комбинация методов машинного обучения и статистической классификации повышает надёжность и воспроизводимость автоматизированной поддержки врачебных решений. Практическая значимость заключается в возможности использования модели как модуля предварительного скрининга. Перспективы развития включают расширение набора признаков, внешнюю валидацию на клинических данных и сравнение с альтернативными ансамблевыми методами.
Диагностика рака молочной железы, гибридная модель, BPNN, байесовский классификатор, WBCD, машинное обучение, классификация
Короткий адрес: https://sciup.org/148331937
IDR: 148331937 | УДК: 004.032.26:616-006-073 | DOI: 10.18137/RNU.V9187.25.03.P.4
Текст научной статьи Использование гибридной модели на основе ВPNN-BC для диагностики рака молочной железы
Рак молочной железы остается одним из наиболее распространенных и опасных онкологических заболеваний, требующих высокоточных методов диагностики. В данной статье представлена инновационная гибридная модель, объединяющая прямую-обратную диффузионную нейронную сеть (BPNN) и байесовский классификатор (BC) для анализа данных Wisconsin Breast Cancer Dataset (WBCD).
Цель исследования – повышение точности дифференциации доброкачественных и злокачественных опухолей за счет синергии машинного обучения и статистических методов. Модель демонстрирует эффективность на всех этапах – от предобработки данных (нормализация, замена выбросов) до финальной классификации, достигая точности 94,6 % на тестовой выборке и 100 % – для сложных случаев. Результаты подтверждают потенциал гибридных систем искусственного интеллекта (далее – ИИ) для поддержки врачебных решений.
Процесс диагностики любого заболевания требует проведения необходимых лабораторных исследований, помогающих врачам в постановке диагноза. В некоторых случаях этот процесс прост, в других – сложен настолько, что у врача возникают сомнения в принятии решения. Поэтому для поддержки медицинских решений привлекаются компьютерные системы. Однако заболевание определяется набором факторов, указывающих на его наличие у пациента. Диагностика требует лабораторного анализа этих факторов, которые представляют собой числовые значения, отражающие состояние здоровья пациента. Эти значения формируют запись (record) с набором столбцов, соответствующих признакам заболевания (features). Каждой записи присваивается число, указывающее на наличие (0) или отсутствие (1) заболевания. Лабораторные данные группы пациентов образуют набор данных (dataset), к которому применяются вычислительные методы для поддержки медицинских решений в соответствии с мировыми стандартами.
Данные требуют предобработки перед использованием в моделях для улучшения производительности классификатора и сокращения времени обучения. Предварительная обработка включает:
-
• работу с пропущенными и аномальными данными;
-
• калибровку данных, которая преобразует исходные данные в более подходящий для классификатора формат [1].
Настоящее исследование направлено на поддержку принятия медицинских решений при диагностике некоторых заболеваний с использованием технологий ИИ и статистики
Вестник Российского нового университета
Серия «Сложные системы: модели, анализ и управление». 2025. № 3
с высокой точностью. Для достижения этой цели мы предлагаем и оцениваем различные модели этих технологий, стремясь использовать преимущества каждой из них для достижения максимальной точности обобщения. Предложенные модели были протестированы на наборе данных по раку молочной железы и наборе данных по диабету.
Исследования использовали различные технологии на наборе данных по раку молочной железы Университета Висконсина (Wisconsin Breast Cancer Data, WBCD). S.M. Kamruzzaman и Md. Monirul Islam [2] применили алгоритм извлечения правил из искусственных нейронных сетей (Rule Extraction from ANNs – REANN) для задач медицинской диагностики с целью извлечения правил, полезных для прогнозирования. Точность классификации их многослойного перцептрона (MLP) составила 96 %. Mohammad Sammany также провел исследование на том же наборе данных, используя нейронную сеть с десятью нейронами в скрытом слое и функцией активации Softmax на выходе, достигнув точности классификации 99,41 % [3]. Многочисленные исследования были проведены на наборе данных Pima Indian Diabetic Database (PIDD) для диагностики диабета. D. Michie c соавторами применили нейронную сеть с обратным распространением ошибки (backpropagation), достигнув точности классификации 75,2 % [4]. K.W. Wong и P. Jeatrakul [5] также применили нейронную сеть с обратным распространением ошибки, получив точность классификации 76,17 %. Ниже представлены модели, применяемые в данном исследовании.
Опухоли молочной железы являются наиболее распространёнными опухолями у женщин. Примерно 90 % из них – доброкачественные, 10 % – злокачественные. В Соединённых Штатах Америки ежегодно регистрируется около 180 тыс. новых случаев рака молочной железы, и происходит более 40 тыс. смертей, вызванных этим заболеванием. Статистические данные США указывают на то, что у одной из каждых 8–10 женщин в течение жизни разовьётся рак молочной железы. На Рисунке 1 представлен продольный разрез женской груди.

Рисунок 1. Продольный разрез женской груди Источник: [6].
Причины рака молочной железы:
-
• генетика, вирусы, питание, радиация, лекарства, гормоны;
-
• возраст, беременность после 30 лет, ранняя менструация (до 12 лет), менопауза после 50 лет, ожирение, семейная история рака.
Использование гибридной модели на основе ВPNN-BC для диагностики рака молочной железы
Симптомы рака молочной железы:
-
• безболезненное уплотнение в груди;
-
• выделения из соска (с кровью или без);
-
• изменение цвета кожи соска, трещины или втяжение;
-
• увеличение лимфоузлов в подмышечной области;
-
• локальная боль (редко при злокачественных опухолях).
Набор данных, применённый к предложенной модели, представляет собой базу данных пациентов с раком молочной железы (Wisconsin Breast Cancer Data – WBCD), официально признанную Университетом Висконсина (University of Wisconsin) и доступную по адресу:
Набор данных включает 699 наблюдений. Каждая запись содержит 9 атрибутов (признаков), выступающих в качестве входных данных для моделей машинного обучения. На основе этих признаков обученные модели способны прогнозировать состояние пациента (клинический исход) после обучения на подмножестве данного набора данных.
В Таблице 1 представлены признаки рака молочной железы с указанием имен переменных (названий признаков) и их областей определения. Значение 1 в столбце метки класса (Class) в наборе данных соответствует доброкачественному образованию (Benign), 0 – злокачественному (Malignant).
Таблица 1
Распределение образцов по типу опухоли
Данные / классификация |
% от общего объёма данных |
Доброкачественные |
458 / 65,5 |
Злокачественные |
241 / 34,5 |
Всего наблюдений |
699 |
На Рисунке 2 представлена гибридная (предлагаемая) модель на основе прямой-об-ратной диффузионной сети и байесовского классификатора.
Модель начинается с предобработки набора данных (WBCD) для получения более релевантных данных.
Обработка выбросов выполняется по критерию D ( i ) - i > 2^ , где D ( i ) - значение признака; µ – медиана признака; σ – стандартное отклонение.
Аномальные значения заменяются медианой.
2( D ( i ) - min)
--1
max - min
Данные нормализуются в диапазон [-1,1] по формуле D(i) = где
D(i) - значение признака; min и max - минимальное и максимальное значение вектора признака соответственно. В результате этой предобработки данных мы получаем новый, более подходящий для модели набор данных, который был откалиброван [7].
Затем модель случайным образом разделяет данные на обучающий набор (Training Set – для обучения модели), набор проверки (Validation Set – для оценки ошибки обобщения: модель, достигающая наименьшей ошибки на наборе проверки, имеет лучшее обобщение на тестовых данных) и тестовый набор (Testing Set – для тестирования модели).
Вестник Российского нового университета
Серия «Сложные системы: модели, анализ и управление». 2025. № 3

Рисунок 2. Схема гибридной модели НСРП-БК Источник: здесь и далее рисунки выполнены автором.
В Таблице 2 представлено количество обучающих, валидационных и тестовых образцов для доброкачественных и злокачественных случаев при применении модели.
Таблица 2
Количество обучающих и тестовых образцов для доброкачественных и злокачественных случаев
Данные / Классификация |
Обучающие образцы |
Валидационный набор (набор валидации) |
Тестовые образцы |
Всего наблюдений |
Доброкачественные |
326 |
70 |
62 |
458 |
Злокачественные |
163 |
35 |
43 |
241 |
Всего наблюдений |
489 |
105 |
105 |
699 |
% от общего объема данных |
70 |
15 |
15 |
100 |
Источник: здесь и далее таблицы составлены автором.
Использование гибридной модели на основе ВPNN-BC для диагностики рака молочной железы
Модель начинает применять прямую-обратную диффузионную сеть. На Рисунке 3 показана сеть, применённая к набору данных в программе Matlab 2022.

Рисунок 3. Диффузионная сеть обратного распространения в модели
Сеть состоит из входного слоя с девятью входами (признаками), скрытого слоя из 5 нейронов с функцией активации гиперболического тангенса (биполярной сигмоидой) Hyperbolic Tangent Sigmoid и выходного слоя с одним нейроном с линейной функцией активации. Алгоритм обучения (тренировки) – алгоритм LM [8]. Максимальное количество эпох обучения – 1000. Также сетью использовались параметры, приведенные в Таблице 3.
На Рисунке 4 представлен график производительности сети на этапах обучения, валидации и тестирования. Результаты свидетельствуют о достижении наилучшей производительности на 8-й эпохе в соответствии с критерием среднеквадратической ошибки (Mean Square Error – MSE), значение которой на данной эпохе составило 0,037611.
Таблица 3
Основные параметры, используемые с сетью
Минимальный градиент производительности |
min_ grad = 10 5 |
Максимальное количество ошибок валидации |
max_ fail = 6 |
Параметр регулировки Марквардта |
mu = 10 -3 |
Коэффициент уменьшения Марквардта |
mu dec = 10 -2 ^^^~ |
Коэффициент увеличения Марквардта |
mu inc = 10 ^^^~ |
Максимум Марквардта |
mu max = 10 10 ^^^~ |
На графике наблюдается достижение минимума градиента на 13-й эпохе: Gradient = 5,5254106 -6
При этом значение параметра коррекции Марквардта (mu) на той же эпохе mu = 10 - 11 , тогда как в начале обучения mu = 10 - 3 . Значение параметра проверки валидации (valfail) на данной эпохе 0.
На Рисунке 6 представлена гистограмма ошибок для трёх этапов: обучение, валидация, тестирование. Ошибки рассчитываются на каждом этапе как разность между целевым и выходным значением.
Поскольку сеть не классифицировала все тестовые образцы на предыдущем этапе, модель обучает байесовский классификатор на немаркированных данных из фазы обучения
Вестник Российского нового университета
Серия «Сложные системы: модели, анализ и управление». 2025. № 3
сети для последующей классификации ранее неклассифицированных тестовых данных. В Таблице 4 представлено количество обучающих и тестовых образцов для доброкачественных и злокачественных случаев, не классифицированных на предыдущем этапе.

Рисунок 4. Наилучшая производительность сети была достигнута на 8-й эпохе На Рисунке 5 демонстрируется состояние сети в процессе обучения.

Рисунок 5. Состояние сети в процессе обучения
Использование гибридной модели на основе ВPNN-BC для диагностики рака молочной железы

Рисунок 6. Гистограмма ошибок для трёх этапов
На Рисунке 7 представлен график регрессии выходных значений сети при тестировании. Коэффициент регрессии для тестовых данных составляет 0,97929.

Рисунок 7. График регрессии тестовой выборки
Таблица 4
Количество обучающих и тестовых образцов для доброкачественных и злокачественных случаев
Данные / лассификация |
Обучающие образцы |
Валидационный набор (набор валидации) |
Тестовые образцы |
Всего наблюдений |
Доброкачественные |
8 |
2 |
1 |
11 |
Злокачественные |
10 |
6 |
7 |
23 |
Всего наблюдений |
18 |
8 |
8 |
34 |
% от общего объема данных |
54 |
23 |
23 |
100 |
Вестник Российского нового университета
Серия «Сложные системы: модели, анализ и управление». 2025. № 3
Модель применяет байесовский классификатор к предыдущему набору данных. Модель прекращает работу, если корректно классифицирует весь предыдущий тестовый набор данных.
При применении модели с использованием ядерного распределения (Kernel
Distribution) была получена матрица неточностей (Confusion Matrix):
Точность классификатора вычисляется по формуле a 1 + a22
Accuracy =-------11----22------, all + a12 + a 21 + a 22
a11 = 7 указывает количество записей класса 0, которые классифицируются как класс 0;
а 22 = 1 указывает количество записей класса 1, которые классифицируются как класс 1;
а 12 = 0 указывает количество записей класса 0, которые классифицируются как тип 1;
а 21 = 0 указывает количество записей класса 1, которые классифицируются как тип 0.
Подставляем в предыдущую формулу для вычисления точности байесовского класси- фикатора Accuracy =
7 + 1
7 + 0 + 0 + 1
цели, как показано в Таблице 5.
= 1 , в которой вектор выхода соответствует вектору
Таблица 5
Векторы цели и выхода после применения байесовского классификатора, что указывает на правильную классификацию всей предыдущей тестовой выборки
Целевой выходной |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
Фактический выходной |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
На Рисунке 8 показан график выходных данных байесовского классификатора BC, соответствующих векторам выхода и целевым значениям.

Рисунок 8. График производительности классификатора
Применение предложенной модели показало, что сеть BPNN успешно обобщила свои знания на тестовых данных из 105 записей (62 доброкачественных и 43 злокачественных случая), правильно классифицировав 94,629 % из них согласно критерию среднеквадратичной ошибки (СКО), которая на 8-й эпохе валидации составила 0,037611.
Использование гибридной модели на основе ВPNN-BC для диагностики рака молочной железы
В то же время BC продемонстрировал 100-процентную точность, корректно классифицировав все тестовые данные из 8 записей (1 доброкачественный и 7 злокачественных случаев), что подтверждается матрицей неточностей, выведенной классификатором.
Применение гибридной модели BPNN-BC подтвердило её эффективность в диагностике рака молочной железы. Комбинация нейронной сети (с точностью 94,6 % на 105 тестовых образцах) и байесовского классификатора (100-процентная точность для 8 сложных случаев) позволила минимизировать ошибки классификации. Ключевыми факторами успеха стали: предобработка данных (нормализация, замена выбросов медианой), оптимальное разделение выборки (70/15/15 %) и двухэтапная архитектура модели. Результаты превосходят традиционные методы (например, точность 75,2 % в [9]) и открывают перспективы для внедрения в клиническую практику.
Дальнейшие исследования могут быть направлены на адаптацию модели для диагностики диабета и других заболеваний с использованием аналогичных принципов.
Некоторые функции ядра [10–12]:
Линейное ядро |
K I X i , X j ) = X i • X j |
Гауссово ядро |
—- —- 2 — ax. — x- e i ' |
Экспоненциальное ядро |
1 1 K ( — * , X * ) = e "Y x i — x ' —- —> —- —> q |
Полиномиальное ядро |
K ( X^X j 1 = 1 p + X i X X ' ) — —2 |
Гибридное ядро |
' ' - - q -Y X i — X j K 1 X i , X j 1 = 1 p + X i X X j 1 e ' — -- -- -- |
Сигмоидальное ядро |
K I X i , X j ) = tanh 1 kX{ x X j — 5 ) |