Постановка задачи оптимизации, основанной на минимизации ошибок диагностики
Автор: Ш. И. Хайдаров
Журнал: Современные инновации, системы и технологии.
Рубрика: Прикладные вопросы и задачи применения систем и технологий
Статья в выпуске: 5 (1), 2025 года.
Бесплатный доступ
В данной статье раскрывается задача минимизации ошибок классификации и оптимального выбора признаков. Оптимизация признакового пространства и снижение ошибок классификации направлены на повышение эффективности системы. В исследовании проводится анализ взаимосвязи между коэффициентом ошибки классификации (θ) и количеством неправильно классифицированных объектов (ξ), а также предлагаются методы для уменьшения межклассовых ошибок. При выборе признаков учитывается значимость классов, что позволяет оптимизировать процесс классификации. В результате экспериментального анализа проведено сравнение предложенной модели с алгоритмами машинного обучения, что показало значительное повышение точности классификации. Применение данной модели в медицине, в частности для диагностики рака молочной железы, демонстрирует её более высокую эффективность по сравнению с традиционными методами. Настоящая работа представляет собой важный шаг в направлении снижения ошибок классификации и разработки эффективных решений для медицинской диагностики.
Классификация, коэффициент ошибки, оптимизация, машинное обучение, рак молочной железы, межклассовая ошибка
Короткий адрес: https://sciup.org/14133010
IDR: 14133010 | DOI: 10.47813/2782-2818-2025-5-1-2010-2016
Текст статьи Постановка задачи оптимизации, основанной на минимизации ошибок диагностики
DOI:
В настоящее время алгоритмы классификации широко используются в интеллектуальном анализе данных и машинном обучении. Особенно важно применение моделей классификации в медицине, биоинформатике, финансах, промышленности и системах безопасности. В этих областях точность и надежность классификации имеют решающее значение, так как ошибочная классификация объектов может привести к серьезным последствиям [1].
В процессе классификации каждый объект определяется в определённом пространстве признаков. Однако высокая размерность пространства признаков увеличивает вычислительную сложность системы, а некоторые признаки могут негативно влиять на эффективность классификации [2]. Поэтому актуальной задачей является оптимальный выбор признакового пространства и минимизация ошибок классификации [3].
Основная цель данного исследования — разработка модели выбора оптимальной системы информативных признаков, направленной на минимизацию ошибок классификации [4]. Для этого необходимо формировать признаковое пространство различных размеров и оценивать их влияние на результаты классификации [5].
В рамках исследования основное внимание уделено следующим задачам [6].
-
• Задача оптимального выбора пространства признаков, описывающих объекты.
-
• Оценка качества классификации в процессе сокращения признакового пространства.
-
• Коэффициент ошибок классификации и методы его минимизации.
-
• Оценка ошибок с учётом степени значимости различных классов.
-
• Эффективная реализация алгоритма
классификации на основе оптимального набора признаков.
Результаты исследования способствуют повышению точности и эффективности классификации [7]. В частности, они могут быть применены в медицинской диагностике для дифференциации между опасными и безопасными состояниями, снижения вероятности постановки ошибочного диагноза и повышения надежности системы [8].
АНАЛИЗ ЛИТЕРАТУРЫ И МЕТОДОЛОГИЯ
В последние годы научные исследования, посвященные алгоритмам классификации и повышению их точности, привлекают значительное внимание, и многие авторы предлагают эффективные методы в этой области. Большинство исследований сосредоточены на следующих ключевых направлениях.
Оптимизация признакового пространства и удаление избыточных, шумовых или неинформативных признаков способствует повышению точности классификации. В исследованиях Гюйона и Элисееффа [1] была доказана эффективность методов выбора признаков.
Методы машинного обучения и искусственного интеллекта рассмотрены в работах Хасти, Тибширани и Фридмана [2, 14]. Авторами рассматриваются различные методы машинного обучения, включая опорные векторные машины (SVM), нейронные сети, деревья решений и bagging, а также их применение для задач классификации.
Алгоритмы классификации в медицинской диагностике, частности, методы распознавания образов, изучены Дуда, Хартом и Сторком [3], показано, что они находят применение в медицине, способствуя улучшению диагностики.
Минимизация ошибок классификации - важный аспект исследования, так как одной из основных проблем классификации является некорректное отнесение объектов к классам. В исследованиях Чжана и Чжоу [4, 15] были разработаны стратегии минимизации ошибок классификации и их применение к реальным данным.
Эти исследования демонстрируют, что для совершенствования процесса классификации ключевую роль играет оптимизация признакового пространства и снижение межклассовых ошибок [9].
НАБОР ДАННЫХ И ПРЕДОБРАБОТКА
В ходе исследования используемые данные подготавливаются в формате, соответствующем требованиям классификации. Каждый объект X обладает уникальным набором признаков и относится к одному из г классов. Пространство признаков определяется вектором X=(X i ,X2,^,XN) и в процессе анализа осуществляется выбор оптимального набора признаков [10].
ОПТИМИЗАЦИЯ ПРИЗНАКОВОГО ПРОСТРАНСТВА
Удаление избыточных или малозначимых признаков. Для улучшения результатов классификации исключаются избыточные или несущественные признаки. Пространство признаков Л; определяет множество векторов ^. Количество оптимально выбранных признаков ограничивается уравнением [11].
£ 7=1 Л7 = I (1)
Снижение Уменьшение пространства алгоритма.
вычислительной сложности.
размерности признакового повышает скорость работы
Повышение различимости классов.
Учитывается значимость классов (посредством параметров α p и β p ).
Оценка вероятности неправильной классификации. Оценивается вероятность ошибки при отнесении объекта к неверному классу [12].
ШМ = a p t ° ut + ^tf (2)
Окончательный коэффициент ошибки определяется следующим уравнением.
0©Ь =
V p^ a pt^ + fjp t p т
Модель оптимизации. Минимизация ошибки между классами выражается следующим образом.
mm9®k (4)
Количество признаков ограничено I, и межклассовая ошибка классификации должна быть минимизирована насколько это возможно.
Экспериментальный анализ. Модель тестируется с использованием различных алгоритмов машинного обучения. Проводимые эксперименты базируются на следующих моделях [13-15].
-
• Модель с полным набором признаков (benchmark).
-
• Оптимизированная модель с отбором признаков.
ошибок классификации. Анализ литературы показывает, что выбор оптимального набора признаков и снижение межклассовых ошибок оказывают значительное влияние на точность алгоритмов классификации.
На основе методологии анализируется набор данных и выбирается оптимизированное пространство признаков. Минимизируется вероятность некорректной классификации между классами. С помощью целевого метода оптимизации создается наиболее эффективная модель классификации. Полученные результаты рекомендуются в качестве нового подхода, который может быть использован для повышения эффективности классификационных алгоритмов и минимизации ошибок.
Пусть обучающая выборка представлена следующим образом, а именно выражается следующим уравнением.
X = и р = 1 Х р , X p nXQ = 0,p * q, p,q = 17?,
X p {^ pi (X pi , X pi , ...)X pi ) i 1, m p }, (5)
Здесь r - число классов, Xp - классы (p = 1,r), mp - количество объектов в классе Xp
Приведем некоторые понятия, относящиеся к информационному вектору Л = (Л 1 ,Л2,... ,Л7), и с п о л ьз у е м о м у д л я ф о р м ирования оптимальных информативных систем описания объектов.
Заданную информативную систему описания объектов относительно вектора Л можно определить следующим образом.
Л: X ^ X| я = {х | X = (Л1 X 1 , Л2 X2Л7х7)} (6)
Определение. Если £ 7=1 Л7 = I, то вектор Л = (Л1,Л2,...,Л7) называется I -информативным. Множество всех I -информативных векторов обозначим как Л1 и рассмотрим следующую формулу.
л1 = { Л: £7=1 К =1, Л £ {0,1},j = 1JV}
Очевидно, что мощность множества Л1 равна следующему выражению, которое можно записать следующим образом.
Л '(8)
В таком случае приходим к следующей формуле.
Л:Х ^ Xlx = {XU ЛЕХ\(9)
Кроме того, задано множество Л1I информативных векторов. Пусть Л£ Л - произвольный вектор, тогда соответствующие ему информативные системы описания объектов определяются следующим образом.
Л:Хч Х|я
Здесь:
Х|я = {х е Х:х = (Л1х1,Л2х2 ANx ^ ),^ ^ = i Al = 1} . (10)
В интеллектуальном анализе данных важно определить, как объекты обучающей выборки ведут себя при переходе из одного пространственного измерения признаков в другое. Например, при решении задачи классификации изменение размерности пространства признаков может привести к тому, что некоторые объекты окажутся не в своих классах, а в других, то есть
Эх е Х,Л е Л\р е Л1 2 , 1 1 ^ 12
при xlAeXp,xl ^ eXq,p* q (11)
Для выявления таких случаев и их предотвращения при снижении размерности признакового пространства учитываются ошибки классификации [16-18].
Пусть для I -информативного вектора Л коэффициент ошибок классификации обозначается как 0(1)|л, а количество неправильно классифицированных объектов – как х«)1л.
Тогда взаимосвязь между коэффициентом ошибок классификации и числом неправильно классифицированных объектов определяется следующим образом.
в(1Ж = ^ (12)
Здесь т = £ р_1 тр - общее количество объектов в обучающей выборке.
Если важно, чтобы объекты конкретного класса (или классов) не переходили в другой класс и наоборот, объекты других классов не попадали в данный класс (классы), то при вычислении коэффициента ошибок классификации следует учитывать значимость классов.
Например, пусть
-
• ар - степень важности того, чтобы объекты класса Хр не были ошибочно отнесены к другому классу.
-
• ^р - степень важности того, чтобы объекты
других классов не были ошибочно отнесены к классу Хр .
Тогда количество неправильно классифицированных объектов для класса Хрс учетом значимости можно определить следующим образом.
х(1Ж(Х р ) = а р • t “ ut|2 + ^ р • t р n|я, (13)
Здесь tput и t^ обозначают, соответственно, к о л и ч е ст в о о б ъ е к тов, ошибочно вышедших из класса Хр и ошибочно включенных в него.
Тогда, согласно выражению (12), формула (13) принимает следующий вид.
%=1 (др^\А+0р^ т
Основная цель работы – построение такого решающего правила, при котором ошибка классификации будет минимальной, то есть
( ®(l)l i = ^1)Г^ min
Л Л1 = {Л^Л =1, Ле {0,1},; = 1л}
РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ
В данном исследовании была разработана модель оптимального выбора признаков, основанная на минимизации ошибок классификации, и проведена оценка её эффективности на основе экспериментального анализа. Результаты исследования были проанализированы по следующим направлениям.
Точность и эффективность оптимальных
ПРИЗНАКОВ
Для оценки влияния признаков на классификацию были выбраны различные наборы признаков, и их значимость была проанализирована. Основные выводы следующие:
-
• Не все признаки, используемые для классификации, имеют одинаковую важность. Некоторые признаки повышают
эффективность модели, в то время как другие создают шум.
-
• Оптимизация признакового пространства
привела к снижению вычислительных затрат и увеличению общей скорости работы модели.
-
• Было установлено, что, отбирая наиболее
значимые признаки, можно достичь точности выше 90%.
Анализ ошибок межклассовой
КЛАССИФИКАЦИИ
В ходе исследования был проведён отдельный анализ межклассовой ошибки классификации (то есть неправильного отнесения объектов одного класса к другому).
Было подтверждено существование зависимости между коэффициентом ошибки классификации (θ(ℓ)|λ) и количеством неправильно классифицированных объектов (ξ (ℓ)| λ )
Оптимизация признакового пространства позволила снизить межклассовые ошибки классификации до 30%.
При введении весов значимости классов (α p и β p ) в задачах медицинской диагностики удалось минимизировать ошибки классификации для жизненно важных классов.
Эффективность оптимизационной модели
Разработанная оптимизационная модель для минимизации ошибок классификации была протестирована в различных условиях, и её результаты сравнивались с альтернативными методами.
Т аблица 1. С равнение результатов классификации .
T able 1. comparison of classification results .
Точност |
Уровен |
Время |
|
Модель |
ь (%) |
ь |
вычислени |
ошибки |
я (секунды) |
||
Полное |
|||
пространство |
85.2% |
14.8% |
1.23 с |
признаков |
|||
Оптимизированна |
92.7% |
7.3% |
0.89 с |
я модель |
|||
Случайный выбор |
78.4% |
21.6% |
1.02 с |
признаков |
Данные результаты показывают следующее.
-
• Предложенный подход значительно повысил точность классификации.
-
• Коэффициент ошибки уменьшился в 2 раза по сравнению с другими методами.
-
• Скорость вычислений увеличилась, а процесс классификации ускорился.
-
• Применение модели на реальных данных
-
• Разработанная модель была применена в области медицинской диагностики и дала следующие результаты.
-
• Оптимизированная модель показала
результаты на 10–15% лучше по сравнению с традиционными методами при диагностике рака молочной железы.
-
• Вероятность постановки ошибочного
диагноза снизилась до 40%, что способствует правильному лечению пациентов.
-
• Разработан интерфейс для медицинских специалистов, обеспечивающий возможность использования модели в реальных клинических условиях.
Выводы исследования
Оптимальный выбор признаков позволяет повысить точность классификационных алгоритмов на 10–15%. Минимизация межклассовых ошибок снижает вероятность постановки неправильного диагноза. Повышена вычислительная эффективность, что делает возможным применение модели в режиме реального времени.
Перспективы применения
Результаты исследования могут быть использованы в областях машинного обучения, медицинской диагностики, систем безопасности и многих других. Для дальнейшего усовершенствования модели возможна интеграция методов глубинного обучения (Deep Learning) и нейронных сетей.
Основная цель диссертационной работы может быть сформулирована следующим образом. Разработка модели оптимального выбора признаков для классификации с целью минимизации ошибок, снижения межклассовых путаниц и повышения вычислительной эффективности. Предлагаемая модель особенно актуальна для применения в медицинской диагностике, где высокая точность классификации критически важна.
1-й этап. Сущность задачи. Дано обучающее множество X, состоящее из объектов, которые разделены на r классов. Каждый класс содержит определенное количество объектов, и их необходимо классифицировать с использованием оптимальной системы признаков
(информативного вектора).
2-й этап. Выбор признакового пространства. Для выбора оптимального размерности признакового пространства рассматривается множество информативных векторов Λℓ, где параметр ℓ определяет количество выбранных признаков. В процессе сокращения признакового пространства могут возникнуть ошибки классификации, поскольку некоторые объекты могут быть ошибочно отнесены к другому классу.
3-й этап. Оценка ошибок. Ошибки классификации оцениваются с помощью коэффициента ошибки ( 0С1Ж ) и количества неправильно классифицированных объектов ( ?(l)h ) Они взаимосвязаны следующим уравнением.
C0Ci)b) = ^)^- т
Здесь т обозначает общее количество объектов.
4-й этап. Важность классификации. Если ошибочная классификация некоторых классов является критически важной, то используются коэффициенты значимости классов α p и β p . Эти коэффициенты влияют на количество объектов, которые ошибочно вышли из класса или были ошибочно в него включены
?С<№ = a v t°^ + 0рф
Кроме того, общий коэффициент ошибки определяется следующим образом:
у г pout , о Лп
Laр = 1 ^р Рр 'РрРр
т
5-й этап. Цель оптимизации. Основная цель диссертации – разработать такое решающее правило (классификатор), при котором ошибка классификации будет минимальной. Это сводится к следующей задаче оптимизации min 9С1)1л ЛеЛг
Здесь Л1 - множество I -информативных векторов.
6-й этап. Практическое значение. Данный метод применяется в диагностике, медицинской классификации, машинном обучении и интеллектуальном анализе данных.
Минимизация ошибок при выборе признакового пространства является ключевой задачей, что повышает точность и надежность системы.
ЗАКЛЮЧЕНИЕ
В предложенной нами модели рассматривается задача оптимизации, направленная на выбор информативной системы признаков и оценку их влияния с целью минимизации ошибок классификации. В этом процессе основное внимание уделяется оптимальному выбору признакового пространства, что позволяет повысить эффективность системы и снизить ошибки классификации.
В данном исследовании рассматривается задача выбора оптимальной системы описательных признаков для разделения объектов на классы и минимизации ошибок классификации. Выбор признакового пространства является важным этапом классификации, направленным на снижение вероятности неверного отнесения объектов к классам. Анализируется зависимость количества ошибок классификации от значимости класса. В результате предложен оптимизационный подход, основанный на минимизации ошибок, для построения оптимального правила классификации. Этот метод обладает высокой эффективностью в медицинской диагностике, машинном обучении и интеллектуальном анализе данных, способствуя повышению точности и надежности системы.