Формирование признаков для повышения качества медицинской диагностики на основе методов дискриминантного анализа
Автор: Ильясова Наталья Юрьевна, Куприянов Александр Викторович, Парингер Рустам Александрович
Журнал: Компьютерная оптика @computer-optics
Рубрика: Обработка изображений: Восстановление изображений, выявление признаков, распознавание образов
Статья в выпуске: 4 т.38, 2014 года.
Бесплатный доступ
Рассматривается компьютерная система диагностики глазных заболеваний, которую для повышения качества диагностики предлагается дополнить алгоритмом формирования информативных признаков, с использованием методов дискриминантного анализа. Описан способ получения оценки информативности. При помощи классификации методом опорных векторов было проведено исследование, подтверждающее эффективность сформированных признаков для классификации изображений глазного дна. Алгоритм обладает достаточной степенью универсальности и может быть применён для повышения информативности любого набора признаков.
Глазное дно, классификация изображений сосудов, дискриминантный анализ, метод опорных векторов
Короткий адрес: https://sciup.org/14059317
IDR: 14059317
Текст научной статьи Формирование признаков для повышения качества медицинской диагностики на основе методов дискриминантного анализа
В статье рассматривается методология выделения диагностически значимой информации на изображениях кровеносных сосудов глазного дна (рис. 1). Доступность к неинвазивному осмотру и визуализации делает сосуды глазного дна весьма информативными для анализа и прогностически значимыми в оценке состояния всего организма.
Рис. 1. Примеры диагностических изображений глазного дна. Слева – норма, справа – патология
Совместно с врачами кафедры офтальмологии Медико-стоматологического университета г. Москвы были проведены исследования для определения диагностических возможностей методов цифрового анализа изображений глазного дна [1]. Была разработана методика диагностирования глазных заболеваний, основанная на построении количественных оценок элементов патоморфологической картины, используемой для формирования оценки степени патологии [2].
Был предложен глобальный набор геометрических признаков [3–8]: средний диаметр D cp , прямолинейность Р , чёткообразность S , амплитуда колебаний толщины A 0 , частота колебаний толщины ω 0 , извилистость толщины I 0, амплитуда колебаний трассы A 1, частота колебаний трассы ω1, извилистость трассы I 1, – достаточно точно соответствующий медикодиагностическим признакам картины глазного дна, рекомендованным в медицинскую практику.
Дополнительной информацией для решения задачи повышения качества диагностики по изображениям кровеносных сосудов глазного дна может служить уровень взаимодействия между признаками, который выражается величиной коэффициентов корреляции. Если связь между какими-то признаками является достаточно сильной, то возникает вопрос о целесообразности использования этих признаков и появляется возможность уменьшить размерность пространства признаков либо путём отказа от каких-то из них и использования только одного из связанных признаков, либо формированием на их базе некоторого совокупного признака. В первом случае мы уменьшаем количество вычислений, оставляя признаки, характеризующиеся наилучшим значением какого-либо критерия. Во втором случае появляется возможность получить новый, более эффективный признак для классификации.
Существует несколько подходов, применяемых для повышения информативности признаков: корреляционный анализ, регрессионный анализ, факторный анализ, кластерный анализ, дискриминантный анализ [9].
При анализе признаков по критерию эффективности классификации наибольший интерес представляют методы дискриминантного анализа, а точнее, методы интерпретации межгрупповых различий. Дискриминантный анализ – раздел многомерного статистического анализа, который позволяет изучать различия между двумя и более классами объектов по нескольким переменным одновременно [10]. При этом определяется возможность различить классы с использованием заданного набора признаков, а также решается задача выбора признаков, обеспечивающих наилучшее разделение классов.
Таким образом, включение в компьютерную систему диагностики глазных заболеваний алгоритма формирования пространства эффективных признаков на основе дискриминантного анализа позволит максимизировать разделимость классов «норма» и различных степеней патологии.
-
1. Алгоритм дискриминантного анализа
Основным предположением дискриминантного анализа является то, что классификация будет осуществляться тем лучше, чем меньше рассеяние точек признакового пространства относительно центроида внутри класса и чем больше расстояние между центроидами классов [10].
Пусть дана выборка, состоящая из n элементов, разделённых на g классов, и содержащая p признаков. В дискриминантном анализе мерой эффективности выборки являются критерии разделимости, которые рассчитываются по формулам:
J1 = tr ((T)-1B),(1)
J2 = ln{|T|/|W|},(2)
где T = B + W .
B – матрица межгруппового рассеяния, элементы которой рассчитываются по формуле:
by = Eg=1 nk (x' - xi)(xjk -xj), i, j = 1,P,
W – матрица внутригруппового рассеяния, элементы которой рассчитываются по формуле:
w j = E g = 1 E nk = 1 ( x ikm — x ik )( x jkm — x jk ) , i , j = 1, P , (4) x ikm – значение i -го признака для m -го элемента в классе k , x ik = 1/nk E m m = 1 x m — среднее значение i -го признака в классе k , x = (1/ " ) E k = 1 " k X k — среднее значение i -го признака по всем классам, n k – число элементов в классе k .
Чем больше значение критерия, тем больше разделимость классов.
Пусть x = [ x 1 x 2 . . x p ] T - исходный вектор признаков. Рассмотрим алгоритм формирования новых признаков y = [y i y 2 y m ] T .
-
1. Для матрицы T-1B о пределим значения собственных векторов v i , i = 1, p .
-
2. Определим вектора н ор мированных коэффициентов в i = [ в 0, Р 1 . в p ], i = 1, m , где элементы P i , i = 0, p вычисляются следующим образом:
-
3. Вычислим элементы вектора новых признаков по формуле:
p ро =-E P ix, P i =V iN" - g , i = 1, P . (5)
i = 1
y i = P o +P 1 X 1 + ... + P p X p , i = 1, m . (6)
Число сформированных признаков не может превышать числа исходных.
Отметим, что для оценки вклада каждого исходного признака в значение каждого нового признака можно использовать стандартизованные коэффициенты :
-
c i = P i w ii/ n - g , i = 1, p . (7)
-
2. Описание эксперимента
Если абсолютная величина коэффициента для данной переменной мала, то эту переменную можно исключить, тем самым сократив число переменных [11].
Для решения поставленной задачи было реализовано программное обеспечение. Исследование работоспособности алгоритма проводилось на данных, полученных по результатам диагностики 151 пациента с различными стадиями заболевания. Было обработано 302
изображения: по одному для левого и правого глаза каждого пациента. Для количественного выражения медико-диагностических характеристик сосудов были сформированы наборы глобальных признаков. Для получения признаков использовалась разработанная компьютерная система диагностики глазных заболеваний.
Так как врачи рассматривают венулы и артериолы первого и второго порядков отдельно, было сформировано четыре группы сосудов, как представлено в табл. 1.
Табл. 1. Группы сосудов
Артериолы |
Венулы |
|
Первый порядок |
Группа 1 |
Группа 3 |
Второй порядок |
Группа 2 |
Группа 4 |
Каждая группа делится на пять различных классов, в зависимости от степени развития заболевания. «Класс 0» соответствует отсутствию патологии. «Класс 1» – «Класс 4» соответствуют степеням развития диабетической ретинопатии. Распределение векторов признаков на группы и классы представлено в табл. 2. Классификация проводилась по степеням патологии внутри групп.
Табл. 2. Распределение векторов признаков по группам и классам
Классы |
0 |
1 |
2 |
3 |
4 |
Группа 1 |
90 |
340 |
540 |
530 |
160 |
Группа 2 |
710 |
400 |
885 |
530 |
150 |
Группа 3 |
250 |
420 |
630 |
530 |
410 |
Группа 4 |
520 |
500 |
720 |
490 |
450 |
Рассмотрим основные этапы вычислительного эксперимента:
-
1. Формируем выборку. Получаем данные с использованием уже имеющихся трасс натурных изображений.
-
2. Разбиваем полученную выборку сосудов на классы на основе формальных признаков.
-
3. Оцениваем глобальные признаки сосудов D ср , S , P , A o , ® o , 1 0 , A 1 , ® 1 , 1 1 .
-
4. Выбираем комбинацию исходных признаков.
-
5. Рассчитываем критерии J 1, J 2 для выбранных признаков.
-
6. Формируем новые признаки по представленному ранее алгоритму.
-
7. Рассчитываем критерии J 1, J 2 для сформированных признаков.
При проведении эксперимента учитывались все возможные комбинации исходных признаков. В результате наилучшие значения критериев были получены при формировании четырёх новых признаков с использованием всех девяти исходных. Значения полученных стандартизованных коэффициентов для «Группа 1» и «Группа 4» приведены в табл. 3 и 4 соответственно.
Проанализировав результаты эксперимента, можно сделать вывод о том, что для каждой группы характерен свой набор сформированных признаков. Критерием в данном случае является величина абсолютного значения стандартизованного коэффициен- та: чем больше значение, тем более весомый вклад внёс признак. На основании полученных результатов можно сделать вывод о том, что признак частота колебаний толщины ω0 является весомым для обеих групп, но для «Группа 1» также весомым является признак чёткообразность S, а для «Группа 4» – извилистость толщины I0.
Табл. 3. Значения стандартизованных коэффициентов. Группа 1
p 0 |
p 1 |
p 2 |
p 3 |
|
D ср |
0,291 |
0,015 |
–0,814 |
0,017 |
S |
–30,142 |
0,768 |
116,796 |
9,595 |
P |
0,042 |
0,004 |
–1,160 |
0,004 |
A 0 |
–0,236 |
–0,004 |
7,944 |
0,006 |
ω 0 |
–0,578 |
0,788 |
–135,584 |
–0,765 |
I 0 |
–1,400 |
–0,568 |
63,797 |
–0,275 |
A 1 |
0,042 |
–0,004 |
–0,098 |
0,010 |
ω 1 |
–3,026 |
–0,088 |
–3,326 |
0,282 |
I 1 |
7,598 |
–0,117 |
–28,633 |
–2,533 |
Табл. 4. Значения стандартизованных коэффициентов. Группа 4
p 0 |
p 1 |
p 2 |
p 3 |
|
D ср |
–0,319 |
10,583 |
2,415 |
–0,136 |
S |
–1,082 |
4,256 |
3,201 |
0,318 |
P |
–0,158 |
0,184 |
1,146 |
–0,080 |
A 0 |
–0,126 |
28,249 |
–5,741 |
1,572 |
ω 0 |
–28,731 |
383,399 |
143,014 |
9,390 |
I 0 |
34,427 |
–304,961 |
–90,478 |
–5,145 |
A 1 |
–0,066 |
1,284 |
–0,370 |
–0,002 |
ω 1 |
–9,422 |
–49,036 |
–5,399 |
0,250 |
I 1 |
1,217 |
0,019 |
–1,727 |
–0,214 |
По значениям критериев разделимости производился выбор нового набора признаков. Для каждого набора новых признаков проводился расчёт ошибки классификации, при этом использовался метод опорных векторов [12]. При проведении эксперимента для оценивания вероятности ошибки классификации использовался метод исключения одного объекта [10].
Полученные значения критериев разделимости и ошибки классификации для всех групп сосудов представлены в табл. 5.
Табл. 5. Значения критериев разделимости классов и ошибка классификации
Группа |
J 1 |
J 2 |
Ошибка, % |
|
1 |
до |
1,98 |
3,52 |
10,5 |
после |
2,63 |
5,06 |
2,4 |
|
2 |
до |
2,27 |
4,07 |
7,3 |
после |
2,59 |
5,28 |
1,8 |
|
3 |
до |
2,06 |
3,61 |
6,1 |
после |
2,59 |
4,86 |
2 |
|
4 |
до |
2,36 |
4,01 |
14,3 |
после |
2,61 |
4,86 |
1,8 |
Заключение
В компьютерную систему диагностики глазных заболеваний [1] был включён алгоритм формирования пространства эффективных признаков на основе дискриминантного анализа. Алгоритм позволяет повысить эффективность классификации сосудов глазного дна по классам нормы и различным степеням патологии, при этом ошибка классификации сосудов составляет не более 2,4 %.
Показано, что для каждой группы сосудов глазного дна важен свой базовый набор диагностических признаков, что подтверждается клиническими исследованиями. Применение алгоритма для каждой группы сосудов приводит к улучшению критерия разделимости изображений сосудистых систем на классы патологий, включающие 4 стадии диабетической ретинопатии: «Группа 1» – на 32 %, «Группа 2» – на 14,1 %, «Группа 3» – на 25,9 %, «Группа 4» – на 15,8 %.
Предложенный алгоритм обладает достаточной степенью универсальности и применим для повышения информативности любого набора признаков.
Внедрение проблемно-ориентированного программного комплекса позволит эффективно решать задачи анализа изображений глазного дна для ранней диагностики заболеваний.
Работа выполнена при государственной поддержке Министерства образования и науки РФ в рамках реализации мероприятий Программы повышения конкурентоспособности СГАУ среди ведущих мировых научно-образовательных центров на 2013-2020 годы; грантов РФФИ 12-01-00237-а, 14-01-00369-а, 14-07-97040-р_поволжье_а; программы № 6 фундаментальных исследований ОНИТ РАН «Биоинформатика, современные информационные технологии и математические методы в медицине» 2014 г.