Использование логистических регрессий и нейронных сетей в выявлении рака предстательной железы

Автор: Соловов В.А., Фролова И.Г.

Журнал: Сибирский онкологический журнал @siboncoj

Рубрика: Клинические исследования

Статья в выпуске: 1 (17), 2006 года.

Бесплатный доступ

В настоящее время для выявления рака простаты разработаны модели логистических регрессий (ЛР) и искусственных нейронных сетей (ИНС). Новая стратегия выявления рака предстательной железы, основанная на регрессионном и нейросетевом анализе, позволила значительно улучшить качество диагностики данного заболевания, при этом существенно снижая количество ненужных биопсий.

Короткий адрес: https://sciup.org/14054241

IDR: 14054241

Текст научной статьи Использование логистических регрессий и нейронных сетей в выявлении рака предстательной железы



Onco_1(17)_2.p65

ИСПОЛЬЗОВАНИЕ ЛОГИСТИЧЕСКИХ РЕГРЕССИЙ И НЕЙРОННЫХ СЕТЕЙ В ВЫflВЛЕНИИ РАКА ПРЕДСТАТЕЛЬНОЙ ЖЕЛЕЗЫ

В.А. Соловов1, И.Г. Фролова2

Самарский государственный медицинский университет, Самарский диагностический центр1 ГУ НИИ онкологии Томского научного центра СО РАМН2

В настоящее время для выявления рака простаты разработаны модели логистических регрессий (ЛР) и искусственных нейронных сетей (ИНС). Новая стратегия выявления рака предстательной железы, основанная на регрессионном и нейросетевом анализе, позволила значительно улучшить качество диагностики данного заболевания, при этом существенно снижая количество ненужных биопсий.

ESTIMATION EFFECTIVENESS OF LOGISTIC REGRESSION AND NEURAL NETWORK ANALYSIS IN PROSTATE CANCER DETECTION

V.A. Solovov1, I.G. Frolova2

Samara state medical university, Samara diagnostic center1

Cancer research institute, Tomsk2

Nowadays logistic regression (LR) and artificial neural networks (ANN) models have been developed for prostate cancer detection. The use of LR and ANN in clinical practice increases the PCa detection accuracy and allows to escape unnecessary biopsies.

Первые модели логистических регрессий (ЛГ) и искусственных нейронных сетей (ИНС) для выявления рака предстательной (РПЖ) железы были разработаны в 1994 г. [1, 3, 5, 6]. Вне всякого сомнения, использование нейросетевого анализа в клинической практике повышает точность диагностики РПЖ и позволяет избежать ненужных биопсий.

Целью работы явились создание модели логистических регрессий и искусственных нейронных сетей в выявлении рака предстательной железы и оценка их эффективности, а также сравнение диагностической точности разработанных математических моделей с возможностями других диагностических методов: трансректального ультразвукового исследования (ТРУЗИ), определения концентраций общего (t-ПСА) и свободного простатического специфического антигена (f-ПCА), тестостерона.

Материалы и методы

В исследование был включен 151 пациент с заболеваниями предстательной железы в возрасте от 49 до 85 лет. Из них 62 (41,1 %) больных раком предстательной железы и 89 (58,9 %) ‒ с доброкачественной гиперплазией предстательной железы (ДГПЖ). Всем пациентам было проведено трансректальное ультразвуковое исследование с мультифокальной био- псией, определены концентрации тестостерона, общего (t-ПCА) и свободного ПCА (f-ПCА) в сыворотке крови, рассчитаны плотности общего ПCА (ПCА-d) и свободного ПCА (f-ПCА-d). Построение логистической регрессии осуществлялось с помощью программы Mathematica 5.2 (Wolfram Research, США), для нейросетевого анализа применялся пакет Statistica Neural Networks (StatSoft, США).

Результаты и обсуждение

В результате проведенных исследований нами были получены переменные, которые в виде дескриптивной статистики переменных и их статистической значимости, рассчитанной по Mann ‒ Whitney, приведены в табл. 1. Как следует из таблицы, все переменные, за исключением возраста и объема предстательной железы, статистически значимо различались в сравниваемых группах. Средние значения показателей t-ΠCA, f-ΠCA, ΠCA-d, f-ΠCA-d были выше в 1,5‒4,8 раза у больных раком простаты, чем у пациентов с доброкачественной гиперплазией, а соотношение f/t-ПCА в 2,6 раза ниже.

Для определения наиболее значимых переменных при предсказании рака простаты использовали метод пошагового отбора, в результате которого для построения логистических регрессий и нейронных

Использование логистических регрессий и нейронных сетей в выявлении рака предстательной железы

Таблица 1

Описательная статистика входящих переменных

Группы больных

Рак проз тэты (if62)

ДГПЖ (п=89)

Возраст; лет Медиана (диагазон)

70(65±7;67 73 (54-88)

69,14± 7,49 68(5 (51-85)

0(17

t-ПСА, нг/™ Медиана (диагазон)

1 1,918,42 10,7(0-30)

5,651:6,75

3(9 (0-32)

0Д01

f-ПСА, нт/мл Медиана (диагазон)

5(8611^

1,97 (0-75,8)

1,21±1Д9 0(98 (0(13-4,81)

0(05

MCA Медиана (диагазон)

0^QtC(18 0,13 (0,02-0,8)

С(7б±1,83 0^1 (0,4—12^)

0(05

ПСА-d, нг/мл/см

Медиана (диагазон)

0,41±Ц38 0,28(0,02-1,58)

0,14±0,19 0(07(0-0,98)

0(005

Г-ПСА-d, нг/мл/см Медиана (диагазон)

0Д&Д(Е 0,035 (0J001-0,42)

С(132±0,02 0(02 (0-0,1)

0(01

Тестостерон Медиана (диагазон)

10,22t5,47 9^4 (2^1-33,7)

12,7811,83

11,75 (2,83

34,44)

0(05

Объем простаты, см Медиана (диагазон)

39,13t31,9

35^4 (Щ81-

159,9)

46Д7±32Д 3^83(12,04-170,82)

0(21

ГРУЗИ

-ДГПЖ (1)

-рак (0)

б 53

61

28

Рис. 1. Характеристическая кривая (ROC)для ЛГ. Входящие переменные: ТРУЗИ, t-ΠCA, f/t-ΠCA, f-ΠCA-d, AUC 0,91

Рис. 2. Характеристическая кривая (ROC) для ИНС. Входящие переменные: возраст, ТРУЗИ, t-ΠCA, f-ΠCA-d, AUC 0,95

сетей были отобраны следующие показатели: возраст, ТРУЗИ, уровни t-ΠCA, f/t-ΠCA, f-ΠCA-d. Для оценки эффективности используемых методик был применен ROC-анализ. Площадь под кривой (AUC) и характеристическая кривая (ROC) (рис. 1, 2) являются показателями, определяющими точность ЛР и ИНС. Площадь под кривой указывает на достоверность диагностического теста. В нашем исследовании это возможность разграничения злокачественных и доброкачественных заболеваний простаты. Диапазон AUC может быть от 50 % (минимальная возможность разграничения) до 100 % (высокая предсказательная точность). В ходе исследований были построены логистические регрессии, искусственные нейронные сети и характеристические кривые для каждого входящего параметра при определении диагностической значимости отдельных параметров и их комбинаций с целью выявления наиболее существенных переменных.

Логистическая регрессия [4] является математической моделью, которая позволяет прогнозировать вероятность наступления бинарного события (например, у=1 означает «наличие рака предстательной железы», у=0 ‒ «рак простаты не обнаружен»). Наиболее эффективной (с максимальным значением AUC 0,91) оказалась логистическая регрессия с входящими переменными: данные ТРУЗИ, t-ΠCA, f/t-ΠCA, f-ΠCA-d (рис. 1).

Логическая регрессия представлена следующим уравнением, которое рассчитывает вероятность наличия злокачественной опухоли (Y):

- 7 , 617 - x 1 + 35 , 104 - x 2 - 0 , 977 - x 3 + 23 , 039 - x 4

Y = e

1 + e-7,617-x, +35,104-^2-0,977-^3 +23,039-^4 , где х1, х2, х3, х4 ‒ переменные данные ТРУЗИ, t-ΠCA, f/t ‒ΠCA, f-ΠCA-d.

В.А. СОЛОВОВ, И.Г. ФРОЛОВА

Для построения искусственных нейронных сетей была использована архитектура многослойного персептрона (MLP), которая была предложена в работе Rumelhart, McClelland (1986) и применяется сейчас наиболее часто. Итак, построение сети (после выбора входных переменных) состояло из следующих шагов. Был проведен ряд экспериментов с различными конфигурациями, в ходе которых запоминалась лучшая сеть (с наименьшей контрольной ошибкой). Для каждой конфигурации проводилось несколько экспериментов, для того чтобы не получить ошибочный результат, при котором процесс обучения попал бы в локальный минимум. Обучение и тестирование нейронных сетей проводилось по 10 раз, при этом каждый пациент попадал в тестируемую группу однажды. Для устранения перетренировки сети использовалась процедура перекрестной проверки.

Нейронная сеть, предсказывающая вероятность наличия у пациента рака предстательной железы с высокой точностью (высокая чувствительность), должна при этом минимизировать количество ненужных биопсий (высокая специфичность). Чувствительность 95 % означает, что нейронная сеть правильно выявляет 95 % больных раком простаты. Специфичность показывает процент ненужных биопсий, которые можно избежать.

Hа рис. 2 представлена характеристическая кривая (ROC) для ИНС со следующими входными переменными: возраст, ТРУЗИ, t-ΠCA, f-ΠCA-d, AUC 0,95. ROC-анализ показал, что переменные: возраст, объем простаты и уровень тестостерона ‒ имели AUC меньше 0,50, следовательно, вследствие низкой чувствительности и низкой специфичности они не обладали разграничительными возможностями и эти показатели нельзя использовать изолированно для диагностики рака простаты. AUC трансректального ультразвукового исследования составила 0,72, t-ПCA ‒ 0,81. Площадь под кривой у показателя f-ПCA оказалась невысокой ‒ 0,68. У остальных переменных f/t-ПCA, ПCA-d, f-ПCA-d вычисленные площади (AUC) различались незначительно ‒ 0,76, 0,83, 0,78 соответственно. Проведенный нейросетевой анализ показал, что наименьшей разграничительной способностью обладали следующие входные переменные: возраст, объем простаты, уровень тестостерона и концентрация свободной фракции ПCA. Данные ультразвукового исследования, уровней концентрации t-ПCA, f/t-ПCA, ПCA-d, f-ПCA-d значительно лучше разграничивали злокачественные и доброкачественные заболевания предстательной железы.

Анализ результативности построенных искусственных нейронных сетей показал, что лучшими характеристиками по чувствительности, специфичности, точности диагностики РПЖ и минимальной ошибке качества работы обладала MLP-сеть, которая имела пять входных нейронов, два скрытых и один выходной (рис. 3). В качестве входных переменных были выбраны возраст, результаты ТРУЗИ, t-ПCA, f/t-ПCA, f-ПCA-d.

Рис. 3. Структура используемой искусственной нейронной сети (многослойный персептрон), входящие переменные: возраст, ТРУЗИ, t-ПCA, f/t-ПCA, f-ПCA-d: X1-X5 -входящие переменные; Z1-Z2 - скрытые слои; Y - выходной нейрон

Таблица 2

Диагностические характеристики используемых тестов

ТРУ-ЗИ* цв. УЗИ

1-ПСА

ГЛ-ПСА

f-nCA-d

ЛР

ИНС

Пре доказательная ценность положительного теста

0,65

0^4

0,70

0,80

0^3

0,85

Tfyrc твите льность

теста

0,84

0 90

0,65

059

0^7

0^-5

Пре доказательная ценность отрицательного теста

0,49

0^4

0,70

0,i58

0 р2

0^-2

Специфичность

0,46

0,50

0,75

0,85

0 р5

0,89

Диагн о с ття е ска я точность

0,75

о;о

0,70

0,72

0^2

0,93

Диагностические характеристики используемых методов диагностики представлены в табл. 2. Смоделированная логистическая регрессия и построенная искусственная нейронная сеть обладали более высокими показателями диагностической эффективности. Основным недостатком ультразвукового исследования

Использование логистических регрессий и нейронных сетей в выявлении рака предстательной железы

и определения концентрации t-ПCА являлась их низкая специфичность ‒ 0,46 и 0,50 соответственно. Опреде-лeние концентраций изоформ простат специфического антигена увеличило специфичность, но при этом происходило и снижение чувствительности.

Диагностическая точность методик при одиночном употреблении ТРУЗИ, t-ПCА, f/t-ПCА, f-ПCА-d ʜe превышала 70‒75 %, т.е. использование традиционных диагностических тестов не позволило выявить около 30 % злокачественных новообразований предстательной железы. Построенные логистическая рeг-рeссия и искусственная нейронная сеть имели лучшие показатели специфичности (95,8 % и 89 %), чувствительности (87,5 % и 95 %), предсказательной ценности положительного (93,3 % и 85 %) и отрицательного результата (92 % и 92 %), диагностической точности (92,5 % и 93 %). По сравнению с традиционными методами диагностики ЛР и ИНС позволили дополнительно выявить от 3 до 43 % злокачественных новообразований простаты, сократив при этом количество ненужных биопсий с 4 до 43 %. Результаты данного исследования согласуются с работами A. Virtanen et al. [6], B. Djavan et al. [2]. Несмотря на то, что полученные результаты были статистически значимы, следует учитывать ограниченное количество исходных данных, поэтому для экстраполяции выводов настоящей работы на всю популяцию исследования в данном нaпрaвлeнии следует продолжить.

Заключение

Таким образом, новая стратегия выявления рака предстательной железы, основанная на регрессион- ном и нейросетевом анализе, позволила значительно повысить качество диагностики данного заболевания, при этом существенно снизить количество ненужных биопсий. Искусственная нейронная сеть имеет сопоставимую диагностическую точность с логистической регрессией, и их эффективность значительно выше эффективности традиционных методов диагностики.

Статья научная