Применение регрессионного анализа и деревьев классификации для расчета дополнительного популяционного риска ишемической болезни сердца
Автор: Максимов С.А., Цыганкова Д.П., Артамонова Г.В.
Журнал: Анализ риска здоровью @journal-fcrisk
Рубрика: Алгоритмы, методы и результаты оценки экспозиции факторов риска
Статья в выпуске: 3 (19), 2017 года.
Бесплатный доступ
Цель исследования состояла в проведении сравнительного анализа применения регрессионного анализа и деревьев классификации для расчета дополнительного популяционного риска на примере ишемической болезни сердца (ИБС). Объектом исследования явилась случайная популяционная выборка мужского и женского взрослого населения в возрасте 25-64 лет, проживающего в Кемеровской области (1628 человек), в рамках многоцентрового эпидемиологического исследования ЭССЕ-РФ. В качестве факторов риска ИБС рассматривались показатели липидного обмена, артериальная гипертензия, факторы образа жизни, психоэмоциональные особенности, социальные показатели. Оценка наличия ИБС проводилась по сумме трех эпидемиологических критериев: на основе кодирования ЭКГ-изменений по Миннесотскому коду, опросника Rose и инфаркта миокарда в анамнезе. Расчет дополнительного популяционного риска ИБС, обусловленного факторами риска, проводился по единым оригинальным алгоритмам, но с помощью разных методов статистического анализа: логистического регрессионного анализа и деревьев классификации. По факторам риска построены математические модели вероятности ИБС с прогностической значимостью для логистического регрессионного анализа 83,8 %, деревьев классификации - 71,9 %. Используемые методы статистического анализа показывают разные значения вклада факторов риска в показатели распространенности ИБС, что следует из отсутствия корреляционной связи между ними. По обоим методам статистического анализа дополнительный к популяционному риск ИБС, обусловленный нагрузкой факторами риска, в половозрастных группах изменяется с отрицательных значений в возрастных группах до 45 лет включительно до положительных значений у лиц более старшего возраста. Увеличение дополнительного риска ИБС в возрастных группах по обоим методам практически линейное, с небольшими отклонениями. Разница дополнительного популяционного риска, рассчитанного по двум методам статистического анализа, незначительная, как правило, не превышает 1,5 %. Следовательно, оба метода показывают схожие результаты и могут в равной степени использоваться при расчете популяционного риска ИБС.
Регрессионный анализ, фактор риска, ишемическая болезнь сердца, популяционный риск, прогностические модели, методы статистического анализа
Короткий адрес: https://sciup.org/14238019
IDR: 14238019 | DOI: 10.21668/health.risk/2017.3.04
Текст научной статьи Применение регрессионного анализа и деревьев классификации для расчета дополнительного популяционного риска ишемической болезни сердца
каментозной терапии [11, 13, 14]. К настоящему времени разработано большое количество моделей прогнозирования индивидуального риска, включая такие широко известные, как Фре-мингемская шкала, SCORE, PROCAM и другие, а также их многочисленные модификации [1, 2, 10, 11, 13, 14].
Оценка популяционного риска сердечнососудистых заболеваний применяется, как правило, в эпидемиологических исследованиях и направлена на моделирование и прогнозирование на уровне популяции или субпопуляции (регионы, группы населения) [4]. На практике моделирование популяционных закономерностей достаточно часто используется для решения задач системы здравоохранения, например, оценки эффективности разных подходов лечения и профилактики [3, 4, 15].
Разработанные нами подходы к оценке популяционного риска методологически перекликаются со шкалами индивидуального сердечнососудистого риска [5]. В последнем случае объектом анализа являются индивиды, а наличие у них факторов риска (например, курение) и их количественные характеристики (например, возраст, уровень артериального давления) интегрируются в итоговое прогностическое значение сердечно-сосудистого риска. При оценке популяционного риска объектом исследования являются группы населения, распространенность факторов сердечно-сосудистого риска у которых может в значительной степени отличаться вследствие гетерогенности по медико-демографическим, национальным, географическим, социально-экономическим и другим особенностям. В этом случае интегрирование популяционного риска основывается на анализе как различий распространенности факторов риска, так и оценке их вклада в изучаемые сердечно-сосудистые события.
Применение разработанных нами методических подходов позволило комплексно охарактеризовать бремя факторов сердечнососудистого риска (17 факторов) в 14 профессиональных группах с различными условиями труда [6]. Анализ популяционного риска ишемической болезни сердца (ИБС) на основе интегральной оценки 12 факторов риска позволил выявить половозрастные и социально-экономические закономерности изучаемого заболевания [5, 7]. В этих исследованиях для оценки вклада факторов риска в распространенность изучаемых заболеваний применялись деревья классификации. Вследствие того, что данный метод статистического анализа достаточно сложен в применении и не слишком распространен в биомедицинских исследованиях, необходимо оценить возможность использования других методов.
Цель исследования – сравнительный анализ применения регрессионного анализа и деревьев классификации для расчета дополнительного популяционного риска на примере ИБС.
Материалы и методы. Работа выполнена в рамках многоцентрового эпидемиологического исследования «Эпидемиология сердечнососудистых заболеваний и их факторов риска в Российской Федерации» (ЭССЕ-РФ) в Кемеровской области. Объектом исследования явилась случайная популяционная выборка мужского и женского взрослого населения в возрасте 25–64 лет, проживающего в Кемеровской области. Объем выборки составил 1628 человек, из них 700 мужчин (43,0 %) и 928 женщин (57,0 %).
Исследование выполнено в соответствии со стандартами надлежащей клинической практики (Good Clinical Practice) и принципами Хельсинкской декларации. Протокол исследования был одобрен этическим комитетом НИИ комплексных проблем сердечно-сосудистых заболеваний. До включения в исследование у всех участников было получено письменное информированное согласие.
В качестве факторов риска ИБС рассматривались показатели липидного обмена, артериальная гипертензия, факторы образа жизни, психоэмоциональные особенности, социальные показатели (низкий уровень дохода, отсутствие высшего образования, семьи, работы).
В соответствие с классификацией ВОЗ под ожирением подразумевали индекс Кетле свыше 30 кг/м2. Артериальная гипертензия классифицировалась по критериям ВОЗ/МОГ (1999) при систолическом артериальном давлении не менее 140 мм рт. ст. и диастолическом артериальном давлении не менее 90 мм рт. ст., а также при нормальных значениях на фоне приема гипотензивных препаратов.
Гиперхолестеринемия классифицировалась при концентрации общего холестерина более 5,0 ммоль/л, гипертриглицеридемия – триглицеридов более 1,7 ммоль/л, высокий уровень липопротеидов низкой плотности (ЛПНП) – при значениях более 3,0 ммол/л, низкий уровень липопротеидов высокой плотности (ЛПВП) – при значениях менее 1,0 ммоль/л, гипергликемия натощак – глюкозы более 5,6 ммоль/л.
Для оценки уровня депрессии использовали валидизированную в России госпитальную шкалу тревоги и депрессии (Hospital Anxiety and Depression Scale – HADS), для определения восприимчивости к стрессу – шкалу Perceived Stress Scale. По полученным порядковым рядам рассчитывали 75-й процентиль, значения выше рассматривались как фактор риска: по шкале депрессии – 8 баллов и выше, по уровню стресса – 5 баллов и выше.
Оценка наличия ИБС проводилась по сумме трех эпидемиологических критериев: на основе кодирования ЭКГ-изменений по Миннесотскому коду, опросника Rose (стенокардия напряжения) и инфаркта миокарда в анамнезе.
Расчет дополнительного популяционного риска ИБС, обусловленного факторами риска, проводился по единым алгоритмам, но с помощью разных методов статистического анализа.
На первом этапе рассчитан вклад изучаемых факторов риска в значения распространенности ИБС по всей выборке. Для этой цели в первом случае применялся логистический регрессионный анализ, во втором – деревья классификации. При использовании логистического регрессионного анализа для устранения возможного модифицирующего влияния пола и возраста их также вводили в анализ. В качестве показателя вклада фактора риска в распространенность ИБС оценивались значения В-коэффициента.
При использовании деревьев классификации применялся метод дискриминантного одномерного ветвления для категориальных и порядковых предикторов. В качестве критериев точности прогноза взяты равные цены неправильной классификации объектов и априорные вероятности, пропорциональные размерам классов зависимой переменной. Остановка ветвления производилась по правилу отсечения по ошибке классификации, при этом минимальное число неправильно классифицируемых объектов принималось равным 12, величина стандартной ошибки – 1,0. В качестве показателя вклада фактора риска в распространенность ИБС использовались значения рангов значимости предикторов.
Далее расчет проводился по единой схеме. Рассчитывалась распространенность факторов риска в половозрастных группах и в целом по выборке. Нагрузка факторами риска ИБС рассчитывалась как сумма произведений распространенности факторов риска с их вкладом в риски развития ИБС по формуле
Р = ∑( RC ) n , (1)
где Р – нагрузка факторами риска ИБС; R – распространенность фактора риска, %; С – вклад фактора риска в значения распространенности ИБС.
Далее рассчитывалась разница нагрузки факторами риска в половозрастных группах по сравнению с общей выборкой по формуле
∆ Р = Р гр. – Р в. , (2)
где ∆ Р – разница нагрузки факторами риска в половозрастных группах по сравнению с общей выборкой по формуле; Р гр. – нагрузка факторами риска в половозрастных группах; Р в. – нагрузка факторами риска в общей выборке.
На следующем этапе с помощью линейного регрессионного анализа определена ассоциация частоты ИБС со значениями нагрузок факторами риска в половозрастных группах. По полученному в ходе линейного регрессионного анализа В-коэффициенту разница нагрузок факторами риска в половозрастных группах переводилась в значения популяционного риска по формуле
Р % = ∆ РВ , (3)
где Р % – дополнительный к популяционному риск ИБС, обусловленный факторами риска, %; В – В-коэффициент связи частоты ИБС с нагрузкой факторами риска в линейном регрессионном анализе.
Критическим уровнем статистической значимости и р -уровнем для выбора переменной ветвления (для деревьев классификации) принимались значения 0,05.
Результаты и их обсуждение. По результатам логистического регрессионного анализа статистически значимые (либо приближающиеся к таковым, 0,1 > р > 0,05) ассоциации с ИБС, с учетом возраста и пола, наблюдаются по факторам риска: гипертензия, гипертриглицеридемия, гипергликемия, ожирение, сахарный диабет, курение, стресс, депрессия, отсутствие высшего образования и работы. Для дальнейшего анализа использовались только данные факторы риска.
В табл. 1 представлены В-коэффициенты по регрессионному анализу (от 0,046 – гипергликемия до 0,491 – сахарный диабет) и ранги по деревьям классификации (от 20 – у курения до 100 – у ожирения) выбранных факторов риска, которые далее использовались в расчете нагрузки факторами риска по формуле ( 1 ) по двум методам. Необходимо отметить, что про-
Таблица 1
Влияние факторов риска на вероятность ИБС по данным регрессионного анализа (с учетом пола и возраста) и значения рангов по данным деревьев классификации
Между значениями В-коэффициентов и рангами значимости факторов риска отсутствует статистически значимая связь, коэффициент корреляции составляет –0,32 при р = 0,37. Следовательно, разные методы статистического анализа дают разные значения вклада изучаемых факторов риска в показатели распространенности ИБС.
В табл. 2 и 3 представлена распространенность факторов риска и ИБС в половозрастных группах и в целом по выборке. В общей выборке распространенность факторов риска составляет от 3,9 % (сахарный диабет) до 60,7 % (отсутствие высшего образования). Распространенность ИБС в целом по выборке достигает 16,8 %, у мужчин – 13,5 %, у женщин – 19,2 %.
Рассчитанная нагрузка факторами риска по формуле ( 1 ) и разница нагрузки в половозрастных группах по сравнению с общей выборкой по формуле ( 2 ) по двум методам приведены в табл. 2 и 3. Нагрузка факторами риска, рассчитанная с помощью логистического регрессионного анализа, достигает в общей выборке 71,8, у мужчин – 72,0, у женщин – 71,7. С возрастом данная нагрузка закономерно увеличивается с 49,6 до 93,8 у мужчин и с 45,6 до 97,0 у женщин.
Аналогичные закономерности наблюдаются по нагрузке факторами риска, рассчитанной с помощью деревьев классификации. В общей выборке нагрузка составляет 19 459,6, у мужчин – 18 831,7, у женщин – 19 947,0. С возрастом нагрузка увеличивается с 10 570,0 до 28 512,9 у мужчин и с 10 250,0 до 30 457,8 у женщин.
Построенные с помощью линейного регрессионного анализа математические модели показали, что нагрузки факторами риска объясняют на 62,6 % (логистическая регрессия) и на 71,7 % (деревья классификации) частоту ИБС в половозрастных группах. Полученные по данным моделям В-коэффициенты регрессии использовались для перевода разницы нагрузок факторами риска в значения популяционного риска по формуле ( 3 ).
При использовании логистического регрессионного анализа В-коэффициент равен 0,4345, при использовании деревьев классификации – 0,0012.
Дополнительный к популяционному риск ИБС, обусловленный факторами риска, рассчитанный по формуле ( 3 ), представлен на рис. 1 ( а – регрессионный анализ; б – деревья классификации). По обоим методам дополнительный риск в младших возрастных группах (до 46 лет) ниже популяционного от –2 до –11 %, после 45 лет достигает значений выше популяционных от 0,5 до 13,0 %. Увеличение дополнительного риска ИБС в возрастных группах практически линейное, с небольшими откло-
Таблица 2
Распространенность факторов риска, ИБС и нагрузка факторами риска в возрастных группах мужчин и в общей выборке
Фактор риска |
Возрастная г |
руппа, лет ( n ) |
Все мужчины, (700) |
Вся выборка |
||||||
до 30 (86) |
31–35 (85) |
36–40 (88) |
41–45 (65) |
46–50 (98) |
51–55 (94) |
56–60 (107) |
61–65 (77) |
|||
Гипертензия, % |
20,9 |
37,6 |
44,3 |
56,9 |
51,0 |
69,1 |
61,7 |
71,4 |
51,7 |
43,3 |
Гипертриглицеридемия, % |
14,1 |
17,6 |
21,8 |
24,6 |
25,5 |
25,5 |
27,4 |
23,7 |
22,7 |
20,3 |
Гипергликемия, % |
8,2 |
7,1 |
11,5 |
7,7 |
17,3 |
28,7 |
22,6 |
43,4 |
18,5 |
17,2 |
Ожирение, % |
12,9 |
22,3 |
21,6 |
35,4 |
36,7 |
35,5 |
34,6 |
37,7 |
29,7 |
35,2 |
Сахарный диабет, % |
1,2 |
0,0 |
0,0 |
0,0 |
4,1 |
5,3 |
4,7 |
14,7 |
3,7 |
3,9 |
Курение, % |
47,7 |
47,1 |
46,6 |
47,7 |
50,0 |
48,9 |
43,0 |
33,8 |
45,7 |
30,5 |
Стресс, % |
10,5 |
15,3 |
12,5 |
9,2 |
13,3 |
11,7 |
14,0 |
16,9 |
13,0 |
22,6 |
Депрессия, % |
8,1 |
11,8 |
10,2 |
9,2 |
13,3 |
13,8 |
16,8 |
27,3 |
13,9 |
19,0 |
Образование, % |
43,0 |
51,8 |
61,4 |
55,4 |
70,4 |
71,3 |
63,6 |
63,6 |
60,6 |
60,7 |
Работа, % |
9,3 |
9,4 |
9,1 |
7,7 |
16,3 |
26,6 |
32,1 |
64,9 |
22,0 |
25,4 |
ИБС, % |
3,5 |
3,5 |
5,9 |
9,2 |
10,3 |
22,3 |
21,5 |
30,3 |
13,5 |
16,8 |
Нагрузка 1 |
49,6 |
59,9 |
63,3 |
66,2 |
78,2 |
82,4 |
79,9 |
93,8 |
72,0 |
71,8 |
Разница 1 |
–22,2 |
–11,9 |
–8,5 |
–5,6 |
6,4 |
10,6 |
8,1 |
22,0 |
0,2 |
0 |
Нагрузка 2 |
10570 |
13885,1 |
15345 |
16671,4 |
19941,2 |
22920,1 |
22014,8 |
28512,9 |
18831,7 |
19459,6 |
Разница 2 |
–8889,6 |
–5574,5 |
–4114,6 |
–2788,6 |
481,6 |
3460,5 |
2555,2 |
9053,3 |
–627,9 |
0,0 |
Таблица 3
Распространенность факторов риска, ИБС и нагрузка факторами риска в возрастных группах женщин
Между значениями дополнительного популяционного риска, рассчитанного с помощью регрессионного анализа и с помощью деревьев классификации, определяется статистически значимая ( р < 0,05) сильная положительная связь, коэффициент корреляции равен 0,99. Разница дополнительного популяционного риска незначительная, колеблется от 0,1 до 2,3 %; в большин-

Значения дополнительного риска, % Значения дополнительного риска, %

б
Рис. 1. Дополнительный к популяционному риск ИБС, обусловленный факторами риска: а – регрессионный анализ; б – деревья классификации

Половозрастные группы
Примечание: м – мужчины, ж – женщины, 1 – до 30 лет, 2 – 31–35 лет, 3 – 36–40 лет, 4 – 41–45 лет, 5 – 46–50 лет, 6 – 51–55 лет, 7 – 56–60 лет, 8 – 61–65 лет.
Рис. 2. Разница дополнительного популяционного риска, рассчитанного по двум методам статистического анализа стве половозрастных групп разница не превышает 1,5 % (рис. 2). Максимальные различия отмечаются среди женщин в возрасте 61–65 лет, мужчин 46–50 лет и женщин 56–60 лет.
Выводы. Таким образом, результаты исследования свидетельствуют о том, что оба используемых метода статистической обработки данных позволяют проводить комплексную оценку факторов риска ИБС на достаточно высоком прогностическом уровне. Прогностическая значимость математической модели при использовании логистического регрессионного анализа составляет 83,8 %, с помощью деревьев классификации – 71,9 %. В то же время два используемых метода статистического анализа дают разные значения вклада изучаемых факторов риска в показатели распространенности ИБС, что следует из отсутствия статистически значимой связи между значениями В-коэффициентов и рангами значимости факторов риска.
Полученные данные позволяют рассчитывать нагрузку факторами рисками. При этом по обоим методам (регрессионный анализ и деревья классификации) разница нагрузки в половозрастных группах по сравнению с общей выборкой изменяется с отрицательных значений в возрастных группах до 45 лет включительно до положительных значений у лиц более старшего возраста. Аналогичным образом изменяется дополнительный к популяционному риск ИБС, обусловленный нагрузкой факторами риска. Увеличение дополнительного риска ИБС в возрастных группах по обоим методам практически линейное, с небольшими отклонениями. Если у лиц обоего пола до 30 лет дополнительный риск ИБС ниже популяционного на 9,6–11,4 %, то к 50 годам он начинает превышать популяционный (на 0,6–2,8 %), а к 65 годам превышение достигает максимальных значений (на 9,6–13,2 %).
Несмотря на то что разные методы статистического анализа дают разные значения вклада изучаемых факторов риска в показатели распространенности ИБС, между значениями дополнительного популяционного риска, рассчитанного с помощью регрессионного анализа и с помощью деревьев классификации, связь статистически значимая сильная. Разница дополнительного популяционного риска, рассчитанного по разным методам статистического анализа, незначительная, как правило, не превышает 1,5 %. Следовательно, оба метода показывают схожие результаты и могут в равной степени использоваться при расчете популяционного риска ИБС.
Список литературы Применение регрессионного анализа и деревьев классификации для расчета дополнительного популяционного риска ишемической болезни сердца
- Батюшин М.М. Модернизация шкалы SCORE оценки десятилетнего риска сердечно-сосудистой смертности//Российский кардиологический журнал. -2005. -№ 6. -С. 40-44.
- Значимость мультифокального Атеросклероза для модификации шкалы отдаленного риска смертности GRACE у больных острым коронарным синдромом с подъемом сегмента ST/М.В. Зыков, Д.С. Зыкова, В.В. Кашталап, Т.Б. Печерина, О.Л. Барбараш//Атеросклероз. -2012. -Т. 8, № 1. -С. 14-20.
- Концевая А.В., Суворова Е.И., Худяков М.Б. Экономическая эффективность ренальной денервации у пациентов с резистентной артериальной гипертонией: результаты марковского моделирования//Кардиология. -2014. -Т. 54, № 1. -С. 41-47.
- Концевая А.В., Шальнова С.А. Популяционные модели прогнозирования сердечно-сосудистого риска: целесообразность моделирования и аналитический обзор существующих моделей//Кардиоваскулярная терапия и профилактика. -2015. -Т. 14, № 6. -С. 54-58.
- Максимов С.А., Индукаева Е.В., Артамонова Г.В. Интегральная оценка риска ишемической болезни сердца в эпидемиологических исследованиях (ЭССЕ-РФ в Кемеровской области). Сообщение I. Возрастно-половые детерминанты//Профилактическая медицина. -2015. -№ 6. -С. 34-39.
- Максимов С.А., Скрипченко А.Е., Артамонова Г.В. Интегральная оценка факторов риска профессиональной обусловленности артериальной гипертензии//Российский кардиологический журнал. -2015. -Т. 120, № 4. -С. 38-42.
- Максимов С.А., Табакаев М.В., Артамонова Г.В. Интегральная оценка риска ишемической болезни сердца в эпидемиологических исследованиях (ЭССЕ-РФ в Кемеровской области). Сообщение II. Социально-экономические детерминанты//Профилактическая медицина. -2016. -Т. 19, № 1. -С. 24-29.
- Мамедов М.Н., Чепурина Н.А. Суммарный сердечно-сосудистый риск: от теории к практике: пособие для врачей/под ред. акад. РАМН Р.Г. Оганова. -М., 2007. -23 с.
- Мнение врачей о роли отдельных факторов смертности от болезней системы кровообращения в регионах Российской Федерации/С.А Бойцов, М.А. Ватолина, И.В. Самородская, О.Л. Барбараш, О.А. Овчаренко, Н.В Кондрикова//Комплексные проблемы сердечно-сосудистых заболеваний. -2015. -№ 4. -С. 53-60.
- Новый способ оценки индивидуального сердечно-сосудистого суммарного риска для населения России/Р.Г. Оганов, С.А. Шальнова, А.М. Калинина, А.Д. Деев, О.С. Глазачев, Е.И. Гусев, И.А. Беляева, А.М. Сударев//Кардиология. -2008. -№ 5. -С. 85-89.
- Assmann G. Assessment of cardiovascular risk -PROCAM and new algorithms//Biomed. Tech. (Berl). -2005. -Vol. 50, № 7-8. -Р. 227-232.
- Cardiovascular risk and cardiometabolic risk: an epidemiological evaluation/D. Vanuzzo, L. Pilotto, R. Mirolo, S. Pirelli//G. Ital. Cardiol. (Rome). -2008. -Vol. 9, № 4. -Р. 6S-17S.
- Gorenoi V., Hagen A. Overview of risk -estimation tools for primary prevention of cardiovascular diseases in european populations//Cent. Eur. J. Public. Health. -2015. -Vol. 23, № 2. -Р. 91-99.
- Screening for cardiovascular risk in asymptomatic patients/J.S. Berger, C.O. Jordan, D. Lloyd-Jones, R.S. Blumenthal//J. Am. Coll. Cardiol. -2010. -Vol. 55, № 12. -Р. 1169-1177.
- The impact of prevention on reducing the burden of cardiovascular disease/R. Kahn, R.M. Robertson, R., Smith D. Eddy//Circulation. -2008. -Vol. 118. -P. 576-585.