Сравнительная оценка пороговых критериев шкалы депрессии Гамильтона, разработанных на основе ROC-анализа и модели Раша
Автор: Ассанович Марат Алиевич
Журнал: Психология. Психофизиология @jpps-susu
Рубрика: Психодиагностика
Статья в выпуске: 2 т.10, 2017 года.
Бесплатный доступ
Интерпретируемость психометрической шкалы основывается на наличии определенных пороговых критериев, которые позволяют разделить все оценки шкалы по определенным уровням выраженности измеряемого конструкта. Цель описываемого в публикации исследования состояла в сравнительной оценке воспроизводимости и диагностической эффективности пороговых критериев шкалы оценки тяжести депрессии Гамильтона (HRSD), разработанных в рамках двух подходов: ROC-анализа и модели Г. Раша (Georg Rasch). Для сравнительного анализа были сформированы три выборки протоколов исследования здоровых испытуемых и пациентов с депрессией, выполненных с помощью HRSD. Было выявлено, что пороговые ROC-критерии отличаются низкой воспроизводимостью и характеризуются высокой точностью только в случае их использования на той же выборке данных, на которой они разрабатывались. В отличие от ROC-критериев, разработанные на основе модели Раша критерии отличаются высокой степенью воспроизводимости и эффективно согласуются с клиническими данными независимо от особенностей выборки. Полученные результаты обоснованы концептуальными и методологическими различиями обоих подходов в построении пороговых критериев.
Пороговые критерии, шкала оценки депрессии гамильтона, модель раша, roc-анализ
Короткий адрес: https://sciup.org/147160058
IDR: 147160058 | DOI: 10.14529/psy170202
Текст научной статьи Сравнительная оценка пороговых критериев шкалы депрессии Гамильтона, разработанных на основе ROC-анализа и модели Раша
Интерпретируемость психометрической шкалы основывается на наличии определенных пороговых критериев, которые позволяют разделить все оценки шкалы по уровням выраженности измеряемого конструкта. Пороговые критерии должны объективно отражать уровни выраженности конструкта независимо от особенностей популяций испытуемых и согласовываться с клиническими данными (de Vet et al., 2011).
В настоящее время в клинической психометрике применяется несколько способов определения пороговых критериев. В одном из наших исследований (Aссанович, 2017) была проведена сравнительная оценка воспроизводимости и согласованности с клиническими данными пороговых критериев, разработанных на основе классической теории тестов (КТТ) и модели Раша. Анализ полученных в данном исследовании результатов показал, что пороговые критерии, рассчитанные на основе КТТ, характеризуются низкой воспро- изводимостью при исследовании различных выборок испытуемых и не согласуются с клиническими данными. В то же время пороговые критерии, разработанные на основе модели Раша, не зависят от особенностей популяции и соответствуют клиническим данным (Aссанович, 2017).
В настоящее время в клинической психодиагностике для определения пороговых критериев достаточно часто используется ROC-анализ (Hajian-Tilaki, 2013). Основная цель использования данного метода состоит в оценке внешней валидности и диагностической эффективности психодиагностических шкал. Кроме этого, ROC-анализ позволяет также определить отсекающие оценки, обладающие максимальной сенситивностью и специфичностью, которые устанавливаются как пороговые критерии (de Vet et al., 2011). Выборки данных для проведения ROC-анализа формируются с помощью внешнего клинического критерия. В качестве такового могут использоваться оценки экспертов или данные по другим методикам, имеющим статус «золотого стандарта». Например, с помощью экспертных оценок клиницистов можно сформировать три группы пациентов с легкой, умеренной и значительной выраженностью проявлений измеряемого конструкта. Далее, проведя ROC-анализ для каждой пары смежных групп, определяются оценки, дифференцирующие три степени выраженности конструкта. Эти оценки и будут являться пороговыми критериями интерпретации. Для данных конкретных выборок ROC-анализ предлагает наилучшую дифференцирующую оценку. Однако остается неясной степень объективности (воспроизводимости) пороговых критериев, установленных таким методом. Неизвестно, как степень воспроизводимости и надежности таких критериев связана с их диагностической эффективностью.
Цель настоящего исследования состояла в оценке воспроизводимости и диагностической эффективности пороговых критериев шкалы оценки депрессии Гамильтона, разработанных на основе модели Раша, в сравнении с пороговыми критериями, определенными с помощью ROC-анализа.
Методология исследования
Материал настоящей статьи представляет собой продолжение исследования, результаты которого нами представлены работе (Aссанович, 2017). В качестве психометрической шкалы использовалась шкала оценки депрессии Гамильтона (HDRS, Hamilton, 1960). Первичные данные включали протоколы исследования с помощью HRDS пациентов с легкой, умеренной и тяжелой степенями депрессии, а также здоровых испытуемых. Протоколы были сгруппированы в три выборки данных. Подробная характеристика испытуе- мых и выборок представлена в исследовании (Aссанович, 2017).
Определение пороговых критериев интерпретации с помощью ROC-анализа (ROC-критериев) проводилось в следующей последовательности отдельно для каждой выборки данных.
-
1. Проведение ROC-анализа оценок испытуемых в парах групп, смежных по выраженности депрессии: здоровые – легкая степень депрессии, легкая степень депрессии – умеренная степень депрессии, умеренная степень депрессии – тяжелая степень депрессии.
-
2. Построение таблиц показателей сенситивности и специфичности для каждой оценки.
-
3. Определение в каждой паре групп пороговых критериев, обладающих максимальной сенситивностью и специфичностью. Пороговые критерии представляли собой оценки шкалы, соответствовавшие максимальному значению критерия J Юдена (J Yuden), определяемого по формуле: J = сенситивность + + специфичность – 1 (de Vet et al., 2011).
В качестве пороговых критериев, установленных на основе метрической системы Раша (Раш-критериев), были использованы критерии, рассчитанные на первом этапе исследования и показавшие полную воспроизводимость во всех трех выборках (Aссанович, 2017). Эти критерии представлены в табл. 1.
Сравнительная оценка диагностической эффективности пороговых критериев осуществлялась путем оценки степени согласованности классификации испытуемых по степени тяжести депрессии, выполненной на основе различных пороговых критериев HRSD, с одной стороны, с классификацией, построенной на основе клинических критериев МКБ-10, с другой. Оценка степени соответствия класси-
Таблица 1
Пороговые критерии HRDS, установленные на основе модели Раша (Раш-критерии)
Результаты исследования
Оценка воспроизводимости пороговых критериев, установленных с помощью ROC-анализа
В табл. 3 представлены значения сенситивности (Se) и специфичности (Sp) для каждой оценки шкалы HRDS и дифференцирующие критерии в трех выборках испытуемых по результатам ROC-анализа групп «здоровые – легкая степень депрессии».
Анализ данных в табл. 3 обнаруживает, что ROC-критерии разделения групп здоровых и пациентов с легкой степенью депрессии в трех выборках данных имеют различные значения. В выборке 1 оценка, соответствующая максимальному значению индекса J Юдена, равна 5. NFrfz оценка соответствует нижней границе уровня легкой степени тяжести депрессии. Это означает, что диапазон оценок, отражающий отсутствие депрессии, составил от 0 до 4 баллов.
В выборке 2 критерием разделения групп является оценка, равная 10 баллам, соответст-
Таблица 2
Пороговые критерии оригинальной шкалы оценки тяжести депрессии Гамильтона
Степень тяжести депрессии |
Классические критерии, баллы |
APA-критерии, баллы |
Депрессия отсутствует |
0–6 |
0–7 |
Легкая депрессия |
7–17 |
8–13 |
Умеренная депрессия |
18–24 |
14–18 |
Тяжелая депрессия |
25 и более баллов |
19 и более баллов |
Таблица 3
Критерии разделения групп «здоровые – легкая степень депрессии» в трех выборках испытуемых
Выборка 1 (N=264) |
Выборка 2 (N=156) |
Выборка 3 (N=196) |
||||||
Оценка |
Se |
Sp |
Оценка |
Se |
Sp |
Оценка |
Se |
Sp |
0 |
1,000 |
0,000 |
1 |
1,000 |
0,000 |
0 |
1,000 |
0,000 |
1 |
1,000 |
0,073 |
2 |
1,000 |
0,115 |
1 |
1,000 |
0,075 |
2 |
1,000 |
0,167 |
3 |
1,000 |
0,246 |
2 |
1,000 |
0,151 |
3 |
1,000 |
0,292 |
4 |
1,000 |
0,361 |
3 |
1,000 |
0,280 |
4 |
1,000 |
0,385 |
5 |
0,926 |
0,508 |
4 |
1,000 |
0,312 |
5* |
0,940* |
0,521 |
6 |
0,883 |
0,574 |
5 |
0,911 |
0,387 |
6 |
0,886 |
0,573 |
7 |
0,777 |
0,656 |
6 |
0,832 |
0,710 |
7 |
0,766 |
0,667 |
8 |
0,521 |
0,820 |
7 |
0,683 |
0,828 |
8 |
0,443 |
0,833 |
10* |
0,479* |
1,000* |
8 |
0,644 |
0,935 |
10 |
0,407 |
1,000 |
11 |
0,319 |
1,000 |
9* |
0,604* |
0,978* |
11 |
0,263 |
1,000 |
12 |
0,266 |
1,000 |
10 |
0,564 |
1,000 |
12 |
0,222 |
1,000 |
13 |
0,213 |
1,000 |
11 |
0,436 |
1,000 |
13 |
0,186 |
1,000 |
14 |
0,170 |
1,000 |
12 |
0,416 |
1,000 |
14 |
0,162 |
1,000 |
15 |
0,149 |
1,000 |
13 |
0,287 |
1,000 |
15 |
0,138 |
1,000 |
16 |
0,117 |
1,000 |
14 |
0,198 |
1,000 |
16 |
0,114 |
1,000 |
17 |
0,043 |
1,000 |
15 |
0,069 |
1,000 |
17 |
0,048 |
1,000 |
– |
– |
– |
– |
– |
– |
* Обозначена оценка, соответствующая максимальному значению критерию Юдена (1 – Se + Sp).
вующая нижней границе уровня легкой степени депрессии. Таким образом, диапазон оценок, свидетельствующих об отсутствии депрессии, представлен интервалом от 1 до 8 баллов.
Отметим, что ни один испытуемый выборки 2 не имеет оценки, равной 9. Поэтому с помощью ROC-анализа оказалось невозможным оценить дифференцирующие свойства такой оценки. Фактически она попадает в зону диагностической неопределенности. Следовательно, верхней границей диапазона оценок, соответствующего отсутствию депрессии, является оценка, равная 8, а нижней границей уровня умеренной степени тяжести служит оценка, равная 10. В выборке 3 дифференцирующий критерий равен 9 баллам, а границы диапазона, соответствующего отсутствию депрессии, равны 0 и 8 баллам.
В табл. 4 представлены значения сенситивности (Se) и специфичности (Sp) для каждой оценки шкалы HRDS в трех выборках испытуемых по результатам ROC-анализа групп «легкая степень – умеренная степень тяжести депрессии».
Анализ данных в табл. 4 обнаруживает различные критерии дифференцирования групп пациентов с легкой и умеренной депрессией в трех выборках. В выборке 1 оцен- ка, соответствующая максимальному значению индекса J Юдена, равна 11. Таким образом, диапазон оценок, соответствующий легкой степени депрессии, составил от 5 (табл. 4) до 11 баллов. В выборке 2 критерием разделения групп является значение оценки, равное 13. Отсюда диапазон оценок, свидетельствующих о наличии легкой степени депрессии, составляет от 10 (табл. 4) до 13 баллов. В выборке 3 дифференцирующий критерий равен 14 баллам, а границы диапазона, соответствующего легкой степени депрессии, равны 9 и 14 баллам.
В табл. 5 представлены значения сенситивности (Se) и специфичности (Sp) для каждой оценки шкалы HRDS в трех выборках испытуемых по результатам ROC-анализа групп «умеренная степень – тяжелая степень депрессии».
Как и в предыдущих случаях, данные в табл. 5 позволяют обнаружить различные критерии дифференцирования групп пациентов с умеренной и тяжелой депрессией во всех трех выборках. В выборке 1 оценка, соответствующая максимальному значению индекса J Юдена, равна 19 (т. е. диапазон оценок, соответствующий средней степени тяжести депрессии, составил от 11 до 19 баллов). В выборке 2 критерием разделения групп яв-
Таблица 4
Критерии разделения групп «легкая степень – умеренная степень депрессии» в трех выборках испытуемых
На основе проведенного анализа во всех трех выборках были определены критерии интерпретации выраженности депрессии по шкале HRSD, которые представлены в табл. 6.
Таким образом, во всех трех выборках пороговые ROC-критерии имеют различные значения. Из этого следует, что пороговые критерии, установленные с помощью ROC-
Таблица 5
Критерии разделения групп «умеренная степень – тяжелая степень депрессии» в трех выборках испытуемых
Выборка 1 (N=288) |
Выборка 2 (N=175) |
Выборка 3 (N=136) |
||||||
Оценка |
Se |
Sp |
Оценка |
Se |
Sp |
Оценка |
Se |
Sp |
10 |
1,000 |
0,000 |
10 |
1,000 |
0,000 |
10 |
1,000 |
0,000 |
11 |
1,000 |
0,069 |
11 |
1,000 |
0,074 |
11 |
1,000 |
0,040 |
12 |
1,000 |
0,114 |
12 |
1,000 |
0,130 |
12 |
1,000 |
0,050 |
13 |
1,000 |
0,149 |
13 |
1,000 |
0,167 |
13 |
1,000 |
0,079 |
14 |
1,000 |
0,234 |
14 |
1,000 |
0,259 |
14 |
1,000 |
0,168 |
15 |
1,000 |
0,371 |
15 |
1,000 |
0,426 |
15 |
1,000 |
0,396 |
16 |
1,000 |
0,566 |
16 |
1,000 |
0,611 |
16 |
1,000 |
0,653 |
17 |
1,000 |
0,703 |
17 |
1,000 |
0,731 |
17 |
1,000 |
0,743 |
18 |
1,000 |
0,766 |
18 |
1,000 |
0,778 |
18 |
1,000 |
0,772 |
19* |
1,000* |
0,806* |
19 |
1,000 |
0,815 |
19 |
1,000 |
0,802 |
20 |
0,938 |
0,857 |
20* |
0,985* |
0,852* |
22* |
1,000* |
0,822* |
21 |
0,902 |
0,886 |
21 |
0,939 |
0,889 |
23 |
0,794 |
0,901 |
22 |
0,821 |
0,937 |
22 |
0,788 |
0,944 |
24 |
0,647 |
1,000 |
23 |
0,795 |
0,960 |
23 |
0,758 |
0,972 |
25 |
0,529 |
1,000 |
24 |
0,759 |
0,989 |
24 |
0,712 |
1,000 |
26 |
0,471 |
1,000 |
25 |
0,732 |
1,000 |
25 |
0,697 |
1,000 |
27 |
0,412 |
1,000 |
26 |
0,705 |
1,000 |
26 |
0,515 |
1,000 |
28 |
0,353 |
1,000 |
27 |
0,563 |
1,000 |
27 |
0,424 |
1,000 |
29 |
0,294 |
1,000 |
28 |
0,429 |
1,000 |
28 |
0,348 |
1,000 |
30 |
0,235 |
1,000 |
29 |
0,366 |
1,000 |
29 |
0,303 |
1,000 |
31 |
0,176 |
1,000 |
30 |
0,304 |
1,000 |
30 |
0,197 |
1,000 |
32 |
0,147 |
1,000 |
31 |
0,170 |
1,000 |
31 |
0,136 |
1,000 |
33 |
0,088 |
1,000 |
32 |
0,125 |
1,000 |
32 |
0,106 |
1,000 |
34 |
0,059 |
1,000 |
33 |
0,098 |
1,000 |
33 |
0,076 |
1,000 |
35 |
0,029 |
1,000 |
34 |
0,063 |
1,000 |
34 |
0,045 |
1,000 |
- |
- |
- |
35 |
0,036 |
1,000 |
35 |
0,015 |
1,000 |
- |
- |
- |
36 |
0,018 |
1,000 |
36 |
1,000 |
0,000 |
- |
- |
- |
37 |
0,009 |
1,000 |
37 |
1,000 |
0,074 |
- |
- |
- |
* Обозначена оценка, соответствующая максимальному значению критерию Юдена (1- Se + Sp).
Таблица 6
Пороговые критерии HRSD, установленные с помощью ROC-анализа в трех выборках испытуемых
Сравнительная оценка диагностической эффективности пороговых критериев HRSD
В табл. 7 приведены значения показателей согласованности с клиническими данными четырех видов пороговых критериев HRSD: классических, APA-критериев, ROC-критериев и Раш-критериев. При этом ROC-критерии были разделены на два типа: прямые и перекрестные. Прямые ROC-критерии оценивались на тех же выборках данных, на которых они и разрабатывались. Перекрестные критерии были образованы путем замены ROC-критериев выборки 1 критериями выборки 3 и, наоборот, критерии, разработанные на выборке 1 оценивались на выборке 3.
Анализ данных в табл. 7 показывает, что почти все пороговые критерии обнаруживают в той или иной степени рассогласование с клиническими критериями. Только классификация на основе Раш-критериев в выборке 1
достоверно не отличается от клинической классификации (Χ2=7,80; p=0,05). Классические критерии и перекрестные ROC-критерии обнаруживают самые низкие уровни согласования с клиническими данными в обеих выборках. Степень рассогласования этих критериев с клиническими критериями достигает 40 %, что отражается в низких значениях показателя величины эффекта w (0,07–0,14). Лучше всего с клиническими критериями согласуются прямые ROC-критерии и критерии, разработанные на основе модели Раша. Промежуточное положение занимают АРА-критерии, которые в выборке 1 показали низкий уровень согласования (g=0,12), а выборке 3 – умеренный (g=0,20).
В табл. 8 представлены результаты сравнения различных пороговых критериев друг с другом. Как показывают результаты сравнения, максимальные эффекты улучшения согласованности с клиническими данными демонстрируют прямые ROC-критерии и Раш-критерии. Величина отношения шансов для данных критериев в сравнении с классическими критериями превышает 2. Абсолютный прирост эффекта в отношении снижения риска рассогласования с клиническими критериями небольшой – от 15 до 17 %.
Таблица 7
Показатели согласованности с клиническими критериями различных пороговых критериев HRSD
Пороговые критерии HRSD |
Выборки данных N1 = 551 N3 = 333 |
Оценка рассогласования с клиническими критериями Χ2, p |
Величина эффекта рассогласования Χ 2 w Cohen’s |
Уровень рассогласования с клиническими критериями, % |
Величина эффекта совпадения классификаций g Cohen’s |
Классические |
1 |
Χ2=169,29*** |
0,551 |
42,9 |
0,07А |
3 |
Χ2=88,70*** |
0,521 |
43,3 |
0,07 А |
|
АРА |
1 |
Χ2=108,11*** |
0,442 |
38,4 |
0,12 А |
3 |
Χ2=32,04*** |
0,312 |
29,7 |
0,20В |
|
ROC |
1 |
Χ2=23,88*** |
0,213 |
25,5 |
0,25С |
(прямые) |
3 |
Χ2=43,53*** |
0,362 |
29,7 |
0,20В |
ROC |
1 |
Χ2=147,29*** |
0,521 |
36,1 |
0,14 А |
(перекрестные) |
3 |
Χ2=40,97*** |
0,352 |
40,9 |
0,09 А |
Критерии Раша |
1 |
Χ2=7,80 * |
0,121 |
27,0 |
0,23 В |
3 |
Χ2=11,90 |
0,191 |
30,3 |
0,20 В |
Список литературы Сравнительная оценка пороговых критериев шкалы депрессии Гамильтона, разработанных на основе ROC-анализа и модели Раша
- Ассанович, М.А. Оптимизация шкалы оценки депрессии Гамильтона на основе модели Раша/М.А. Ассанович//Медицинская психология в России. -2015. -2(31). -С. 7. -http://mprj.ru .
- Aссанович, M.A. Сравнительная оценка пороговых критериев выраженности депрессии, разработанных на основе классической теории тестов и модели Раша/М.А. Ассанович//Вестник ЮУрГУ. Серия «Психология». -2017. -Т. 10, № 1. -С. 26-34.
- Bagby, R.M. The Hamilton Depression Rating Scale: Has the Gold Standard Become a Lead Weight?/R.M. Bagby, A.G. Ryder, D.R. Schuller, M.B. Marshall//American Journal of Psychiatry. -2004. -161(12). -P. 2163-2177. -http://psychiatryonline.org/doi/abs/10.1176/appi.ajp.161.12.2163.
- Cohen, J. Quantitative Methods in Psychology/J. Cohen//Psychological Bulletin. -1992. -112(1). -P. 155-159.
- Fawcett, T. An introduction to ROC analysis/T. Fawcett//Pattern Recognition Letters. -2006. -27(8). -P. 861-874.
- Fritz, C.O. Effect size estimates: Current use, calculations, and interpretation/C.O. Fritz, P.E. Morris, J.J.Richler//Journal of Experimental Psychology: General. -2012. -141(1). -P. 2-18. -http://doi.apa.org/getdoi.cfm?doi= 10.1037/a0024338.
- Hajian-Tilaki, K. Receiver operating characteristic (ROC) curve analysis for medical diagnostic test evaluation/K. Hajian-Tilaki//Caspian Journal of Internal Medicine. -2013. -4(2). -P. 627-635.
- Hamilton, M. A rating scale for depression/M. Hamilton//Journal of neurology. -1960. -23. -P. 56-62. -Available at:/Users/Kayleigh/Desktop/Papers/ReadCube/Hamilton-1960-Journal of neurology.pdf.
- De Vet, H.C.W. Measurement in Medicine. A Practical Guide/H.C.W. de Vet, C.B. Terwee, L.B. Mokkink, D.L. Knol. -Cambridge University Press, 2011. -Available at: www.cambridge.org .
- Zimmerman, M. Severity classification on the Hamilton Depression Rating Scale/M. Zimmerman, J.H. Martinez, D. Young et al.//Journal of affective disorders. -2013. -150(2). -P. 384-388. Available at: http://www. sciencedirect.com/science/article/pii/S0165032713003017.