Сравнительный анализ "первых" критериев выявления связи между качественными переменными
Автор: Антамошкин Александр Николаевич, Бакаева Ольга Александровна
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Математика, механика, информатика
Статья в выпуске: 4 (37), 2011 года.
Бесплатный доступ
Проведен сравнительный анализ использования «первых» критериев оценки связи между категориальными переменными. Показана согласованность этих критериев на примере выявления связи между типом авиарейса и числом крушений.
Коэффициент ассоциации, коэффициент коллигации юла, коэффициент контингенции, быстрый критерий, оценки связи
Короткий адрес: https://sciup.org/148176668
IDR: 148176668
Текст научной статьи Сравнительный анализ "первых" критериев выявления связи между качественными переменными
Как известно, основная задача статистики состоит в выявлении связи между признаками независимо от того, какую природу они имеют. Если связь имеется и она значимая, то вопрос о существовании связи влечет за собой вопрос о силе данной связи. Методов измерения тесноты взаимосвязи довольно много, но все они условно делятся на параметрические и непараметрические.
Непараметрические методы были первыми из методов измерения тесноты взаимосвязи количественных признаков. Эти методы применяются для измерения тесноты связи качественных и альтернативных признаков, а также количественных признаков, распределение которых отличается от нормального распределения. Непараметрические методы учитывают направление изменения значений признаков, но не зависят от того, насколько интенсивно колеблются значения результативного признака при изменении факторного признака, что позволяют сделать параметрические методы.
Для измерения связи альтернативных признаков применяются коэффициент ассоциации и коэффициент контингенции. Для расчета этих и других показателей применяется следующая матрица взаимного распределения частот (табл. 1).
Таблица 1
Таблица сопряженности 2 х 2
Категории |
В 1 |
В 2 |
Всего |
А 1 |
f 11 |
f 12 |
f 10 |
А 2 |
f 21 |
f 22 |
f 20 |
Всего |
f 01 |
f 02 |
f 00 |
В табл. 1 приняты следующие обозначения: f 11 – число элементов выборки, обладающих признаками A и B одновременно; f 12 – число элементов выборки, обладающих признаком А , но не обладающих признаком В ; f 21 – число элементов выборки, обладающих признаком В , но не обладающих признаком А ; f 22 – число элементов выборки, не обладающих ни одним из признаков .
Таким образом, f ij можно определить как наблюдаемую частоту респондентов или каких-то определенных признаков, попавших в ячейку ( А i , В j ). Символ f i 0 обозначает частную сумму всех значений признака, попавших в категорию А i , аналогично символ f 0 j обозначает сумму значений сопряженного ему признака, относящихся к категории В j , а символ f 00 – общий итог всех рассмотренных случаев. Представим все сказанное выше на языке формул [1]:
f o 0 = S f jj , f o j = Z f y , f oo = Z fi 0 = Z f o j = ZZ f j .
i
ijij
Суммарные частоты по строке или по столбцу называются маргинальными частотами . Их значения важны, так как они позволяют оценить распределение частот в отдельных столбцах и строках таблицы. Сумма маргинальных частот равна объему выборки f 00 = n , а их распределение представляет собой одномерное распределение переменной, образующей строки или столбцы таблицы.
Критериев выявления связи между качественными признаками существует достаточно много. Среди них можно выделить критерий Фишера, который позволяет сделать максимально точный вывод о наличии или отсутствии связи, но расчет которого затруднен, классический критерий χ2 и G -критерий Вульфа, точность которых можно увеличить, используя поправку Йетса. Однако суть этих критериев состоит в том, что все они не выявляют связь между переменными, а только проверяют заранее выдвинутую гипотезу о наличии связи. Поэтому сначала следует воспользоваться одним из так называемых «первых» критериев, которые позволяют предварительно оценить возможность существования связи между переменными и выдвинуть правдивую нулевую гипотезу. К таким критериям относятся коэффициент ассоциации, коэффициент коллигации Юла, коэффициент контингенции и быстрый критерий оценки связи.
Коэффициент ассоциации. Метод измерения связи с помощью четырехклеточной таблицы был предложен английскими статистиками Э. Дж. Юлом и М. Дж. Кендаллом. Числитель этого коэффициента, называемого коэффициентом ассоциации, представляет собой определитель исследуемой четырехклеточной таблицы сопряженности, а знаменатель – сумму тех же произведений, разность которых стоит в числителе:
Q =
/1 f 22 f 2 f 21 f n f 22 + f .2 f 21
Если признаки А и В независимы, то Q = 0. В случае полной связи между признаками Q = ±1.
Самым существенным недостатком использования коэффициента ассоциации является его непригодность в случае, если одна из частот равна 0. При этом коэффициент ассоциации всегда равен ±1, а это можно ложно трактовать как полную зависимость между признаками. Поэтому если хотя бы одна из частот в таблице сопряженности равна 0, то критерий ассоциации применять нельзя и вместо него используется коэффициент контингенции.
Коэффициент ассоциации в плане расчета является относительно простым показателем сопряженности величин. Он применяется к вариации двух качественных признаков, распределенных по двум группам. Его значения принадлежат промежутку от –1 до +1. Интерпретируется он следующим образом: чем ближе коэффициент по абсолютной величине к 1, тем теснее связь (прямая или обратная). Считается, что если значение коэффициента ассоциации достигает 0,3, то это свидетельствует о возможной существенной связи между признаками. Однако можно сказать, что этот показатель очень либерально оценивает тесноту связи, завышая ее.
Если предположить, что суммарная частота f 00 достаточно велика, то величина Q имеет нормальное распределение с дисперсией [2]:
d ( q ) = .(i - q 2) 1 4- + 4- + 4- + 4- I , (2) 4 к f 11 f 12 f 21 f 22 )
благодаря чему можно найти приближенные доверительные границы для Q . Сравнение Q с получ енны м значением дисперсии (с учетом масштаба D ( Q )) позволяет получить хотя бы первое приближение по оценке связи. Но так как в формуле (2) присутствуют дроби, то, исходя из области определения, дисперсию в виде конечного числа можно вычислить только в том случае, если все значения в ячейках таблицы сопряженности отличны от нуля.
Коэффициент коллигации Юла. Этот способ выявления связи между переменными мало известен и практически не используется.
Существует выражение, позволяющее найти его приближенное значение, зная значение коэффициента ассоциации Q :
Q = ^Ю ,
-
1 + K ю
где K Ю – коэффициент коллигации Юла.
Статистика коэффициента коллигации имеет вид
K ю =
У f 11 f 22 V f 12 f 21
У f 11 f 22 + У f 1 2 f 21
а дисперсия вычисляется по формуле
D ( K ) = —(1 - K 2) I — + — + X + X
ЮЮ
16 к f 11 f 12 f 21 f 22
Коэффициент контингенции (сходства). Этот коэффициент используется для выявления связи между признаками, не имеющими количественного выражения (альтернативная вариация, или изменчивость качественных признаков), и применяется только в том случае, когда исследуемые признаки имеют лишь две градации.
В математической формуле, описывающей статистику коэффициента контингенции, его числитель аналогичен коэффициенту ассоциации, т. е. представляет собой разность произведения частот на главной и побочной диагоналях, а знаменатель является квадратным корнем из произведения всех четырех маргинальных частот. В буквенных обозначениях табл. 1 имеем:
V =
11 f 22 f 12 f 21
У( f 11 + f 12 )( f n + f 21 )( f 22 + f 12 )( f 22 + f 21 )
.
Связь считается подтвержденной, если коэффициенты | Q | ≥ 0,5 и | V | ≥ 0,3, в противном случае признаки А и В альтернативны. Это означает, что данный объект либо обладает признаком, либо не обладает (знак «минус» показывает наличие обратной связи при условии ее подтверждения). В случае | Q | > 0,5 и | V | < 0,3 (| Q | < 0,5 и | V | > 0,3) точного ответа о наличии или отсутствии связи нет.
Свойства коэффициента контингенции те же, что и у коэффициента корреляции. Коэффициент контин-генции обращается в 0, если оба произведения в числителе точно уравновешиваются (что крайне маловероятно). Коэффициент контингенции равен +1 лишь в том случае, когда f 12 и f 21 одновременно равны 0 и –1 или когда f 11 и f 22 одновременно равны 0. В отличие от него коэффициент ассоциации равен 1 уже в случае, если одно из чисел в клетках таблицы оказалось равным 0, как это уже отмечалось ранее. Величина коэффициента контингенции всегда меньше величины коэффициента ассоциации.
На практике для проверки гипотезы о существовании взаимосвязи между изучаемыми признаками используется величина χ2 = nV 2, имеющая при отсутствии связи распределение χ2 с d = 1 степенью свободы.
С учетом поправки на непрерывность статистика критерия контингенции имеет вид
I f.
f 00 I | f 11 f 22 - f 21 f 12 I I
-
2 =__________к__________________ 2 ) ________
( f 11 + f 12 )( fll + f 21 )( f 12 + f 22 )( f 21 + f 22 )
где f 00 – общее число данных в таблице, f 00 = f 11 + f 12 + + f 21 + f 22 .
Если χ2 > χα2, то зависимость признаков А и В с достоверностью α признается значимой.
Критерий χ2 = nV 2 применяется при f 00 ≥ 40 и f 11 , f 12 , f 21 , f 22 ≥ 5 [3].
Быстрый критерий оценки связи. Предыдущие коэффициенты позволяют грубо оценить меру связи между качественными переменными и дают возможность получить хотя бы предварительное представле- ние о наличии связи и ее величине, а это в свою очередь позволяет корректно сформулировать нулевую гипотезу о зависимости или независимости переменных и далее проверить ее с помощью более точных критериев. Но кроме грубых оценок связи, позво- ляющих предварительно оценить ее меру, существуют математически более тонкие и быстрые, хотя также носящие скорее вспомогательный характер, способы оценки связи. К таким оценкам относится быстрый критерий.
В зависимости от некоторых особенностей расположения и значений частот в таблице сопряженности применяются разные статистики.
При f11 + f12 + f21 + f22 ≥ 25 и при условии f11 + f12 = = f21 + f22 или f11 + f21 = f12 + f22 быстрым критерием оценки связи является величина z = (f11 + f22) - (fx. + f21) . V f11 + f12 + f21 + f22
Связь признаков в таблице сопряженности частот с достоверностью α признается значимой, если z > uα, где uα – α-квантиль стандартного нормального рас- пределения.
Если f11 + f12 ≥ 10 при условии f11 + f12 << f21 + f22 или f11 + f21 << f12 + f22, то справедлив критерий z =
r - f + ( f 1 + f 11 f 2 f 12 )( f .1 + f .2 )
11 2 f 11 + f 2 + f 21 + f 22
V f ,1 + f 1 2
Если | z | > u a, то связь признаков признается значимой [3].
По внешнему виду таблицы сопряженности частот можно увидеть следующую закономерность. Если связь между признаками является прямой, то частоты значений признаков сконцентрированы на главной диагонали, т. е. в ячейках f 11 и f 22 . При наличии обратной связи значения сосредоточены на побочной диагонали, т. е. в ячейках f 12 и f 21. При отсутствии связи частоты практически равномерно распределены по всему полю таблицы.
Рассмотренные выше «первые» критерии выявления взаимосвязи имеют ряд преимуществ, к которым относятся простота, легкость в расчетах, получение быстрого ответа на вопрос, существует ли какая-то зависимость между исследуемыми переменными. Но эти преимущества влекут за собой и недостатки их использования, среди которых самыми явными являются неудовлетворительная точность полученных выводов, в основном – завышение оценки силы связи, и отсутствие точного и прямого ответа на вопрос, зависимы ли переменные, потому что «первые» крите- рии не утверждают, а лишь предполагают отсутствие или наличие связи.
Пример. В последнее десятилетие в связи со все большей востребованностью и доступностью гражданского авиатранспорта появляется много чартерных рейсов. При этом существует точка зрения, что число авиакрушений чартерных рейсов больше, чем обычных – см. данные таблицы 2 [4]. Проверим с помощью всех вышеперечисленных способов выявления связи, действительно ли существует зависимость между типом рейса и количеством аварий.
Таблица 2
Таблица авиакрушений с жертвами за 1959–2007 гг. [4]
Тип рейса |
Количество авиакрушений с жертвами |
Всего |
|
1959–1997 гг. |
1998–2007 гг. |
||
Обычный |
341 |
74 |
415 |
Чартерный |
39 |
4 |
43 |
Всего |
380 |
78 |
458 |
Расчет коэффициента ассоциации. Так как в таблице сопряженности все ячейки с частотами отличны от нуля, то по формуле (1) можно вычислить значение коэффициента ассоциации:
341 . 4 - 39 . 74
341 - 4 + 39 . 74
- 0,358.
В данном случае знак «минус» говорит о том, что связь обратная, т. е. с течением времени количество авиакрушений уменьшается. Модуль значения коэффициента равен 0,358, т. е. больше 0,3, что говорит о возможной существенной связи между признаками «тип рейса» и «количество аварий».
Исходя из полученного значения коэффициента ассоциации определим дисперсию:
D ( Q ) = -(1 - ( - 0,358)2 V — + — + — + - |= 0,064, 4^ v \341 74 39 4 ) ’ ’
4 D ( Q ) = 4 0,064 = 0,253.
Анализируя полученные данные, можно сделать промежуточный вывод о том, что связь между типом рейса и числом аварий скорее не существует, так как коэффициент Q = –0,358 недостаточно велик по сравнению со своими среднеквадратическим отклонением, т. е. не превышает его более чем в три раза.
Зная дисперсию, рассчитаем приближенный доверительный интервал для истинного значения связи, измеряем ой с п омощью коэффициента ассоциации Q : Q ± 1,96 D ( Q ). В результате получим:
– 0,358 ± 1,96 0, 064 или (–0,854; 0,138).
Нетрудно заметить, что этот интервал накрывает значение 0, соответствующее независимости признаков. Следовательно, имеющиеся данные не дают оснований для отбрасывания возможности независимости. Таким образом, коэффициент ассоциации гово- рит о возможной существенной связи между признаками, не исключая возможности их независимости.
Расчет коэффициента коллигации Юла. Коэффициент коллигации в данном случае составит
= 3й44 - . .: =-
Ю V 341 . 4 + V 39 ■ 74
а дисперсия будет
D ( K ) = — ( i _ ( - 0,185)2'1 1 — + — + — + 1 1 = 0,018, Ю 16 ( , ’ ){ 341 74 39 4 ) ,
JD ( K ю ) = 0,133.
По рассчитанным показателям можно сделать предварительный вывод о том, что между переменными «тип рейса» и «безопасность полета» связи не существует. Мы имеем право это утверждать, поскольку значение коэффициента коллигации невелико и больше своего среднеквадратического отклонения только в 1,39 раза.
Расчет коэффициента контингенции. По данным табл. 2 рассчитаем коэффициент контингенции:
____________ 341 . 4 - 39 ■ 74 ____________ ( 341 + 74 )( 341 + 39 )( 4 + 74 )( 4 + 39 )
- 1522
528 925 800
- 0,066.
Абсолютное значение коэффициента коллигации |V| = 0,066 можно трактовать как отсутствие связи между переменными. Значение коэффициента ассоциации |Q| = 0,358 < 0,5 свидетельствует лишь о возможной существенной связи. Также подтверждается то, что величина коэффициента контингенции всегда меньше величины коэффициента ассоциации: 0,066 < 0,358. Вывод об отсутствии связи очевиден. Но не стоит забывать о том, что коэффициент ассоциации и коэффициент контингенции являются предварительными критериями и делать по ним достоверные выводы нельзя. К тому же, как упоминалось выше, коэффициент ассоциации очень либерально оце- нивает тесноту связи, завышая ее. Поправку на непрерывность при данном расчете также использовать нельзя, потому что, несмотря на то что объем выборки больше 40 (f00 = 458), частота в одной ячейке меньше 5. Поэтому необходимо воспользоваться одним из более точных критериев.
Быстрый критерий оценки связи. Первое условие, состоящее в том, что сумма всех частот должна быть не меньше 25, для данной задачи выполняется, а второе условие, что суммы частот по строкам или столбцам должны совпадать, не соблюдается. Поэтому формулу (3) применять нельзя.
Сумма частот первой строки f 11 + f 12 = 415 > 10, но она намного больше суммы частот второй строки: 415 >> 43, и сумма частот первого столбца также намного больше суммы частот второго столбца: 380 >> 78. Следовательно, формула (4) неприменима.
Таким образом, значение коэффициента ассоциации говорит лишь о возможной связи между переменными, коэффициенты коллигации и контингенции свидетельствуют об отсутствии связи, т. е. видна согласованность «первых» критериев.
Итак, практически все критерии показали независимость возникновения аварийных ситуаций и крушений самолетов от типа рейса при общей тенденции к снижению аварийности. Следовательно, при полете на чартерных и обычных рейсах риск потерпеть крушение одинаков и с течением времени он уменьшается.