Обзор критериев согласия системы "Статистик-консультант"
Автор: Александров И.В.
Журнал: Международный журнал гуманитарных и естественных наук @intjournal
Рубрика: Физико-математические науки
Статья в выпуске: 8-2 (71), 2022 года.
Бесплатный доступ
Было дано понятие критериев согласия. Обозначены исследуемые в данной работе критерии: Пирсона, Колмогорова-Смирнова, пустых ящиков. Описаны этапы методики проведения экспериментов. Построены модели зависимостей мощностей рассмотренных критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез. Что в свою очередь, позволяет формулировать рекомендации пользователям по выбору критерия согласия и даже по выбору некоторых условий самих экспериментов в определённых случаях. В других случаях построенные модели также позволяют сформулировать рекомендации или могут послужить определенным ориентиром для выбора критерия.
Критерий согласия, алгоритм, закон распределения, программа, моделирование, эксперимент, рекомендации
Короткий адрес: https://sciup.org/170195477
IDR: 170195477 | DOI: 10.24412/2500-1000-2022-8-2-101-104
Текст научной статьи Обзор критериев согласия системы "Статистик-консультант"
Критерии согласия предназначены для проверки гипотез Но, т.е. решают задачу проверки согласованности теоретических предположений о виде закона распределения с опытными данными. Наряду с гипотезой Но рассматривается альтернативна гипотеза:
Hi: F^(%) ^ Fmod(%; 0i, -„,0s).
В данной работе рассматриваются три критерия согласия, реализованные в системе "Статистик-Консультант":
-
- критерий %2 Пирсона,
-
- критерий Колмогорова-Смирнова,
-
- критерий пустых ящиков.
Необходимо отметить, что критерий %2 Пирсон и Колмогорова-Смирнова являются хорошо известными (см., например, [1]) и почти всегда включены в статистическое программное обеспечение. Особое место среди данных трех критериев занимает критерий пустых ящиков. Это критерий используется реже, и автор не известны пакеты прикладных статистических программ, в которых он был бы реализован. Однако заметим, что этот критерий выгодно отличается от других критериев согласия простотой интерпретации и вычисления [2].
Критерий %2 Пирсона
Критерий согласия %2 позволяет осуществлять проверку гипотезы Но в случае, когда значение параметров 01, ,„,0s модельной функции могут быть исследователю не известны.
Критерий Колмогорова-Смирнов
Критерий согласия Колмогорова-Смирнова основан на сравнении эмпирической функции распределения с теоретической функцией распределения F ^ (%) случайной величины £ и является непараметрическим критерием.
Критерий пустых ящиков
В основе критерия пустых ящиков лежит классическая задача о дробинках [2, 4,
5], состоящая в размещении n частиц по к ящикам. Вероятность попадания любой фиксированной частицы в j -й ящик равна 1/ к для всех j = 1,2,..., к . Получаемая в результате случайная величина р0 = р0(п, к), равная числу пустых ящиков, имеет то же самое распределение, что и статистика, на основе которой строится критерий "пустых ящиков". Отсюда и вытекает название данного критерия.
Методика проведения экспериментов
Цель исследования критериев согласия состояла в разработке рекомендаций пользователям статистического программного обеспечения по выбору этих критериев в конкретных ситуациях. Для этого был построены эмпирические оценки функций мощности реализованных критериев согласия. Хотя идея эмпирического сравнения мощностей статистических критериев не нова (см., например, [3]), автору неизвестны работы, посвященные систематическому применению этой идеи при создании статистического программного обеспечения.
На первом этапе экспериментов, назовем его этапом формирования выборок, соответствующих альтернативной гипотезе Н 1 , с помощью датчиков псевдослучайных чисел были сгенерированы по 100 выборок по каждому из 10-ти законов распределения F 1 и заданному планом экспериментов для этого закона набору параметров. Таким образом, всего было сгенерировано 10 наборов выборок, по одному набору на каждый закон распределения F 1 , число выборок в каждом и наборов было, соответственно, равно l • 100, где 100 — число экспериментов для каждого распределения F 1 и каждого набора параметров.
На втором этапе, назовем его этапом проверки гипотез, проверялись гипотезы Н0, то есть согласие распределения каждой из l • 100 выборок, каждого из 10-ти описанных ранее наборов, с законами распределения F0, выбранными в соответствии с описанным выше планом экспериментов, по всем трем, реализованным в системе "Статистик-Консультант", критериям согласия (%2 Пирсона, Колмогорова-Смирнова, пустых ящиков). Параметры распределения F0 оценивались по выборкам. Результатом проверки согласия выборки с некоторым законом распределения в системе "Статистик-Консультант" является значение уровня значимости α, поэтому для каждой пары гипотез (Н0, Н1) и каждого набора значений параметров распределения F1 результатом такой проверки были три массива уровней значимости α для трех критериев согласия. Число элементов в каждом из массивов было равно числу экспериментов, т.е. 100. Таким образом, для каждой пары гипотез (Н0, Н1) было получено l • 3 массивов, где 3 - число критериев согласия, из 100 значений уровней значимости а.
На третьем этапе , назовем его этапом нахождения эмпирических оценок р значений функций мощности µ , для каждого из полученных на втором этапе массивов значений уровней значимости α, были подсчитаны три значения эмпирических оценок р для трех, заданных планом экспериментов значений уровней значимости о0. Это было сделано следующим образом. Для каждого из массивов уровней значимости α подсчитывалась доля экспериментов, в которых а < а0 другими словами, доля экспериментов, в которых нулевая гипотеза отвергалась при заданном планом экспериментов уровне значимости о0. Эта доля, как было сказано ранее, рассматривалась как эмпирическая оценка р значения функции мощности µ определенного критерия согласия для конкретной пары распределения (F0, F 1 ) заданных параметров распределения F 1 и заданного уровня значимости а0. В результате всех подсчетов, для каждой пары гипотез (Н0, Н 1 ) и каждого критерия согласия было получено l • 3 значений р, где 3 — число значений уровней значимости а0, заданных планом экспериментов.
На четвертом этапе , назовем его этапом сбора данных, для каждой пары гипотез (Н0, Н 1 ) и определенного критерия согласия были сформированы матрицы следующего вида:
-
- столбец % , представляя собой значения эмпирической оценки р;
-
- столбец Х 2 — соответствующие значениям р значения числа элементов выборки n;
-
- столбец Х3 — соответствующие значениям р значения параметра распределения F 1 ; в случае, когда распределение F 1 имело два параметра, значения второго параметра, соответствующие значениям р, помещались в столбец Х4
-
- последний столбец — соответствующие значениям р значения уровня значимости а0.
Таким образом, число столбцов полученной матрицы было равно 5 + 3, где 5 — число параметров распределения F 1 , а число строк было равно l • 3. Так, например, для критерия х 2 в случае, когда распределение F0 равномерно, а F 1 нормально. Ясно, что описанная выше матрица была построена таким образом, что переменная Х , в ней является зависимой от всех остальных переменных X j , где j = 2,..., s + 3.
На пятом , заключительном, этапе , назовем его этаном построения моделей функций мощности ц рассматриваемых критериев согласия для пар гипотез (Н0, Н 1 ), с помощью метода ветвей и границ линейного регрессионного анализа строились эмпирические оценки функций мощности каждого критерия согласия для всех пар (Н0,Н 1 ). Это означает, что подбиралась регрессионная модель зависимости переменной Х ^ , сформированной на предыдущем этапе матрицы, от всех остальных переменных X j , которые называют регрессорами.
Все полученные модели являются статистически значимыми с доверительной вероятностью 0.95. Заметим, что в ряде случаев для обеспечения такой точности пришлось ограничить область действия моделей так, что они оказались подмножествами гиперпрямоугольников, содержащих использованные в экспериментах значения регрессоров.
Результат и вывод
Результатом экспериментов, является 149 моделей функций мощностей трех критериев согласия (х2 Пирсона, Колмогорова-Смирнова и пустых ящиков) для различных пар гипотез (Н0, Н1) и соответствующие этим моделям коэффициенты детерминации. Все полученные регрессионные уравнения статистически значимы с доверительной вероятностью 0.95. Для каждой модели указана допустимая область значений регрессоров.
Для различных пар гипотез (Н0, Н 1 ) построены модели мощности критериев согласия в зависимости от условий статистических экспериментов. Это позволяет формулировать рекомендации пользователям по выбору критерия согласия и даже по выбору некоторых условий самих экспериментов в случаях, когда пользователю известна альтернативная гипотеза Н 1 . Если же альтернативная гипотеза однозначно не сформулирована, то в некоторых случаях построенные модели также позволяют сформулировать рекомендации, а в других ситуациях они могут служить определенным ориентиром для выбора критерия. Понятно, что проведенные исследования не охватывают всех возможных вариантов, и продолжение работы с целью развития соответствующего программного обеспечения представляется полезным.
Подводя итоги, сформулируем полученные результаты:
-
1) разработаны программы вычисления значений прямой и обратной функций наиболее употребительных законов распределения и проверки гипотез о соответствии выборки этим законам по трем критериям согласия: х2 Пирсона, Колмогорова-Смирнова и пусты ящиков. Все эти программы включены в пакет "Статистик-Консультант";
-
2) построены модели зависимостей мощностей рассмотренных критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез;
-
3) разработаны рекомендации пользователям статистического программного обеспечения по выбору критериев согласия и по определению некоторых условий проведения экспериментов при их планировании.
Список литературы Обзор критериев согласия системы "Статистик-консультант"
- Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Т. 1: Основы моделирования и первичная обработка данных. - М.: Финансы и статистика, 1983. - 471 с.
- Колчин В.Ф., Севастьянов В.А., Чистяков В.П. Случайные размещения. - М., 1976. - 224 с.
- Тарасенко Ф.П. Непараметрическая статистика. - Томск, ТГУ, 1976. - 292 с.
- Csorgo M., Cuttman I. On the empty cell test // Technometrics. - 1962. - V. 4, № 2. - P. 235-247.
- David F.N. Two combinatorical tests whether a sample has come from a given population // Biometrica. - 1950. - V. 37. - P. 97-110.