Обзор критериев согласия системы "Статистик-консультант"
Автор: Александров И.В.
Журнал: Международный журнал гуманитарных и естественных наук @intjournal
Рубрика: Физико-математические науки
Статья в выпуске: 8-2 (71), 2022 года.
Бесплатный доступ
Было дано понятие критериев согласия. Обозначены исследуемые в данной работе критерии: Пирсона, Колмогорова-Смирнова, пустых ящиков. Описаны этапы методики проведения экспериментов. Построены модели зависимостей мощностей рассмотренных критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез. Что в свою очередь, позволяет формулировать рекомендации пользователям по выбору критерия согласия и даже по выбору некоторых условий самих экспериментов в определённых случаях. В других случаях построенные модели также позволяют сформулировать рекомендации или могут послужить определенным ориентиром для выбора критерия.
Критерий согласия, алгоритм, закон распределения, программа, моделирование, эксперимент, рекомендации
Короткий адрес: https://sciup.org/170195477
IDR: 170195477 | DOI: 10.24412/2500-1000-2022-8-2-101-104
Overview of the consent criteria of the "Statistician-consultant" system
The concept of goodness-of-fit criteria was given. The criteria studied in this paper are indicated: Pearson, Kolmogorov-Smirnov, empty boxes. The stages of the methodology for conducting experiments are described. Models of dependences of the powers of the considered goodness-of-fit criteria on the level of significance, sample size, and parameter values of the tested hypotheses are constructed. Which, in turn, makes it possible to formulate recommendations to users on the choice of a goodness of fit criterion and even on the choice of some conditions for the experiments themselves in certain cases. In other cases, the constructed models also make it possible to formulate recommendations or can serve as a certain guideline for choosing a criterion.
Текст научной статьи Обзор критериев согласия системы "Статистик-консультант"
Критерии согласия предназначены для проверки гипотез Но, т.е. решают задачу проверки согласованности теоретических предположений о виде закона распределения с опытными данными. Наряду с гипотезой Но рассматривается альтернативна гипотеза:
Hi: F^(%) ^ Fmod(%; 0i, -„,0s).
В данной работе рассматриваются три критерия согласия, реализованные в системе "Статистик-Консультант":
-
- критерий %2 Пирсона,
-
- критерий Колмогорова-Смирнова,
-
- критерий пустых ящиков.
Необходимо отметить, что критерий %2 Пирсон и Колмогорова-Смирнова являются хорошо известными (см., например, [1]) и почти всегда включены в статистическое программное обеспечение. Особое место среди данных трех критериев занимает критерий пустых ящиков. Это критерий используется реже, и автор не известны пакеты прикладных статистических программ, в которых он был бы реализован. Однако заметим, что этот критерий выгодно отличается от других критериев согласия простотой интерпретации и вычисления [2].
Критерий %2 Пирсона
Критерий согласия %2 позволяет осуществлять проверку гипотезы Но в случае, когда значение параметров 01, ,„,0s модельной функции могут быть исследователю не известны.
Критерий Колмогорова-Смирнов
Критерий согласия Колмогорова-Смирнова основан на сравнении эмпирической функции распределения с теоретической функцией распределения F ^ (%) случайной величины £ и является непараметрическим критерием.
Критерий пустых ящиков
В основе критерия пустых ящиков лежит классическая задача о дробинках [2, 4,
5], состоящая в размещении n частиц по к ящикам. Вероятность попадания любой фиксированной частицы в j -й ящик равна 1/ к для всех j = 1,2,..., к . Получаемая в результате случайная величина р0 = р0(п, к), равная числу пустых ящиков, имеет то же самое распределение, что и статистика, на основе которой строится критерий "пустых ящиков". Отсюда и вытекает название данного критерия.
Методика проведения экспериментов
Цель исследования критериев согласия состояла в разработке рекомендаций пользователям статистического программного обеспечения по выбору этих критериев в конкретных ситуациях. Для этого был построены эмпирические оценки функций мощности реализованных критериев согласия. Хотя идея эмпирического сравнения мощностей статистических критериев не нова (см., например, [3]), автору неизвестны работы, посвященные систематическому применению этой идеи при создании статистического программного обеспечения.
На первом этапе экспериментов, назовем его этапом формирования выборок, соответствующих альтернативной гипотезе Н 1 , с помощью датчиков псевдослучайных чисел были сгенерированы по 100 выборок по каждому из 10-ти законов распределения F 1 и заданному планом экспериментов для этого закона набору параметров. Таким образом, всего было сгенерировано 10 наборов выборок, по одному набору на каждый закон распределения F 1 , число выборок в каждом и наборов было, соответственно, равно l • 100, где 100 — число экспериментов для каждого распределения F 1 и каждого набора параметров.
На втором этапе, назовем его этапом проверки гипотез, проверялись гипотезы Н0, то есть согласие распределения каждой из l • 100 выборок, каждого из 10-ти описанных ранее наборов, с законами распределения F0, выбранными в соответствии с описанным выше планом экспериментов, по всем трем, реализованным в системе "Статистик-Консультант", критериям согласия (%2 Пирсона, Колмогорова-Смирнова, пустых ящиков). Параметры распределения F0 оценивались по выборкам. Результатом проверки согласия выборки с некоторым законом распределения в системе "Статистик-Консультант" является значение уровня значимости α, поэтому для каждой пары гипотез (Н0, Н1) и каждого набора значений параметров распределения F1 результатом такой проверки были три массива уровней значимости α для трех критериев согласия. Число элементов в каждом из массивов было равно числу экспериментов, т.е. 100. Таким образом, для каждой пары гипотез (Н0, Н1) было получено l • 3 массивов, где 3 - число критериев согласия, из 100 значений уровней значимости а.
На третьем этапе , назовем его этапом нахождения эмпирических оценок р значений функций мощности µ , для каждого из полученных на втором этапе массивов значений уровней значимости α, были подсчитаны три значения эмпирических оценок р для трех, заданных планом экспериментов значений уровней значимости о0. Это было сделано следующим образом. Для каждого из массивов уровней значимости α подсчитывалась доля экспериментов, в которых а < а0 другими словами, доля экспериментов, в которых нулевая гипотеза отвергалась при заданном планом экспериментов уровне значимости о0. Эта доля, как было сказано ранее, рассматривалась как эмпирическая оценка р значения функции мощности µ определенного критерия согласия для конкретной пары распределения (F0, F 1 ) заданных параметров распределения F 1 и заданного уровня значимости а0. В результате всех подсчетов, для каждой пары гипотез (Н0, Н 1 ) и каждого критерия согласия было получено l • 3 значений р, где 3 — число значений уровней значимости а0, заданных планом экспериментов.
На четвертом этапе , назовем его этапом сбора данных, для каждой пары гипотез (Н0, Н 1 ) и определенного критерия согласия были сформированы матрицы следующего вида:
-
- столбец % , представляя собой значения эмпирической оценки р;
-
- столбец Х 2 — соответствующие значениям р значения числа элементов выборки n;
-
- столбец Х3 — соответствующие значениям р значения параметра распределения F 1 ; в случае, когда распределение F 1 имело два параметра, значения второго параметра, соответствующие значениям р, помещались в столбец Х4
-
- последний столбец — соответствующие значениям р значения уровня значимости а0.
Таким образом, число столбцов полученной матрицы было равно 5 + 3, где 5 — число параметров распределения F 1 , а число строк было равно l • 3. Так, например, для критерия х 2 в случае, когда распределение F0 равномерно, а F 1 нормально. Ясно, что описанная выше матрица была построена таким образом, что переменная Х , в ней является зависимой от всех остальных переменных X j , где j = 2,..., s + 3.
На пятом , заключительном, этапе , назовем его этаном построения моделей функций мощности ц рассматриваемых критериев согласия для пар гипотез (Н0, Н 1 ), с помощью метода ветвей и границ линейного регрессионного анализа строились эмпирические оценки функций мощности каждого критерия согласия для всех пар (Н0,Н 1 ). Это означает, что подбиралась регрессионная модель зависимости переменной Х ^ , сформированной на предыдущем этапе матрицы, от всех остальных переменных X j , которые называют регрессорами.
Все полученные модели являются статистически значимыми с доверительной вероятностью 0.95. Заметим, что в ряде случаев для обеспечения такой точности пришлось ограничить область действия моделей так, что они оказались подмножествами гиперпрямоугольников, содержащих использованные в экспериментах значения регрессоров.
Результат и вывод
Результатом экспериментов, является 149 моделей функций мощностей трех критериев согласия (х2 Пирсона, Колмогорова-Смирнова и пустых ящиков) для различных пар гипотез (Н0, Н1) и соответствующие этим моделям коэффициенты детерминации. Все полученные регрессионные уравнения статистически значимы с доверительной вероятностью 0.95. Для каждой модели указана допустимая область значений регрессоров.
Для различных пар гипотез (Н0, Н 1 ) построены модели мощности критериев согласия в зависимости от условий статистических экспериментов. Это позволяет формулировать рекомендации пользователям по выбору критерия согласия и даже по выбору некоторых условий самих экспериментов в случаях, когда пользователю известна альтернативная гипотеза Н 1 . Если же альтернативная гипотеза однозначно не сформулирована, то в некоторых случаях построенные модели также позволяют сформулировать рекомендации, а в других ситуациях они могут служить определенным ориентиром для выбора критерия. Понятно, что проведенные исследования не охватывают всех возможных вариантов, и продолжение работы с целью развития соответствующего программного обеспечения представляется полезным.
Подводя итоги, сформулируем полученные результаты:
-
1) разработаны программы вычисления значений прямой и обратной функций наиболее употребительных законов распределения и проверки гипотез о соответствии выборки этим законам по трем критериям согласия: х2 Пирсона, Колмогорова-Смирнова и пусты ящиков. Все эти программы включены в пакет "Статистик-Консультант";
-
2) построены модели зависимостей мощностей рассмотренных критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез;
-
3) разработаны рекомендации пользователям статистического программного обеспечения по выбору критериев согласия и по определению некоторых условий проведения экспериментов при их планировании.
Список литературы Обзор критериев согласия системы "Статистик-консультант"
- Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Т. 1: Основы моделирования и первичная обработка данных. - М.: Финансы и статистика, 1983. - 471 с.
- Колчин В.Ф., Севастьянов В.А., Чистяков В.П. Случайные размещения. - М., 1976. - 224 с.
- Тарасенко Ф.П. Непараметрическая статистика. - Томск, ТГУ, 1976. - 292 с.
- Csorgo M., Cuttman I. On the empty cell test // Technometrics. - 1962. - V. 4, № 2. - P. 235-247.
- David F.N. Two combinatorical tests whether a sample has come from a given population // Biometrica. - 1950. - V. 37. - P. 97-110.