Научные статьи \ Математика. Естественные науки \ Математика \ Теория вероятностей и математическая статистика

Обзор критериев согласия системы "Статистик-консультант"

Автор: Александров И.В.

Журнал: Международный журнал гуманитарных и естественных наук @intjournal

Статья в выпуске: 8-2 (71), 2022 года.

Бесплатный доступ

Было дано понятие критериев согласия. Обозначены исследуемые в данной работе критерии: Пирсона, Колмогорова-Смирнова, пустых ящиков. Описаны этапы методики проведения экспериментов. Построены модели зависимостей мощностей рассмотренных критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез. Что в свою очередь, позволяет формулировать рекомендации пользователям по выбору критерия согласия и даже по выбору некоторых условий самих экспериментов в определённых случаях. В других случаях построенные модели также позволяют сформулировать рекомендации или могут послужить определенным ориентиром для выбора критерия.

Еще

Критерий согласия, алгоритм, закон распределения, программа, моделирование, эксперимент, рекомендации

Короткий адрес: https://sciup.org/170195477

IDR: 170195477 | DOI: 10.24412/2500-1000-2022-8-2-101-104

Текст научной статьи Обзор критериев согласия системы "Статистик-консультант"

Критерии согласия предназначены для проверки гипотез Но, т.е. решают задачу проверки согласованности теоретических предположений о виде закона распределения с опытными данными. Наряду с гипотезой Но рассматривается альтернативна гипотеза:

Hi: F^(%) ^ Fmod(%; 0i, -„,0s).

В данной работе рассматриваются три критерия согласия, реализованные в системе "Статистик-Консультант":

- критерий %² Пирсона,
- критерий Колмогорова-Смирнова,
- критерий пустых ящиков.

Необходимо отметить, что критерий %2 Пирсон и Колмогорова-Смирнова являются хорошо известными (см., например, [1]) и почти всегда включены в статистическое программное обеспечение. Особое место среди данных трех критериев занимает критерий пустых ящиков. Это критерий используется реже, и автор не известны пакеты прикладных статистических программ, в которых он был бы реализован. Однако заметим, что этот критерий выгодно отличается от других критериев согласия простотой интерпретации и вычисления [2].

Критерий %² Пирсона

Критерий согласия %² позволяет осуществлять проверку гипотезы Н_о в случае, когда значение параметров 0₁, ,„,0_s модельной функции могут быть исследователю не известны.

Критерий Колмогорова-Смирнов

Критерий согласия Колмогорова-Смирнова основан на сравнении эмпирической функции распределения с теоретической функцией распределения F ^ (%) случайной величины £ и является непараметрическим критерием.

Критерий пустых ящиков

В основе критерия пустых ящиков лежит классическая задача о дробинках [2, 4,

5], состоящая в размещении n частиц по к ящикам. Вероятность попадания любой фиксированной частицы в j -й ящик равна 1/ к для всех j = 1,2,..., к . Получаемая в результате случайная величина р₀ = р₀(п, к), равная числу пустых ящиков, имеет то же самое распределение, что и статистика, на основе которой строится критерий "пустых ящиков". Отсюда и вытекает название данного критерия.

Методика проведения экспериментов

Цель исследования критериев согласия состояла в разработке рекомендаций пользователям статистического программного обеспечения по выбору этих критериев в конкретных ситуациях. Для этого был построены эмпирические оценки функций мощности реализованных критериев согласия. Хотя идея эмпирического сравнения мощностей статистических критериев не нова (см., например, [3]), автору неизвестны работы, посвященные систематическому применению этой идеи при создании статистического программного обеспечения.

На первом этапе экспериментов, назовем его этапом формирования выборок, соответствующих альтернативной гипотезе Н 1 , с помощью датчиков псевдослучайных чисел были сгенерированы по 100 выборок по каждому из 10-ти законов распределения F 1 и заданному планом экспериментов для этого закона набору параметров. Таким образом, всего было сгенерировано 10 наборов выборок, по одному набору на каждый закон распределения F 1 , число выборок в каждом и наборов было, соответственно, равно l • 100, где 100 — число экспериментов для каждого распределения F 1 и каждого набора параметров.

На втором этапе, назовем его этапом проверки гипотез, проверялись гипотезы Н0, то есть согласие распределения каждой из l • 100 выборок, каждого из 10-ти описанных ранее наборов, с законами распределения F0, выбранными в соответствии с описанным выше планом экспериментов, по всем трем, реализованным в системе "Статистик-Консультант", критериям согласия (%2 Пирсона, Колмогорова-Смирнова, пустых ящиков). Параметры распределения F0 оценивались по выборкам. Результатом проверки согласия выборки с некоторым законом распределения в системе "Статистик-Консультант" является значение уровня значимости α, поэтому для каждой пары гипотез (Н0, Н1) и каждого набора значений параметров распределения F1 результатом такой проверки были три массива уровней значимости α для трех критериев согласия. Число элементов в каждом из массивов было равно числу экспериментов, т.е. 100. Таким образом, для каждой пары гипотез (Н0, Н1) было получено l • 3 массивов, где 3 - число критериев согласия, из 100 значений уровней значимости а.

На третьем этапе , назовем его этапом нахождения эмпирических оценок р значений функций мощности µ , для каждого из полученных на втором этапе массивов значений уровней значимости α, были подсчитаны три значения эмпирических оценок р для трех, заданных планом экспериментов значений уровней значимости о₀. Это было сделано следующим образом. Для каждого из массивов уровней значимости α подсчитывалась доля экспериментов, в которых а < а₀ другими словами, доля экспериментов, в которых нулевая гипотеза отвергалась при заданном планом экспериментов уровне значимости о₀. Эта доля, как было сказано ранее, рассматривалась как эмпирическая оценка р значения функции мощности µ определенного критерия согласия для конкретной пары распределения (F₀, F 1 ) заданных параметров распределения F 1 и заданного уровня значимости а₀. В результате всех подсчетов, для каждой пары гипотез (Н₀, Н 1 ) и каждого критерия согласия было получено l • 3 значений р, где 3 — число значений уровней значимости а₀, заданных планом экспериментов.

На четвертом этапе , назовем его этапом сбора данных, для каждой пары гипотез (Н₀, Н 1 ) и определенного критерия согласия были сформированы матрицы следующего вида:

- столбец % , представляя собой значения эмпирической оценки р;
- столбец Х 2 — соответствующие значениям р значения числа элементов выборки n;
- столбец Х₃ — соответствующие значениям р значения параметра распределения F 1 ; в случае, когда распределение F 1 имело два параметра, значения второго параметра, соответствующие значениям р, помещались в столбец Х₄
- последний столбец — соответствующие значениям р значения уровня значимости а₀.

Таким образом, число столбцов полученной матрицы было равно 5 + 3, где 5 — число параметров распределения F 1 , а число строк было равно l • 3. Так, например, для критерия х ² в случае, когда распределение F₀ равномерно, а F 1 нормально. Ясно, что описанная выше матрица была построена таким образом, что переменная Х , в ней является зависимой от всех остальных переменных X j , где j = 2,..., s + 3.

На пятом , заключительном, этапе , назовем его этаном построения моделей функций мощности ц рассматриваемых критериев согласия для пар гипотез (Н₀, Н 1 ), с помощью метода ветвей и границ линейного регрессионного анализа строились эмпирические оценки функций мощности каждого критерия согласия для всех пар (Н₀,Н 1 ). Это означает, что подбиралась регрессионная модель зависимости переменной Х ^ , сформированной на предыдущем этапе матрицы, от всех остальных переменных X j , которые называют регрессорами.

Все полученные модели являются статистически значимыми с доверительной вероятностью 0.95. Заметим, что в ряде случаев для обеспечения такой точности пришлось ограничить область действия моделей так, что они оказались подмножествами гиперпрямоугольников, содержащих использованные в экспериментах значения регрессоров.

Результат и вывод

Результатом экспериментов, является 149 моделей функций мощностей трех критериев согласия (х2 Пирсона, Колмогорова-Смирнова и пустых ящиков) для различных пар гипотез (Н0, Н1) и соответствующие этим моделям коэффициенты детерминации. Все полученные регрессионные уравнения статистически значимы с доверительной вероятностью 0.95. Для каждой модели указана допустимая область значений регрессоров.

Для различных пар гипотез (Н₀, Н 1 ) построены модели мощности критериев согласия в зависимости от условий статистических экспериментов. Это позволяет формулировать рекомендации пользователям по выбору критерия согласия и даже по выбору некоторых условий самих экспериментов в случаях, когда пользователю известна альтернативная гипотеза Н 1 . Если же альтернативная гипотеза однозначно не сформулирована, то в некоторых случаях построенные модели также позволяют сформулировать рекомендации, а в других ситуациях они могут служить определенным ориентиром для выбора критерия. Понятно, что проведенные исследования не охватывают всех возможных вариантов, и продолжение работы с целью развития соответствующего программного обеспечения представляется полезным.

Подводя итоги, сформулируем полученные результаты:

1) разработаны программы вычисления значений прямой и обратной функций наиболее употребительных законов распределения и проверки гипотез о соответствии выборки этим законам по трем критериям согласия: х² Пирсона, Колмогорова-Смирнова и пусты ящиков. Все эти программы включены в пакет "Статистик-Консультант";
2) построены модели зависимостей мощностей рассмотренных критериев согласия от уровня значимости, объема выборки и значений параметров проверяемых гипотез;
3) разработаны рекомендации пользователям статистического программного обеспечения по выбору критериев согласия и по определению некоторых условий проведения экспериментов при их планировании.

Список литературы Обзор критериев согласия системы "Статистик-консультант"

Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика. Т. 1: Основы моделирования и первичная обработка данных. - М.: Финансы и статистика, 1983. - 471 с.
Колчин В.Ф., Севастьянов В.А., Чистяков В.П. Случайные размещения. - М., 1976. - 224 с.
Тарасенко Ф.П. Непараметрическая статистика. - Томск, ТГУ, 1976. - 292 с.
Csorgo M., Cuttman I. On the empty cell test // Technometrics. - 1962. - V. 4, № 2. - P. 235-247.
David F.N. Two combinatorical tests whether a sample has come from a given population // Biometrica. - 1950. - V. 37. - P. 97-110.