Определение минимального объема выборки
Автор: Бакаева Ольга Александровна
Журнал: Инженерные технологии и системы @vestnik-mrsu
Рубрика: Прикладная математика
Статья в выпуске: 4, 2010 года.
Бесплатный доступ
В данной статье приведены способы нахождения оптимального объема выборки п для нормального закона распределения, распределения Стьюдента, а также биномиального закона в зависимости от известных параметров этих законов распределения.
Короткий адрес: https://sciup.org/14719569
IDR: 14719569
Текст научной статьи Определение минимального объема выборки
ОПРЕДЕЛЕНИЕ МИНИМАЛЬНОГО ОБЪЕМА ВЫБОРКИ
О- А. Бакаева
В данной статье приведены способы нахождения оптимального объема выборки л для нормального закона распределения, распределения Стьюдента, а также биномиального закона в зависимости от известных параметров этих законов распределения.
В науке часто, чтобы определить какую-либо величину, приходится проделывать ряд испытаний. Но бывает так, что и в этом случае истинное значение показателя абсолютно точно измерить не удается, оно получается с определенной долей погрешности. Исходя из формул доверительного интервала для нормального, биномиального распределения и распределения Стьюдента находится минимальное количество экспериментов, необходимое для получения достоверной информации.
В современных условиях цена эксперимента бывает достаточно высокой как в переносном, так и в прямом смысле. Это может быть связано и с использованием дорогостоящего оборудования, и с оплатой труда специалиста, и непосредственно с затратами ла сам опытный процесс. Поэтому задача определения минимального количества экспериментов для получения всей необходимой информации в целях ее последующей обработки является очень актуальной. На языке статистики эта задача сводится к определению минимального объема выборки.
Основная часть классической статистической теории предполагает нормальность распределения изучаемой случайной величины. Но на практике в большинстве случаев приходится сталкиваться с распределением, закон которого близок к одному из известных распределений, но далек от нормального. К наиболее употребительным распределениям можно отнести: непосредственно нормальное распределение и распределение Стьюдента, которые являются непрерывными, а также дискретное - биномиальное распределение. В зависимости от закона распределения и вычисляют необходимый объем выборки - п.
Нормальное распределение. Обычно в статистике решается задача определения доверительных интервалов, покрывающих параметр о, с надежностью у и точностью 5, где а - математическое ожидание нормально го распределения.
Пусть параметры распределения таковы;
М(Х) = а, сг(Х) = —=, Потребуем, чтобы V»
выполнялось соотношение Р(|Х —а| < 6) = у, где у - заданная надежность, получим Р(|Х — а| < 6) — 2Ф^У заменив X на X и ст на ст(Х) = —. Тогда
Р(|Х-а| < 5) ^2ф(^^ = 2Ф(<), (1)
где

г, с to
Найдя из последнего равенства о = —= имеем право написать

= 2Ф(<).
Приняв во внимание, что вероятность Р задана и равна у, окончательно имеем (чтобы получить рабочую формулу, выборочную среднюю обозначим за х)

< а < х р 7^) ™ 2Ф(1) = у.
Смысл полученного отношения таков: с надежностью у можно утверждать, что до-„ /_ to _ to \ верительный интервал х--т=,х Ч—= по-
V vn Vn/ крывает неизвестный параметр а; точность оценки 6 = to/Vn Число t определяется
из равенства 2Ф(1) — 7, или Ф(1) = 7/2; по таблице функции Лапласа находят аргумент t, которому соответствует значение функции Лапласа, равное 7/2 [1].
Если известно математическое ожидание с наперед заданной точностью 8 и надежностью 7, то минимальный объем выборки, который обеспечит эту точность, находят по формуле
- ter как следствие равенства й = —=.
Учитывая, что характеристиками стан дартного нормального распределения являются а = 0 и tr = 1, то формула (1) примет вид:
Р(|Х[ < 5) = 2Ф(8^ = 2^(t),(4)
где t = 5Vn.(5)
Из последнего равенства следует, что минимальный объем выборки будет равен:
t2
п = T9-(**)
Также можно использовать аппроксимацию t « 4, 91 [а0,14 — (1 — а)0’14]- Тогда получается [2]
п = 24,1081 ( у р14 - (1 - а)0-14] Г Id J J
Как показывает полученная формула, минимальное число опытов прямо пропорционально квадрату значения t, которое находится по табличным значениям функции Лапласа, Ф(() = 7/2, где 7 - это надежность. То есть с увеличением надежности минимальное число элементов увеличивается' в параболической зависимости. С другой стороны, минимальное число опытов обратно пропорционально точности, с которой измеряется среднее значение признака. С увеличением 5, т. е. с уменьшением точности, число элементов уменьшается, а с уменьшением 3, т. е. с увеличением точности, число элементов, наоборот, увеличивается.
О применимости формул (*) и (**) относительно общего количества экспериментов речь пойдет ниже.
Известно, что при неограниченном возрастании объема выборки п распределение Стьюдента стремится к нормальному. Поэтому практически при п > 30 можно вместо распределения Стьюдента пользоваться нормальным распределением. Однако важно, что для малых объемов выборок (п < 30), в особенности для малых значений п, замена распределения нормальным приводит к грубым ошибкам, а именно к неоправданному сужению доверительного интервала, т. е. к повышению точности оценки. Например, если п — 5 и 7 = 0,99, то пользуясь распределением Стьюдента, имеем Ц = 4,6, а используя функцию Лапласа, найдем Ц = 2,58, т. е, доверительный интервал в последнем случае окажется более узким, чем найденный по распределению Стьюдента. То обстоятельство, что распределение Стьюдента при малой выборке дает широкий доверительный интервал вовсе не свидетельствует о непригодности метода Стьюдента, а объясняется тем, что малая выборка содержит малую информацию об интересующем нас признаке.
Распределение Стьюдента определяется параметром п - объемом выборки (или числом степеней свободы к — п — 1) и не зависит от неизвестных параметров а и а; эта особенность является его большим достоинством.
При достаточно больших значениях п объема выборки выборочная и исправленная дисперсии различаются мало. На практике пользуются исправленной дисперсией, если примерно п < 30 (напомним, что именно при небольших размерах выборок и используется распределение Стьюдента, тогда как при п > 30 практически любая случайная величина аппроксимируется нормальным распределением).
При неизвестной дисперсии необходимый объем выборки определяется из соотношения
- е ias где ta - а-квантиль распределения Стьюдента при f — п степенях свободы; s и ж - выборочные оценки соответственно стандартного отклонения и среднего значения [2].
Необходимые значения ^^ рассчитаны и могут быть найдены по таблицам [2, табл. 49].
Определение объема выборки происходит в следующей последовательности. Сначала по заданным величинам о — - и а и предпо-латаемому значению коэффициента вариация
S , ta(n)
v — - находят по таблице значение —и х Vn по нему определяют искомое значение п. Ес- ли для найденного объема выборки п выборочное значение окажется больше предполагавшегося, то эксперимент должен быть продолжен.
Замечание. Если а = 0,975, то, как частный случай, из выражения
<0,975 (п) = 2^ (7)
следует, что объем выборки

В этом случае по заданной абсолютной ошибке е и предполагаемому стандартному отклонению s может быть непосредственно определен объем необходимой выборки п.
Биномиальное распределение. Пусть производятся независимые испытания с неизвестной вероятностью р появления события А в каждом испытании. Ставится задача найти доверительный интервал для оценки вероятности, в случае биномиального распределения это можно будет сделать с помощью относительной частоты р = — . Учитывая, что п
Р(|Х-а|<5) = 2ф(£), (9)
и заменив случайную величину X и ее математическое ожидание а соответственно случайной величиной IV и ее математическим ожиданием р, получим приближенное (так как относительная частота распределена приближенно нормально) равенство
F(iIV-p| <6} = 2ф(-А = 7. (10)
\ СТ /
Как известно, для биномиального распределения дисперсия находится по формуле P(W) = —, а среднее квадратическое откло-п нение как квадратный корень из дисперсии ст = VD(W) = ^J^’ где 9 ~ 1 — р - вероятность не появления события А, тогда подставив данные выражения в формулу (10), получают:
P(|W-p| < 5) = 2Ф(^) = 2^(f) = 7, (И)
где

Следовательно,
^-"К^)
= 2Ф^ — 7-
Можно выразить точность 6 = t^/^, откуда минимальный объем выборки, если вероятность р появления события известна, находится по формуле:
П~ 5=
(* * *)
где t - значение функции Лапласа. Если вероятность появления события явно не задаг-на, то находим ее из соотношения р — , где m - число появления события, ап- число испытаний. Тогда минимальный объем выборки будет
.2 тг = t
/ m m2 х
XnJ2 n2^2/
(* * **)
Если n достаточно велико и вероятность р не очень близка к пулю и к единице, то можно считать, что относительная частота распределена приближенно нормально.
Также можно аппроксимировать практически любое распределение нормальным при достаточном объеме выборки. Об этом свидетельствует и Центральная предельная теорема А. М. Ляпунова. Отсюда следует, что практически все статистические распределения должны приближаться к нормальному распределению как к идеальной предельной форме, если только можно располагать достаточно большим числом наблюдений. То есть, если объем выборки > 30 и случайная величина близки к нормальному распределению, то минимальный размер выборки опре-,2 2 t ст . , деляется соотношением п — ——-. А если объ-ем выборки < 30 и дисперсия неизвестна, то исходя из распределения Стьюдента и таб-<
личных значений ——, так как при новых Vn условиях формула (*} не гарантирует того, что полученное число экспериментов будет достаточным.
Список литературы Определение минимального объема выборки
- Гмурман В. Е. Теория вероятностей и математическая статистика: учеб. пособие для студентов вузов/В. Е. Гмурман. -8-е изд., стер,т-М.: Высш. шк., 2002. -479 с.
- Кобзарь А. И. Прикладная.математическая статистика/А. И. Кобзарь. -М. Физматлит, 2006. -816 с.