Выборочный метод. Эмпирическая функция распределения

Автор: Рыщанова С.М., Ушкова Л.

Журнал: Экономика и социум @ekonomika-socium

Рубрика: Современные науки и образование

Статья в выпуске: 2-5 (15), 2015 года.

Бесплатный доступ

Рассматриваются основные понятия и задачи математической статистики, различные способы отбора. Дано понятие эмпирической функции, ее свойства.

Генеральная совокупность, выборка, полигон, гистограмма, эмпирическая функция

Короткий адрес: https://sciup.org/140113294

IDR: 140113294

Текст научной статьи Выборочный метод. Эмпирическая функция распределения

Предметом математической статистики является изучение случайных величин по результатам наблюдений. Основными задачами математической статистики является оценка вида неизвестного распределения, оценка параметров известного распределения, оценка интервала, в который может попасть случайная величина и т.д. В математической статистике законы распределения случайных величин и их числовые характеристики приходится определять из опыта. Полученные по опытным данным законы распределения называются статистическими (эмпирическими).

Множество объектов, отобранных для исследования называется выборочной совокупностью (выборкой), а множество объектов, из которого взята выборка называется генеральной совокупностью. Количество объектов в выборке называется объемом выборки.

Выборка, правильно представляющая пропорции генеральной совокупности, называется репрезентативной. Выборка называется повторной (бесповторной), если отобранный объект после исследования возвращается (не возвращается) в генеральную совокупность.

Существуют различные способы отбора:

  • 1 . Простой случайный отбор - объекты извлекают по одному из всей генеральной совокупности. При большом числе объектов пользуются таблицами случайных чисел или генератором случайных чисел ( с использ. компьютера).

  • 2 . Механический - генеральная совокупность делится на столько групп, сколько объектов должно войти в выборку, и из каждой группы отбирается один объект.

  • 3 . Серийный отбор - генеральная совокупность разбивается на части и выбирается одна или несколько частей, которые подвергаются сплошному обследованию

  • 4 . Типический отбор - объекты выбираются не из всей генеральной совокупности, а из каждой ее «типической части»

Например, если для исследования надо отобрать 10% объектов из 300 случайным способом, то выбираются 30 объектов.

Например, если для исследования надо отобрать 20% объектов из 1000 механическим способом, то выбирается каждый 5-ый объект.

Например, генеральная совокупность разбита на 10 частей и из них отобрали 3 части для сплошного обследования. Это будет серийный отбор.

Например, если детали изготовляют на нескольких станках, то отбор производят не из всей совокупности деталей, а из продукции каждого станка в отдельности

При механическом, типическом и серийном способах отбора генеральная совокупность разбивается на части.

Пусть над с.в. Х проведено n наблюдений т.е. из генеральной совокупности произведена выборка объема n. Наблюдавшиеся значения х i признака Х будем называть вариантами, одинаковые из них объединим в группы и оформим результаты в виде таблицы.

Статистическое распределение выборки устанавливает соответствие между наблюдаемыми значениями (вариантами) и их частотами или относительными частотами.

Статистический ряд состоящий из вариант, расположенных в порядке убывания или возрастания называется ранжированным.

Ряды распределения удобно представлять в виде двух разновидностей: дискретного и интервального.

x i

x 1

x 2

x k

n i

n 1

n 2

n k

w i

w 1

w 2

w k

Табл.1

Здесь х i – наблюдаемые значения, причем x 1 2 3 <…k;

  • n i - число наблюдаемых значений х i , т.е. частота значения х i в n опытах;

n

W i = -

  • n    - относительная частота (частость) наблюдаемых значений признака Х,

k-число различных значений x i.

E w =1, E n i =n

Модой называется варианта с наибольшей частотой.

Медианой называется варианта, которая делит вариационный ряд на две части, равные по числу вариант.

Если число вариант нечетно, т.е. n=2k+1, то М е = х k+1 ;

  • x k + x k + 1

При чётном n=2k медиана Ме=  2

Вариационным рядом называется ранжированный в порядке возрастания или убывания ряд вариантов с соответствующими им весами (частотами или частостями). Таблица 1 называется вариационным рядом.

При большом числе опытов (наблюдений) весь интервал значений Х разбивают на несколько интервалов равной длины и подсчитывают число значений xi, попавших в каждый интервал. Получаем интервальный ряд распределения

x i

(a 0 , a 1 )

(a 1 , a 2 )

(a k-1 , b)

n i

n 1

n 2

n k

w i

w 1

w 2

w k

Табл.2

Интервал между наибольшими и наименьшими значениями х i называется зоной рассеивания с.в. Х. или размахом вариации:

R = xmax - xm i n

Выборка называется сгруппированной, если все значения, попавшие в один и тот же i-ый интервал при расчетах принимать равным одному значению, а именно середине интервала. Графическим изображением содержания таблиц 1 и 2 является полигон частот и гистограмма . Полигон распределения строится для дискретного ряда, в случае интервального строится гистограмма. Полигоном частот называется ломаная, отрезки которой соединяют точки (x1; n1), (x2; n2), …, (xk; nk)

Гистограммой частот называется ступенчатая фигура, состоящая из ni прямоугольников с основаниями h и высотами h , где h -это длина интервала (ai-1;ai), Если строим гистограмму относительных частот, то в этом wi случае высоты равны отношению h ( плотность относительной частоты). Гистограмма является статистическим аналогом плотности распределения. Площадь гистограммы относительных частот равна единице.

Эмпирической функцией распределения называют функцию F*(x), определяющего для каждого значения х относительную частоту события X< x. Интегральная функция распределения F(х) определяет вероятность события X

Свойства эмпирической функции:

  • 1.    Значения эмпирической функции принадлежат отрезку [ 0, 1]

  • 2.    F*(x) - неубывающая функция

  • 3.    Если Xi- наименьшая варианта, хк- наибольшая , то F*(x) = 0 при х х1,

F*(x) = 1 при х > хк

Пример. Дано статистическое распределение выборки

xi

1

3

5

9

ni

4

6

8

12

Найти значение эмпирической функции распределения F*(x) при х=5

Решение: Найдем объем выборки n= 4+6+8+12=30.

Число вариант, при которых наблюдалось значение признака меньшее

10   1

  • 5, равно 4+6=10 , следовательно F*(x) = 30  3

"Экономика и социум" №2(15) 2015

Статья научная