Оценка влияния ошибок дизайна и отказов респондентов на результаты обследования домашних хозяйств
Автор: Жаромский В.С.
Журнал: Экономика и бизнес: теория и практика @economyandbusiness
Статья в выпуске: 11-1 (81), 2021 года.
Бесплатный доступ
Оценка влияния неравномерной представительности домохозяйств с разным уровнем дохода в выборке на оценку параметров логнормального распределения душевого денежного дохода на основе данных обследования «Выборочное наблюдение доходов населения и участия в социальных программах» (ВНДН). Эти обследования стали основой для анализа распределения доходов домохозяйств разного социально-демографического типа. При этом Госкомстат использует гипотезу от логнормальности распределения душевых денежных доходов, параметры которого оцениваются на основе данных выборки и балансовой статистики. Проблема оценки параметров усложняется из-за ошибок дизайна выборки и разного рода отказов респондентов от участия в опросе. Неправильная оценка средних значений душевого дохода в крайних децилях приводит к занижению коэффициента фондов, являющегося одним из показателей неравенства населения по доходам. В статье предложена методика оценки параметров распределения использующая критерий, отличный от принятого в статистике. Предложена модель оценки недостающих данных, которые были потеряны из-за ошибок дизайна и отказов от опроса. Построены критические границы, выше которых в выборке практически нет наблюдений. Рассчитаны оценки душевого дохода не попавших в выборку домохозяйств, добавление которых выводит средний выборочный душевой доход на уровень официального, полученного по балансу доходов и расходов населения. В статье приведены полные расчёты для выборки домохозяйств населения РФ за 2016 г. и конечные результаты за остальные годы.
Логарифмически нормальное распределение душевых денежных доходов, критерий близости распределений, коэффициент фондов, моделирование распределения доходов, долевая структура ошибок дизайна и отказов от опроса
Короткий адрес: https://sciup.org/170191824
IDR: 170191824
Текст научной статьи Оценка влияния ошибок дизайна и отказов респондентов на результаты обследования домашних хозяйств
Для правильной оценки государственных решений в области социальной, экономической и демографической политики недостаточно знать общие характеристики качества и уровня жизни населения по причине того, что распределительные отношения проявляются по-разному в регионах и социально-демографических группах населения. Наиболее полную информацию о состоянии и уровне жизни домохозяйств разного социальнодемографического типа дают крупные регулярные обследования населения, в которых представлены детальные сведения о наличном составе, расходах и доходах населения. Ключевое свойство такого об- следования - это одновременное фиксирование всех основных характеристик отдельных лиц и домохозяйства в целом. При этом точность оценочных характеристик уровня жизни населения зависят от правильной представительности домохозяйств разного типа в выборке. Однако практически добиться структурного подобия, характерного для генеральной совокупности, не удается. Кроме отличий, заложенных в дизайн выборки, при проведения выборочных обследований возникают ошибки отказов респондентов, которые не всегда соглашаются на участие в опросах или не дают полные ответы на поставленные в анкете вопросы. Это происходит по разным причинам. Возможны трудности в понимании вопроса, забывчивость подробностей о прошедших событиях, а также простое нежелание отвечать на вопрос. Особенно часто это наблюдается при обследовании домохозяйств по вопросам об источниках денежных доходов (от ценных бумаг, личного подсобного хозяйства, сдачи в аренду квартиры или гаража и т.д.) и расходов на определенные группы товаров (алкоголь, наркотики и т.д.). Подобные ошибки наблюдается, когда опрос проводится в отношении событий, произошедших, например, в прошлом году, как это происходит при проведении обследования ВНДН. Респонденты весной следующего года должны вспомнить величину всех видов доходов, полученных в прошлом году из разных источников.
Важной характеристикой любого обследования является надежность количественных характеристик, рассчитываемых на основе выборочных данных. Для этого при разработке дизайна обследования оценивается необходимое количество наблюдений и строится схема по возможности равномерного территориального, демографического и социального распределения респондентов, таким образом, чтобы структурные характеристики населения в выборке были подобны характеристикам, наблюдаемым в реальности. Однако полного согласования, как правило, не наблюдается. Подобие выполняется лишь по группе макропоказателей: пол, статус места проживания (город/село), долевая структура домохозяйств по размеру и т.д. При этом, социально-демографические типы домашних хозяйств представлены в выборках в пропорциях отличных от наблюдаемых в жизни. Чтобы скорректировать эти отличия и, тем самым, достичь большей репрезентативности выборки, строится система весов, которая приближает выборочную структуру домохозяйств к структуре, наблюдаемой в действительности. В первую очередь это касается таких показателей как общая численность населения региона, общая численность домохозяйств, численность городских и сельских жителей. Метод построения системы весов, который одновременно выводит несколько социально- экономических показателей на уровень генеральной совокупности тем более успешен, чем менее исходные характеристики выборки отклоняются от генеральных. Однако белее важным свойством выборки является разнообразие типов представленных в выборке домохозяйств. Алгоритмы оценки весов не приводят к удовлетворительному решению, в тех случаях, когда типология домохозяйств в выборке не соответствует их типологии наблюдаемой в реальности. Так, если в выборку для некоторого региона не попали домохозяйства, получающие материнский капитал, то ни какие веса не могут вывести этот показатель на официальный объем выплат материнского капитала в регионе. По этой причине система весов, выводящая суммарный материнский капитал на уровень России в целом, обязательно перераспределит выплаты между другими регионами, но не внутри данного региона. Понятно, что разнообразие домохозяйств в выборке возрастает вместе с ее объемом, однако из-за непропорциональной представительности типов домохозяйств и отказов респондентов приходится первоначальный объем выборки брать с запасом, чтобы выйти на численность, необходимую для получения статистически значимых оценок. Возникает вопрос - можно ли на основе выборочных данных оценить влияние этих искажений на необходимый объем первоначальной совокупности для важных референтных групп населения. Важно учесть еще один момент при формировании выборки. Как правило, перед проведением обследования количество первичных переписных участков берется с избытком, чтобы компенсировать отказы домохозяйств и выйти на заданный объем окончательной выборки. Таким образом, поддерживается структурное подобие заданное дизайном выборки. Таким образом, замена одного домохозяйства на другое похожее по размеру, месту проживания и т.д. сохраняет структурное разнообразие домохозяйств. Однако это не относится к такому показателю как душевой доход. Именно на этом этапе домохозяйства с высоким уровнем дохода могут отказаться от участия в обследовании. То же касается и беднейших домохозяйств. В данной работе предлагается модель, с помощью которой можно нивелировать смещения оценки доходов, возникающие за счет ошибок дизайна и отказов респондентов.
О форме распределения доходов.
В настоящей методике Госкомстата для оценки душевых денежных доходов используется предположение о том, что душевые доходы имеют логарифмически нормальное распределение, параметры которого оцениваются на основе данных выборочных обследований и балансовой статистики доходов населения. Существует несколько методик для выбора логнормального распределения наиболее близкого к выборочному распределению. Классический подход оценивает близость или отличие теоретического и выборочного распределений через отклонение теоретических и выборочных частот в определенных интервалах, например децильных или квинтильных. Учитывая, что логнормальное распределение полностью определяется двумя параметрами можно использовать другие критерии близости. Например, можно использовать средний душевой доход, полученный по балансовой статистике и моду или медиану, оцененную по выборке. В подобных случаях используется только часть информации, заключенной в выборочных данных. Фактически не используется информация представительности данных в разных частях распределения. Такой подход опирается на предположение, что существует большое число независимых случайных факторов, которые влияют на возможные отклонения частот в ту или другую стороны. В качестве таких факторов могут выступать: болезнь респондента, временное отсутствие членов домохозяйства по причине отпуска, погодные условия (наводнение), переезд на новое место жительства и т.д. Однако кроме случайных причин существуют другие причины, которые влияют на равномерность отбора домохозяйств («ошибки дизайна») и на желание респондентов отвечать на вопросы интервьюера. В первую очередь, это касается очень бедных домохозяйств, которые не хотят показывать свое бедственное положение или скрыть не бедственное положение при отсутствии официальных доходов. Для этой категории лиц характерно занижение своих доходов, приводящее к росту доли домохозяйств с доходами ниже прожиточного минимума. С другой стороны доходной лестницы замечена еще более отчетливая тенденция роста отказов домохозяйств с высоким уровнем доходов. Во многих случаях обитатели престижных коттеджей просто не пускают интервьюеров за калитку ворот. В результате выборочный средний душевой доход заметно занижается. Такого рода влияние трудно отнести к категории случайного. Существуют работы [3], которые учитывают эти явления при построении или коррекции весов домохозяйств, чтобы суммарные взвешенные доходы выходили на балансы официальной статистики. Однако такое преобразование не связано с видом распределения, а нацелено только на увеличение веса домохозяйств с высокими доходами, чтобы получить оценку среднего душевого дохода равную балансовой оценке.
В 2015 году в работе [2] была предложена новая концепция и критерий для оценки параметров логнормального распределения, в наибольшей степени согласованного с выборочным распределением душевых денежных доходов населения. Суть подхода состоит в использовании меры отличия выборочного распределения от теоретического не на основе сравнения частот в децилях, а на сравнении средних значений выборочного и теоретического душевого дохода в теоретических децилях. Этот подход исправляет недостаток критерия близости частот, который не учитывает особенностей выборки с ошибками в дизайне. Более выпукло это можно показать на следующем условном примере. Предположим, что «потеряно» около 20% анкет тех домохозяйств, душевые доходы которых попадали в последние 5 децилей, рассчитанных по полной выборке. При этом само количество оставшихся наблюдений в децилях оказалось достаточно большим. В этом случае искать ближайшее теоретическое распределение по близости частот представляется абсурдным. Однако если известен тип распределения, например, что распределение душевых доходов является логнормальным или другим параметрическим распределением, то можно выбрать параметры теоретического распределения так, чтобы средние выборочные значения душевого дохода в каждом теоретическом дециле были максимально близки теоретическим. Закон больших чисел подсказывает нам, что среднее по остаточной выборке в децилях будет мало отличаться от того, которое было бы получено в случае сохранности всех данных. Понятно, что это не относится к общему среднему по выборке, которое может изменяться в широких пределах, в зависимости от структуры потерянных наблюдений. В реальности, постоянно наблюдается заметное отличие выборочного среднего душевого дохода от макроэкономического, полученного на основе баланса доходов и расходов населения (БДДРН). В таблице 1 приведены оценки Госкомстата, рассчитанные на основе данных разных обследований. К сожалению, после 2015 года Госкомстат не выклады- вал в открытый доступ выборочные данные обследования ОБДХ (обследование бюджетов домашних хозяйств), что не позволило нам рассчитать выборочные средние душевые доходы населения за 2016-2018 годы. Напротив, для ВНДН такие данные есть и есть весовые коэффициенты, используемые Госкомстатом для расчетов. Интересно, что почти троекратный объем выборки ВНДН 2016 года заметно отразился на величине максимально наблюдаемого душевого дохода. Так если во все остальные годы максимальный наблюдаемый в выборке средний денежный душевой доход имел порядок 300-350 тысяч рублей, то в 2016 он был больше почти в два раза и равен 721 тыс. руб.
Можно видеть, что оценки душевого дохода, полученные по выборке ВНДН, на 25% больше оценок, полученных по выборке ОБДХ, а макро оценки оказываются выше более чем на 40%! Взвешенные результаты по ВНДН также на 12%-17% отличаются от макро показателей.
Таблица 1. Оценки среднего душевого дохода населения РФ по разным источникам данных
Год |
Источники данных |
|||
ОБДХ |
ВНДН |
Макро БДДРН |
ВНДН/ Макро БДДРН 88,4 |
|
2013 |
18072 |
22912 |
25928 |
|
2014 |
19656 |
24229 |
27767 |
87,3 |
2015 |
20665 |
25824 |
30467 |
84,8 |
2016 |
- |
26809 |
30747 |
87,2 |
2017 |
- |
26912 |
32609 |
82,5 |
2018 |
- |
28268 |
33118 |
85,4 |
Источник: расчёты автора; данные Росстата
Заметим, если всем лицам из первого дециля вменить доход равный прожиточному минимуму, то общее среднее значение выборочного душевого дохода повысится незначительно и останется много ниже его макро оценки. Из этого следует, что наблюдаемые отличия получаются из-за существенного искажения представительности наиболее состоятельной части населения в выборке. По этой же причине отношение среднего дохода из 10-го дециля к среднему доходу из 1-го дециля, с помощью которого измеряется неравенство, также оказывается заниженным. По- этому возникает вопрос: Какие децили внесли в это искажение наибольший вклад?
Чтобы более детально проиллюстрировать задачу воспользуемся примером, восстановленного логнормального распределения душевых денежных доходов населения по методике из работы [2] на данных самого большого по числу наблюдений обследования ВНДН за 2016 год, в котором опрашивались 160 тыс. домохозяйств. В другие годы их число составляет примерно 60 тыс. домохозяйств.
Таблица 2. Параметры выборочного (ВНДН) и теоретического логнормального распре- деления населения РФ по душевому денежному доходу в 2016 г.
Показатели |
ВНДН |
Теоретические |
Среднее значение |
26809 |
30747* |
Дисперсия (CKO) |
20838 |
37394 |
Средний логарифм |
9,9586 |
9,9942 |
Дисперсия логарифма |
0,7048 |
0,8239 |
Индекс Джини |
0,3691 |
0,4398 |
Коэффициент фондов |
11,67 |
18,36 |
*Оценка душевого дохода из БДДРН .
Источник: расчёты автора; данные Росстата
Из таблицы 2 можно видеть, что теоретические параметры заметно отличаются от выборочных. В первую очередь это касается среднего дохода и его дисперсии. Теоретическое распределение восстанавливалось с учетом официального среднего душевого дохода 30747 руб., наблюдаемого в 2016 году. При этом официальное среднее значение оказалось на 14.7% выше выборочного, а дисперсия больше на 79.4% (20838 против 37394). Соответственно возросли показатели неравенства: индекс Джини и коэффициент фондов. Такие большие изменения могут объясняться только заметным увеличением численности «теоретических» бедных и особенно «богатых» домохозяйств. Более детально отличия можно видеть в таблице 3, где представлены оценки правых границ децилей и средних значений в них. Выбо- рочные средние значения, попавших в теоретические децили наблюдений, очень мало отличаются от соответствующих теоретических средних. Наибольшие отклонения средних душевых доходов отмечаются в 9 и 10 децилях. В последнем столбце таблицы приведены две величины среднего душевого дохода. Первая рассчитана с учетом долей выборочных наблюдений в теоретических децилях 26809 руб., а вторая в предположении равных долей (10%) 29581 руб. Смысл последней оценки состоит в том, что она предполагает «правильный дизайн» выборки, т.е. равномерное распределение наблюдений по децильным группам. Скорректированное таким образом среднее составляет 96.2% от официального значения, в то время как выборочное среднее составляет только 87.2%.
Таблица 3. Средние значения выборочного и теоретического душевого дохода
2016 г. |
Исходная выборка в выборочных децилях |
Логнормальное распределение в выборочных децилях |
Оптимальное логнормальное распределение (децили) |
Выборка в теоретических децилях |
||||
Номер дециля |
Правая граница |
Среднее руб. |
Доля |
Среднее руб. |
Правая граница |
Среднее руб. |
Доля выборки |
Среднее руб. |
1 |
8812 |
6244 |
0,135 |
6139 |
7618 |
5420 |
0,071 |
5411 |
2 |
12074 |
10538 |
0,100 |
10451 |
10947 |
9310 |
0,090 |
9358 |
3 |
15012 |
13577 |
0,088 |
13527 |
14216 |
12568 |
0,111 |
12572 |
4 |
18061 |
16525 |
0,084 |
16508 |
17773 |
15959 |
0,119 |
15945 |
5 |
21379 |
19698 |
0,081 |
19680 |
21898 |
19774 |
0,126 |
19799 |
6 |
25432 |
23294 |
0,084 |
23341 |
26981 |
24337 |
0,116 |
24308 |
7 |
30666 |
27966 |
0,087 |
27937 |
33732 |
30171 |
0,117 |
30148 |
8 |
38000 |
33988 |
0,090 |
34116 |
43807 |
38368 |
0,109 |
38386 |
9 |
50554 |
43396 |
0,097 |
43675 |
62944 |
52063 |
0,091 |
51722 |
10 |
1442529 |
72859 |
0,155 |
84208 |
1442529 |
99499 |
0,052 |
88156 |
Средний душевой доход |
26809 |
30747 |
30747 |
26809 29581* |
Источник: расчёты автора на данных Росстата
Напомним, что теоретическое логнормальное распределение было построено на основе выборочных данных и среднего душевого дохода, полученного по балансовой статистике. В качестве критерия близости выборочного и теоретического распределений был использован критерий минимального отклонения средних выборочных доходов от теоретических с 1-го по 9-ый децили. Приближение практически равномерное по близости средних в децилях, отклонения меньше 0.6%. Наибольшие отклонения (около 13%) наблюдаются в 10-ом дециле (сравнить столбцы 7 и 9 таблицы). Если посмотреть на два первых дециля, то можно заметить, что 20% населения имеют средний выборочный доход 8391 руб., а теоретический 7365 руб., но эти расчеты сделаны для разных границ. Для теоретического распределения доля лиц с доходом ниже 12074 руб. составляет 23.5%. Другими словами, если модель более точно отражает распределение доходов населения, то средний душевой доход первых 20% людей ниже наблюдаемого по выборке, а это значит, что в выборке занижено количество домохозяйств с низкими доходами. Действительно, недостаток наблюдений бедных домохозяйств переводит часть наблюдений с более высокими доходами в нижний дециль. Подтверждает это утверждение тот факт, что выборочные и теоретические средние значения во втором дециле отличаются мало (10538 руб. против 10451 руб.). Аналогичная картина в 10-ом дециле, где явно не хватает представительности высокодоходных домохозяйств (средние 72859 руб. и 84208 руб.). Именно благодаря этим особенностям выборки средний выборочный доход 26908 руб. ниже балансового, равного 30747 руб. Об этом же говорит и долевая структура выборки в теоретических децилях. В первый дециль попало из выборки только 7.1%, а в последний 5.2% наблюдений (столбец 9). Статистическая природа ошибок такова, что больший объем наблюдений накладывает существенные ограничения на величину вероятного отклонения средней выборочной оценки дохода от теоретической. Поэтому была сделана дополнительная статистическая проверка модели путем расчета 95%-х границ для отклонений теоретических средних от выборочных. Фактические оценки в 1, 3,4,7 и 8 децилях не выходили за расчетные границы. Чуть большие отклонения были в 5 и 6 децилях, но заметные отличия были не только в 9 и 10 децилях, но и во втором. Анализ наблюдений из второго дециля с учетом правой теоретической границы 2-го дециля (10947) показали, что в этом дециле произошло некоторое смещение среднего по причине большого числа лиц, получающих доход близкий к правому краю дециля, который по значению близок прожиточному минимуму и пенсии.
Есть еще одна причина, которая нарушает гладкость выборочного распределения и наблюдаемые отклонения в разных доходных интервалах. Дело в том, что заработная плата и другие виды регулярных доходов имеют тенденцию группироваться возле некоторых значений. Например, пенсии имеют сгущения возле значений 10-11 тыс. руб., около 13-14 тыс. руб., а заработная плата возле значений 10, 15, 20 тыс. руб. Поэтому, если точка сгущения лежит ближе к левому краю децильного интервала, то среднее по выборке в нем занижается, а если к правому краю, то увеличивается. Теоретическое распределение сглаживает подобные эффекты.
Модель влияния ошибок дизайна выборки и отказов от опроса на оценки доходов.
Возникает вопрос - можно ли на основе данных таблицы 3 что-нибудь сказать о систематических ошибках дизайна выборки и долях домохозяйств, отказывающихся отвечать на вопросы анкеты? Здесь, как и ранее мы понимаем под ошибкой дизайна -ошибки в отношении доходов. Понятно, что делать какие-либо оценки на основе только выборочных данных невозможно, так как нет базы для сравнения. Однако использование гипотезы о логарифмической нормальности распределения душевых денежных доходов и знание среднего душевого дохода, полученного из балансовой статистики, позволяет решить эту задачу. Если предположить, что восстановленное на основе этих данных теорети- ческое распределение более адекватно описывает распределение душевых доходов в генеральной совокупности, то частоты попадания выборочных наблюдений в теоретические децили покажут степень представительности разных доходных групп в выборке («следы» из генеральной совокупности в выборке). Учитывая, что дизайн выборки ориентирован на пропорциональное представление социальнодемографической структуры населения во всех регионах России, кажется, что и доходы также должны распределяться равномерно. Однако неравное наполнение теоретических децилей показывает, что есть изъяны и в дизайне и по причине отказов отдельных групп домохозяйств.
Особенно отчетливо просматривается тенденция уменьшения доли наблюдений состоятельных домохозяйств. Возможно, это связано с явной неравномерностью распределения «богатого» населения по регионам и компактным местам проживания (элитные микрорайоны и поселки). Именно наложение двух эффектов приводит к заметному искажению в структуре выборки, как в части богатых, так и в части бедных.
На систематические ошибки дизайна накладываются отказы респондентов, которые можно разделить на две группы: случайные по объективным причинам и намеренные (смещение). Выше уже были отмечены отказы по причине болезни респондента, временное отсутствие членов домохозяйства по причине отпуска, плохие погодные условия (наводнение), переезд на новое место жительства и т.д. Можно предположить, что подобные причины задают некоторый средний уровень отказов, характерный для всех социальнодемографических групп населения и примерно одинаково проявляется во всех доходных группах (децилях). Если теперь предположить, что первоначальный (завышенный) размер выборки был равномерно распределен по доходным децилям (не по территориям!), то окончательный состав выборки в децилях будет уменьшен за счет намеренных и случайных отказов и ошибок дизайна.
Постановка задачи . Пусть M – первоначальный объем выборки, а N – объем окончательной выборки, полученный после проведения обследования. Построим теоретическое логнормальное распределение на основе выборочных данных и данных федеральной статистики (средний душевой доход). Обозначим через (x 1 , x 2 , …, x 10 ) численность выборочных наблюдений, попавших в теоретические децили, а через (a 1 , a 2 , …, a 10 ) ошибки дизайна и количество намеренных отказов. Величина s будет означать среднее количество случайных отказов, одинаковое для всех децилей. В этих обозначениях можно записать следующие уравнения связи:
M/10 = xi + ai + s i=1…10(1)
N = Xi=iXt(2)
M-N = ^i=1(ai+ s)
Из таблицы 3 видно, что максимальное количество наблюдений размещается в 5ом дециле. Это наиболее представительные по доходам типы домохозяйств. Кажется вероятным, что у лиц, попадающих в этот дециль, меньше всего оснований осознанно отказываться от участия в обследовании. Или другими словами таких оснований не больше чем у представителей других децилей и эту часть мы включим в s. Можно также отметить тот факт, что избыток наблюдений в средних децилях не ухудшают оценки доходов в них. Будем полагать, что a 5 = 0, а остальные a i будут обозначать превышение ошибок дизайна и отказов над этим минимумом. Тогда из выражения (1) получим M/10 – s = x 5 . Преобразуем (1), подставляя вместо M/10 – s его значение x 5 . В результате можно оценить значения превышения a i в других децилях и их сумму А:
a i = M/10 – s - x i = x 5 - x i , i=1…10 (4)
A = Z -=i( X 5- Xt) (5)
В выражении (5) все значения известны и потому величина А также определена. Зная, что размер результирующей выборки ВНДН 2016, на основе которой проводились все оценки, был равен 365917 человек и зная распределение наблюдений xi по теоретическим децилям, можно подсчитать общее превышение А, которое оказалось равным - 93742 человека. Фактически А это суммарное превышение ошибок дизайна над минимальным уровнем, характерным для 5-го дециля. Таким образом, первоначальная выборка должна была иметь размер M не меньший чем 459659 человек (365917 + 93742). Относительно первичного размера выборки доля ошибки дизайна и намеренных отказов составляет 20.4%. В работе Росстата [3] приведена доля отказов от участия в опросе около 15% от численности исходной выборки, что сопоставимо с полученной нами оценки. Проценты были взяты от числа посещенных домохозяйств. К сожалению, в докладе [3] явно не указана доля тех домохозяйств, которых просто не было дома. Может быть, они переехали или были на даче. Такого рода отказы мы назвали случайными и ввели обозначение s. Если принять 15% в качестве доли сознательных отказов, а остальные 5.4% отнести к категории случайных (дополнение к 20.4%), то можно оценить число сознательных отказов и ошибок дизайна А = 68949, а случайных отказов на дециль s = 2479 (0.51%).
Если бы все отказы не зависели от уровня дохода домохозяйства и происходили равномерно, то среднее значение душевого дохода, рассчитанное по выборочным децильным средним равнялось бы 29578.3 руб., а не 26809 руб. (эта оценка учитывает доли попадания наблюдений в децили). Таким образом, дооцененное среднее значение 29578.3 руб. заметно ближе к официальному 30747 руб. Оно на 10.3% выше выборочного и только на 3.8% ниже официального. С помощью этой модели можно оценить средний доход тех высокодоходных домохозяйств, которые не участвуют в выборке. Действительно, обозначая через d – средний доход «не попавших» в 10-й дециль, можно записать балансовое соотношение для среднего дохода:
99527 = 0.521*88156 + (1 - 0.521) * d , (6)
где 99527 теоретическое среднее, а 88156 выборочное среднее, 0.521 доля выборки в дециле. Выражение (6) дает оценку для d = 111903 руб. Итак, если добавить в выборку еще 4.79% «богатых» домохозяйств со средним доходом 111903 руб., то средний душевой доход в 10-ом дециле будет равен теоретическому доходу 99527 руб. Заметим, что величина среднего дохода в 10-ом теоретическом дециле оценивалась от верхней границы 9-го дециля равной 62944 рубля. Используя параметры теоретического распределения, можно рассчитать такую границу доходов G, для которой средний душевой доход домохозяйств с доходом из интервала (62944, G) был равен выборочному 88156 руб. Примерная оценка составляет G = 151000 рублей. Реально в выборке 2016 года имели душевой доход в интервале (62944 руб. – 151000 руб.) 3136 домохозяйств, а выше только 100 домохозяйств (124 человека). При этом, средний выборочный душевой доход у этих 100 домохозяйств, без учета весов, был равен 196000 руб., а с учетом весов Госкомстата 209726 руб., что практически совпадает с теоретической оценкой 207078 руб. Таким образом, в выборку не попадает значительное число лиц, душевой доход которых превышает 151000 рублей, что составляет примерно 9.6% от всех «богатых» людей из 10-го дециля. Фактически это «золотой» процент от всего населения. Можно констатировать, что дизайн выборки почти полностью игнорирует домохозяйства с доходом выше 151000 руб. Если бы наполнение было равномерным, то таких домохозяйств должно было быть в выборке примерно 1600 (1%), а не 100.
Первоначальные расчеты проводились на данных ВНДН 2016 по причине их наибольшей репрезентативности, но не было уверенности, что выявленные эффекты будут также ярко проявляться на выборках значительно меньшего размера. Однако аналогичные расчеты на данных ВНДН за 2013-2018 гг., приведенные в таблице 4 показывают, что недостаток наблюдений в крайних децилях отмечается по всем годам и их процент примерно одинаков. И наоборот, заметно превыше- ние долей наблюдений в средних децилях. ления долей по децилям видна на рисунке Особенно наглядно выпуклость распреде- 1.
Таблица 4. Доли выборки в теоретических децилях
Критерий 3 |
Доли выборки по годам и децилям |
|||||
Децили |
2013 |
2014 |
2015 |
2016 |
2017 |
2018 |
1 |
6,13% |
6,55% |
6,81% |
7,04% |
7,54% |
9,21% |
2 |
8,20% |
8,41% |
8,23% |
9,01% |
9,88% |
10,86% |
3 |
10,89% |
10,80% |
10,86% |
11,05% |
11,86% |
12,09% |
4 |
13,11% |
11,50% |
12,06% |
11,89% |
12,52% |
11,44% |
5 |
13,63% |
12,51% |
12,26% |
12,56% |
12,77% |
11,74% |
6 |
13,15% |
12,27% |
12,30% |
11,56% |
12,35% |
11,34% |
7 |
11,38% |
11,90% |
12,94% |
11,72% |
11,12% |
10,66% |
8 |
10,52% |
10,92% |
10,43% |
10,85% |
9,54% |
9,01% |
9 |
7,72% |
9,28% |
9,34% |
9,12% |
8,50% |
7,97% |
10 |
5,28% |
5,85% |
4,77% |
5,21% |
3,93% |
5,69% |
Источник: расчёты автора на данных Росстата
Наибольшая частота попадания выборочных наблюдений в теоретические децили находится в 5-ом дециле, правой границей которого является медиана распределения. Однако в 2015 году это место занял 7-й дециль.

Рис. 1. Доли попадания наблюдений в теоретические децили по годам
В таблице 5 приведены варианты расчетов коэффициента фондов душевых денежных доходов. Можно видеть, что оценки Госкомстата последние 4 года практически не меняются. Наоборот, выборочные оценки имеют явную понижающую тенденцию. При этом по всем годам, кроме 2018 года, теоретические оценки заметно выше официальных. В последней строке таблицы представлены коэффициенты фондов, по- лученные по средним выборочным в теоретических децилях. Объяснить различие в тенденциях оценок официальных и выборочных затруднительно, при том, что официальная оценка коэффициента фондов возросла в 2018 году (15.6). Вероятно, в методике Госкомстата есть дополнительные корректировки, которые занижают неравенство.
Таблица 5. Динамика оценок коэффициента фондов, полученных по разным методикам
Годы |
2013 1 |
2014 |
2015 |
2016 |
2017 |
2018 |
Оценки |
Коэффициент фондов для душевых доходов |
|||||
Госкомстат |
16,1 |
15,8 |
15,5 |
15,5 |
15,4 |
15,6 |
По выборке |
13,8 |
13,7 |
12,1 |
11,7 |
10,9 |
10,8 |
Теоретическая |
24,1 |
22,0 |
20,4 |
18,4 |
17,7 |
14,7 |
Выборка в теоретических децилях |
21,4 |
19,7 |
17,6 |
16,3 |
16,0 |
13,0 |
Источник: расчёты автора на данных Росстата
Выше для 2016 года были сделаны оценки среднего душевого дохода лиц с высокими доходами, не попавшими в обследование, а также критические границы, выше которых практически нет наблюдений в выборке. Границы определялись по теоретическому распределению, таким образом, чтобы средний душевой доход в интервале от верхней границы 9-го дециля до критической был равен выборочному среднему в
10-ом теоретическом дециле. Из таблицы видно, что критические границы превышают 130 тыс. руб., а средний душевой доход «богатых» лиц, которых нужно было бы добавить в 10-й дециль для получения теоретического среднего, колеблется от 102 до 115 тыс. руб. При этом средний доход тех из них, кто имеет доход выше критической границы, колеблется возле 200 тыс. руб.
Таблица 6. Динамика оценок среднего душевого денежного дохода по годам
Душевой доход в 10-ом дециле |
Оценки границ и средних для 10-го дециля |
|||||
2013 |
2014 |
2015 |
2016 |
2017 |
2018 |
|
Средний выборочный |
80599 |
84820 |
86564 |
88156 |
93455 |
88753 |
Теоретический |
91101 |
95000 |
101077 |
99527 |
104292 |
99970 |
Средний для не попавших |
102848 |
109350 |
114297 |
111903 |
111307 |
114794 |
Критическая граница |
189000 |
130500 |
140000 |
151000 |
137400 |
141500 |
Средний выше границы |
261344 |
185772 |
197025 |
207073 |
190777 |
189821 |
Источник: расчёты автора на данных Росстата
Заключение.
Методика восстановления параметров логнормального распределения душевых денежных доходов по критерию минимального отклонения средних выборочных от теоретических средних позволяет нивелировать неравномерности попадания наблюдений с разными доходами в теоретические децили. Восстановленная долевая структура попадания наблюдений оказывается схожей для всех обследований ВНДН с 2013 по 2018 гг. Это говорит о том, что ошибки дизайна обследования и стратегия отказов населения оказывают на результаты систематическое и схожее воздействие. Важно отметить недостаток наблюдений не только в 10-ом, «богатом» дециле (примерно 4%-5%), но и в 1-ом, «бедном» дециле (около 3%). Поэтому при построении системы весов, которые должны выводить результаты душевых доходов на уровень генеральной совокупности, необходимо учитывать дефекты дизайна и отказов во всех децилях. Сейчас при построении весов учитываются только социально-демографические характеристики домохозяйств, но не социальноэкономические. Поэтому взвешенный выборочный душевой доход заметно отличается от балансового значения. Подтверждением правильности методики оценки параметров распределения, является количественное совпадение теоретического и выборочного среднего, рассчитанного для лиц, не попавших в выборку. В 2016 году доходы выше границы в 151000 рублей в выборке имели только 100 домохозяйств, средний доход которых был равен 209726 руб., что практически совпадало с теоретической оценкой равной 207078 руб.
Предложенная методика оценки параметров годится не только для логнормального распределения, но и для других параметрических распределений.
Список литературы Оценка влияния ошибок дизайна и отказов респондентов на результаты обследования домашних хозяйств
- Жаромский В. С., Рудберг А. М., Тер-Акопов С. А. Методы восстановления генерального распределения душевых денежных доходов населения на основе выборочных данных большого объема // Вопросы статистики. 2015. № 6. С. 12-25.
- EDN: UCCDTD
- В.С. Жаромский, А.М. Рудберг, В.В. Сопцов, С.А. Тер-Акопов. О задаче калибровки и взвешивания данных выборочных обследований большого объема //М., Народонаселение, 2011, №3, стр. 69-83.
- Великанова Т.Б. Развитие методологии в области измерения неравенства и бедности при переходе на новые источники информации: опыт и проблемы. Источник: http://www.unece.org/fileadmin/DAM/stats/documents/ece/ces/ge.15/2017/Expert-meeting-Montenegro-2017/Informations/PPT_s/Russia-presentation_ru.pdf.