Применение параболического сплайна для анализа распределения населения по доходам
Автор: Лебедев Валерий Викторович, Лебедев Константин Валерьевич, Тюпикова Татьяна Викторовна
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 4, 2019 года.
Бесплатный доступ
Целью исследования является эмпирическая проверка гипотезы о возможности использования логнормальной функции в качестве адекватной модели распределения населения по доходам. В качестве основного инструментального средства исследования используется метод сплайн-функций. Значения свободных параметров параболического сплайна определялись из решения задачи о минимизации интегральной гладкости функции распределения при выполнении условия о ее монотонном возрастании. В качестве информационной базы исследования использовались статистические данные о распределении заработной платы работников организаций РФ в 2019 г. Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований (грант № 19-010-000921).
Функция распределения, функция плотности, сплайн-функция, аппроксимация, статистические данные
Короткий адрес: https://sciup.org/14123301
IDR: 14123301
Текст научной статьи Применение параболического сплайна для анализа распределения населения по доходам
Вопросам изучения проблем неравенства населения различных регионов России и мира посвящена весьма обширная литература [1-4 и др.]. Количественная оценка степени расслоения населения по доходам опирается на теоретическую кривую Лоренца, которая наглядно иллюстрирует распределение доходов и строится на основе анализа соответствующей статистической информации. К наиболее часто используемым количественным показателям (индикаторам) неравенства относятся индексы Джини, Пальмы, Гувера, коэффициенты фондов и др. Особое место среди количественных показателей неравенства занимает коэффициент Джини, который остается одним из основных индикаторов неравенства.
В результате многочисленных исследований установлено, что количественные оценки показателей неравенства на основе использования теоретических функции распределения и кривой Лоренца существенно зависят от выбора функции распределения и методики оценки точности аппроксимации [5-8 и др.]. Понятно, что выбор функции распределения зависит от конкретной статистической информации. Тем не менее, используемая Росстатом методика расчета показателей дифференциации населения по уровню доходов опирается на использование логнормального распределения [9]. Обоснование такого выбора и соответствующие комментарии можно найти в работах [5, 10, 11]. Так, в работе [11] читаем: «Хорошо известно, что распределение доходов описывается логнормальным распределением». Однако существуют работы, в которых использование функций, опирающихся на нормальное распределение, ставится под сомнение. Приведем мнение А.И. Орлова: «…широко распространена вера в то, что статистические данные часто подчиняются нормальному распределению. Математики думают, что это – экспериментальный факт, установленный в прикладных исследованиях. Прикладники уверены, что математики доказали нормальность результатов наблюдений. Между тем анализ конкретных результатов наблюдений, в частности, погрешностей измерений, приводит всегда к одному и тому же выводу – в подавляющем большинстве случаев реальные распределения существенно отличаются от нормальных» [12].
Целью нашего исследования является эмпирическая проверка гипотезы о возможности использования логнормальной функции в качестве адекватной модели распределения населения по доходам. В качестве основного инструментального средства исследования используется метод сплайн-функций [13, 14]. Значения свободных параметров параболического сплайна определялись из решения задачи о минимизации интегральной гладкости функции распределения при выполнении условия о ее монотонном возрастании. В качестве информационной базы исследования использовались статистические данные о распределении заработной платы работников организаций РФ в 2019 г.
1. Задача построения функции распределения
При анализе неравенства в распределении доходов населения предполагается, что все население ранжировано в порядке возрастания доходов. Ниже используются следующие обозначения: x - величина денежного дохода; x - значение минимального денежного дохода населения; y - доля населения с доходами не более x в общей численности населения (кумулятивная доля населения); z - доля совокупных доходов населения, доходы которых не превышают x , в совокупном доходе всего населения (кумулятивная доля дохода). Упомянутая выше функция логнормального распределения может быть записана так:
x
F ( x , а , а ) = J f ( t , а , а ) dt , 0
где
f ( x , a , a ) =
ax Jin
exp
V
(In x - In a )2
2a ,
С формальной точки зрения для определения параметров а и а кумулятивной функции распределения (1) на основе статистических данных вида ( xk, ук ) , где вектор параметров, xk и ук — значения переменных x и y , к = 1,2,..., N , требуется решить задачу минимизации некоторой функции W ( а ) , характеризующей степень близости графика теоретической функции от эмпирических точек Ак ( Хк , У к ) . Одной из таких функций является следующая часто используемая функция:
N
W ( а ) = v 2 ( F ( x k , а ) - У к > 2 - (3) N к = 1
Однако вместо решения задачи минимизации функции (3) часто используется следующий прием: параметры a и а функции распределения (1) определяются по двум числовым характеристикам распределения, например по среднему и медиане, или по моде и медиане, или по среднему и среднеквадратическому отклонениям, или по моде и максимальному значению функции плотности (2). «Таким образом, для их вычисления уже не требуется знания всего статистического ряда, а достаточно знания только двух его числовых характеристик» [11].
На рис. 1 пунктирная линия - график функции плотности распределения по заработной плате работников организаций г. Москвы, параметры которой определены на основе кусочно-линейной интерполяции твблично заданной функции распределения [13]. Здесь, как и на других рисунках статьи, на оси абсцисс откладываются приведенные уровни заработной платы. Последние вычисляются как отношение заработной платы к среднему его значению, выраженное в процентах. В рассматриваемом случае соответствующая эмпирическая функция плотности является кусочно-постоянной (она изображена условно на рис. 1 горизонтальными штрихами). Как видим, график теоретической функции плотности (2) достаточно хорошо аппроксимирует эмпирическую функцию.

g So к» tio tig tig
Рис. 1. Эмпирическая и теоретическая (логнормальная) функции плотности распределения работников организаций г.Москвы по заработной плате в апреле 2019 г.
Источник: расчеты авторов по данным Росстата [13]

Рис. 2. Эмпирическая и логнормальная функции распределения работников организаций г.Москвы по заработной плате в апреле 2019 г.
Источник: расчеты авторов по данным Росстата [13]
Прямоугольники на рис. 2 - точки Ак ( xk , ук ) , где ук = 10 к — 5 , xk = 100 ц / Ц , Ц — средний доход в к -ой децильной группе работников, Ц — средний доход всех работников организаций г. Москвы, к = 1,2,...10. Здесь же на рис. 2 приведен график функции распределения по заработной плате работников организаций г. Москвы (штрих-пунктирная линия), которая соответствует функции плотности распределения, изображенной на рис. 1. Как видим, график логнормальной функции распределения (1) достаточно хорошо аппроксимирует эмпирическую функцию распределения при значениях заработной платы, которую получает 80% работников. Однако, для 20% работников с наибольшими заработками график логнормального распределения, соответствующего функции плотности распределения, изображенной на рис. 1, проходит существенно выше эмпирических точек Ак ( xk ,ук ) , где к = 1,2,...10. Поэтому функция плотности, график которой приведен на рис. 1, не адекватно отражает реальное распределение работников организаций г. Москвы по заработной плате.
2. Применение параболического сплайна
Для повышения точности аппроксимации функции распределения у = F ( x ) мы использовали квадратичный сплайн; в этом случае соответствующая эмпирическая функция плотности является кусочно-линейной [13, 14]. Приведем основные формулы для следующего случая: з адана таблица ( xk ; ук ), где к = 0,1,..., n , n + 1. Здесь у 0 = 0, y n + 1 = 1, xk — 1 < xk , ук — 1 < ук , где к = 1,..., n , n + 1.
-
3.1. Функция распределения раселения по доходу:
0, если x < x 0;
F ( x ) = 1 У к — 1 + а к ( x — х к — 1 ) + Ь к ( x — х к — 1 )2
если x е [ xk_р x k ), к = 1,
n + 1;
-
1, если x > x ,. , n + 1
-
3.2. Функция плотности распределения: f ( x ) = F ( x ) .
-
3.3. Функция, обратная функции распределения: x = ф (y ) , ф (y ) = F 1 ( y ) , у е [0,1]. Если У е [ Ук - 1 , Ук ], к = 1,..., n + 1, то
Здесь ak > 0 , к = 1,..., n , n + 1.
0, если x < x 0;
f ( x ) = 1 ak + 2Ьк ( x - xk ч), к = 1,..., n + 1;
0, если x > xn +1.
d k = У к - У к - i h k = x k - x k - i
x 0, если у = 0;
ф ( У ) =
< xk - 1 xk - 1
+ ( У - Ук - 1 ) / a k , если Ьк = 0;
+ ( 4D - a k )/(2 b k ), если Ьк ^ 0;
_ x n + 1 , если у = 1.
-
3.4. Средний доход: Д = J ф (y ) dy . Интегрируя функцию (6), получаем: о
n + 1 д = Е r k , к = 1
где при к = 1,..., n + 1 имеем: rk = cklL , d k = Ук - У к - 1
x k - 1
/ 2 X3/2
ак ( a k + 4 b k d k ) - a.
Д к = 1
2 Ь к
12 Ьк dk
3 3
—, если Ьк * 0;
x k 1 + x k , если b = 0.
-
3.5. Вычисление параметров сплайна. Отметим, что функции (4) и (5) должна быть непрерывны. Поэтому справедливы равенства
У к = У к - 1 + a k ( x k - x k - 1 ) + Ь к ( xk - xk - 1 ) 2 , a k + 1 = a k + 2 Ь к ( xk - xk - 1 ) •
Обозначим hk = xk - xk_p uk = dk / hk , где к = 1,..., n + 1. Тогда из условий непрерывности функций (4) и (5) получаем: u ^ = ak + Ь^к, ak+ 1 = ak + 2 Ь^к . Известно, что интерполяционный параболический сплайн имеет один свободный параметр [14]. Будем считать, что значение параметра a известно. Тогда полученные соотношения позволяют вычислить все остальные значения параметров сплайна:
Ь 1 = ( и1 - a 1 ) / h 1 , a k + 1 = 2 Ьkhk + a k , Ь к + 1 = ( uk + 1 - a k + 1 ) / h k + 1 , где к = 1,..., n .
Таким образом, сплайн и все соответствующие функции зависят от параметра a . Средний доход также является функцией параметра av : Д = д ( a ).
Выбор значения свободного параметра a зависит от имеющейся информации. Если средний доход известен, то значение параметра ах находим из решения уравнения Ц = ц(а1). Если средний доход не известен, то значения параметра a находим из условия минимизации интегральной гладко- n+1
W(a ) = ^ bk 2 , при выполнении к=1
сти функции распределения, которая вычисляется по формуле условия ак > 0, где к = 1,...,П +1.
На рис. 3 приведен график интерполяционного параболического сплайна (линия 1), который отражает распределение по заработной плате работников организаций г. Москвы (пунктирная линия). Узлами сплайна служат те же точки Ак ( xk , ук ) , где к = 1,2,...10, что и точки на рис. 2. Штрих-пунктирная линия 2 на рис. 3 – график логнормальной функции распределения по заработной плате работников организаций г. Москвы, параметры которой определены в результате минимизации функции (3).

Рис. 3. Аппроксимация распределения работников организаций г.Москвы по заработной плате в апреле 2019 г. параболическим сплайном (линия 1) и логнормальной функцией (линия 2).
Источник: расчеты авторов по данным Росстата [13]

Рис. 4. Графики функций плотности распределения работников организаций г.Москвы по заработной плате в апреле 2019 г. (линия 1 – линейный сплайн, линия 2 – логнормальная функция).
Источник: расчеты авторов по данным Росстата [13]
Как видим, график логнормальной функции распределения (1) достаточно хорошо аппроксимирует эмпирическую функцию распределения при значениях заработной платы, которую получает около 85% работников. Однако, для 15% работников с наибольшими заработками график логнор- мального распределения на рис. 3 проходит выше интерполяционного параболического сплайна (линия 1). Если принять (на основании рис. 3), что сплайн более адекватно отражает распределение работников по заработной плате, чем логнормальное распределение, то использование посдеднего в рассматриваемом случае приведет к занижению среднего значения заработной платы и искажению показателей дифференциации (коэффициента Джини и др.).

Рис. 5. Гафик сплайновой функции распределения работников организаций г.Москвы по заработной плате при значениях заработной платы ниже 120% от ее среднего значения.
Источник: расчеты авторов по данным Росстата [13]
Отметим еще одну особенность рассматриваемых статистических данных, которая иллюстрируется на рис. 4. На этом рисунке приведены графики функций плотности распределения работников организаций г.Москвы по заработной плате в апреле 2019 г., соответствующие функциям распределения, графики которых приведены на рис. 3. Здесь линия 1 – линейный сплайн, линия 2 – логнормальная функция плотности распределения. Как видим, график сплайновой функции плотности (линия 1) имеет несколько локальных максимумов и, следовательно, сплайновая функция распределения работников организаций г.Москвы по заработной плате в апреле 2019 г. (линия 1 на рис. 3) имеет несколько точек перегиба. Это хорошо видно на рис. 5, где приведен начальный участок сплайновой функции распределения при значениях заработной платы ниже 120% от ее среднего значения. В заключение обратим внимание на то, что, согласно рис. 3 и рис. 5, заработная плата более 70% работников организаций г. Москвы не тпревышает значения средней заработной платы всех работников.
Выводы
Использование сплайновой функции распределения достаточно адекватно отражает распределение населения по доходам. Выполненные расчеты с использованием сплайновой модели дают основание сделать вывод о том, что логнормальное распределение не является универсальным законом распределения. Показано, что особенностью функции распределения работников всех организаций г. Москвы в апреле 2019 г. по заработной плате является наличие у нее нескольких точек перегиба, в результате чего соответствующая функция плотности имеет несколько локальных максимумов. Для повышения адекватности модели распределения населения по доходам предполагается в дальнейшем модифицировать использованный здесь подход, представив «хвост» распределения экспоненциальной функцией у = 1 - (1 - y n ) exp[( x n - x ) / h ], где x > xn .
Список литературы Применение параболического сплайна для анализа распределения населения по доходам
- Айвазян С.А. Анализ качества и образа жизни населения (эконометрический подход). - М.: Наука. 2012. - C. 402.
- EDN: WNTANH
- Лившиц В.Н. Бедность и неравенство денежных доходов населения в России и за рубежом: системный анализ некоторых важных фрагментов проблемы. - М.: Институт экономики РАН, 2017. - C. 292.
- Стиглиц Дж. Цена неравенства. Чем расслоение общества грозит нашему будущему. Перевод с англ. - М.: ЭКСМО, 2015. - С. 512.
- Шевяков А.Ю., Кирута А.Я. Неравенство, экономический рост и демография: неисследованные взаимосвязи. - М.: Ин-т соц.-эконом. проблем народонаселения РАН. М-студия, 2009. - С. 192.
- Колмаков И.Б. Метод и модели прогнозирования показателей дифференциации денежных доходов населения. - М.: Институт микроэкономики, 2004. - С. 168.