Оценка численности населения Кубани в 1930-1940-е гг. с использованием методов статистического моделирования
Автор: Ракачев Вадим Николаевич, Халафян Алексан Альбертович
Журнал: Историческая и социально-образовательная мысль @hist-edu
Рубрика: Политические науки
Статья в выпуске: 5 (15), 2012 года.
Бесплатный доступ
В статье приводятся вероятностные оценки численности населения Кубани в 1930–1940-х гг. на основе отдельных статистических данных, позволивших рассчитать возможные варианты численности с учетом сложившихся тенденций динамики населения региона.
Вероятностно-статистическое моделирование, демография, историческая демография, северо-западный кавказ, кубань
Короткий адрес: https://sciup.org/14949541
IDR: 14949541
Текст научной статьи Оценка численности населения Кубани в 1930-1940-е гг. с использованием методов статистического моделирования
Материал подготовлен при финансовой поддержке Российского фонда фундаментальных исследований, проект № 11-06-00346-а.
Анализ демографических процессов в нашей стране сопряжен с целым рядом трудностей. Прежде всего, это вопрос полноты и достоверности статистико-демографических данных.
Проблема полноты и достоверности статистических данных существовала всегда, безотносительно к историческому периоду, политическому режиму, и прежде всего как проблема методологического и методического порядка. Уникальность нашей страны проявляется в том, что на протяжении нескольких десятилетий демографическая статистика рассматривалась как важный идеологический инструмент, способный оказать влияние на сознание масс, в связи с чем ставилась в угоду правящей партии, определялась «вождями», и, в конечном счете, скорее искажала, чем отражала объективное положение вещей. Различного рода статистические приписки имели место на самых различных уровнях: от рядового бухгалтера и счетовода, до таких масштабных акций как Всесоюзные переписи населения.
Переписи населения СССР 1937 и 1939 гг. проводились в сложных социальноэкономических и политических условиях, что в свою очередь неизбежно ставит вопрос о достоверности полученных в ходе их проведения данных. Если с точки зрения статистики материалы Всесоюзной переписи 1937 г. отличала высокая степень достоверности, то власть поставила их под сомнение, и не столько из-за точности полученных данных, сколько именно потому, что перепись раскрыла сложную демографическую ситуацию в стране в результате форсированного строительства «нового общества».
Проведенная через два года – в 1939 г. перепись, предоставила результаты удовлетворившие власть, что было достигнуто за счет приписок и целенаправленной фальсификации данных. Проблема достоверности, таким образом, снова актуализируется при использовании ее материалов для изучения состояния и динамики демографических процессов.
Фальсификации, сокрытие от общественности и научного сообщества статистистико-демографических данных, а так же их нерегулярность и разрозненность в период 1920-1930-х гг. побуждает обратиться при изучении населения к вероятностно-статистическим методам математики, позволяющим моделировать демографические процессы и структуры, определять масштабы демографических потерь и проч.
Одновременно необходимость пользоваться неполными и косвенными данными в последние годы выступает одним из побудительных мотивов развития математической теории. В отечественной и зарубежной науке достаточно широко осуществляются методологические изыскания в области математических методов, которые позволяют получать достоверные результаты по ненадежным и неполным данным [1, с. 13–14].
Демографические модели в виде прогнозов имеют исключительное значение. Как отмечает академик Струмилин С.Г. «Данные переписи … при надлежащем их использовании позволяют нам на десятки лет вперед заглянуть в наше будущее.., т.е. тенденции будущего, которые целиком уже заключены в нашем настоящем, должны быть выявлены во весь их рост» [2, с. 40].
Для целей исторической демографии прогнозы имеют ретроспективное значение и в случае, когда демографические отношения подверглись деформации под влиянием той или иной катастрофы, сравнение данных демографического прогноза с действительностью позволяет определить эффект воздействия этой катастрофы в демографической области [3, с. 12].
Для оценки вероятной численности населения Краснодарского края и потерь, связанных с голодом, репрессиями в 1920-1930-х гг. нами были применены методы регрессионного анализа и аппарат временных рядов для построения вероятностно-статистической модели зависимости общей численности населения региона от исторического года наблюдения. Для построения модели были использованы разрозненные статистические данные, как во временном отношении, так и в административнотерриториальном. Статистико-временной ряд представлен данными о численности населения региона за следующие годы: 1870–1916, 1920, 1923, 1926, 1937 гг. [4], а также данными о численности населения Северо-Кавказского края в 1926, 1928, 1931, 1933, 1934, 1940 гг.
Предварительно исходные данные были пересчитаны в границах Краснодарского края с учетом всех имевших место административно-территориальных изменений.
В регрессионном анализе моделируется взаимосвязь одной случайной переменной от одной или нескольких других случайных переменных. При этом первая переменная называется зависимой, а остальные – независимыми. Выбор или назначение зависимой и независимых переменных является произвольным (условным) и осуществляется исследователем в зависимости от решаемой им задачи. Независимые переменные называются факторами, регрессорами или предикторами, а зависимая переменная – результативным признаком, или откликом.
Если число предикторов равно 1, регрессию называют простой, или однофакторной, если число предикторов больше 1 – множественной или многофакторной. В общем случае регрессионную модель можно записать следующим образом:
y = f(x1, x2, …, xn), где y – зависимая переменная (отклик), xi (i = 1,…, n) – предикторы (факторы), n – число предикторов.
В качестве инструментария вероятностно-статистического моделирования численности населения использовали статистический пакет прикладных программ STATISTICA 6.1 [5]. Регрессионные модели строили по историческим данным общей численности населения Кубанской и Черноморской областей с 1870 по 1916 гг. В качестве предиктора использовали условный год, равный разности реального года и начального года наблюдений – 1870 г.
Линейная регрессия имеет вид:
Численность общая = 197,7237 + 54,4491× Условный год
Значения коэффициента детерминации R2 = 0,968 и коэффициента множественной корреляции R = 0,988, близкие к 1, свидетельствуют о высокой адекватности модели. Уравнение регрессии объясняет 96,8% исходной изменчивости и только 3,4% остаточной изменчивости остаются необъясненными.
Квадратичная регрессия имеет вид:
Численность общая = 320,9727 + 43,3799× Условный год + 0,184× Условный год 2
Значения коэффициента детерминации R2 = 0,966 и коэффициента множественной корреляции R = 0,988, близкие к 1, свидетельствуют о высокой адекватности модели.
Регрессионными моделями были предсказаны значения общей численности населения с 1917 по 1926 гг., при этом были известны данные за 1920, 1923, 1926 гг. Результаты расчетов представлены в табл. 1. Возможные значения численности за 1939 гг., вычисленные по линейной и квадратичной модели, составили соответственно 4 227 и 4 538,4 тыс. чел. Построенные зависимости хорошо моделируют тренд демографических процессов, происходящих на Кубани, свидетельствующий о росте численности населения. Модели дают правдоподобный прогноз на 1939 г., но из-за монотонности не видят тенденцию резкого снижения численности в 1920, 1923, 1926 гг.
Для устранения этого недостатка была построена кубическая регрессионная модель зависимости общей численности населения Кубани от условного года за период времени с 1913 по 1926 гг.: Численность общая = – 377 440 + 21 268× Условный год – 395 × Условный год 2 + 2× Условный год 3
Значения коэффициента детерминации R2 = 0,98 и коэффициента множественной корреляции R = 0,99, близкие к 1, свидетельствуют о высокой адекватности модели. Уравнение регрессии объясняет 98% исходной изменчивости и только 2% остаточной изменчивости остаются необъяс-ненными.
Из таблицы видно, что при прогнозировании значений численности населения на период времени с 1917 по 1926 гг. наиболее адекватными являются результаты, полученные кубической регрессией. Но из-за высокой скорости роста кубической функции получить достоверный прогноз на 1939 г. не удалось.
Таблица 1
Прогноз изменения численности населения Краснодарского края на 1920–1930-е гг., тыс. чел.
Год |
Условный год |
Численность общая |
Линейная регрессия |
Квадратичная регрессия |
Кубическая регрессия |
1913 |
48 |
3104,2 |
|||
1914 |
49 |
3244,8 |
|||
1915 |
50 |
3281,9 |
|||
1916 |
51 |
3357,8 |
|||
1917 |
52 |
3029,1 |
3074,1 |
3286,6 |
|
1918 |
53 |
3083,5 |
3136,8 |
3219,3 |
|
1919 |
54 |
3138,0 |
3199,9 |
3135,6 |
|
1920 |
55 |
3035,6 |
3192,4 |
3263,3 |
3050,0 |
1921 |
56 |
3246,9 |
3327,1 |
2977,2 |
|
1922 |
57 |
3301,3 |
3391,3 |
2931,7 |
|
1923 |
58 |
2936,3 |
3355,8 |
3455,8 |
2928,0 |
1924 |
59 |
3410,2 |
3520,7 |
2980,9 |
|
1925 |
60 |
3464,7 |
3586,0 |
3104,8 |
|
1926 |
61 |
3312,5 |
3519,1 |
3651,6 |
3314,3 |
1939 |
74 |
4227,0 |
4538,4 |
По известным статистическим данным и предсказанным кубической моделью значениям численности населения, был составлен временной ряд и использован мощный математический аппарат временных рядов для построения прогноза общей численности населения Краснодарского края на 1939 г.
Под временным (динамическим) рядом подразумевается последовательность наблюдений некоторого признака Х (случайной величины) в последовательные равноотстоящие моменты t . Отдельные наблюдения называются уровнями ряда и обозначаются х t , t = 1, …, n.
При исследовании временного ряда выделяются несколько составляющих:
-
x, = U, + Y, + c, + E, X „
-
t t t t t , t = 1 , …, n,
где ut – тренд, плавно меняющаяся компонента, описывающая чистое влияние долговременных факторов (убыль населения, уменьшение доходов и т.д.); γt – сезонная компонента, отражающая повторяемость процессов в течение не очень длительного периода (дня, недели, месяца и т.д.); сt – циклическая компонента, отражающая повторяемость процессов в течение длительных периодов време- ни свыше одного года; εt – случайная компонента, отражающая влияние не поддающихся учету и регистрации случайных факторов.
Для выявления периода цикличности в анализируемых данных использовали спектральный анализ, которым были выявлены циклы различной периодичности: в 18, 56, 14, 28, 11, 9, 7 и т.д. лет.
Моделирование временного ряда проводили при установках диалога Одномерная АРПСС : р – авторегрессии = 1; q – скользящих средних = 0; P – сезонных = 0; Q – сезонных = 0. Результаты прогнозирования методом АРПСС общей численности населения с 1927 по 1939 гг. представлены на рис.1.
Прогнозируемое значение численности населения на 1939 г. составляет примерно 4 044 тыс. чел. при 95%-м доверительном интервале [2404,7; 6800,7]. Это означает, что с вероятностью 0,95 истинное значение численности населения в 1939 г. находится в указанном интервале. Из графика видно, что с увеличением даты прогноза доверительный интервал возрастает, т.е. чем отдаленнее точка прогноза, тем менее достоверным является его результат. Достоинством модели является то, что тренд предсказанных значений численности населения с 1927 г. в целом верно моделирует тренд исходных значений с 1870 по 1926 г., предсказанная на 1939 г. численность населения, которая составляет примерно 4 млн. чел., обладает исторической правдоподобностью. Недостатком является достаточно широкий доверительный интервал.
Прогнозы; Модель:(1,1,0)(0,1,0) Сезонный лаг: 12
Исход.:Общая численность

Рис.1. Прогноз изменения численности населения Краснодарского края на 1930–1940-е гг.
Простая и прагматически ясная модель временного ряда имеет следующий вид:
Xt = β + Εt, где β – константа; Εt – случайная ошибка. Константа β относительно стабильна на каждом временном интервале, но может также медленно изменяться со временем. Один из интуитивно ясных способов выделения β состоит в том, чтобы использовать сглаживание скользящим средним, в котором последним наблюдениям приписываются больший вес, чем предпоследним, предпоследним – еще больший вес, чем предпредпоследним и т.д. Простое экспоненциальное сглаживание именно так и устроено. Здесь более старым наблюдениям приписываются экспоненциально убывающие веса, при этом, в отличие от скользящего среднего, учитываются все предшествующие наблюдения ряда, а не те, что попали в определенное окно. Точная формула простого экспоненциального сглаживания имеет вид:
S t = α X t + (1 – α ) S t – 1 .
Когда эта формула применяется рекурсивно, каждое новое сглаженное значение (которое является также прогнозом) вычисляется как взвешенное среднее текущего наблюдения и сглаженного ряда. Эмпирические исследования показали, что весьма часто простое экспоненциальное сглаживание дает достаточно точный прогноз.
Очевидно, результат сглаживания зависит от параметра а (альфа). Если а равно 1, то предыдущие наблюдения полностью игнорируются. Если а равно 0, то игнорируются текущие наблюдения. Значения а между 0 и 1 дают промежуточные результаты.
Экспериментально по критериям качества модели удалось подобрать параметры модели экспоненциального сглаживания. Метод экспоненциального сглаживания реализовали посредством процедуры Автоматического поиска оптимальных параметров модели, которые приняли следующие значения: α (альфа) = 0,83; δ (дельта) = 0; γ (гамма) = 0. Прогноз на 1939 г. составил 3 952,539, что несколько меньше чем прогноз, сделанный методом АРПСС (4 043,977).
Посредством среднего процента годового прироста населения Северо-Кавказского края была оценена общая численность населения Краснодарского края на 1939 г., в состав которого вошли Кубанский, Майкопский, Армавирский, Черноморский округа и отдельные территории, ранее находившиеся в составе Северо-Кавказского края. Оценка достаточно грубая, так как основана на не вполне очевидных предположениях.
Предположение 1. Средний процент прироста населения Северо-Кавказского края является устойчивой и информативной характеристикой изменения численности населения края в период с 1926 по 1939 гг.
Предположение 2. Общая численность населения Краснодарского края изменялась в рассматриваемом периоде времени такими же темпами, как и население Северо-Кавказского края, т.е. имела такой же средний процент прироста.
Средний процент годового прироста населения Северо-Кавказского края определили посредством анализа динамики численности населения края с 1926 по 1940 гг., которая представлена в табл. 2.
Таблица 2
Динамика численности населения Северо-Кавказского края в 1926-1940 гг., тыс. чел.
Год |
Численность населения |
Процент изменения |
1926 |
8364,1 |
|
1928 |
8624,0 |
3% |
1931 |
8123,7 |
- 6 % |
1933 |
9878,7 |
22% |
1934 |
9587,7 |
- 3% |
1940 |
10494,0 |
9% |
Сумма набл. |
25% |
В третьем столбце таблицы приведен процент изменения численности населения края, относительно численности за предыдущий период времени. Например,
3% = ((8 624 – 83 664,1)/8364,1)×100%.
По таблице легко посчитать, что суммарный прирост населения по данным численности за 1926, 1928, 1931, 1933, 1934, 1940 гг. составит примерно 25%. Тогда средний процент годового прироста населения с 1926 по 1940 гг. будет равен
25% / 14 = 1,7857%.
Тогда, предсказанное значение численности населения можно посчитать по формуле сложных процентов:
Vk = V0 х (1 + 0,017857)k где V0 – значение численности населения в начальный период времени (в нашем случае 1926 г.), k номер года на который строится прогноз, считая, что 1926 г. имеет нулевой номер. Например, 1939 г. имеет номер 13, соответственно 1940 г. имеет номер 14.
Если V 0 = 3 312,5, что соответствует общей численности населения Краснодарского края (в границах Кубанской области и Черноморской губернии) в 1926 г., то
V14 = 3 312,5 × 1,01785714 = 3 312,5 × 1,1116 = 3 683 тыс. чел., где V14 – это общая численность населения Краснодарского края в 1940 г.
Аналогично можно посчитать V 13 = 3 619 тыс. чел. – предсказанную общую численность населения Краснодарского края в 1939 г.
Таким образом, посредством различных математических методов при различных уровнях достоверности и степени приближения, нами получено пять предсказанных значений общей чис- ленности населения Краснодарского края на 1939 г.: 4 227,0; 4 538,4; 4 044,0; 3 952,5; 3 619 тыс. чел. Не будет ошибкой, если в качестве предполагаемого значения численности населения в 1939 г. воспользуемся средней арифметической по этим пяти вычисленным значениям, которое равно (4 227,0 + 4 538,4 + 4 044,0 + 3 952,5 + 3 619,0) / 5 = 4 082,18 тыс. чел.
Следовательно, справедливым будет утверждение, что общая численность населения Краснодарского края к 1939 г. при сложившихся темпах прироста и в условиях отсутствия катастроф должна была составить величину не менее 4 млн чел.
Фактическая численность населения Краснодарского края, показанная переписью 1939 г., составила 3 172 674 чел. (с Адыгейской АО) и 2 930 875 чел. (без Адыгейской АО) [6], исключая приписки 3 102 757 (с Адыгейской АО) и 2 865 046 чел. (без Адыгейской АО) [7, с. 91].
Такой значительный разрыв между предполагаемой и фактической численностью населения в Краснодарском крае позволяет говорить о значительных масштабах прямых и косвенных потерь населения региона вследствие голода начала 1920-х гг. и 1932-1933 гг., индустриализации и коллективизации, раскулачивания, принудительного переселения сотен тысяч кубанских семей за пределы края, репрессиями и депортациями представителей отдельных народов с территории края.
Список литературы Оценка численности населения Кубани в 1930-1940-е гг. с использованием методов статистического моделирования
- Кейфиц Н. Математический анализ населения//Демографические модели. М., 1977.
- Струмилин С.Г. Проблемы экономики труда. М., 1957.
- Россет Э. О познавательной ценности демографических прогнозов//Демографические прогнозы. М., 1973.
- Кабузан В.М. Население Северного Кавказа в XIX-XX веках: этностатистическое исследование. СПб, 1996
- Первая всеобщая перепись населения Российской империи 1897 г. Кубанская область. Т. 65
- Первая всеобщая перепись населения Российской империи 1897 г. Черноморская губерния. Т. 70
- Статистический справочник по Северо-Кавказскому краю. Ростов н/Д., 1925
- Кубанский статистический сборник за 1929-1930 год. Краснодар, 1930
- Население и хозяйство Кубано-Черноморской области (Таблицы к отчету СТО Кубчероблэкосо на 1 апреля 1922 г.). Краснодар, 1922
- Всесоюзная перепись населения 1926 г. М., 1928. Т. 5
- Жиромская В.Б., Киселев И.Н., Поляков Ю.А. Полвека под грифом секретно: Всесоюзная перепись населения 1937 года. М., 1996
- Всесоюзная перепись населения 1939 г. М., 1940
- Российский государственный архив экономики (РГАЭ). Ф. 1562. Оп. 336. Д. 268.
- Халафян А.А. STATISTICA 6. Статистический анализ данных. Второе издание. М.: Бином, 2010.
- РГАЭ. Ф. 1562. Оп. 336. Д. 268. Всесоюзная перепись населения 1939 г. Краснодарский край.
- Ракачев В.Н., Ракачева Я.В. Народонаселение Кубани в ХХ веке: историко-демографическое исследование. В. 4-х т. Краснодар, 2007. Т. 2. 1930-1950-е гг.