Математическое моделирование временного ряда количества преступлений в России
Автор: Кайбичев И.А., Кайбичева Е.И.
Журнал: Вестник экономики, управления и права @vestnik-urep
Рубрика: Математика
Статья в выпуске: 4 (49), 2019 года.
Бесплатный доступ
Предпринята попытка найти вид функциональной зависимости между числом преступлений на территории России и фактором времени. В процессе регрессионного анализа использованы наиболее известные функции, применяющиеся в экономике и биологии. В итоге выполненного исследования наиболее точное описание фактического количества преступлений в Российской Федерации получено в сплайновой модели с точками ДеМарко.
Математическая модель, количество преступлений, временной ряд, российская федерация
Короткий адрес: https://sciup.org/142226834
IDR: 142226834
Текст научной статьи Математическое моделирование временного ряда количества преступлений в России
***
Возможность криминологического моделирования поднята в работе Т.В. Пилюгина, Д.А. Натура "Использование математи- ческого моделирования при прогнозировании региональной преступности в вопросах ее предупреждения" [См.: 1]. При этом рассмотрена региональная преступность на примере Краснодарского края, в частности данные с марта 2011 по февраль 2013 года для аппроксимации которых была использована линейная модель [2]. Анализ преступлений в Чикаго в период с 2001 по 2015 годы выполнен Вахрушевым [3]. При этом наилучшие результаты дала регрессия на основе случайных лесов.
Разработанная в исследовании [4] математическая модель позволяет прогнозировать количество преступлений на заданном периоде времени на основе рекуррентной формулы, которая позволяет рассчитать прогнозное значение на основании данных данного месяца за прошлый год и трех предше- ствующих месяцев рассматриваемого пери- ода.
Такая модель основана на предположении, что число преступлений зависит от времени. Эта гипотеза нуждается в проверке. Для этого выполним корреляционный анализ данных по числу преступлений в Российской Федерации за период 2001-2017 годов [5-21]. Расчет коэффициента линейной корреляции Пирсона привел к значению 0,68. У нас всего 17 значений данных
(n=17). При малом объеме выборки выполняют перерасчет коэффициента линейной корреляции Пирсона [22]:
R ‘ = R
1 - R 2
1 + 2(n-3)
Это дает результат R = -0,70. Имеем ситуацию средней связи.
Выполним проверку уровня значимости рассчитанного коэффициента корреляции. Выдвигаем две гипотезы: Н0 - временной зависимости числа преступлений нет (R =0), Н1 - такая связь есть (R ≠0).
Проверку нулевой гипотезы проводят с помощью преобразования Фишера [22]:
11+R′ u=2ln1-R′ =- 0,86
Полученное значение сравнивали с критическим uα(n) =z1-α2√n-3
Z, CL где - квантили нормированного распределения, zl-y =1,96 при уровне значимости α = 0,05 и zi-| =2,576 для α = 0,01. Для нашего случая имеем u0,01(18) =0,67, uo,os(18) =0,51. Выполняется неравенство |u| > ua(n), поэтому принимаем гипотезу Н1. Следовательно, мы установили на- личие временной зависимости числа преступлений с вероятностью 0,99.
Имеющийся статистический материал не дает возможность проверить результаты работы [4]. Однако имеющиеся данные можно интерпретировать с помощью регрессионного анализа. Для этого рассмотрим возможные классы функций.
Линейная модель
Связь между числом преступлений и фактором времени (задаваемом номером года) аппроксимируем прямой линией, коэффициенты которой рассчитаем с помощью регрессионного анализа [22]:
Y м = --72,1743*Х + 14738,3 (4)
где Yм - модельное количество преступлений (тыс. ед.), Х - номер года.
Реальные значения переменной Y, как правило, отличаются от модельных величин Yм, рассчитанных по функции регрессии (таб. 1).
Таблица 1
Линейная модель
Год |
Y (тыс.) |
Y м (тыс.) |
e |
e 2 |
2001 |
2968,3 |
3317,5 |
-349,2 |
121958,6 |
2002 |
2526,3 |
3245,4 |
-719,1 |
517034,9 |
2003 |
2756,4 |
3173,2 |
-416,8 |
173703,2 |
2004 |
2893,8 |
3101,0 |
-207,2 |
42933,0 |
2005 |
3554,7 |
3028,8 |
525,9 |
276540,8 |
2006 |
3855,4 |
2956,7 |
898,7 |
807744,0 |
2007 |
3582,5 |
2884,5 |
698,0 |
487232,1 |
2008 |
3209,9 |
2812,3 |
397,6 |
158081,3 |
2009 |
2994,8 |
2740,1 |
254,7 |
64856,1 |
2010 |
2628,8 |
2668,0 |
-39,2 |
1533,3 |
2011 |
2404,8 |
2595,8 |
-191,0 |
36474,4 |
2012 |
2302,2 |
2523,6 |
-221,4 |
49021,7 |
2013 |
2206,2 |
2451,4 |
-245,2 |
60139,8 |
2014 2015 |
2190,6 2388,5 |
2379,3 2307,1 |
-188,7 81,4 |
35592,5 6628,3 |
2016 |
2160,1 |
2234,9 |
-74,8 |
5596,7 |
2017 |
2058,5 |
2162,7 |
-104,2 |
10865,3 |
2018 |
1991,5 |
2090,6 |
-99,1 |
9813,4 |
среднее |
2704,1 |
2704,0 |
0,0 |
159208,3 |
В качестве показателя качества регрессионной модели часто используют среднее значение квадрата ошибки e^2 = 1n^ ei2 (5)
i=1
В нашем случае среднее значение квадрата ошибки для линейной модели составило 159208,3 (Табл. 1).
Среднее значение ошибки равно 0. Коэффициент линейной корреляции Пирсона между ошибкой и номером года также равен 0. Это позволяет считать ошибку случайной величиной.

Рис. 1. Сравнение фактических значений с линейной моделью
Отметим, что линейная модель не может объяснить имеющийся максимум, приходящийся на 2006 год (Рис. 1).
Сплайновая модель
Используем аппроксимацию кусочнолинейной функцией, называемой в математике сплайном
277,6873 ∗ X - 553185,2001 ≤X ≤ 2006,,
-
-188,884 ∗ X + 382757,7 2006 <^ ≤ 2018. (6)
YМ = ^
Сплайновая модель (Таб. 2) дает меньшее среднее значение квадрата ошибки (95696,9) по сравнению с линейной моделью (4).
Таблица 2
Сплайновая модель
Год |
Y (тыс.) |
Y м (тыс.) |
e |
e 2 |
2001 |
2968,3 |
2467,0 |
501,3 |
251338,2 |
2002 |
2526,3 |
2744,7 |
-218,4 |
47677,1 |
2003 |
2756,4 |
3022,3 |
-265,9 |
70723,1 |
2004 |
2893,8 |
3300,0 |
-406,2 |
165019,1 |
2005 |
3554,7 |
3577,7 |
-23,0 |
529,6 |
2006 |
3855,4 |
3855,4 |
0,0 |
0,0 |
2007 |
3582,5 |
3666,5 |
-84,0 |
7058,6 |
2008 |
3209,9 |
3477,6 |
-267,7 |
71679,9 |
2009 |
2994,8 |
3288,7 |
-293,9 |
86404,6 |
2010 |
2628,8 |
3099,9 |
-471,1 |
221899,5 |
2011 |
2404,8 |
2911,0 |
-506,2 |
256215,8 |
2012 |
2302,2 |
2722,1 |
-419,9 |
176310,3 |
2013 |
2206,2 |
2533,2 |
-327,0 |
106934,7 |
2014 |
2190,6 |
2344,3 |
-153,7 |
23631,1 |
2015 |
2388,5 |
2155,4 |
233,1 |
54317,1 |
2016 |
2160,1 |
1966,6 |
193,5 |
37459,6 |
2017 |
2058,5 |
1777,7 |
280,8 |
78865,1 |
2018 |
1991,5 |
1588,8 |
402,7 |
162178,3 |
среднее |
2704,1 |
2805,5 |
-96,1 |
95696,9 |
Отметим, что среднее значение ошибки равно -96,1. Коэффициент линейной корреляции Пирсона между ошибкой и номером года также равен 0,227. Это не позволяет считать ошибку случайной величиной.
Cплайновая модель также корректно описывает максимум, приходящийся на 2006 год (Рис. 2).
Сплайновая модель с точками ДеМарка
В сплайновой модели [6] был смоделирован единственный максимум, приходящийся на 2006 год. В техническом анализе валютного и финансового рынков часто

Рис. 2. Сравнение фактических значений со сплайновой моделью
применяют точки ДеМарка [23]. В таких точках значения меньше или больше двух соседних величин временного ряда. Среди фактических данных есть две точки минимума (2002 и 2014 год) и две точки максимума (2006 и 2015 год).
Рассмотрим аппроксимацию сплайновой функцией
Y М =
-
-442 ∗ X + 887410,3, ⎪⎧ 332,275∗X-662688,
-208,1∗X+421304,
⎪ 197,9∗X-396380, ⎩-129,238∗X+262802,4,
2001 ≤ X ≤ 2002,
2002 < X ≤ 2006, 2006<^ ≤ 2014, (7) 2014<^ ≤ 2015,
2015 < ^ ≤ 2018.
Использование точек ДеМарко (Таб. 3) уменьшило среднее значение квадрата ошибки до 37818,8.
Отметим, что среднее значение ошибки равно -132,2. Коэффициент линейной корреляции Пирсона между ошибкой и номером года также равен -0,055. Это позволяет считать ошибку случайной величиной.
Таблица 3
Сплайновая модель с точками ДеМарко
Год |
Y (тыс.) |
Y м (тыс.) |
e |
e2 |
2001 |
2968,3 |
2968,3 |
0,0 |
0,0 |
2002 |
2526,3 |
2526,3 |
0,0 |
0,0 |
2003 |
2756,4 |
2858,6 |
-102,2 |
10439,7 |
2004 |
2893,8 |
3190,8 |
-297,0 |
88238,7 |
2005 |
3554,7 |
3523,1 |
31,6 |
997,0 |
2006 |
3855,4 |
3855,4 |
0,0 |
0,0 |
2007 |
3582,5 |
3647,3 |
-64,8 |
4199,0 |
2008 |
3209,9 |
3439,2 |
-229,3 |
52578,5 |
2009 |
2994,8 |
3231,1 |
-236,3 |
55837,7 |
2010 |
2628,8 |
3023,0 |
-394,2 |
155393,6 |
2011 |
2404,8 |
2814,9 |
-410,1 |
168182,0 |
2012 |
2302,2 |
2606,8 |
-304,6 |
92781,2 |
2013 |
2206,2 |
2398,7 |
-192,5 |
37056,3 |
2014 |
2190,6 |
2190,6 |
0,0 |
0,0 |
2015 |
2388,5 |
2388,5 |
0,0 |
0,0 |
2016 |
2160,1 |
2259,3 |
-99,2 |
9833,2 |
2017 |
2058,5 |
2130,0 |
-71,5 |
5115,8 |
2018 |
1991,5 |
2000,8 |
-9,3 |
86,2 |
среднее |
2704,1 |
2836,3 |
-132,2 |
37818,8 |

Рис. 3. Сравнение фактических значений со сплайновой моделью с точками ДеМарко
Заметим, что учет точек ДеМарко позволил более точно смоделировать фактические данные (Рис. 3).
Модель Ферхюльста
Для аппроксимации нашей ситуации используем функцию Ферхюльста которая часто используется в биологии для описания динамики популяции [24]:
93396,71 8
YМ = 3417,3 - 3390,0 ∗ exp(-0,00235 ∗(X-2000)) (8)
Отметим, что среднее значение ошибки равно -11,3 (Таб. 4). Коэффициент линейной корреляции Пирсона между ошибкой и номером года также равен -0,118. Это позволяет считать ошибку случайной величиной.
Таблица 4
Модель Ферхюльста
Год |
Y (тыс.) |
Y м (тыс.) |
e |
e 2 |
2001 |
2968,3 |
3320,5 |
-352,2 |
124041,4 |
2002 |
2526,3 |
3229,1 |
-702,8 |
493865,0 |
2003 2004 |
2756,4 2893,8 |
3142,5 3060,6 |
-386,1 -166,8 |
149101,3 27806,1 |
2005 |
3554,7 |
2982,8 |
571,9 |
327122,6 |
2006 |
3855,4 |
2908,8 |
946,6 |
895995,2 |
2007 |
3582,5 |
2838,5 |
744,0 |
553539,5 |
2008 |
3209,9 |
2771,5 |
438,4 |
192193,1 |
2009 |
2994,8 |
2707,6 |
287,2 |
82478,1 |
2010 |
2628,8 |
2646,6 |
-17,8 |
317,3 |
2011 |
2404,8 |
2588,3 |
-183,5 |
33677,7 |
2012 |
2302,2 |
2532,5 |
-230,3 |
53058,2 |
2013 |
2206,2 |
2479,1 |
-272,9 |
74494,8 |
2014 |
2190,6 |
2427,9 |
-237,3 |
56334,5 |
2015 |
2388,5 |
2378,8 |
9,7 |
93,3 |
2016 |
2160,1 |
2331,7 |
-171,6 |
29444,7 |
2017 |
2058,5 |
2286,4 |
-227,9 |
51933,5 |
2018 |
1991,5 |
2242,8 |
-251,3 |
63162,3 |
среднее |
2704,1 |
2715,3 |
-10,7 |
178258,8 |
Модель Ферхюльста дала наибольшее среднее значение квадрата ошибки (178258,8). При этом модельные результаты заметно отличаются от фактических (Рис. 4).

Рис. 4. Сравнение фактических значений с моделью Ферхюльста
В итоге выполненного исследования наиболее точное описание фактического количества преступлений в Российской Федерации получено в сплайновой модели с точками ДеМарко.
Предложенная математическая модель числа преступлений в Российской Федерации может быть использована для прогнозирования.
Список литературы Математическое моделирование временного ряда количества преступлений в России
- Пилюгина Т.В., Натура Д.А. Использование математического моделирования при прогнозировании региональной преступности в вопросах ее предупреждения // Всероссийский криминологический журнал. 2017. Т. 11. № 1. C. 61-70.
- Пилюгина Т.В., Пичкурено Т. А., Вендина А.А. Математические методы прогнозирования преступности // ASPECTUS. 2015. № 1. С. 98-103.
- Вахрушев А.А. Прогнозирование уровня преступности на основе статистических данных: Магистерская диссертация. СПб: Санкт-Петербургский университет, 2016. 37 с.
- Айкожаев Н.М., Шестопалова О.Л. Математическая модель прогнозирования динамики преступлений // Научное сообщество студентов XXI столетия. Технические науки: сб. ст. по мат. XLIV междунар. студ. науч.-практ. конф. (Россия, Новосибирск, 26 июля 2016 г.). 7(43). https://sibac.info/archive/technic/7(43).pdf
- Российский статистический ежегодник 2003. Стат. сб. М.: Госкомстат России, 2003. 705 С.
- Российский статистический ежегодник 2004. Стат. сб. М.: Росстат, 2004. 725 с.
- Российский статистический ежегодник 2005. Стат. сб. М.: Росстат, 2005. 819 с.
- Российский статистический ежегодник 2006. Стат. сб. М.: Росстат, 2006. 806 с.
- Российский статистический ежегодник 2007. Стат. сб. М.: Росстат, 2007. 825 с.
- Российский статистический ежегодник 2008. Стат. сб. М.: Росстат, 2008. 847 с.
- Российский статистический ежегодник 2009. Стат. сб. М.: Росстат, 2009. 785 с.
- Российский статистический ежегодник 2010. Стат. сб. М.: Росстат, 2010. 813 с.
- Российский статистический ежегодник 2011. Стат. сб. М.: Росстат, 2011. 795 с.
- Российский статистический ежегодник 2012. Стат. сб. М.: Росстат, 2012. 786 с.
- Российский статистический ежегодник 2013. Стат. сб. М.: Росстат, 2013. 717 с.
- Российский статистический ежегодник 2014. Стат. сб. М.: Росстат, 2014. 693 с.
- Российский статистический ежегодник 2015. Стат. сб. М.: Росстат, 2015. 728 с.
- Российский статистический ежегодник 2016. Стат. сб. М.: Росстат, 2016. 725 с.
- Российский статистический ежегодник 2017. Стат. сб. М.: Росстат, 2017. 686 с.
- Российский статистический ежегодник 2018. Стат. сб. М.: Росстат, 2018. 694 с.
- 21.Число зарегистрированных преступлений по видам. URL: http:// www.gks.ru/ Население/ Правонарушения / Основные показатели преступности / 10-01.doc.
- Харченко М.А. Корреляционный анализ: Учебное пособие для вузов. Воронеж: Издательско-полиграфический центр Воронежского государственного университета, 2008. 31 с.
- ДеМарк Т.Р. Технический анализ новая наука. М.: Изд-во "Евро", 2012. 178 с.
- Соколов С.В. Модели динамики популяций: Учеб. пособие. СПб.: Изд-во СПбГЭ-ТУ «ЛЭТИ», 2018. 61 с.