Обоснование прогнозов в аграрном производстве и проблемы их актуальной имплементации (на примере Орловской области)
Автор: Шестаков Р.Б., Ловчикова Е.И.
Журнал: Вестник аграрной науки @vestnikogau
Рубрика: Экономические науки
Статья в выпуске: 3 (84), 2020 года.
Бесплатный доступ
В работе авторы обобщают имеющиеся наработки по вопросам методологии агробизнес-форсайта, а конкретно, обоснованию прогнозов сельскохозяйственного производства с использованием методов машинного обучения. Основной целью являлось формирование прогноза на три ближайших года по объемам сельскохозяйственного производства в Орловской области в фактических и сопоставимых ценах. Дополнительно использовались данные производства в целом по Российской Федерации и индексы цен сельхозтоваропроизводителей. В работе применялись «классические» методы моделирования временных последовательностей: OLS, ETS, ARIMA, их производные и комбинации. Более сложные алгоритмы, основанные на баггинге, бустинге или же глубоком обучении не принимались в расчет, так как на исходных данных не дали бы значимого прироста в точности предсказания. Также основным был анализ одномерных данных, с эксклюзивным включением дополнительного измерения в отдельные модели. Подробно показан алгоритм действий, применяемый в процессе машинного обучения. Подбор оптимальной модели производился на обучающей выборке, а валидация моделей - с помощью функции потерь RMSE (корня среднеквадратичной ошибки), на тестовой выборке. Первым шагом на обучающей выборке подбирались параметры для основного ряда. Вторым и третьим шагом вспомогательные модели для двумерных методов первого шага. По итогам был рассчитан краткосрочный трехлетний прогноз в фактических и сопоставимых ценах, определены границы доверительных интервалов. С учетом комплекса кризисных явлений 2020 года обсуждены проблемы выбора сценария возможного движения динамики производства. В условиях усиливающийся неопределенности, принятие решений в процессе управления должно базироваться на соответствующей методологической основе.
Прогнозирование, сельское хозяйство, объемы производства, индекс цен производителей, фактические цены, сопоставимые цены, машинное обучение
Короткий адрес: https://sciup.org/147228857
IDR: 147228857 | DOI: 10.17238/issn2587-666X.2020.3.159
Текст научной статьи Обоснование прогнозов в аграрном производстве и проблемы их актуальной имплементации (на примере Орловской области)
Введение. Современные цифровые технологии неуклонно проникают в агробизнес, начиная от биоинформатики, прогнозов урожайности и заканчивая созданием полноценной смарт-фермы со всеми соответствующими технологиями. Процесс управления и форсайта в агробизнесе уже не мыслим без применения современных методов (рис. 1). Машинное обучение (англ. machine learning, ML) – класс методов искусственного интеллекта, характерной чертой которых является не прямое решение задачи, а обучение в процессе применения решений множества сходных задач.
Постановка проблемы, анализ

Тренировка ML

имеющихся данных
алгоритма

Решение
Углубленное
понимание, и если необходимо цикл повторяется

Экспертиза

Рисунок 1 – Машинное обучение в исследованиях [1]
Факторов, влияющих на активность в той или иной отрасли, достаточно много [3, с. 711] и в зависимости от целей исследования, необходимо выбирать тот или иной уровень абстракции. Относительно агробизнеса наиболее значимыми являются сама динамика производства, институциональные, инвестиционные и инновационные параметры [4, c. 67-73; 5, c. 911-923]. В данной работе мы будем использовать региональные и национальные объемы сельскохозяйственного производства, индексы цен производителей продукции сельского хозяйства.
Целью исследований является обоснование прогнозов сельскохозяйственного производства с использованием элементов машинного обучения и пути их дальнейшего использования. Для это прежде всего, были подготовлены данные, проведен разведочный анализ (EDA). Далее определены последовательные шаги в обучении и валидации моделей временных рядов в зависимости от их природы. И, наконец, проведена имплементация прогнозов соотносительно актуальной внешней среде, в которой функционируют предприятия и публичные институты управления.
Условия, материалы и методы. В таблице 1 приведены данные по выпуску и уровню цен производителей в сельском хозяйстве (ИЦП). Для расчета показателей в приведенных ценах, фактические соотнесены с кумулятивными индексами.
Таблица 1 – Продукция сельского хозяйства в Российской Федерации и Орловской области за 1998-2019 гг. [2]
Год |
Ежегодный ИЦП, % |
Кумулятивный ИЦП, кол-во раз |
Продукция в приведенных ценах, млрд. руб. |
|
РФ |
Орловская область |
|||
1998 |
141,9 |
1,4 |
298,4 |
3,2 |
1999 |
191,4 |
2,7 |
586,0 |
7,4 |
2000 |
122,2 |
3,3 |
742,4 |
9,0 |
2001 |
117,5 |
3,9 |
918,2 |
10,6 |
2002 |
98,1 |
3,8 |
968,2 |
11,2 |
2003 |
124,7 |
4,8 |
1076,4 |
12,0 |
2004 |
117,7 |
5,6 |
1253,2 |
14,1 |
2005 |
103,0 |
5,8 |
1380,9 |
14,7 |
2006 |
110,4 |
6,4 |
1570,6 |
14,7 |
2007 |
130,2 |
8,3 |
1861,0 |
19,3 |
2008 |
102,5 |
8,5 |
2354,5 |
25,0 |
2009 |
98,2 |
8,4 |
2390,1 |
24,7 |
2010 |
123,6 |
10,3 |
2462,2 |
27,3 |
2011 |
94,9 |
9,8 |
3098,7 |
36,6 |
2012 |
110,8 |
10,9 |
3160,3 |
39,1 |
2013 |
102,7 |
11,2 |
3458,3 |
43,0 |
2014 |
114,1 |
12,7 |
4031,1 |
45,3 |
2015 |
108,5 |
13,8 |
4794,6 |
62,0 |
2016 |
101,8 |
14,1 |
5112,3 |
69,0 |
2017 |
92,2 |
13,0 |
5109,5 |
61,0 |
2018 |
112,9 |
14,6 |
5348,8 |
72,3 |
2019 |
95,5 |
14,0 |
5907,9 |
93,2 |
Примечание. Рассчитано авторами по данным ФСГС РФ [2].
В таблице 2 рассчитаны базовые показатели описательной статистики исследуемых данных. Надо отметить также наличие значимой коинтеграции между динамикой сельхозпроизводства в Орловской области и в целом по России (тест Энгла-Грэнджера).
Таблица 2 – Разведочный анализ динамических рядов
Статистики |
Накопленный (кумулятивный) PPI, кол-во раз |
Продукция в сопоставимых ценах, млрд. руб. |
Продукция в сопоставимых ценах, млрд. руб. |
Минимум |
1,4 |
298,4 |
3,2 |
Максимум |
14,6 |
5907,9 |
93,2 |
Размах |
13,2 |
5609,5 |
90,0 |
Медиана |
8,5 |
2372,3 |
24,85 |
Среднее хронологическое |
8,6 |
2608,6 |
31,7 |
Волатильность среднегодовая |
0,9 |
374,8 |
5,4 |
Дрифт в абсолютном выражении |
12,6 |
5609,5 |
90 |
Дрифт (кол-во раз) |
9 |
19 |
28 |
Примечание. Рассчитано авторами по данным таблицы 1.
В качестве калибровочных моделей (нулевая модель, бенчмарк) будем использовать дрифт ряда, где предсказанные значения есть экстраполяция дрифта или, другими словами, линии роста от первого до последнего значения ряда.
В качестве основных моделей предполагается:
-
1) линейный тренд;
-
2) сглаживание ETS;
-
3) ARIMA;
-
4) динамическую регрессию с экзогенными переменными и ARIMA-ошибками;
-
5) ансамбли вышеуказанных моделей с наилучшими средними метриками.
С помощью программной среды анализа данных «R» были подобраны следующие параметры в сетевом режиме [6, 7]. В процессе обучения моделей отбор осуществлялся по скорректированному для малых выборок информационному критерию Акаике – AICс. Ряды разделены на обучаемую (1998-2016 гг.) и тестовую выборку для валидации (2017-2019 гг.). Сопоставление проводилось по функции потерь RSME (root mean squared error – квадратный корень среднего квадрата отклонения), которая позволяет сравнивать данные в различных единицах измерения или шкалах. RSMЕ более чувствителен к выбросам, чем МАЕ (mean absolute error, средняя абсолютная ошибка). Метрика представлена в тех же единицах, что и исходные данные.
Результаты и обсуждение. Рассчитаем необходимые параметры в несколько этапов (табл. 3-5) и сведем окончательные результаты (табл. 6).
Таблица 3 – Шаг 1. Сопоставление обученных моделей на тестовой выборке по метрике RMSE (Орловская область)
Модели |
Гиперпараметры (заданные параметры) |
Параметры (полученные параметры) |
Статистическая значимость Модели / коэффициентов (+), (-) |
RMSE |
Тестовая выборка (реальные значения): Y 2017 = 4,7; Y 2018 = 4,9; Y 2019 = 6,7 |
||||
Нулевые модели |
||||
Последнее значение |
Y 2017-2019 = Y 2016 |
Y 2017-2019 = 4,9 |
+ |
14,8 |
Дрифт |
d = 3,7 Y t = Y 1 + dt |
Y 2017 = 72,7 Y 2018 = 76,3 Y 2019 = 80,0 |
+ |
13,0 |
Основные модели |
||||
Линейный тренд |
Наличие свободного члена Y = const + kt |
k = 3,1 const = -5,6 (R2= 0,88) |
+/ k+ const -* |
18,7 |
ARIMA |
(0,2,1) |
ma 1 =-0,72 (AICc=101,7) |
+/+ |
10,9 |
Динамическая регрессия с ошибками ARIMA |
Без свободного члена Экзогенные переменные: Производство РФ ИПЦ Модель ARIMA-ошибок: (0,0,0) |
k рф = 0,02 k ицп = -0,68 const = -5,6 (AICc=84.69) |
+/+ |
8,9 |
ETS |
(М, A, N) |
alpha = 1 beta = 0.3 gamma = 0 |
+/+ |
10,9 |
Оптимизированный мульти модельный ансамбль |
Модели 5+6 |
8,2 |
Примечание. Рассчитано авторами. *Несмотря на то, что свободный член в модели статистически не значим, в целом модель показала лучшую метрику, чем на аналоге без свободного члена вообще.
Основные модели, кроме линейного тренда, в достаточной степени опережают по точности бенчмарк. Оптимизированный мультимодельный ансамбль находится как наилучшая комбинация моделей, чье среднее значение имеет наименьший скоринг RMSE. В нашем случае оптимальный ансамбль также превзошёл показатели отдельных, входящих в него моделей.
Выбранные модели будем использовать для экстраполяции на 2020-2022 гг. Дополнительную сложность вносит динамическая регрессия, так как для ее прогноза требуется помимо прочего экстраполяция экзогенных переменных (сельхозпродукция по России и индекс цен производителя). Необходимо повторить отбор моделей по частичной аналогии (табл. 4 и 5).
Таблица 4 – Шаг 2. Сопоставление обученных моделей по тестовой выборке для производства по Российской Федерации
Модели |
Гиперпараметры (заданные параметры) |
Параметры (возвращенные параметры) |
Статистическая значимость модели / коэффициентов (+), (-) p<0,05 |
RMSE |
Тестовая выборка (реальные значения): Y 2017 = 5109,5; Y 2018 = 5348,8; Y 2019 = 5907,9 |
||||
Нулевые модели |
||||
Последнее значение |
Y 2017-2019 = Y 2016 |
Y 2017-2019 = 5112,3 |
+ |
479,2 |
Дрифт |
d = 267,4 Y t = Y 1 + dT |
Y 2017 = 5379,7 Y 2017 = 5647,2 Y 2017 = 5914,6 |
+ |
232,5 |
Основные модели |
||||
Линейный тренд |
Наличие свободного члена Y = const + kt |
k = 246.90 const = -283.90 (R2= 0,94) |
+/+ |
573,1 |
ARIMA |
(0,2,1) |
ma 1 =-0.75 (AICc= 236,8) |
+/+ |
482,3 |
ETS |
(М, A, N) |
alpha = 1,00 beta = 0,24 gamma = 0 (AICc = 260,3) |
+/+ |
473,2 |
Оптимизированный ансамбль |
Средний прогноз моделей 2+5 |
- |
- |
341,8 |
Таблица 5 – Шаг 3. Сопоставление обученных моделей по тестовой выборке (по метрике RMSE (для индекса цен производителя)
Модели |
Гиперпараметры (заданные параметры) |
Параметры (возвращенные параметры) |
Статистическая значимость модели в целом / коэффициентов (+), (-) |
RMSE |
Тестовая выборка (реальные значения): Y 2017 = 13,0; Y 2018 = 14,6; Y 2019 = 14,0 |
||||
Нулевые модели |
||||
Последнее значение |
Y 2017-2019 = Y 2016 |
Y 2017-2019 = 14,1 |
+ |
0,7 |
Дрифт |
d = 0,7 Y t = Y 1 + dT |
Y 2017 = 14,8 Y 2017 = 15,5 Y 2017 = 16,2 |
+ |
1,7 |
Основные модели |
||||
Линейный тренд |
Наличие свободного члена Y = const + kt |
k = 0,83 const = 0,68 (R2= 0,99) |
+/+ |
1,4 |
ARIMA |
(1,1,0) + drift |
ar 1 =-0,46 drift = 0,7 (AICc=30,32) |
+/+ |
1,9 |
ETS |
(A, A, N) |
alpha = 0,76 beta = 0,76 gamma = 0 (AICc = 42,8) |
+/+ |
1,7 |
В таблице 6 собраны точечные прогнозы и доверительные интервалы прогноза (ДИП).
Таблица 6 – Прогнозные данные в соответствии с выбранными моделями временных рядов на 2020-2022 гг. (Орловская область, млрд. руб.)
Годы |
Нижний 95% ДИП |
Нижний 80% ДИП |
Точечное значение |
Верхний 80% ДИП |
Верхний 95% ДИП |
ETS |
|||||
2020 |
69,3 |
79,8 |
99,7 |
119,6 |
130,2 |
2021 |
58,7 |
75,2 |
106,3 |
137,3 |
153,8 |
2022 |
48,9 |
71,0 |
112,8 |
154,6 |
176,7 |
Динамическая |
регрессия |
||||
2020 |
81,7 |
84,2 |
88,7 |
93,3 |
95,7 |
2021 |
86,9 |
89,3 |
93,9 |
98,5 |
100,9 |
2022 |
92,1 |
94,5 |
99,1 |
103,7 |
106,1 |
Ансамбль моделей |
|||||
2020 |
75,5 |
82,0 |
94,2 |
106,5 |
112,9 |
2021 |
72,8 |
82,3 |
100,1 |
117,9 |
127,3 |
2022 |
70,5 |
82,8 |
106,0 |
129,1 |
141,4 |
Ансамбль моделей в сопостави мых ценах (c учетом накопленного индекса цен 14,1) |
|||||
2020 |
5,4 |
5,8 |
6,7 |
7,6 |
8,0 |
2021 |
5,2 |
5,8 |
7,1 |
8,4 |
9,0 |
2022 |
5,0 |
5,9 |
7,5 |
9,2 |
10,0 |
Примечание. Рассчитано авторами.
На рисунках 2 и 3 изображены графики динамических рядов производства сельскохозяйственной продукции в Орловской области в текущих и сопоставимых ценах.
Нижний 95% ДИ ^^^^Нижний 80% ДИ ^^^™Точечный прогноз
Верхний 80% ДИ ^^^м Верхний 95% ДИ

2017 2018 2019 2020 2021 2022
Рисунок 2 – Краткосрочный прогноз по динамическому ряду сельскохозяйственного производства в Орловской области (в текущих ценах), млрд руб.1
3Нижний 95% ДИ ^^^мНижний 80% ДИ ^^^^Точечный прогноз
Верхний 80% ДИ ^^^мВерхний 95% ДИ 11,0 10,0 9,0 8,0 7,0 6,0 5,0 4,0 3,0 2017 2018 2019 2020 2021 2022

Рисунок 3 – Краткосрочный прогноз по динамическому ряду сельскохозяйственного производства в Орловской области (в сопоставимых ценах), млрд руб.2
В результате можно заметить достаточно определенный разброс, где положительный сценарий превалирует над отрицательным по потенциалу роста. Сравним разницу 2,5 млрд. руб. в случае крайне положительной динамики, и 1,5 – в обратном движении от точечных значений. Однако, уже в 2020 году мы стали свидетелями прибытия практически «стаи черных лебедей»: COVID-19 и падения ресурсных рынков. Экспертами уже оцениваются потери мировых рынков более 6 трлн долл. [8], что естественно скажется на российской экономике. Нет никаких сомнений, что при планировании в подобном случае в расчет придется брать наиболее негативное развитие событий. Помимо этого, усиление неопределенности потребует более глубинных подходов в обосновании прогнозов, расширения круга изучаемых факторов и используемых инструментов.
Выводы. 1. Динамика сельскохозяйственного производства хорошо поддается прогнозированию на исходных данных в процессе машинного обучения с использованием классических методов.
-
2. Доверительные границы прогноза в целом показывают смещение в позитивную зону.
-
3. Рост неопределенности в российской и экономике в 2020 году приводит к имплементации негативных сценариев при планировании и принятии решений.
-
4. Необходимо усложнить прогностический алгоритм для более глубокого анализа развития ситуации.
Список литературы Обоснование прогнозов в аграрном производстве и проблемы их актуальной имплементации (на примере Орловской области)
- Geron A. Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems. O'Reily Media, Inc. 2017.
- Официальная статистика. Предпринимательство. Сельское хозяйство, охота и лесное хозяйство. Продукция сельского хозяйства // URL: http://www.gks.ru (дата обращения: 12.04.2020).
- Выявление особенностей стратегического развития регионов на основе статистического анализа индикаторов / Д.А. Масленников, С.Н. Митяков, Л.Ю. Катаева, Т.А. Федосеева // Экономика региона. 2019. Т. 15, вып. 3. С. 707-719.
- Шестаков Р.Б., Ловчикова Е.И Анализ динамики аграрного производства в условиях общей экономической рестрикции // Экономика, труд, управление в сельском хозяйстве. 2017. № 4 (33). С. 65-73.
- Шестаков Р.Б., Ловчикова Е.И. Инвестиционный акселератор сельскохозяйственного производства // Экономика региона. 2019. Т. 15, вып. 3. С. 908-923. DOI: 10.17059/2019-3-21
- Hyndman R.J. A forecast ensemble benchmarks // URL: https://robjhyndman.com/hyndsight/benchmark-combination/ (дата обращения: 22.02.2020).
- Package "forecast" // URL: https://cran.r-project.org/web/packages/forecast/forecast.pdf (дата обращения: 12.04.2020).
- The World Bank // URL: https://www.worldbank.org (дата обращения: 30.03.2020).