Многофакторная корреляционно-регрессионная модель производства картофеля
Автор: Яковлева Н.А.
Журнал: Экономика и социум @ekonomika-socium
Статья в выпуске: 1-2 (10), 2014 года.
Бесплатный доступ
Короткий адрес: https://sciup.org/140106662
IDR: 140106662
Текст статьи Многофакторная корреляционно-регрессионная модель производства картофеля
Одним из ключевых показателей производства картофеля является валовой сбор, на величину которого оказывают воздействие многие факторы, степень влияния которых позволяет оценить многофакторный корреляционно-регрессионый анализ. Удобнее всего осуществлять такой анализ с использованием различных пакетов прикладных программ, среди которых следует отметить MS Excel и STATGRAPHICS. Для проведения многофакторного корреляционно-регрессионного анализа производства картофеля определим исходные данные, оформим их в таблице:
Валовой сбор – зависимая переменная Y, тыс.т.
Объясняющие переменные:
X 1 – начисленная за год заработная плата с/х работникам, тыс. руб.;
X 2 – среднегодовая численность с/х работников, чел.;
X3 – энергообеспеченность, л.с. на 100 га с/х угодий;
X4 –доля трактористов-машинистов в общей численности с/х работников%.
Первоначально в модель включим все факторы, воспользуемся инструментом Множественная регрессия в STATGRAPHICS, полученные результаты отразим в таблице.
Таблица 1 – Результаты регрессионного анализа модели с 4
объясняющими переменными
Parameter |
Estimate |
Standard Error |
T Statistic |
P-Value |
CONSTANT |
9,38021 |
11,216 |
0,836325 |
0,4134 |
Col_2 |
-0,000450149 |
0,000134357 |
-3,35039 |
0,0034 |
Col_3 |
0,0958994 |
0,0243887 |
3,93212 |
0,0009 |
Col_4 |
0,0344132 |
0,0328693 |
1,04697 |
0,3082 |
Col_5 |
-0,309539 |
0,384677 |
-0,804673 |
0,4310 |
Таблица 2 – Результаты дисперсионного анализа модели с 4
объясняющими переменными
Source |
Sum of Squares |
Df |
Mean Square |
F-Ratio |
P-Value |
Model |
5234,84 |
4 |
1308,71 |
6,43 |
0,0019 |
Residual |
3865,87 |
19 |
203,467 |
||
Total (Corr.) |
9100,71 |
23 |
При этом получена следующая регрессионная статистика:
R-squared = 57,5212 percent
R-squared (adjusted for d.f.) = 48,5783 percent
Standard Error of Est. = 14,2642
Mean absolute error = 7,81926
Durbin-Watson statistic = 2,0167 (P=0,5565)
Lag 1 residual autocorrelation = -0,0107049
Уравнение полученной модели выглядит следующим образом:
̂=9,38021-0,000450149 +0,0958994 +0,0344132
- 0,309539^4
Каждый из коэффициентов, интерпретируется как величина изменения валового сбора при условии, что данный фактор изменяется на принятую единицу измерения, а остальные факторы остаются постоянными при средних уровнях.
Так, коэффициент условно чистой регрессии b1 означает, что при увеличении начисленной за год заработной платы с/х работников на 1 тыс. руб. и при неизменности среднегодовой численности с/х работников, доли трактористов-машинистов и энергообеспеченности, валовой сбор картофеля снизится в среднем на 0,00045 тыс. т или 4,5 ц. Коэффициент b 2 означает, что при увеличении среднегодовой численности с/х работников на 1 чел., валовой сбор увеличится на 0,0958994 тыс. т. Коэффициент b 3 означает, что при увеличении энергообеспеченности на 1 л.с. на 100 га, валовой сбор картофеля увеличится на 0,0344132 тыс. т. При увеличении доли трактористов-машинистов в общей численности с/х работников на 1%, валовой сбор увеличится на 0,309539 тыс.т.
Рассчитаем среднее квадратическое отклонение для каждой переменной с помощью функции СТАНДОТКЛОН в MS Excel.
G x1 =104078,7; G x2 =573,5; G x3 =92,4; G x4= 8,3; G у =19,9
Рассчитаем бета-коэффициенты:
104078,7
β = 0,000450149 × = 2,354
19,9
573,5 β = 0,0958994 × = 2,764
Z 19,9
92,4
β =0,0344132× = 0,160
d 19,9
8,3 β = 0,309539 × = 0,129
Интерпретация бета-коэффициентов такова: при изменении фактора X 1 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак отклонится от своего среднего уровня на 2,354 его среднего квадратического отклонения. Остальные коэффициенты интерпретируются аналогично. Так как все стандартизированные коэффициенты выражены в одинаковых единицах измерения, в Ϭy, они сравнимы между собой, и можно сделать вывол, что на вариацию валового сбора картофеля сильнее всего повлияла вариация годовой начисленной заработной платы с/х работникам и среднегодовая их численность. В наименьшей степени влияет доля трактористов-машинистов. Так как P-значение в таблице дисперсионного анализа ниже 0,05, то между переменными, включенными в модель существует статистически значимая связь с уровнем вероятности 95,0%
Коэффициент множественной детерминации (R2) показывает, что модель объясняет вариацию валового сбора на 57,5%. Скорректированный коэффициент множественной детерминации (R2 скор) , который является более надежным, равняется 48,6%. Согласно критерию Дарбина-Уотсона, при уровне вероятности 95% в модели нет автокорреляции.
Поскольку при факторе X4, P-значение выше, чем у остальных факторов, и превышает допустимый предел, равный, 0,05, данный фактор необходимо исключить из модели, т.к. при уровне вероятности 95% он является статистически незначимым.
Таблица 3 – Результаты регрессионного анализа модели с 3
объясняющими переменными
Parameter |
Estimate |
Standard Error |
T Statistic |
P-Value |
CONSTANT |
1,70602 |
5,85057 |
0,291598 |
0,7736 |
Col_2 |
-0,000442475 |
0,000132832 |
-3,33109 |
0,0033 |
Col_3 |
0,0961987 |
0,0241701 |
3,98008 |
0,0007 |
Col_4 |
0,0314069 |
0,0323672 |
0,970332 |
0,3435 |
Таблица 4 – Результаты дисперсионного анализа модели с 4
объясняющими переменными
Source |
Sum of Squares |
Df |
Mean Square |
F-Ratio |
P-Value |
Model |
5103,09 |
3 |
1701,03 |
8,51 |
0,0008 |
Residual |
3997,61 |
20 |
199,881 |
||
Total (Corr.) |
9100,71 |
23 |
При этом получена следующая регрессионная статистика:
R-squared = 56,0736 percent
R-squared (adjusted for d.f.) = 49,4846 percent
Standard Error of Est. = 14,1379
Mean absolute error = 7,91595
Durbin-Watson statistic = 2,02402 (P=0,5223)
Lag 1 residual autocorrelation = -0,0126305
Уравнение данной модели имеет вид:
̂=1,70602-0,000442475 +0,0961987 +0,034069
Коэффициент множественной детерминации равен 56,1%, при этом незначительно ниже коэффициента, полученного при анализе модели с 4 объясняющими переменными, следовательно, удаление фактора X4 не ухудшило качество модели, поскольку скорректированный коэффициент множественной детерминации (R2скор) выше, чем в предыдущем случае и равняется 49,5%. Сравнивая Р-Значение при различных факторах, можно заметить, что при переменной X 3 оно превышает допустимый предел, соответственно, данный фактор следует исключить из модели.
Таблица 5 – Результаты регрессионного анализа модели с 2
объясняющими переменными
Parameter |
Estimate |
Standard Error |
T Statistic |
P-Value |
CONSTANT |
5,71001 |
4,14173 |
1,37865 |
0,1825 |
Col_2 |
-0,000450954 |
0,00013236 |
-3,40703 |
0,0027 |
Col_3 |
0,0984922 |
0,0240207 |
4,10031 |
0,0005 |
Таблица 6 – Результаты дисперсионного анализа модели с 2
объясняющими переменными
Source |
Sum of Squares |
Df |
Mean Square |
F-Ratio |
P-Value |
Model |
4914,9 |
2 |
2457,45 |
12,33 |
0,0003 |
Residual |
4185,81 |
21 |
199,324 |
||
Total (Corr.) |
9100,71 |
23 |
При этом получена следующая регрессионная статистика:
R-squared = 54,0056 percent
R-squared (adjusted for d.f.) = 49,6252 percent
Standard Error of Est. = 14,1182
Mean absolute error = 8,16023
Durbin-Watson statistic = 2,15482 (P=0,6466)
Lag 1 residual autocorrelation = -0,0801902
Уравнение данной модели имеет вид:
̂=5,71001-0,000450954 + 0,0984922
Множественный коэффициент детерминации равен 54,0%, а скорректированный равен 49,6%. Это означает, что вариация валового сбора картофеля в Орловской области на 49,6% обусловлена вариацией среднегодовой численности с/х работников и начисленной за год заработной платы. Полученное нами уравнение является статистически значимым и надежным, модель достаточно пригодная, так как скорректированный R2 достаточно близок к 50%.
"Экономика и социум" №1(10) 2014