Многофакторная корреляционно-регрессионная модель производства картофеля

Автор: Яковлева Н.А.

Журнал: Экономика и социум @ekonomika-socium

Статья в выпуске: 1-2 (10), 2014 года.

Бесплатный доступ

Короткий адрес: https://sciup.org/140106662

IDR: 140106662

Текст статьи Многофакторная корреляционно-регрессионная модель производства картофеля

Одним из ключевых показателей производства картофеля является валовой сбор, на величину которого оказывают воздействие многие факторы, степень влияния которых позволяет оценить многофакторный корреляционно-регрессионый анализ. Удобнее всего осуществлять такой анализ с использованием различных пакетов прикладных программ, среди которых следует отметить MS Excel и STATGRAPHICS. Для проведения многофакторного корреляционно-регрессионного анализа производства картофеля определим исходные данные, оформим их в таблице:

Валовой сбор – зависимая переменная Y, тыс.т.

Объясняющие переменные:

X 1 – начисленная за год заработная плата с/х работникам, тыс. руб.;

X 2 – среднегодовая численность с/х работников, чел.;

X3 – энергообеспеченность, л.с. на 100 га с/х угодий;

X4 –доля трактористов-машинистов в общей численности с/х работников%.

Первоначально в модель включим все факторы, воспользуемся инструментом Множественная регрессия в STATGRAPHICS, полученные результаты отразим в таблице.

Таблица 1  – Результаты регрессионного анализа модели с 4

объясняющими переменными

Parameter

Estimate

Standard Error

T

Statistic

P-Value

CONSTANT

9,38021

11,216

0,836325

0,4134

Col_2

-0,000450149

0,000134357

-3,35039

0,0034

Col_3

0,0958994

0,0243887

3,93212

0,0009

Col_4

0,0344132

0,0328693

1,04697

0,3082

Col_5

-0,309539

0,384677

-0,804673

0,4310

Таблица 2 – Результаты дисперсионного анализа модели с 4

объясняющими переменными

Source

Sum of Squares

Df

Mean Square

F-Ratio

P-Value

Model

5234,84

4

1308,71

6,43

0,0019

Residual

3865,87

19

203,467

Total (Corr.)

9100,71

23

При этом получена следующая регрессионная статистика:

R-squared = 57,5212 percent

R-squared (adjusted for d.f.) = 48,5783 percent

Standard Error of Est. = 14,2642

Mean absolute error = 7,81926

Durbin-Watson statistic = 2,0167 (P=0,5565)

Lag 1 residual autocorrelation = -0,0107049

Уравнение полученной модели выглядит следующим образом:

̂=9,38021-0,000450149  +0,0958994  +0,0344132

- 0,309539^4

Каждый из коэффициентов, интерпретируется как величина изменения валового сбора при условии, что данный фактор изменяется на принятую единицу измерения, а остальные факторы остаются постоянными при средних уровнях.

Так, коэффициент условно чистой регрессии b1 означает, что при увеличении начисленной за год заработной платы с/х работников на 1 тыс. руб. и при неизменности среднегодовой численности с/х работников, доли трактористов-машинистов и энергообеспеченности, валовой сбор картофеля снизится в среднем на 0,00045 тыс. т или 4,5 ц. Коэффициент b 2 означает, что при увеличении среднегодовой численности с/х работников на 1 чел., валовой сбор увеличится на 0,0958994 тыс. т. Коэффициент b 3 означает, что при увеличении энергообеспеченности на 1 л.с. на 100 га, валовой сбор картофеля увеличится на 0,0344132 тыс. т. При увеличении доли трактористов-машинистов в общей численности с/х работников на 1%, валовой сбор увеличится на 0,309539 тыс.т.

Рассчитаем среднее квадратическое отклонение для каждой переменной с помощью функции СТАНДОТКЛОН в MS Excel.

G x1 =104078,7; G x2 =573,5; G x3 =92,4; G x4= 8,3; G у =19,9

Рассчитаем бета-коэффициенты:

104078,7

β = 0,000450149 ×        = 2,354

19,9

573,5 β = 0,0958994 ×     = 2,764

Z                   19,9

92,4

β =0,0344132×    = 0,160

d                   19,9

8,3 β = 0,309539 × = 0,129

Интерпретация бета-коэффициентов такова: при изменении фактора X 1 на одно его среднее квадратическое отклонение от средней величины и при постоянстве других факторов результативный признак отклонится от своего среднего уровня на 2,354 его среднего квадратического отклонения. Остальные коэффициенты интерпретируются аналогично. Так как все стандартизированные коэффициенты выражены в одинаковых единицах измерения, в Ϭy, они сравнимы между собой, и можно сделать вывол, что на вариацию валового сбора картофеля сильнее всего повлияла вариация годовой начисленной заработной платы с/х работникам и среднегодовая их численность. В наименьшей степени влияет доля трактористов-машинистов. Так как P-значение в таблице дисперсионного анализа ниже 0,05, то между переменными, включенными в модель существует статистически значимая связь с уровнем вероятности 95,0%

Коэффициент множественной детерминации (R2) показывает, что модель объясняет вариацию валового сбора на 57,5%. Скорректированный коэффициент множественной детерминации (R2 скор) , который является более надежным, равняется 48,6%. Согласно критерию Дарбина-Уотсона, при уровне вероятности 95% в модели нет автокорреляции.

Поскольку при факторе X4, P-значение выше, чем у остальных факторов, и превышает допустимый предел, равный, 0,05, данный фактор необходимо исключить из модели, т.к. при уровне вероятности 95% он является статистически незначимым.

Таблица 3 – Результаты регрессионного анализа модели с 3

объясняющими переменными

Parameter

Estimate

Standard Error

T

Statistic

P-Value

CONSTANT

1,70602

5,85057

0,291598

0,7736

Col_2

-0,000442475

0,000132832

-3,33109

0,0033

Col_3

0,0961987

0,0241701

3,98008

0,0007

Col_4

0,0314069

0,0323672

0,970332

0,3435

Таблица 4 – Результаты дисперсионного анализа модели с 4

объясняющими переменными

Source

Sum of Squares

Df

Mean Square

F-Ratio

P-Value

Model

5103,09

3

1701,03

8,51

0,0008

Residual

3997,61

20

199,881

Total (Corr.)

9100,71

23

При этом получена следующая регрессионная статистика:

R-squared = 56,0736 percent

R-squared (adjusted for d.f.) = 49,4846 percent

Standard Error of Est. = 14,1379

Mean absolute error = 7,91595

Durbin-Watson statistic = 2,02402 (P=0,5223)

Lag 1 residual autocorrelation = -0,0126305

Уравнение данной модели имеет вид:

̂=1,70602-0,000442475  +0,0961987  +0,034069

Коэффициент множественной детерминации равен 56,1%, при этом незначительно ниже коэффициента, полученного при анализе модели с 4 объясняющими переменными, следовательно, удаление фактора X4 не ухудшило качество модели, поскольку скорректированный коэффициент множественной детерминации (R2скор) выше, чем в предыдущем случае и равняется 49,5%. Сравнивая Р-Значение при различных факторах, можно заметить, что при переменной X 3 оно превышает допустимый предел, соответственно, данный фактор следует исключить из модели.

Таблица 5 – Результаты регрессионного анализа модели с 2

объясняющими переменными

Parameter

Estimate

Standard Error

T

Statistic

P-Value

CONSTANT

5,71001

4,14173

1,37865

0,1825

Col_2

-0,000450954

0,00013236

-3,40703

0,0027

Col_3

0,0984922

0,0240207

4,10031

0,0005

Таблица 6 – Результаты дисперсионного анализа модели с 2

объясняющими переменными

Source

Sum of Squares

Df

Mean Square

F-Ratio

P-Value

Model

4914,9

2

2457,45

12,33

0,0003

Residual

4185,81

21

199,324

Total (Corr.)

9100,71

23

При этом получена следующая регрессионная статистика:

R-squared = 54,0056 percent

R-squared (adjusted for d.f.) = 49,6252 percent

Standard Error of Est. = 14,1182

Mean absolute error = 8,16023

Durbin-Watson statistic = 2,15482 (P=0,6466)

Lag 1 residual autocorrelation = -0,0801902

Уравнение данной модели имеет вид:

̂=5,71001-0,000450954  + 0,0984922

Множественный коэффициент детерминации равен 54,0%, а скорректированный равен 49,6%. Это означает, что вариация валового сбора картофеля в Орловской области на 49,6% обусловлена вариацией среднегодовой численности с/х работников и начисленной за год заработной платы. Полученное нами уравнение является статистически значимым и надежным, модель достаточно пригодная, так как скорректированный R2 достаточно близок к 50%.

"Экономика и социум" №1(10) 2014

Статья