Оценивание индексных моделей регрессии с помощью метода наименьших модулей

Бесплатный доступ

В схеме регрессионного моделирования ключевым этапом является выбор спецификации модели, т.е. математической формы связи между переменными. Предложена новая спецификация регрессионных моделей - индексная регрессия, являющаяся обобщением производственной функции Леонтьева. Отмечено, что при построении индексных регрессий, наряду со статистической информацией, требуется привлечение еще и экспертной информации о ретроспективном периоде, что относит их к классу экспертно-статистических регрессионных моделей. Задача оценивания неизвестных параметров индексной регрессии по методу наименьших модулей сведена к задаче частично-булевого линейного программирования. С использованием данных Хальда рассмотрен пример построения индексных регрессий.

Еще

Индексная регрессия, производственная функция леонтьева, метод наименьших модулей, задача частично-булевого линейного программирования

Короткий адрес: https://sciup.org/148309056

IDR: 148309056   |   УДК: 519.862.6   |   DOI: 10.25586/RNU.V9187.20.01.P.017

Estimation of index regression models using the least absolute deviations

In the regression modeling scheme, the key step is the model specification selection, i.e. the mathematical form of the relationship between variables. In this work, a new specification of regression models - index regression, is proposed, which is a generalization of the Leontief production function. It is noted that when constructing index regressions, along with statistical information, it is also necessary to attract expert information about the retrospective period, which classifies them as expert-statistical regression models. The task of estimating the unknown parameters of index regression using the least absolute deviations is reduced to the problem of partial-Boolean linear programming. Using Hald’s data, an example of constructing index regressions is considered.

Еще

Текст научной статьи Оценивание индексных моделей регрессии с помощью метода наименьших модулей

Одним из основных инструментов интеллектуального анализа данных является регрессионный анализ [8; 9; 10]. Его использование приводит к построению математических моделей влияния одной или нескольких объясняющих переменных на объясняемую переменную. В схеме регрессионного моделирования ключевым этапом является выбор спецификации модели, т.е. математической формы связи между переменными. К настоящему времени разработан значительный арсенал ставших уже классическими способов описания взаимосвязей между моделируемыми показателями [7]. В эконометрике при моделировании социально-экономических явлений особое внимание традиционно уделяется вопросам построения производстве нных функций [4]. В работах [1; 3; 5] рассмотрены

18 в ыпуск 1/2020

методы оценивания производственных функций Леонтьева. Вместе с тем на сегодняшний день появляются новые формы связи между переменными. Так, в работе [6] с использованием индексных преобразований предложено обобщение производственной функции Леонтьева. Целью данной статьи является разработка математического аппарата для оценивания таких моделей с помощью метода наименьших модулей.

Оценивание индексных моделей регрессии

Рассмотрим способ преобразования произвольной матрицы в вектор – индексное преобразование [Там же]. Пусть дана матрица

A =

a 11

a 21

a 12

a 22

.

.

.

...

...

a

a

.

.

.

.

.

.

.

.

.

a1m a2m

...

a nm

.

Упорядочим элементы каждой строки матрицы A по возрастанию. Тогда она примет вид

A sort

a 1, c 11

a 2, c 21

a 1, c 12

a 2, c 22

.

.

.

.

.

.

a 1, c 1

a 2, c 2

c 1 m

2 m

,

...

...

.

.

.

...

a

a

.

.

.

a n , c nm

где c ij , i = 1, n , j = 1, m - элементы индексной матрицы C n x m . Элемент c ij - это порядковый номер столбца, который занял j -ю позицию при упорядочивании i -й строки матрицы A по возрастанию.

Пусть задан индексный вектор

G = [g 1 g2 ... gn ], где gi , i= 1, n – порядковый номер столбца матрицы A sort для i -го наблюдения.

Тогда с использованием вектора G из матрицы Asort сформируем вектор

B = a.,      a3,      ... a„,    I .

L 1, c 1,g 1          2, c 2, g 2                  n , c n,gn J

Вектор B – индексное преобразование матрицы A по индексному вектору G , которое обозначается

B = ind G ( A ) .

С использованием индексного преобразования в работе [6] сформулирована индексная модель регрессии:

y ind g {a 1 x i 1 , a 2 x i 2 , ..., a m x im } + S i , i = 1, n ,                       (1)

где y i , i = 1, n – наблюдаемые значения объясняемой (выходной) переменной y ; x ij , i = 1, n , j = 1, m – наблюдаемые значения объясняющих (входных) переменных x 1, x 2, …, x m ; ε i , i = 1, n – ошибки аппроксимации; α 1, α 2, …, α m – неизвестные параметры; G – индексный вектор.

Без потери общности будем предполагать, что переменные модели (1) неотрицательны.

Как видно, при построении индексных регрессий (1), наряду со статистической информацией (выборкой), требуется привлечение еще и экспертной информации о ретро-

Базилевский М.П., Носков С.И. Оценивание индексных моделей регрессии...    19

спективном периоде, что относит их к классу экспертно-статистических регрессионных моделей. Такая информация формируется посредством задания экспертом – специалистом в данной предметной области вектора G , произвольная компонента g i которого указывает на независимую переменную из набора x 1, x 2, …, x m , которая должна «срабатывать» в i -м наблюдении при оценивании параметров индексной регрессии (1).

По аналогии с работами [3; 5] приведем способ точного оценивания неизвестных параметров индексной регрессии (1) с использованием метода наименьших модулей, приводящего к задаче

J (ai, a2,..., a m ) — ^ ' | £ J У min.(2)

1

Для этого введем в рассмотрение расчетные значения объясняемой переменной z i :

zi — indg {aixii , a2xi2, ..., amxim } , i = 1, n , после чего регрессия (1) представима в виде yt = zi +£ i, i = 1, n.

Введем в рассмотрение переменные ui, vi, i= 1,n по правилу y- Zi, если y> Zi,

v

0 в противном случае, i

u i

Z i - У,, если Z i > y , ,

0 в противном случае,

Легко видеть, что имеют место тождества

Z i + u -Vi= Ун i = 1, n .                                (4)

Как следует из выражения (3), для любого j расчетное значение объясняемой переменной удовлетворяет либо z i ≤α j x ij , либо z i α j x i j , i = 1, n . Для учета этого обстоятельства введем mn булевых переменных σ ij , i = 1, n , j = 1, m по правилу

° ч

0, если z i a j X ij , 1, если z i > a j X ij .

Тогда справедливы следующие ограничения:

- M σ ij ≤α j x ij - z i M ( 1 ij ) , i = 1, n , j = 1, m ,

где M – заранее выбранное большое положительное число.

Пусть задан индексный вектор G = |^ g 1 g 2 ... gn J , причем 0 g i m, i = 1, n . Тогда сформируем следующие ограничения:

]L = j = g i , i = 1 n .                                (6)

j = 1

Для каждого i по крайней мере одно из неравенств (5) должно обращаться в строгое равенство a j X ij z i = 0. Для достижения этого требования введем еще mn булевых переменных δ ij , i = 1, n , j = 1, m и сформируем ограничения

- M ( 1 -S ij ) - M ( 1 -G j ) j X ,j - Z i < M ( 1 -S ij ) + M G j , i = 1, n , j = 1, m ,     (7)

m

Z 8 j = 1, i = 1 n .                              (8)

j = i

20 в ыпуск 1/2020

Из задания переменных u i и v i , i = 1, n следуют равенства

| S,.|= U, + V,, U,V,= 0, позволяющие представить функционал (2) в виде

J (^ , « 2 ,..., a m ) = £ ( u , + v , ) ^ min.                      (9)

i = 1                                                                  ______

Таким образом, задача (2) поиска значений неизвестных параметров α j , j = 1, m индексной регрессии (1) по методу наименьших модулей свелась к задаче частично-булевого линейного программирования (4)–(9) с 2 mn + 3 n + m переменными и 4 mn + 3 n ограничениями.

Пример построения индексной регрессии

Для построения индексной регрессии были использованы данные Хальда из монографии [8] по пяти переменным, русскоязычное описание которых приведено в работе [2]:

y – теп ло, выделяющееся при производстве цемента, кал/г;

x j , j = 1,4 – переменные, характеризующие содержание четырех веществ в клинкере, %.

Объем выборки составляет 13 наблюдений.

Оценивание индексных регрессий осуществлялось с использованием пакета решения задач математического программирования LPSolve. Большое положительное число M = 1 000 000.

Оцененная для индексного вектора G0 =(0,0,0,0,0,0,0,0,0,0,0,0,0) индексная регрессия y = indG {72,5x 1; 2,8258x2; 13,0375x3; 17,1167x4}.              (10)

Для регрессии (10) сумма моделей остатков J 0 = ^ | е , | = 168,729.

Стоит заметить, что модель (10) также можно записать в виде y = min{72,5x 1; 2,8258x2; 13,0375x3; 17,1167x4}, т.е. она представляет собой производственную функцию Леонтьева.

Оцененная для G 1 = ( 1,1,1,1,1,1,1,1,1,1,1,1,1 ) индексная регрессия:

y = indG {46,55x1; 2,4659x2; 13,0375x3; 17,1167x4};(11)

для G 2 = ( 2,2,2,2,2,2,2,2,2,2,2,2,2 ) :

y = indG {74,3x 1; 1,6088x2; 12,5888x3; 4,4577x4};(12)

для G 3 = ( 3,3,3,3,3,3,3,3,3,3,3,3,3 ) :

y = indG {5,519x 1; 1,7241x2; 13,0375x3; 1,6477x4}.(13)

Суммы модулей ошибок для моделей (11)–(13) J 1 = 67,951, J 2 = 63,804, J 3 = 76,334.

Оцененная для G 4 = ( 4,4,4,4,4,4,4,4,4,4,4,4,4 ) индексная регрессия:

y = indG {5,519x 1; 1,7241x2; 3,6435x3; 1,4288x4}.(14)

Для регрессии (14) сумма модулей остатков J 4 = 91,742.

Базилевский М.П., Носков С.И. Оценивание индексных моделей регрессии...    21

Снова заметим, что модель (14) можно записать в виде y = max{5,519x 1; 1,7241x2; 3,6435x3; 1,4288x4}.

Таким образом, лучшей индексной регрессией по величине суммы модулей остатков оказалась модель (12), для которой индексный вектор G 2 = ( 2,2,2,2,2,2,2,2,2,2,2,2,2 ) .

В таблице 1 приведена подробная информация об остатках индексных регрессий (10)–(14).

Таблица 1

Остатки индексных регрессий

Остаток

Индексный вектор

G 0

G 1

G 2

G 3

G 4

e1

5,029

0,275

2,9667

0,275

–7,2308

e2

1,8

2,7872

0

–11,3818

0

e3

0

0

3,5889

0

7,7519

e4

0

11,1553

–13,1111

10,1568

20,4442

e5

17,675

17,675

12,2412

6,2481

6,2481

e6

–8,1375

–8,1375

–4,1

–8,1375

14,3759

e7

0

0

–11,5265

–19,7093

–19,7093

e8

0

–3,9447

–1,8

0

–7,6565

e9

–51,9

0

–4,9692

0

0

e10

63,75

0

0

0

0

e11

11,3

–14,8383

9,5

14,8370

0

e12

–4,0375

–4,0375

0

–0,4889

–0,4889

e13

5,1

5,1

0

5,1

–7,8370

Как видно по таблице 1, для каждой из индексных регрессий (10)–(14) ровно 4 остатка оказались нулевыми.

В таблице 2 приведена подробная информация о том, какая переменная из набора x 1, x 2, x 3, x 4 «сработала» в i -м наблюдении при оценивании индексных регрессий (10)– (14).

Таблица 2

Переменные, «сработавшие» в i -м наблюдении

Номер наблюдения

Индексный вектор

G 0

G 1

G 2

G 3

G 4

1

2

3

3

3

4

2

1

2

1

4

4

3

3

3

3

3

2

4

2

2

3

4

4

5

3

3

2

2

2

6

3

3

3

3

2

7

4

4

2

2

2

8

1

2

1

4

3

9

1

1

4

2

2

Выпуск 1/2020

Окончание табл. 2

Номер наблюдения

Индексный вектор

G 0

G 1

G 2

G 3

G 4

10

3

2

4

1

1

11

1

2

1

2

3

12

3

3

3

2

2

13

3

3

2

3

2

Как следует из таблицы 2, для каждой из индексных регрессий (10)–(14) были задействованы и «срабатывали» абсолютно все переменные из набора x 1, x 2, x 3, x 4.

Заключение

В работе рассмотрено индексное преобразование матриц, на основе которого предложено обобщение производственной функции Леонтьева – индексная регрессия. Задача оценивания неизвестных параметров индексной регрессии по методу наименьших модулей сведена к задаче частично-булевого линейного программирования. С использованием данных Хальда рассмотрен пример построения индексных регрессий.

Список литературы Оценивание индексных моделей регрессии с помощью метода наименьших модулей

  • Базилевский М.П. МНК-оценивание параметров специфицированных на основе функций Леонтьева двухфакторных моделей регрессии // Южно-Сибирский научный вестник. 2019. № 2 (26). С. 66-70.
  • Ершов Э.Б. Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации // Прикладная эконометрика. 2008. № 4 (12). С. 71-83.
  • Иванова Н.К., Лебедева С.А., Носков С.И. Идентификация параметров некоторых негладких регрессий // Информационные технологии и проблемы математического моделирования сложных систем. 2016. Вып. 17. С. 111-114.
  • Клейнер Г.Б. Производственные функции: Теория, методы, применение. М.: Финансы и статистика, 1986. 239 с.
  • Носков С.И. Оценивание параметров аппроксимирующей функции с постоянными пропорциями // Современные технологии. Системный анализ. Моделирование. 2013. № 2 (38). С. 135-136.
  • Носков С.И., Базилевский М.П. Об индексных преобразованиях матриц при построении регрессионных моделей // Информационные технологии и математическое моделирование в управлении сложными системами. 2019. № 3. С. 11-16.
  • Носков С.И., Базилевский М.П. Построение регрессионных моделей с использованием аппарата линейно-булевого программирования. Иркутск: ИрГУПС, 2018. 176 с.
  • Draper N.R., Smith H. Applied Regression Analysis. Hoboken: John Wiley & Sons, 1998. 736 p.
  • Harrell Jr., Frank E. Regression Modeling Strategies: With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis. [S. l.]: Springer Series in Statistics, 2015. 582 p.
  • Kuhn M., Johnson K. Applied Predictive Modeling. Berlin: Springer, 2018. 600 p.
Еще