Оценивание индексных моделей регрессии с помощью метода наименьших модулей

Бесплатный доступ

В схеме регрессионного моделирования ключевым этапом является выбор спецификации модели, т.е. математической формы связи между переменными. Предложена новая спецификация регрессионных моделей - индексная регрессия, являющаяся обобщением производственной функции Леонтьева. Отмечено, что при построении индексных регрессий, наряду со статистической информацией, требуется привлечение еще и экспертной информации о ретроспективном периоде, что относит их к классу экспертно-статистических регрессионных моделей. Задача оценивания неизвестных параметров индексной регрессии по методу наименьших модулей сведена к задаче частично-булевого линейного программирования. С использованием данных Хальда рассмотрен пример построения индексных регрессий.

Еще

Индексная регрессия, производственная функция леонтьева, метод наименьших модулей, задача частично-булевого линейного программирования

Короткий адрес: https://sciup.org/148309056

IDR: 148309056   |   DOI: 10.25586/RNU.V9187.20.01.P.017

Текст научной статьи Оценивание индексных моделей регрессии с помощью метода наименьших модулей

Одним из основных инструментов интеллектуального анализа данных является регрессионный анализ [8; 9; 10]. Его использование приводит к построению математических моделей влияния одной или нескольких объясняющих переменных на объясняемую переменную. В схеме регрессионного моделирования ключевым этапом является выбор спецификации модели, т.е. математической формы связи между переменными. К настоящему времени разработан значительный арсенал ставших уже классическими способов описания взаимосвязей между моделируемыми показателями [7]. В эконометрике при моделировании социально-экономических явлений особое внимание традиционно уделяется вопросам построения производстве нных функций [4]. В работах [1; 3; 5] рассмотрены

18 в ыпуск 1/2020

методы оценивания производственных функций Леонтьева. Вместе с тем на сегодняшний день появляются новые формы связи между переменными. Так, в работе [6] с использованием индексных преобразований предложено обобщение производственной функции Леонтьева. Целью данной статьи является разработка математического аппарата для оценивания таких моделей с помощью метода наименьших модулей.

Оценивание индексных моделей регрессии

Рассмотрим способ преобразования произвольной матрицы в вектор – индексное преобразование [Там же]. Пусть дана матрица

A =

a 11

a 21

a 12

a 22

.

.

.

...

...

a

a

.

.

.

.

.

.

.

.

.

a1m a2m

...

a nm

.

Упорядочим элементы каждой строки матрицы A по возрастанию. Тогда она примет вид

A sort

a 1, c 11

a 2, c 21

a 1, c 12

a 2, c 22

.

.

.

.

.

.

a 1, c 1

a 2, c 2

c 1 m

2 m

,

...

...

.

.

.

...

a

a

.

.

.

a n , c nm

где c ij , i = 1, n , j = 1, m - элементы индексной матрицы C n x m . Элемент c ij - это порядковый номер столбца, который занял j -ю позицию при упорядочивании i -й строки матрицы A по возрастанию.

Пусть задан индексный вектор

G = [g 1 g2 ... gn ], где gi , i= 1, n – порядковый номер столбца матрицы A sort для i -го наблюдения.

Тогда с использованием вектора G из матрицы Asort сформируем вектор

B = a.,      a3,      ... a„,    I .

L 1, c 1,g 1          2, c 2, g 2                  n , c n,gn J

Вектор B – индексное преобразование матрицы A по индексному вектору G , которое обозначается

B = ind G ( A ) .

С использованием индексного преобразования в работе [6] сформулирована индексная модель регрессии:

y ind g {a 1 x i 1 , a 2 x i 2 , ..., a m x im } + S i , i = 1, n ,                       (1)

где y i , i = 1, n – наблюдаемые значения объясняемой (выходной) переменной y ; x ij , i = 1, n , j = 1, m – наблюдаемые значения объясняющих (входных) переменных x 1, x 2, …, x m ; ε i , i = 1, n – ошибки аппроксимации; α 1, α 2, …, α m – неизвестные параметры; G – индексный вектор.

Без потери общности будем предполагать, что переменные модели (1) неотрицательны.

Как видно, при построении индексных регрессий (1), наряду со статистической информацией (выборкой), требуется привлечение еще и экспертной информации о ретро-

Базилевский М.П., Носков С.И. Оценивание индексных моделей регрессии...    19

спективном периоде, что относит их к классу экспертно-статистических регрессионных моделей. Такая информация формируется посредством задания экспертом – специалистом в данной предметной области вектора G , произвольная компонента g i которого указывает на независимую переменную из набора x 1, x 2, …, x m , которая должна «срабатывать» в i -м наблюдении при оценивании параметров индексной регрессии (1).

По аналогии с работами [3; 5] приведем способ точного оценивания неизвестных параметров индексной регрессии (1) с использованием метода наименьших модулей, приводящего к задаче

J (ai, a2,..., a m ) — ^ ' | £ J У min.(2)

1

Для этого введем в рассмотрение расчетные значения объясняемой переменной z i :

zi — indg {aixii , a2xi2, ..., amxim } , i = 1, n , после чего регрессия (1) представима в виде yt = zi +£ i, i = 1, n.

Введем в рассмотрение переменные ui, vi, i= 1,n по правилу y- Zi, если y> Zi,

v

0 в противном случае, i

u i

Z i - У,, если Z i > y , ,

0 в противном случае,

Легко видеть, что имеют место тождества

Z i + u -Vi= Ун i = 1, n .                                (4)

Как следует из выражения (3), для любого j расчетное значение объясняемой переменной удовлетворяет либо z i ≤α j x ij , либо z i α j x i j , i = 1, n . Для учета этого обстоятельства введем mn булевых переменных σ ij , i = 1, n , j = 1, m по правилу

° ч

0, если z i a j X ij , 1, если z i > a j X ij .

Тогда справедливы следующие ограничения:

- M σ ij ≤α j x ij - z i M ( 1 ij ) , i = 1, n , j = 1, m ,

где M – заранее выбранное большое положительное число.

Пусть задан индексный вектор G = |^ g 1 g 2 ... gn J , причем 0 g i m, i = 1, n . Тогда сформируем следующие ограничения:

]L = j = g i , i = 1 n .                                (6)

j = 1

Для каждого i по крайней мере одно из неравенств (5) должно обращаться в строгое равенство a j X ij z i = 0. Для достижения этого требования введем еще mn булевых переменных δ ij , i = 1, n , j = 1, m и сформируем ограничения

- M ( 1 -S ij ) - M ( 1 -G j ) j X ,j - Z i < M ( 1 -S ij ) + M G j , i = 1, n , j = 1, m ,     (7)

m

Z 8 j = 1, i = 1 n .                              (8)

j = i

20 в ыпуск 1/2020

Из задания переменных u i и v i , i = 1, n следуют равенства

| S,.|= U, + V,, U,V,= 0, позволяющие представить функционал (2) в виде

J (^ , « 2 ,..., a m ) = £ ( u , + v , ) ^ min.                      (9)

i = 1                                                                  ______

Таким образом, задача (2) поиска значений неизвестных параметров α j , j = 1, m индексной регрессии (1) по методу наименьших модулей свелась к задаче частично-булевого линейного программирования (4)–(9) с 2 mn + 3 n + m переменными и 4 mn + 3 n ограничениями.

Пример построения индексной регрессии

Для построения индексной регрессии были использованы данные Хальда из монографии [8] по пяти переменным, русскоязычное описание которых приведено в работе [2]:

y – теп ло, выделяющееся при производстве цемента, кал/г;

x j , j = 1,4 – переменные, характеризующие содержание четырех веществ в клинкере, %.

Объем выборки составляет 13 наблюдений.

Оценивание индексных регрессий осуществлялось с использованием пакета решения задач математического программирования LPSolve. Большое положительное число M = 1 000 000.

Оцененная для индексного вектора G0 =(0,0,0,0,0,0,0,0,0,0,0,0,0) индексная регрессия y = indG {72,5x 1; 2,8258x2; 13,0375x3; 17,1167x4}.              (10)

Для регрессии (10) сумма моделей остатков J 0 = ^ | е , | = 168,729.

Стоит заметить, что модель (10) также можно записать в виде y = min{72,5x 1; 2,8258x2; 13,0375x3; 17,1167x4}, т.е. она представляет собой производственную функцию Леонтьева.

Оцененная для G 1 = ( 1,1,1,1,1,1,1,1,1,1,1,1,1 ) индексная регрессия:

y = indG {46,55x1; 2,4659x2; 13,0375x3; 17,1167x4};(11)

для G 2 = ( 2,2,2,2,2,2,2,2,2,2,2,2,2 ) :

y = indG {74,3x 1; 1,6088x2; 12,5888x3; 4,4577x4};(12)

для G 3 = ( 3,3,3,3,3,3,3,3,3,3,3,3,3 ) :

y = indG {5,519x 1; 1,7241x2; 13,0375x3; 1,6477x4}.(13)

Суммы модулей ошибок для моделей (11)–(13) J 1 = 67,951, J 2 = 63,804, J 3 = 76,334.

Оцененная для G 4 = ( 4,4,4,4,4,4,4,4,4,4,4,4,4 ) индексная регрессия:

y = indG {5,519x 1; 1,7241x2; 3,6435x3; 1,4288x4}.(14)

Для регрессии (14) сумма модулей остатков J 4 = 91,742.

Базилевский М.П., Носков С.И. Оценивание индексных моделей регрессии...    21

Снова заметим, что модель (14) можно записать в виде y = max{5,519x 1; 1,7241x2; 3,6435x3; 1,4288x4}.

Таким образом, лучшей индексной регрессией по величине суммы модулей остатков оказалась модель (12), для которой индексный вектор G 2 = ( 2,2,2,2,2,2,2,2,2,2,2,2,2 ) .

В таблице 1 приведена подробная информация об остатках индексных регрессий (10)–(14).

Таблица 1

Остатки индексных регрессий

Остаток

Индексный вектор

G 0

G 1

G 2

G 3

G 4

e1

5,029

0,275

2,9667

0,275

–7,2308

e2

1,8

2,7872

0

–11,3818

0

e3

0

0

3,5889

0

7,7519

e4

0

11,1553

–13,1111

10,1568

20,4442

e5

17,675

17,675

12,2412

6,2481

6,2481

e6

–8,1375

–8,1375

–4,1

–8,1375

14,3759

e7

0

0

–11,5265

–19,7093

–19,7093

e8

0

–3,9447

–1,8

0

–7,6565

e9

–51,9

0

–4,9692

0

0

e10

63,75

0

0

0

0

e11

11,3

–14,8383

9,5

14,8370

0

e12

–4,0375

–4,0375

0

–0,4889

–0,4889

e13

5,1

5,1

0

5,1

–7,8370

Как видно по таблице 1, для каждой из индексных регрессий (10)–(14) ровно 4 остатка оказались нулевыми.

В таблице 2 приведена подробная информация о том, какая переменная из набора x 1, x 2, x 3, x 4 «сработала» в i -м наблюдении при оценивании индексных регрессий (10)– (14).

Таблица 2

Переменные, «сработавшие» в i -м наблюдении

Номер наблюдения

Индексный вектор

G 0

G 1

G 2

G 3

G 4

1

2

3

3

3

4

2

1

2

1

4

4

3

3

3

3

3

2

4

2

2

3

4

4

5

3

3

2

2

2

6

3

3

3

3

2

7

4

4

2

2

2

8

1

2

1

4

3

9

1

1

4

2

2

Выпуск 1/2020

Окончание табл. 2

Номер наблюдения

Индексный вектор

G 0

G 1

G 2

G 3

G 4

10

3

2

4

1

1

11

1

2

1

2

3

12

3

3

3

2

2

13

3

3

2

3

2

Как следует из таблицы 2, для каждой из индексных регрессий (10)–(14) были задействованы и «срабатывали» абсолютно все переменные из набора x 1, x 2, x 3, x 4.

Заключение

В работе рассмотрено индексное преобразование матриц, на основе которого предложено обобщение производственной функции Леонтьева – индексная регрессия. Задача оценивания неизвестных параметров индексной регрессии по методу наименьших модулей сведена к задаче частично-булевого линейного программирования. С использованием данных Хальда рассмотрен пример построения индексных регрессий.

Список литературы Оценивание индексных моделей регрессии с помощью метода наименьших модулей

  • Базилевский М.П. МНК-оценивание параметров специфицированных на основе функций Леонтьева двухфакторных моделей регрессии // Южно-Сибирский научный вестник. 2019. № 2 (26). С. 66-70.
  • Ершов Э.Б. Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации // Прикладная эконометрика. 2008. № 4 (12). С. 71-83.
  • Иванова Н.К., Лебедева С.А., Носков С.И. Идентификация параметров некоторых негладких регрессий // Информационные технологии и проблемы математического моделирования сложных систем. 2016. Вып. 17. С. 111-114.
  • Клейнер Г.Б. Производственные функции: Теория, методы, применение. М.: Финансы и статистика, 1986. 239 с.
  • Носков С.И. Оценивание параметров аппроксимирующей функции с постоянными пропорциями // Современные технологии. Системный анализ. Моделирование. 2013. № 2 (38). С. 135-136.
  • Носков С.И., Базилевский М.П. Об индексных преобразованиях матриц при построении регрессионных моделей // Информационные технологии и математическое моделирование в управлении сложными системами. 2019. № 3. С. 11-16.
  • Носков С.И., Базилевский М.П. Построение регрессионных моделей с использованием аппарата линейно-булевого программирования. Иркутск: ИрГУПС, 2018. 176 с.
  • Draper N.R., Smith H. Applied Regression Analysis. Hoboken: John Wiley & Sons, 1998. 736 p.
  • Harrell Jr., Frank E. Regression Modeling Strategies: With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis. [S. l.]: Springer Series in Statistics, 2015. 582 p.
  • Kuhn M., Johnson K. Applied Predictive Modeling. Berlin: Springer, 2018. 600 p.
Еще
Статья научная