Оценивание индексных моделей регрессии с помощью метода наименьших модулей

Автор: Базилевский Михаил Павлович, Носков Сергей Иванович

Журнал: Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление @vestnik-rosnou-complex-systems-models-analysis-management

Рубрика: Математическое моделирование

Статья в выпуске: 1, 2020 года.

Бесплатный доступ

В схеме регрессионного моделирования ключевым этапом является выбор спецификации модели, т.е. математической формы связи между переменными. Предложена новая спецификация регрессионных моделей - индексная регрессия, являющаяся обобщением производственной функции Леонтьева. Отмечено, что при построении индексных регрессий, наряду со статистической информацией, требуется привлечение еще и экспертной информации о ретроспективном периоде, что относит их к классу экспертно-статистических регрессионных моделей. Задача оценивания неизвестных параметров индексной регрессии по методу наименьших модулей сведена к задаче частично-булевого линейного программирования. С использованием данных Хальда рассмотрен пример построения индексных регрессий.

Еще

Индексная регрессия, производственная функция леонтьева, метод наименьших модулей, задача частично-булевого линейного программирования

Короткий адрес: https://sciup.org/148309056

IDR: 148309056 | DOI: 10.25586/RNU.V9187.20.01.P.017

Текст научной статьи Оценивание индексных моделей регрессии с помощью метода наименьших модулей

Одним из основных инструментов интеллектуального анализа данных является регрессионный анализ [8; 9; 10]. Его использование приводит к построению математических моделей влияния одной или нескольких объясняющих переменных на объясняемую переменную. В схеме регрессионного моделирования ключевым этапом является выбор спецификации модели, т.е. математической формы связи между переменными. К настоящему времени разработан значительный арсенал ставших уже классическими способов описания взаимосвязей между моделируемыми показателями [7]. В эконометрике при моделировании социально-экономических явлений особое внимание традиционно уделяется вопросам построения производстве нных функций [4]. В работах [1; 3; 5] рассмотрены

18 в ыпуск 1/2020

методы оценивания производственных функций Леонтьева. Вместе с тем на сегодняшний день появляются новые формы связи между переменными. Так, в работе [6] с использованием индексных преобразований предложено обобщение производственной функции Леонтьева. Целью данной статьи является разработка математического аппарата для оценивания таких моделей с помощью метода наименьших модулей.

Оценивание индексных моделей регрессии

Рассмотрим способ преобразования произвольной матрицы в вектор – индексное преобразование [Там же]. Пусть дана матрица

A =

a 11

a 21

a 12

a 22

...

a1m a2m

...

a nm

Упорядочим элементы каждой строки матрицы A по возрастанию. Тогда она примет вид

A sort

a 1, c ₁₁

a 2, c ₂₁

a 1, c ₁₂

a 2, c ₂₂

^a 1, c 1

a 2, c ₂

c 1 m

2 m

...

a n , c nm

где c ij , i = 1, n , j = 1, m - элементы индексной матрицы C n _x _m . Элемент c ij - это порядковый номер столбца, который занял j -ю позицию при упорядочивании i -й строки матрицы A по возрастанию.

Пусть задан индексный вектор

G = [g 1 g2 ... gn ], где gi , i= 1, n – порядковый номер столбца матрицы A sort для i -го наблюдения.

Тогда с использованием вектора G из матрицы A^sort сформируем вектор

B = a., a₃, ... a„, I .

L 1, c 1,g 1 2, c 2, g 2 n , c n,gn J

Вектор B – индексное преобразование матрицы A по индексному вектору G , которое обозначается

B = ind _G ( A ) .

С использованием индексного преобразования в работе [6] сформулирована индексная модель регрессии:

y — ind g ^{a 1 x i 1 , ^a 2 x i 2 , ..., ^a m x im } + S i , i = 1, n , ⁽¹⁾

где y _i , i = 1, n – наблюдаемые значения объясняемой (выходной) переменной y ; x _ij , i = 1, n , j = 1, m – наблюдаемые значения объясняющих (входных) переменных x ₁, x ₂, …, x _m ; ε _i , i = 1, n – ошибки аппроксимации; α ₁, α ₂, …, α _m – неизвестные параметры; G – индексный вектор.

Без потери общности будем предполагать, что переменные модели (1) неотрицательны.

Как видно, при построении индексных регрессий (1), наряду со статистической информацией (выборкой), требуется привлечение еще и экспертной информации о ретро-

Базилевский М.П., Носков С.И. Оценивание индексных моделей регрессии... 19

спективном периоде, что относит их к классу экспертно-статистических регрессионных моделей. Такая информация формируется посредством задания экспертом – специалистом в данной предметной области вектора G , произвольная компонента g _i которого указывает на независимую переменную из набора x ₁, x ₂, …, x _m , которая должна «срабатывать» в i -м наблюдении при оценивании параметров индексной регрессии (1).

По аналогии с работами [3; 5] приведем способ точного оценивания неизвестных параметров индексной регрессии (1) с использованием метода наименьших модулей, приводящего к задаче

J (ai, a2,..., a m ) — ^ ' | £ J У min.(2)

— 1

Для этого введем в рассмотрение расчетные значения объясняемой переменной z _i :

zi — indg {aixii , a2xi2, ..., amxim } , i = 1, n , после чего регрессия (1) представима в виде yt = zi +£ i, i = 1, n.

Введем в рассмотрение переменные ui, vi, i= 1,n по правилу y- Zi, если y> Zi,

0 в противном случае, ⁱ

u _i

Z i - У,, если Z i > y , ,

0 в противном случае,

Легко видеть, что имеют место тождества

Z i + u -Vi= Ун i = 1, n . (4)

Как следует из выражения (3), для любого j расчетное значение объясняемой переменной удовлетворяет либо z _i ≤α _j x _ij , либо z _i ≥ α _j x _i _j , i = 1, n . Для учета этого обстоятельства введем mn булевых переменных σ _ij , i = 1, n , j = 1, m по правилу

° ч

0, если z i < a j X ij , 1, если z i > a j X ij .

Тогда справедливы следующие ограничения:

- M σ _ij ≤α _j x _ij - z _i ≤ M ( 1 -σ _ij ) , i = 1, n , j = 1, m ,

где M – заранее выбранное большое положительное число.

Пусть задан индексный вектор G = |^ g 1 g 2 ... g_n J , причем 0 < g i < m, i = 1, n . Тогда сформируем следующие ограничения:

]L = j = g i , i = 1 n . (6)

j = 1

Для каждого i по крайней мере одно из неравенств (5) должно обращаться в строгое равенство a j X ij — z i = 0. Для достижения этого требования введем еще mn булевых переменных δ _ij , i = 1, n , j = 1, m и сформируем ограничения

- M ( 1 -S ij ) - M ( 1 -G j ) j X ,j - Z i < M ( 1 -S ij ) + M G j , i = 1, n , j = 1, m , (7)

Z 8 j = 1, i = 1 n . (8)

j = i

20 в ыпуск 1/2020

Из задания переменных u _i и v _i , i = 1, n следуют равенства

| S,.|= U, + V,, U,V,= 0, позволяющие представить функционал (2) в виде

J (^ , « 2 ,..., a m ) = £ ( u , + v , ) ^ min. (9)

i = 1 ______

Таким образом, задача (2) поиска значений неизвестных параметров α _j , j = 1, m индексной регрессии (1) по методу наименьших модулей свелась к задаче частично-булевого линейного программирования (4)–(9) с 2 mn + 3 n + m переменными и 4 mn + 3 n ограничениями.

Пример построения индексной регрессии

Для построения индексной регрессии были использованы данные Хальда из монографии [8] по пяти переменным, русскоязычное описание которых приведено в работе [2]:

y – теп ло, выделяющееся при производстве цемента, кал/г;

x _j , j = 1,4 – переменные, характеризующие содержание четырех веществ в клинкере, %.

Объем выборки составляет 13 наблюдений.

Оценивание индексных регрессий осуществлялось с использованием пакета решения задач математического программирования LPSolve. Большое положительное число M = 1 000 000.

Оцененная для индексного вектора G0 =(0,0,0,0,0,0,0,0,0,0,0,0,0) индексная регрессия y = indG {72,5x 1; 2,8258x2; 13,0375x3; 17,1167x4}. (10)

Для регрессии (10) сумма моделей остатков J 0 = ^ | е , | = 168,729.

Стоит заметить, что модель (10) также можно записать в виде y = min{72,5x 1; 2,8258x2; 13,0375x3; 17,1167x4}, т.е. она представляет собой производственную функцию Леонтьева.

Оцененная для G 1 = ( 1,1,1,1,1,1,1,1,1,1,1,1,1 ) индексная регрессия:

y = indG {46,55x1; 2,4659x2; 13,0375x3; 17,1167x4};(11)

для G ₂ = ( 2,2,2,2,2,2,2,2,2,2,2,2,2 ) :

y = indG {74,3x 1; 1,6088x2; 12,5888x3; 4,4577x4};(12)

для G ₃ = ( 3,3,3,3,3,3,3,3,3,3,3,3,3 ) :

y = indG {5,519x 1; 1,7241x2; 13,0375x3; 1,6477x4}.(13)

Суммы модулей ошибок для моделей (11)–(13) J ₁ = 67,951, J ₂ = 63,804, J ₃ = 76,334.

Оцененная для G ₄ = ( 4,4,4,4,4,4,4,4,4,4,4,4,4 ) индексная регрессия:

y = indG {5,519x 1; 1,7241x2; 3,6435x3; 1,4288x4}.(14)

Для регрессии (14) сумма модулей остатков J ₄ = 91,742.

Базилевский М.П., Носков С.И. Оценивание индексных моделей регрессии... 21

Снова заметим, что модель (14) можно записать в виде y = max{5,519x 1; 1,7241x2; 3,6435x3; 1,4288x4}.

Таким образом, лучшей индексной регрессией по величине суммы модулей остатков оказалась модель (12), для которой индексный вектор G ₂ = ( 2,2,2,2,2,2,2,2,2,2,2,2,2 ) .

В таблице 1 приведена подробная информация об остатках индексных регрессий (10)–(14).

Таблица 1

Остатки индексных регрессий

Остаток	Индексный вектор
Остаток	^G 0	G ₁	G ₂	G 3	G 4
e₁	5,029	0,275	2,9667	0,275	–7,2308
e₂	1,8	2,7872	0	–11,3818	0
e₃	0	0	3,5889	0	7,7519
e₄	0	11,1553	–13,1111	10,1568	20,4442
e₅	17,675	17,675	12,2412	6,2481	6,2481
e₆	–8,1375	–8,1375	–4,1	–8,1375	14,3759
e₇	0	0	–11,5265	–19,7093	–19,7093
e₈	0	–3,9447	–1,8	0	–7,6565
e₉	–51,9	0	–4,9692	0	0
^e10	63,75	0	0	0	0
^e11	11,3	–14,8383	9,5	14,8370	0
e₁₂	–4,0375	–4,0375	0	–0,4889	–0,4889
^e13	5,1	5,1	0	5,1	–7,8370

Как видно по таблице 1, для каждой из индексных регрессий (10)–(14) ровно 4 остатка оказались нулевыми.

В таблице 2 приведена подробная информация о том, какая переменная из набора x ₁, x ₂, x ₃, x ₄ «сработала» в i -м наблюдении при оценивании индексных регрессий (10)– (14).

Таблица 2

Переменные, «сработавшие» в i -м наблюдении

Номер наблюдения	Индексный вектор
Номер наблюдения	G ₀	G ₁	G ₂	G 3	G 4
1	2	3	3	3	4
2	1	2	1	4	4
3	3	3	3	3	2
4	2	2	3	4	4
5	3	3	2	2	2
6	3	3	3	3	2
7	4	4	2	2	2
8	1	2	1	4	3
9	1	1	4	2	2

Выпуск 1/2020

Окончание табл. 2

Номер наблюдения	Индексный вектор
Номер наблюдения	G ₀	G ₁	G ₂	G ₃	G ₄
10	3	2	4	1	1
11	1	2	1	2	3
12	3	3	3	2	2
13	3	3	2	3	2

Как следует из таблицы 2, для каждой из индексных регрессий (10)–(14) были задействованы и «срабатывали» абсолютно все переменные из набора x ₁, x ₂, x ₃, x ₄.

Заключение

В работе рассмотрено индексное преобразование матриц, на основе которого предложено обобщение производственной функции Леонтьева – индексная регрессия. Задача оценивания неизвестных параметров индексной регрессии по методу наименьших модулей сведена к задаче частично-булевого линейного программирования. С использованием данных Хальда рассмотрен пример построения индексных регрессий.

Список литературы Оценивание индексных моделей регрессии с помощью метода наименьших модулей

Базилевский М.П. МНК-оценивание параметров специфицированных на основе функций Леонтьева двухфакторных моделей регрессии // Южно-Сибирский научный вестник. 2019. № 2 (26). С. 66-70.
Ершов Э.Б. Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации // Прикладная эконометрика. 2008. № 4 (12). С. 71-83.
Иванова Н.К., Лебедева С.А., Носков С.И. Идентификация параметров некоторых негладких регрессий // Информационные технологии и проблемы математического моделирования сложных систем. 2016. Вып. 17. С. 111-114.
Клейнер Г.Б. Производственные функции: Теория, методы, применение. М.: Финансы и статистика, 1986. 239 с.
Носков С.И. Оценивание параметров аппроксимирующей функции с постоянными пропорциями // Современные технологии. Системный анализ. Моделирование. 2013. № 2 (38). С. 135-136.
Носков С.И., Базилевский М.П. Об индексных преобразованиях матриц при построении регрессионных моделей // Информационные технологии и математическое моделирование в управлении сложными системами. 2019. № 3. С. 11-16.
Носков С.И., Базилевский М.П. Построение регрессионных моделей с использованием аппарата линейно-булевого программирования. Иркутск: ИрГУПС, 2018. 176 с.
Draper N.R., Smith H. Applied Regression Analysis. Hoboken: John Wiley & Sons, 1998. 736 p.
Harrell Jr., Frank E. Regression Modeling Strategies: With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis. [S. l.]: Springer Series in Statistics, 2015. 582 p.
Kuhn M., Johnson K. Applied Predictive Modeling. Berlin: Springer, 2018. 600 p.

Еще

Статья научная