Оценивание индексных моделей регрессии с помощью метода наименьших модулей
Автор: Базилевский Михаил Павлович, Носков Сергей Иванович
Рубрика: Математическое моделирование
Статья в выпуске: 1, 2020 года.
Бесплатный доступ
В схеме регрессионного моделирования ключевым этапом является выбор спецификации модели, т.е. математической формы связи между переменными. Предложена новая спецификация регрессионных моделей - индексная регрессия, являющаяся обобщением производственной функции Леонтьева. Отмечено, что при построении индексных регрессий, наряду со статистической информацией, требуется привлечение еще и экспертной информации о ретроспективном периоде, что относит их к классу экспертно-статистических регрессионных моделей. Задача оценивания неизвестных параметров индексной регрессии по методу наименьших модулей сведена к задаче частично-булевого линейного программирования. С использованием данных Хальда рассмотрен пример построения индексных регрессий.
Индексная регрессия, производственная функция леонтьева, метод наименьших модулей, задача частично-булевого линейного программирования
Короткий адрес: https://sciup.org/148309056
IDR: 148309056 | DOI: 10.25586/RNU.V9187.20.01.P.017
Текст научной статьи Оценивание индексных моделей регрессии с помощью метода наименьших модулей
Одним из основных инструментов интеллектуального анализа данных является регрессионный анализ [8; 9; 10]. Его использование приводит к построению математических моделей влияния одной или нескольких объясняющих переменных на объясняемую переменную. В схеме регрессионного моделирования ключевым этапом является выбор спецификации модели, т.е. математической формы связи между переменными. К настоящему времени разработан значительный арсенал ставших уже классическими способов описания взаимосвязей между моделируемыми показателями [7]. В эконометрике при моделировании социально-экономических явлений особое внимание традиционно уделяется вопросам построения производстве нных функций [4]. В работах [1; 3; 5] рассмотрены
18 в ыпуск 1/2020
методы оценивания производственных функций Леонтьева. Вместе с тем на сегодняшний день появляются новые формы связи между переменными. Так, в работе [6] с использованием индексных преобразований предложено обобщение производственной функции Леонтьева. Целью данной статьи является разработка математического аппарата для оценивания таких моделей с помощью метода наименьших модулей.
Оценивание индексных моделей регрессии
Рассмотрим способ преобразования произвольной матрицы в вектор – индексное преобразование [Там же]. Пусть дана матрица
A =
a 11
a 21
a 12
a 22
.
.
.
...
...
a
a
.
.
.
.
.
.
.
.
.
a1m a2m
...
a nm
.
Упорядочим элементы каждой строки матрицы A по возрастанию. Тогда она примет вид
A sort
a 1, c 11
a 2, c 21
a 1, c 12
a 2, c 22
.
.
.
.
.
.
a 1, c 1
a 2, c 2
c 1 m
2 m
,
...
...
.
.
.
...
a
a
.
.
.
a n , c nm
где c ij , i = 1, n , j = 1, m - элементы индексной матрицы C n x m . Элемент c ij - это порядковый номер столбца, который занял j -ю позицию при упорядочивании i -й строки матрицы A по возрастанию.
Пусть задан индексный вектор
G = [g 1 g2 ... gn ], где gi , i= 1, n – порядковый номер столбца матрицы A sort для i -го наблюдения.
Тогда с использованием вектора G из матрицы Asort сформируем вектор
B = a., a3, ... a„, I .
L 1, c 1,g 1 2, c 2, g 2 n , c n,gn J
Вектор B – индексное преобразование матрицы A по индексному вектору G , которое обозначается
B = ind G ( A ) .
С использованием индексного преобразования в работе [6] сформулирована индексная модель регрессии:
y — ind g {a 1 x i 1 , a 2 x i 2 , ..., a m x im } + S i , i = 1, n , (1)
где y i , i = 1, n – наблюдаемые значения объясняемой (выходной) переменной y ; x ij , i = 1, n , j = 1, m – наблюдаемые значения объясняющих (входных) переменных x 1, x 2, …, x m ; ε i , i = 1, n – ошибки аппроксимации; α 1, α 2, …, α m – неизвестные параметры; G – индексный вектор.
Без потери общности будем предполагать, что переменные модели (1) неотрицательны.
Как видно, при построении индексных регрессий (1), наряду со статистической информацией (выборкой), требуется привлечение еще и экспертной информации о ретро-
Базилевский М.П., Носков С.И. Оценивание индексных моделей регрессии... 19
спективном периоде, что относит их к классу экспертно-статистических регрессионных моделей. Такая информация формируется посредством задания экспертом – специалистом в данной предметной области вектора G , произвольная компонента g i которого указывает на независимую переменную из набора x 1, x 2, …, x m , которая должна «срабатывать» в i -м наблюдении при оценивании параметров индексной регрессии (1).
По аналогии с работами [3; 5] приведем способ точного оценивания неизвестных параметров индексной регрессии (1) с использованием метода наименьших модулей, приводящего к задаче
J (ai, a2,..., a m ) — ^ ' | £ J У min.(2)
— 1
Для этого введем в рассмотрение расчетные значения объясняемой переменной z i :
zi — indg {aixii , a2xi2, ..., amxim } , i = 1, n , после чего регрессия (1) представима в виде yt = zi +£ i, i = 1, n.
Введем в рассмотрение переменные ui, vi, i= 1,n по правилу y- Zi, если y> Zi,
v
0 в противном случае, i
u i
Z i - У,, если Z i > y , ,
0 в противном случае,
Легко видеть, что имеют место тождества
Z i + u -Vi= Ун i = 1, n . (4)
Как следует из выражения (3), для любого j расчетное значение объясняемой переменной удовлетворяет либо z i ≤α j x ij , либо z i ≥ α j x i j , i = 1, n . Для учета этого обстоятельства введем mn булевых переменных σ ij , i = 1, n , j = 1, m по правилу
° ч
0, если z i < a j X ij , 1, если z i > a j X ij .
Тогда справедливы следующие ограничения:
- M σ ij ≤α j x ij - z i ≤ M ( 1 -σ ij ) , i = 1, n , j = 1, m ,
где M – заранее выбранное большое положительное число.
Пусть задан индексный вектор G = |^ g 1 g 2 ... gn J , причем 0 < g i < m, i = 1, n . Тогда сформируем следующие ограничения:
]L = j = g i , i = 1 n . (6)
j = 1
Для каждого i по крайней мере одно из неравенств (5) должно обращаться в строгое равенство a j X ij — z i = 0. Для достижения этого требования введем еще mn булевых переменных δ ij , i = 1, n , j = 1, m и сформируем ограничения
- M ( 1 -S ij ) - M ( 1 -G j ) j X ,j - Z i < M ( 1 -S ij ) + M G j , i = 1, n , j = 1, m , (7)
m
Z 8 j = 1, i = 1 n . (8)
j = i
20 в ыпуск 1/2020
Из задания переменных u i и v i , i = 1, n следуют равенства
| S,.|= U, + V,, U,V,= 0, позволяющие представить функционал (2) в виде
J (^ , « 2 ,..., a m ) = £ ( u , + v , ) ^ min. (9)
i = 1 ______
Таким образом, задача (2) поиска значений неизвестных параметров α j , j = 1, m индексной регрессии (1) по методу наименьших модулей свелась к задаче частично-булевого линейного программирования (4)–(9) с 2 mn + 3 n + m переменными и 4 mn + 3 n ограничениями.
Пример построения индексной регрессии
Для построения индексной регрессии были использованы данные Хальда из монографии [8] по пяти переменным, русскоязычное описание которых приведено в работе [2]:
y – теп ло, выделяющееся при производстве цемента, кал/г;
x j , j = 1,4 – переменные, характеризующие содержание четырех веществ в клинкере, %.
Объем выборки составляет 13 наблюдений.
Оценивание индексных регрессий осуществлялось с использованием пакета решения задач математического программирования LPSolve. Большое положительное число M = 1 000 000.
Оцененная для индексного вектора G0 =(0,0,0,0,0,0,0,0,0,0,0,0,0) индексная регрессия y = indG {72,5x 1; 2,8258x2; 13,0375x3; 17,1167x4}. (10)
Для регрессии (10) сумма моделей остатков J 0 = ^ | е , | = 168,729.
Стоит заметить, что модель (10) также можно записать в виде y = min{72,5x 1; 2,8258x2; 13,0375x3; 17,1167x4}, т.е. она представляет собой производственную функцию Леонтьева.
Оцененная для G 1 = ( 1,1,1,1,1,1,1,1,1,1,1,1,1 ) индексная регрессия:
y = indG {46,55x1; 2,4659x2; 13,0375x3; 17,1167x4};(11)
для G 2 = ( 2,2,2,2,2,2,2,2,2,2,2,2,2 ) :
y = indG {74,3x 1; 1,6088x2; 12,5888x3; 4,4577x4};(12)
для G 3 = ( 3,3,3,3,3,3,3,3,3,3,3,3,3 ) :
y = indG {5,519x 1; 1,7241x2; 13,0375x3; 1,6477x4}.(13)
Суммы модулей ошибок для моделей (11)–(13) J 1 = 67,951, J 2 = 63,804, J 3 = 76,334.
Оцененная для G 4 = ( 4,4,4,4,4,4,4,4,4,4,4,4,4 ) индексная регрессия:
y = indG {5,519x 1; 1,7241x2; 3,6435x3; 1,4288x4}.(14)
Для регрессии (14) сумма модулей остатков J 4 = 91,742.
Базилевский М.П., Носков С.И. Оценивание индексных моделей регрессии... 21
Снова заметим, что модель (14) можно записать в виде y = max{5,519x 1; 1,7241x2; 3,6435x3; 1,4288x4}.
Таким образом, лучшей индексной регрессией по величине суммы модулей остатков оказалась модель (12), для которой индексный вектор G 2 = ( 2,2,2,2,2,2,2,2,2,2,2,2,2 ) .
В таблице 1 приведена подробная информация об остатках индексных регрессий (10)–(14).
Таблица 1
Остатки индексных регрессий
Остаток |
Индексный вектор |
||||
G 0 |
G 1 |
G 2 |
G 3 |
G 4 |
|
e1 |
5,029 |
0,275 |
2,9667 |
0,275 |
–7,2308 |
e2 |
1,8 |
2,7872 |
0 |
–11,3818 |
0 |
e3 |
0 |
0 |
3,5889 |
0 |
7,7519 |
e4 |
0 |
11,1553 |
–13,1111 |
10,1568 |
20,4442 |
e5 |
17,675 |
17,675 |
12,2412 |
6,2481 |
6,2481 |
e6 |
–8,1375 |
–8,1375 |
–4,1 |
–8,1375 |
14,3759 |
e7 |
0 |
0 |
–11,5265 |
–19,7093 |
–19,7093 |
e8 |
0 |
–3,9447 |
–1,8 |
0 |
–7,6565 |
e9 |
–51,9 |
0 |
–4,9692 |
0 |
0 |
e10 |
63,75 |
0 |
0 |
0 |
0 |
e11 |
11,3 |
–14,8383 |
9,5 |
14,8370 |
0 |
e12 |
–4,0375 |
–4,0375 |
0 |
–0,4889 |
–0,4889 |
e13 |
5,1 |
5,1 |
0 |
5,1 |
–7,8370 |
Как видно по таблице 1, для каждой из индексных регрессий (10)–(14) ровно 4 остатка оказались нулевыми.
В таблице 2 приведена подробная информация о том, какая переменная из набора x 1, x 2, x 3, x 4 «сработала» в i -м наблюдении при оценивании индексных регрессий (10)– (14).
Таблица 2
Переменные, «сработавшие» в i -м наблюдении
Номер наблюдения |
Индексный вектор |
||||
G 0 |
G 1 |
G 2 |
G 3 |
G 4 |
|
1 |
2 |
3 |
3 |
3 |
4 |
2 |
1 |
2 |
1 |
4 |
4 |
3 |
3 |
3 |
3 |
3 |
2 |
4 |
2 |
2 |
3 |
4 |
4 |
5 |
3 |
3 |
2 |
2 |
2 |
6 |
3 |
3 |
3 |
3 |
2 |
7 |
4 |
4 |
2 |
2 |
2 |
8 |
1 |
2 |
1 |
4 |
3 |
9 |
1 |
1 |
4 |
2 |
2 |
Выпуск 1/2020
Окончание табл. 2
Номер наблюдения |
Индексный вектор |
||||
G 0 |
G 1 |
G 2 |
G 3 |
G 4 |
|
10 |
3 |
2 |
4 |
1 |
1 |
11 |
1 |
2 |
1 |
2 |
3 |
12 |
3 |
3 |
3 |
2 |
2 |
13 |
3 |
3 |
2 |
3 |
2 |
Как следует из таблицы 2, для каждой из индексных регрессий (10)–(14) были задействованы и «срабатывали» абсолютно все переменные из набора x 1, x 2, x 3, x 4.
Заключение
В работе рассмотрено индексное преобразование матриц, на основе которого предложено обобщение производственной функции Леонтьева – индексная регрессия. Задача оценивания неизвестных параметров индексной регрессии по методу наименьших модулей сведена к задаче частично-булевого линейного программирования. С использованием данных Хальда рассмотрен пример построения индексных регрессий.
Список литературы Оценивание индексных моделей регрессии с помощью метода наименьших модулей
- Базилевский М.П. МНК-оценивание параметров специфицированных на основе функций Леонтьева двухфакторных моделей регрессии // Южно-Сибирский научный вестник. 2019. № 2 (26). С. 66-70.
- Ершов Э.Б. Выбор регрессии, максимизирующий несмещенную оценку коэффициента детерминации // Прикладная эконометрика. 2008. № 4 (12). С. 71-83.
- Иванова Н.К., Лебедева С.А., Носков С.И. Идентификация параметров некоторых негладких регрессий // Информационные технологии и проблемы математического моделирования сложных систем. 2016. Вып. 17. С. 111-114.
- Клейнер Г.Б. Производственные функции: Теория, методы, применение. М.: Финансы и статистика, 1986. 239 с.
- Носков С.И. Оценивание параметров аппроксимирующей функции с постоянными пропорциями // Современные технологии. Системный анализ. Моделирование. 2013. № 2 (38). С. 135-136.
- Носков С.И., Базилевский М.П. Об индексных преобразованиях матриц при построении регрессионных моделей // Информационные технологии и математическое моделирование в управлении сложными системами. 2019. № 3. С. 11-16.
- Носков С.И., Базилевский М.П. Построение регрессионных моделей с использованием аппарата линейно-булевого программирования. Иркутск: ИрГУПС, 2018. 176 с.
- Draper N.R., Smith H. Applied Regression Analysis. Hoboken: John Wiley & Sons, 1998. 736 p.
- Harrell Jr., Frank E. Regression Modeling Strategies: With Applications to Linear Models, Logistic and Ordinal Regression, and Survival Analysis. [S. l.]: Springer Series in Statistics, 2015. 582 p.
- Kuhn M., Johnson K. Applied Predictive Modeling. Berlin: Springer, 2018. 600 p.