Использование бинарных переменных при регрессионном моделировании состояния технического объекта
Автор: Бубырь Дмитрий Сергеевич, Клячкин Владимир Николаевич, Карпунина Ирина Николаевна
Журнал: Известия Самарского научного центра Российской академии наук @izvestiya-ssc
Статья в выпуске: 6-2 т.16, 2014 года.
Бесплатный доступ
Анализируется эффективность применения бинарных переменных при построении регрессионных моделей для оценки состояния технического объекта.
Моделирование, технический объект, регрессия, бинарные переменные, коэффициент детерминации
Короткий адрес: https://sciup.org/148203544
IDR: 148203544
Текст научной статьи Использование бинарных переменных при регрессионном моделировании состояния технического объекта
Для оценки состояния технического объекта могут быть использованы регрессионные модели, отражающие связь параметров функционирования объекта с независимыми факторами, оказывающими влияние на его работоспособность. Такие модели часто строятся по результатам мониторинга системы. Если при этом регрессионная модель предназначена для прогнозирования состояния системы, то одним из важнейших показателей ее качества является коэффициент детерминации R2 [1-3].
Процедура моделирования и перебора возможных регрессий осуществлялась в интегрированной системе комплексного статистического анализа и обработки данных STATISTICA [7-8]. В первоначальном варианте для поиска регрессий использовалась выборка, состоящая из данных за год (глобальная модель). Проведенные исследования показали, что такие модели обладают недостаточно высокой точностью, что можно объяснить неоднородностью физических свойств системы на области значений регрессоров. Для множественной линейной регрессии определена величина R2 <0,5. После использования пошаговой регрессии с целью удаления незначимых регрессоров, заметного улучшения значения коэффициента детерминации не наблюдалось: его величина также не превышала 0,5. Перебор различных типов нелинейных моделей (полный/неполный квадрат, куб, сумма всевозможных произведений и др.) привел к улучшению коэффициента детерминации на 10-20% при значительном усложнении структуры (для некоторых моделей количество регрессоров составляло 40 и более).
Бубырь Дмитрий Сергеевич, аспирант
Значительно увеличить величину коэффициента детерминации получилось за счёт «кусочно-сти» модели, то есть вариации её параметров по области значения регрессоров. Кусочно-линейная зависимость, обладающая достаточно простой структурой, дала улучшение значение коэффициента детерминации по различным выходным параметрам, характеризующим состояние объекта, на 21-56%. Кусочно-линейная регрессия оценивалась в виде:
Y = ( b Ol + b n ■ X 1 + — + b 1 ■ X ) ■ ( Y < c^ + + ( b 02 + b l2 ■ X l + — + b m 2 ■ X m ) ' (Y i > c )
где m – количество независимых факторов; i – номер выходного параметра; c i – точка разрыва; ( Y i ≤ ci ),( Y i > ci ) – логические выражения, принимающие значения: 1 – если истинно, 0 – если ложно. Разрыв происходит по отклику: точкой разрыва выступает среднее значение отклика Y i в данной выборке.
Наряду с количественными признаками в моделях иногда бывает необходимо использовать и качественные факторы. Например, это могут быть логические переменные, характеризующие сезонность наблюдения при использовании временных рядов, некие атрибутивные признаки при использовании пространственных данных. Качественные факторы могут быть добавлены в регрессионную модель, если они будут преобразованы в количественные переменные. Такие числовые переменные называются фиктивными или бинарными переменными [9].
С целью повышения значения коэффициента детерминации предпринята попытка введения бинарных переменных в кусочно-линейную регрессию. При этом рассмотрено два случая:
-
1) Добавление трех бинарных переменных, оценки которых показывают влияние сезонности на значение результирующего признака.
Таблица 1. Бинарные переменные сезонности
Yi = ( b 01 + b 11 X 1 + b 21 X 2 + ■■■ + bn 1 Xn +
Сезон
S 1
S 2
S 3
+ bn + 1,1 5 1 + bn + 2,1 5 2 + bn + 3,1 5 3)( Yi' - ci ) +
+ ( b 02 + b 12 X 1 + b 22 X 2 + ■■■ + bn 2 Xn +
зима
1
0
0
весна
0
1
0
лето
0
0
1
+ bn + 1,2 5 1 + bn + 2,2 5 2 + bn + 3,3 5 3 )(Yi > ci ) (2)
осень
0
0
0
Кусочно-линейная регрессия оценивалась в виде:
2) Добавление 11 переменных, оценки которых показывают влияние месяца на значение результи-
рующего признака.
Таблица 2. Бинарные переменные месяца
Месяц |
M 1 |
M 2 |
M 3 |
M 4 |
M 5 |
M 6 |
M 7 |
M 8 |
M 9 |
M 10 |
M 11 |
январь |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
февраль |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
март |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
апрель |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
май |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
0 |
июнь |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
0 |
июль |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
0 |
август |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
0 |
сентябрь |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
0 |
октябрь |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
0 |
ноябрь |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
1 |
декабрь |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
0 |
Кусочно-линейная регрессия оценивалась в виде:
Yi = ( b 01 + b11 X 1 + b 21 X 2 + "'+ bn1 Xn +
-
+ bn + 1,1 M 1 + ■■■ + bn + 11,1 M 1P Y - ci) +
-
+ ( b 02 + b 12 X 1 + b 22 X 2 + ■■■ + bn 2 Xn +
-
+ bn + 1,2 M 1 + ■■■ + bn + 11,2 M 11)( Y > ci ) (3)
Здесь n – количество регрессоров X , с i – точка разрыва для показателя Y i .
Таблица 3. Значения коэффициента детерминации
Показатель качества |
Кусочно-линейная регрессия |
||
с бинарными переменными |
без бинарных переменных |
||
месяц |
сезон |
||
Y 1 |
0,64 |
0,61 |
0,60 |
Y 2 |
0,67 |
0,65 |
0,64 |
Y 3 |
0,77 |
0,73 |
0,72 |
Y 4 |
0,71 |
0,66 |
0,62 |
Y 5 |
0,82 |
0,80 |
0,79 |
Y 6 |
0,70 |
0,68 |
0,68 |
Y 7 |
0,77 |
0,76 |
0,74 |
После применения данных регрессий для семи откликов Y (показателей качества функционирования объекта), получены следующие результаты по коэффициенту детерминации.
Из табл. 3 видно, что введение бинарных переменных, учитывающих сезонность, практически не повлияло на качество моделирования по показателю Y 6 , максимальное увеличение коэффициента детерминации имеет место для показателя Y 4 (6,2%). Бинарные переменные, учитывающие влияние месяца на функционирование объекта, улучшили значение коэффициента детерминации максимум на 14,7% (по тому же показателю Y 4 ).
В зависимости от назначения и условий функционирования технического объекта прогнозирование его состояния иногда целесообразно проводить не по данным за год (глобальные модели), а по более коротким промежуткам времени (локальные модели). Исследования эффективности локальных моделей проводились в ситуации, когда для построения регрессионных зависимостей можно использовать от 30 до 40 наблюдений. По сравнению с глобальными моделями коэффициент детерминации значительно повысился. Для дальнейшего увеличения этого коэффициента вновь были введены бинарные переменные. Поскольку в данном случае размер выборки невелик (от одного до полутора месяцев), то добавление бинарных переменных, учитывающих сезон или месяц, не имеет смысла. Были введены переменные, учитывающие день недели (табл. 4).
В результате наблюдалось значительное увеличение коэффициента детерминации для некоторых откликов. Ниже (табл. 5) представлены значения коэффициента детерминации после применения моделей для выборки размера 30 дней. Видно, что использование бинарных переменных и вариация размера выборки позволяет повысить качество регрессий, моделирующих состояние технического объекта.
Таблица 4. Бинарные переменные, учитывающие день недели
День |
D1 |
D2 |
D3 |
D4 |
D5 |
D6 |
понедельник |
1 |
0 |
0 |
0 |
0 |
0 |
вторник |
0 |
1 |
0 |
0 |
0 |
0 |
среда |
0 |
0 |
1 |
0 |
0 |
0 |
четверг |
0 |
0 |
0 |
1 |
0 |
0 |
пятница |
0 |
0 |
0 |
0 |
1 |
0 |
суббота |
0 |
0 |
0 |
0 |
0 |
1 |
воскресение |
0 |
0 |
0 |
0 |
0 |
0 |
Таблица 5. Значение коэффициента детерминации (выборки объемом 30 наблюдений)
Показатель качества |
Кусочно-линейная регрессия |
|
с бинарными переменными |
без бинарных переменных |
|
Y 1 |
0,92 |
0,86 |
Y 2 |
0,99 |
0,89 |
Y 3 |
0,98 |
0,83 |
Y 4 |
0,99 |
0,97 |
Y 5 |
0,99 |
0,98 |
Y 6 |
0,97 |
0,76 |
Y 7 |
0,97 |
0,86 |
Работа выполнена в рамках задания Минобрнауки России №2014/232.
Список литературы Использование бинарных переменных при регрессионном моделировании состояния технического объекта
- Айвазян, С.А. Прикладная статистика и основы эконометрики/С.А. Айвазян, В.С. Мхитарян. -М.: ЮНИТИ, 1998. 1022 с.
- Валеев, С.Г. Регрессионное моделирование при обработке наблюдений. -М.: Наука, 1991. 272 с.
- Валеев, С.Г. Особенности построения регрессионных моделей при многомерном контроле технологического процесса/С.Г. Валеев, В.Н. Клячкин//Радиоэлектроника. Информатика. Управление. 2002. №1. С.48-51.
- Валеев, С.Г. Критерии выбора многооткликовых регрессий при контроле технологического процесса/С.Г. Валеев, В.Н. Клячкин//Проектирование и технология электронных средств. 2003. №2. C. 34-39.
- Клячкин, В.Н. Статистические методы в управлении качеством: компьютерные технологии. -М.: Финансы и статистика, ИНФРА-М, 2009. 304 с.
- Клячкин, В.Н. Идентификация режима статистического контроля многопараметрического технологического процесса/В.Н. Клячкин, А.Ю. Михеев//Автоматизация и современные технологии. 2011. №12. С. 27-31.
- Халафян, А.А. SТАТISТIСА 6. Статистический анализ данных. 3-е изд. -М.: ООО «Бином-Пресс», 2007. 512 с.
- Statistica documentation //URL: http://documentation.statsoft.com (дата обращения: 31.03.2014)
- Каракозов, С.Г. Основы эконометрики: учебное пособие. -Ульяновск: УлГУ, 2008. 127 с.
- Крашенинников, В.Р. Кусочно-квадратичное моделирование регрессионных зависимостей при оценке качества/Крашенинников В.Р., Бубырь Д.С.//Междисциплинарные исследования в области математического моделирования и информатики. Мат-лы 3-й науч.-практ. internet-конференции. 20-21 февраля 2014 г. -Ульяновск: SIMJET, 2014. С. 233-236.
- Васильев, К.К., Крашенинников В.Р. Статистический анализ многомерных изображений. -Ульяновск: УлГТУ, 2007. 170 с.
- Клячкин, В.Н. Информационно-математическая система раннего предупреждения об аварийной ситуации/В.Н. Клячкин, Ю.Е. Кувайскова, А.А. Алёшина, Ю.А. Кравцов//Известия Самарского научного центра РАН. 2013. №4(4). С. 919-923.
- Кувайскова, Ю.Е. Прогнозирование состояния технического объекта на основе мониторинга его параметров/Ю.Е. Кувайскова, В.Н. Клячкин, Д.С. Бубырь//ХII Всероссийское совещание по проблемам управления. Институт проблем управления им. Трапезникова РАН. 2014, с. 7616-7626