Об одной математической модели электропотребления с учетом данных мониторинга
Автор: Пронина Е.А.
Журнал: Вестник Красноярского государственного аграрного университета @vestnik-kgau
Рубрика: Трибуна молодых ученых
Статья в выпуске: 9, 2013 года.
Бесплатный доступ
В статье рассматриваются уровни и режимы бытового электропотребления в Красноярском крае. Проводится анализ регрессии и определяется оптимальная модель для описания потребления электроэнергии.
Электропотребление, регрессия, корреляция, мониторинг, модель, красноярский край
Короткий адрес: https://sciup.org/14083278
IDR: 14083278
Текст научной статьи Об одной математической модели электропотребления с учетом данных мониторинга
На производство и потребление электроэнергии оказывают влияние множество факторов. При построении модели в качестве объясняющих переменных рассмотрены номер наблюдения, длина светового дня, температура (для сопоставимости их масштабов нормируем электропотребление в 0,0001 раза), приведенные на рис 1.
Для анализа были использованы среднемесячные показатели за 3 года, приведенные в табл. 1 [1, 2].
Бытовое потребление электроэнергии, длина светового дня, температура
Таблица 1
Номер наблюдения (N) |
Месяц |
кВт.ч/10000 (Е быт. ) |
Длина дня, ч (L) |
Температура, 0С (t) |
1 |
2 |
3 |
4 |
5 |
1 |
Январь |
510123 |
7,030 |
-20,7 |
2 |
Февраль |
382345 |
9,083 |
-10,2 |
3 |
Март |
400023 |
11,400 |
-3,5 |
4 |
Апрель |
251288 |
14,012 |
4,0 |
5 |
Май |
229338 |
16,356 |
10,2 |
6 |
Июнь |
270146 |
17,983 |
18,1 |
7 |
Июль |
251154 |
17,639 |
17,6 |
8 |
Август |
166987 |
15,706 |
16,6 |
9 |
Сентябрь |
273114 |
13,217 |
10,3 |
10 |
Октябрь |
292400 |
10,728 |
-1,0 |
11 |
Ноябрь |
355809 |
8,267 |
-14,3 |
12 |
Декабрь |
532584 |
6,683 |
-17,0 |
Окончание табл. 1
1 |
2 |
3 |
4 |
5 |
13 |
Январь |
523887 |
7,030 |
-23,4 |
14 |
Февраль |
399125 |
9,083 |
-13,7 |
15 |
Март |
392113 |
11,400 |
-5,3 |
16 |
Апрель |
313420 |
14,012 |
6,2 |
17 |
Май |
260102 |
16,356 |
15,1 |
18 |
Июнь |
205578 |
17,983 |
22,0 |
19 |
Июль |
121214 |
17,639 |
21,5 |
20 |
Август |
249374 |
15,706 |
23,2 |
21 |
Сентябрь |
378690 |
13,217 |
14,3 |
22 |
Октябрь |
634957 |
10,728 |
9,2 |
23 |
Ноябрь |
729843 |
8,267 |
-5 |
24 |
Декабрь |
880214 |
6,683 |
-12,4 |
25 |
Январь |
826095 |
7,030 |
-6,4 |
26 |
Февраль |
627282 |
9,083 |
-4,1 |
27 |
Март |
500250 |
11,400 |
1,4 |
28 |
Апрель |
296211 |
14,012 |
7,1 |
29 |
Май |
222954 |
16,356 |
18,4 |
30 |
Июнь |
178092 |
17,983 |
18,6 |
31 |
Июль |
171468 |
17,639 |
22,8 |
32 |
Август |
208548 |
15,706 |
17,8 |
33 |
Сентябрь |
293791 |
13,217 |
11,2 |
34 |
Октябрь |
511710 |
10,728 |
2,63 |
35 |
Ноябрь |
615869 |
8,267 |
-4,9 |
36 |
Декабрь |
712594 |
6,683 |
-14,04 |
-5
-10
-15
-20
-25

19 часы

Температура

Длина дня
Рис. 1. Электропотребление, длина дня, температура
График потребления электроэнергии показывает, что оно происходит с некоторой периодичностью, связанной со сменой времени года, т.е. сезонностью. Для определения ее периода построим и исследуем периодограмму (рис. 2), значения которой вычисляются как
Pk = N ■ (Ak2 + Bk2 ), (k = 1-W (N = 36), где Аk – коэффициент при косинусе, а Вk – коэффициент при синусе на частоте k в разложении Фурье; N – количество наблюдений. Значения периодограммы можно интерпретировать как дисперсию (вариацию) данных на соответствующей частоте [3].

Рис. 2. Периодограмма
На ней присутствует отчетливый пик с периодом, равным двенадцати. Для определения тенденции потребления электроэнергии построим парную регрессию, зависящую от N по методу наименьших квадратов (рис. 3) [4, с. 62–64]:
Е = 30,6384 + 0,4713 ■ N , ( N = 1...36 ).

Рис. 3. Линейная регрессия
По наклону линии регрессии и по коэффициенту при N можно сказать, что потребление электроэнергии за рассматриваемый период имеет незначительную тенденцию к увеличению.
Произведем вычисление описательных статистик для потребления электроэнергии, приведенные в табл. 2.
Таблица 2
Среднее Е ср. |
39,3575 |
Нижняя граница для среднего (-95 %) |
32,6632 |
Верхняя граница для среднего (+95 %) |
46,0517 |
Стандартное отклонение среднего ( o < ) |
19,7849 |
Стандартная ошибка среднего (SE) |
3,2975 |
Минимум (E min ) |
12,1214 |
Максимум (E max ) |
88,0214 |
Медиана |
33,4615 |
Асимметрия |
0,8607 |
Эксцесс |
-0,1035 |
Описательные статистики
Значение асимметрии показывает, что распределение сильно отличается от нормального (сдвинуто вправо). Это можно объяснить тем, что объем электропотребления растет из года в год. При этом график потребления электроэнергии не имеет резко выраженного пика (показатель эксцесса близок к нулю).
По графикам продолжительности светового дня и температуры видно, что между потреблением и температурой, а также длиной дня, присутствует отрицательная корреляция, т.е. при увеличении температуры или длины дня потребление снижается. Рассчитаем корреляции между этими величинами. Результаты приведены в табл. 3.
Корреляционная таблица
Таблица 3
Показатель |
Потребление |
Номер наблюдения |
Длина дня |
Температура |
Потребление |
1 |
0,2510 |
-0,8478 |
-0,6999 |
Номер наблюдения |
– |
1 |
-0,0228 |
0,1795 |
Длина дня |
– |
– |
1 |
0,9349 |
Температура |
– |
– |
– |
1 |
Наиболее значимые корреляции наблюдаются между потреблением и длиной дня, температурой и потреблением, а также между температурой и длиной дня. Поэтому целесообразно включить в модель переменные – длину дня (L) и температуру (t). В то же время достаточно высокая корреляция между потреблением электроэнергии и температурой (около 70 %) возникает оттого, что температура и длина светового дня очень тесно коррелированны (R = 93,5 %), поэтому включение в модель одновременно этих переменных может привести к получению ненадежных оценок регрессии (мультиколлинеарности) [4, с. 155]. Также температура является случайной величиной, поэтому лучше включить в модель только длину светового дня (неслучайную величину).
В общем виде линейная регрессия примет вид (рис. 4, табл. 4):
-
• Регрессия 1: E = b + a 1 L + u , (1)
где b – свободный член; a 1 – параметр; u – случайная составляющая.
Оценка параметров регрессии 1
Таблица 4
Параметр |
b |
a 1 |
91,8001 |
-4,2491 |
|
Стандартная ошибка |
5,8979 |
0,4557 |
t-статистика (df=34) |
15,5650 |
-9,3235 |
p-уровень |
0,0000 |
0,0000 |
Коэффициент корреляции (R) |
84,78 % |
|
Коэффициент детерминации (R2) |
71,88 % |
|
Скорректированный коэффициент детерминации (R a 2) |
71,06 % |
|
Сумма квадратов отклонений (SS) |
3851,98 |
По полученным результатам построим график:
E = 91,8001 - 4,2491 • L
.

Сформулируем нулевую гипотезу о том, что коэффициенты регрессии равны нулю, а затем попытаемся опровергнуть ее (для принятия гипотезы должно выполнятся неравенство: -t крит. < t < t крит. ). По значениям t-статистики можно сказать, что величины оценок свободного члена b и коэффициента a отличаются в действительности от нуля, так как их t-статистики не попадают в интервал [-t крит. < t < t крит. ] (критическое значение для t при 5-процентном уровне значимости с 34 степенями свободы равняется 2,032), что также следует из уровня значимости р (р < 0,05) [4, с. 97].
Хотя зависимость электропотребления от номера наблюдения невелика (25,10 %), для улучшения регрессии включим его в модель, тогда получим (рис. 5, табл. 5):
• Регрессия 2: E = b + a 1 L + a2 N
Оценка параметров регрессии 2
Таблица 5
Показатель |
b |
a 1 |
a 2 |
Параметры |
83,4217 |
-4,2226 |
0,4352 |
Стандартная ошибка |
6,1652 |
0,4162 |
0,1560 |
t-статистика (df=33) |
13,5310 |
-10,1456 |
2,7907 |
p-уровень |
0,0000 |
0,0000 |
0,0087 |
R |
87,89 % |
||
R 2 |
77,25 % |
||
Ra 2 |
76,58 % |
||
SS |
3113,50 |
Значения t-статистики и р-уровня показывают, что оценки параметров регрессии значимы на уровне 0,05. Коэффициент R2 увеличился примерно на 5,37 %, что связано с добавлением в уравнение дополнительной переменной N.
E = 83,4217 - 4,2226 • L + 0,4352 • N .

Электропотребление Регрессия (R2=77,25%)
Рис. 5. Регрессия 2
Уравнение регрессии можно интерпретировать следующим образом. При увеличении какой-либо независимой переменной на единицу, электропотребление увеличится (уменьшится) на величину коэффициента этой переменной. Например, при увеличении длины дня (L) на 1 ч и неизменном номере месяца (N) электропотребление изменится на -4,2226 (кВт.ч/10000).
При визуальном анализе графика электропотребления заметно его сходство с периодической функцией. Поэтому добавим в уравнение какую-либо из функций, например, такого вида: cos ( a - X + а ) или sin ( a - X + а ) , которую определим экспериментально (для регрессии (2) наилучшей является функция sin ( a - N ) ) (рис. 6, табл. 6). Тогда получим уравнение:
-
• Регрессия 3: E = b + а 1 L + а 2 N + а 3 sin ( а 4 N ) . (3)
Е = 77,8461 - 4,2076 - L + 0,7273 - N - 10,6711 - sin ( 12,223 - N )
Электропотребление
Регрессия 3 (R2=90,04%)
Оценка параметров регрессии 3
Таблица 6
Показатель |
b |
a 1 |
a 2 |
a 3 |
a 4 |
Параметр |
77,8461 |
-4,2076 |
0,7273 |
-10,6711 |
12,2230 |
Стандартная ошибка |
4,3325 |
0,2855 |
0,1170 |
1,7669 |
0,0078 |
t-статистика (df=31) |
17,9679 |
-14,7396 |
6,2154 |
-6,0394 |
1574,0656 |
p-уровень |
0,0000 |
0,0000 |
0,0000 |
0,0000 |
0,0000 |
R |
94,89 % |
||||
R2 |
90,04 % |
||||
Ra 2 |
89,75 % |
||||
SS |
1364,15 |
Рис. 6. Регрессия 3
Одновременно с этим электропотребление носит нелинейный характер, поэтому преобразуем независимые переменные, возведя их в некоторую степень n . (рис 7, табл. 7). Модифицированное уравнение будет выглядеть следующим образом:
Регрессия 4: E = b + a 1 Ln 1 + a 2 Nn 2 + a 3 sin l a 4 Nn 3

Электропотребление Регрессия (R2=92,29%)
Оценка параметров регрессии 4
Таблица 7
Показатель |
b |
a 1 |
a 2 |
a 3 |
a 4 |
Параметр |
222,0121 |
-131,7167 |
24,9494 |
10,9948 |
0,3448 |
Стандартная ошибка |
14,3706 |
7,5532 |
3,4317 |
1,5016 |
0,0060 |
t-статистика (df=31) |
15,4491 |
-17,4385 |
7,2703 |
7,3218 |
57,8154 |
p-уровень |
0,0000 |
0,0000 |
0,0000 |
0,0000 |
0,0000 |
n1 |
0,22300 |
||||
n2 |
0,22306 |
||||
n3 |
1 |
||||
R |
96,07 % |
||||
R 2 |
92,29 % |
||||
R a 2 |
92,07 % |
||||
SS |
1056,01 |
E = 222,0121 - 131,7167 • L’22 2 + 24,9494 • ^ °’22306 +10,9948 • sin ( 0,3448 • N )
Рис. 7. Регрессия 4
В результате включения в регрессию (2) функции синуса и преобразования переменных коэффициент R2 вырос на 15,04 % (R a 2 – на 15,49 %). Оценки параметров регрессии значимы на уровне 0,05, и мы получили достаточно высокое значение коэффициента детерминации.
Теперь проверим, превышает ли R2 то значение, которое может быть получено случайно. Для этого проверим, является ли значимой совместная объясняющая способность k (k =2) независимых переменных при помощи F-теста (т.е. выполняется ли условие F > F крит. ):
F =

= 197,57; .
Критический уровень F с 2 и 33 степенями свободы при уровне значимости в 1 % составляет 5,31. Таким образом, F-статистика, равная 197,57, указывает на значимый уровень объяснения [4, с. 160].
Для того чтобы модель была адекватна описываемым данным, должны выполняться четыре условия Гаусса-Маркова [4, с. 80–81]:
-
- математическое ожидание остатков равно нулю;
-
- дисперсия остатков в каждом наблюдении постоянна (гомоскедастична);
-
- отсутствие автокорреляции остатков;
-
- остатки должны быть распределены независимо от объясняющих переменных.
Так как большой проблемой при моделировании временных рядов является проблема автокорреляции остатков, то первым проведем тест на ее наличие.
В регрессии (1) количество объясняющих переменных равно единице (k = 1) и статистика Дарбина-Уотсона (d крит. ) равна 0,47 при верхней границе (D U ), равной 1,32, и нижней границе (D L ), равной 1,21, при уровне значимости в 1 %. Значит, можно сделать вывод о том, что остатки положительно коррелированны (d крит. < D L ) и модель будет неадекватной. То же можно сказать и о регрессии (2), в которой имеется две объясняющих переменных, d крит. = 0,58, а D U = 1,38 и D L = 1,15 (d крит. < D L ).
Модели (3) и (4) содержат две объясняющих переменных. Для третьей модели d крит. = 1,16, для четвертой – d крит. = 1,29 находятся между нижней и верхней границами (1,15 < d крит. < 1,38). То есть мы не можем ни подтвердить, ни отклонить гипотезу о наличии автокорреляции.
Это можно заметить по графикам автокорреляционных функций остатков (рис. 8) [4, с. 221].
Regress 1

Regress 2

Regress 3

Рис. 8. Автокорреляционные функции остатков регрессии (1),(2),(3) и доверительные интервалы
Так как регрессия (4) более точно соответствует наблюдаемым данным, то проверку выполнения остальных трех условий Гаусса-Маркова сделаем только для нее.
-
• Первое условие о том, что математическое ожидание остатков равно нулю, выполняется автоматически, так как если в уравнение регрессии включен постоянный член, то он ''компенсирует'' систематические смещения остатков.
-
• Гипотезу о том, что дисперсия остатков в каждом наблюдении постоянна, проверим с помощью теста Голдфелда-Квандта. После его проведения мы не отклоняем ее при однопроцентном уровне значимости [4, с. 207–208].
-
• Четвертое условие Гаусса-Маркова о том, что остатки должны быть распределены независимо от объясняющих переменных (или более сильное предположение, что объясняющие переменные не являются
стохастическими) также выполняется автоматически, так как в модель включены переменные, не имеющие случайную составляющую.
Наряду с условиями Гаусса-Маркова обычно предполагается нормальность распределения остатков. Проверим это с помощью исследования показателей асимметрии (S), эксцесса (K) и их стандартных ошибок ( σ S , σ K ), (табл. 8).
Показатели асимметрии, эксцесса и их стандартные ошибки
Таблица 8
Показатель |
Значение |
Стандартная ошибка |
Асимметрия |
-0,3027 |
0,3925 |
Эксцесс |
-0,5667 |
0,7681 |
При нормальном распределении показатели асимметрии и эксцесса равны нулю и по расчетам видно, что по абсолютной величине они имеют тот же порядок, что и их ошибки. Следовательно, ни одна из полученных величин не значима и гипотеза о нормальном характере распределения принимается [3, с. 134]. Это также видно по стандартному нормальному вероятностному графику (рис. 9).

Рис. 9. Стандартный нормальный вероятностный график остатков регрессии 3
Заключение. Модель (4) достаточно адекватна, и ее можно использовать для описания потребления электроэнергии.