Непараметрическая модель в задаче прогнозирования мощности ветряных электрических установок

Автор: Агафонов Е.Д., Мангалова Е.С., Шестернева О.В.

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Математика, механика, информатика

Статья в выпуске: 2 (48), 2013 года.

Бесплатный доступ

Статья посвящена решению практической задачи прогнозирования относительной мощности ветряных электрических установок в зависимости от сезонных и погодных факторов. Описаны следующие этапы решения задачи прогнозирования: выбор значимых факторов, предварительная обработка данных, построение непараметрической модели k ближайших соседей, ее проверка и интерпретация результатов. Качество построенной модели подтверждено результатами открытого международного конкурса, на котором по критерию среднеквадратической ошибки модель показала второй по точности результат. Построенная модель позволит оптимизировать работу ветряных электрических установок в зависимости от погодных условий и нагрузки в энергетической системе.

Еще

Метод к ближайших соседей, прогнозирование, дерево регрессии

Короткий адрес: https://sciup.org/148177076

IDR: 148177076

Текст научной статьи Непараметрическая модель в задаче прогнозирования мощности ветряных электрических установок

Энергоэффективность и энергосбережение входят в пятерку приоритетных направлений технологического развития в России. Развивающиеся технологии использования альтернативных источников энергии способствуют рациональному использованию ресурсов и сокращению выбросов парниковых газов [1].

Одним из активно развивающихся направлений в энергетике в настоящее время являются ветряные электрические установки (ВЭУ). Россия обладает колоссальными возможностями для развития ветроэнергетики. В настоящее время на территории России экономически оправдано строительство ветряных электростанций суммарной мощностью до 250 млрд кВт/ч в год. Наиболее перспективными районами являются Дальневосточный регион, Сибирь, Крайний Север, а также территории Алтая, Нижней и Средней Волги, Каспийское побережье и Республика Карелия [2].

Эффективная эксплуатация ветряных электрических установок требует решения проблем, связанных с необходимостью оптимизации режимов их работы в рамках единой энергетической системы. В частности, model allows to optimize the wind power plant operation tree.

возникает необходимость прогнозировать мощность, генерируемую ветряной электрической установкой. Постановка задачи и исходные данные взяты из открытого конкурса Global Energy Forecasting Competition 2012 [3]. Для прогноза выходной мощности семи ветряных электростанций используется следующий набор факторов: метеорологический прогноз, содержащий меридиональную и зональную компоненты скорости ветра (проекции скорости на меридиан и параллель, проходящие через ВЭУ), направление ветра, скорость ветра, и соответствующая прогнозу дата. Исходные данные представляют собой выборку, состоящую из 26 197 наблюдений за четырехлетний период. Прогнозы ветра поступают два раза в сутки, каждый прогноз представляет собой данные о ветре на ближайшие двое суток. По этой причине обучающая выборка содержит многократные прогнозы различной точности. Функционирование ВЭУ сопровождается длительными промежутками отключения или работы на пониженной мощности, связанными как с регламентными работами на станциях, так и с особыми метеорологическими условиями (например, обледенением). Причины каждого конкретного отклонения режима функционирования ВЭУ от нормального неизвестны, поэтому работа с выборкой крайне затруднительна.

Мощность воздушного потока зависит не только от скорости, но и от плотности воздуха [4]. Мы не располагаем данными о параметрах, связанных с плотностью (температура, влажность и т. д.). Однако косвенно они могут быть связаны с порядковым номером дня в году (временем года) и временем суток [5].

Применим деревья регрессии [6] для принятия решения о включении факторов в модель. Построение бинарного дерева представляет собой пошаговую процедуру разбиения подмножеств обучающей выборки на две части гиперплоскостью, перпендикулярной оси выбранного фактора и проходящей через точку разбиения так, чтобы сумма дисперсий выходных значений в получаемых подмножествах была минимальна. Дерево регрессии позволяет последовательно разбивать имеющийся набор данных на подмножества с различными выборочными средними. Таким образом, разбиение по какому-либо фактору свидетельствует об изменении выборочной средней, а следовательно, о наличии некоторой зависимости выходной величины от этого фактора. По этой причине факторы, по которым проводились разбиения, будем считать значимыми.

При построении дерева регрессии определяем следующее правило остановки: любое из полученных в результате разбиения подмножеств должно содержать не менее 500 выборочных значений. Данное правило предотвращает выбор факторов, существенных лишь для небольших подмножеств данных (менее 5 % обучающей выборки).

Дерево регрессии для ветряной станции 1 изображено на рис. 1. В узлах дерева находятся условия, в соответствии с которыми осуществляется бинарное разделение выборки. В конечных узлах дерева указаны значения средних мощностей - выходных величин, соответствующих областей кусочно-постоянных аппроксимаций, которые представляют собой дерево. Первое разбиение было произведено по скорости ветра: для всех первого подмножества скорость ветра меньше 4,9 м/с (верхняя альтернатива), для всех точек второго - больше 4,9 м/с. Каждое из полученных подмножеств было в свою очередь разбито на два подмножества. Процесс продолжается, пока не нарушается требование к размеру минимального листа дерева.

Рис. 1. Дерево регрессии для первой из семи ВЭУ:

верхняя альтернатива - соблюдение неравенств, нижняя - нарушение; ws - скорость ветра; h - час; dy - порядковый номер дня в году; v - зональная компонента скорости ветра

Значимость факторов

Фактор

ВЭУ

1

2

3

4

5

6

7

Зональная компонента скорости ветра

+

+

+

+

+

Меридиональная компонента скорости ветра

+

+

+

+

+

+

+

Направление ветра

+

+

+

Скорость ветра

+

+

+

+

+

+

+

Год

+

Месяц

День месяца

Час

+

+

+

+

+

+

+

День в году

+

+

+

+

+

Для каждого подмножества итогового разбиения была вычислена средняя выходная мощность. Например, при условиях «скорость ветра меньше 2.1 м/с» и «порядковый номер часа в сутках меньше 12» средняя относительная мощность составляет 0,03, а при условиях «скорость ветра меньше 2,1 м/с» и «порядковый номер часа в сутках больше или равен 12» – 0,1.

В табл. знаком «+» отмечены факторы, по которым производились разбиения при построении деревьев для соответствующих ветряных установок (значимые факторы).

Факторы, значимость которых была установлена в процессе построения деревьев регрессий для пяти и более ветряных установок, были включены в модель: x 1 – зональная компонента скорости ветра; x 2 – меридиональная компонента скорости ветра; x 3 – скорость ветра; x 4 – порядковый номер часа в сутках; x 5 – порядковый номер дня в году. К этому набору факторов последовательно добавлялись скорости ветра в районах соседних установок: сначала фактор x 6 должен в наибольшей степени улучшать качество модели, затем фактор x 7 выбирается с тем же условием.

После выбора значимых факторов необходимо провести предварительную обработку данных. Электрические генераторы характеризуются монотонно возрастающей зависимостью выходной мощности от скорости ветра. Отдельные фрагменты в обучающей выборке противоречат этому теоретическому результату. Следовательно, предполагается наличие аномалий в измерениях соответствующих величин. Другое предположение заключается в том, что данные в этих областях получены во время нештатного функционирования ВЭУ. Были замечены два типичных случая аномальных данных:

– высокая мощность при слабом ветре;

– низкая мощность при сильном ветре.

Первый случай может быть связан с ошибками в прогнозе погоды; второй – как с ошибками в прогнозах, так и с аномальным функционированием ветряной электростанции. Измерения, соответствующие перечисленным случаям, были исключены.

Прогнозируемую величину (выходную мощность ВЭУ) обозначим y , объем выборки – n . Для предска-

зания выходной мощности использован непараметрический алгоритм k ближайших соседей [7; 8]. Выбор алгоритма обусловлен следующими причинами:

– интерпретируемостью модели. Алгоритм k ближайших соседей позволяет осуществлять прогноз, основываясь на наиболее похожих ситуациях (ближайших соседях) в прошлом в соответствии с выбранным расстоянием. Прогнозирование выполняется простым или взвешенным усреднением выходных значений k ближайших соседей;

– циклическим характером некоторых факторов. Среди факторов, включенных в модель, есть циклические (час и порядковый номер дня в году). Алгоритм k ближайших соседей может работать с ними (в отличии, например, от деревьев регрессии);

– алгоритм не требует повторного обучения при поступлении новых данных.

Поиск ближайших соседей будем осуществлять в соответствии со следующими метриками:

1. Метрика в пространстве одного фактора:

dJ (xp,xJq ) = |xp -j, J = 1, 2, 3, 6, 7, p = 1,2,..., n, q = 1,2,..., n,

где j – порядковые номера признаков, для которых

метрика применима; p и q – порядковые номера наблюдений, упорядоченных по времени их поступления.

2. Метрика в пространстве одного циклического фактора:

– порядковый номер часа в сутках:

d 4

I x 4 x 4| <  24 — I x 4 x^ |x 4 x 4| ^ 24 — | x 4 x 4| ,

p = 1,2,..., n ,     q = 1,2,..., n ;

– порядковый номер дня в году:

d 5 ( x p , x q

x 5 p

q ,

365 — | У

p

q ,

\ xp x q | <365—| x p x 5|,

,

I x p x q | ^ 365 —| x p x 5,

p = 1,2,..., n ,     q = 1,2,..., n .

3. Метрика в пространстве всех факторов взвешенную сумму метрик в пространстве одного фактора:

D ( xP , xq, w ) = E wJdJ ( x p , x q ) . j =1

P = 1,2,..., n, q = 1,2,..., n, где wj – соответствующие различным признакам веса, подлежащие оптимизации в соответствии с критерием качества, который будет рассмотрен ниже.

Модель k ближайших соседей имеет вид [7]:

j ф ( x, x q , w ) y q

У ( x , w ) = q n ---------------,            (1)

E ^ ( X , X q , w ) q =1

где

ф ( X , X q , w ) =

| D ( X , k , w ) - D ( X , X q , w ) , D ( X , X q , w ) ( X , k ) ,

[            0,              D (X, Xq, w )>^( X, k), здесь k - количество соседей, X(X, k) - расстояние между x и k-м ближайшим соседом, yq – выходная мощность ВЭУ для выборочного элемента с индексом q.

Анализ выборочных данных показал, что встречаются ситуации, когда метеорологические прогнозы слабо отличаются друг от друга в течение некоторого промежутка времени. Ближайшие по времени наблюдения, таким образом, будут являться заведомо «хорошими» соседями. Данный эффект приводит к занижению количества ближайших соседей и переобучению при оптимизации модели с использованием критерия Q -кратной кросс-проверки. Идея Q -кратной кросспроверки состоит в выделении в обучающей выборки ( V ) на Q непересекающихся подмножеств случайным

QQ образом (Vt, I = 1,2,..., Q, j V = V, Q V=0), по- i=1                  i=1

строении модели Q раз, при этом каждый раз одно из подмножеств не участвует в построении модели, а используется как тестовая выборка, ошибки Q моделей суммируются [9]:

Q 2

EE ( y i - y ( X , w , V \ V ) ) ^ min,      (2)

l=1 i eV                                        w'k где

EL ф ( X i , X q , w ) y q q =1

y ( X i , w , V \ V , ) = '------------------ .

E ф ( X , X q , w )

q =1 X q eV ,

Модель, оптимизированная по критерию (2), будет демонстрировать высокое качество краткосрочного прогнозирования (1…2 ч), однако она будет иметь большие ошибки при долгосрочных прогнозах (до A = 48 ч).

При настройке параметров w и k исключаем A ближайших по времени к проверочному множеству наблюдений из обучающей выборки. Для оптимизации параметров модели (1) был использован следующий критерий:

E E ( y i - y ( X,w , T , ) ) 2 ^ min, l ieV ,                                    w , k

V l = ( ( X ^ ( l ) , y X ( l ) ) , ( X ^ ( l ) +1 , y X ( l ) +1 ) ,..., ( X ^ ( l ) + B -1 , y X ( l ) + B -1 ) ) ,

I = 1, 2,..., S - проверочные множества, S - количество проверочных множеств, Х ( l ) = n - S ( A + B ) + + ( A + B )( l - 1 ) , k ближайших соседей отыскиваются из тестовых множеств: T = ( ( X q , y q ) : ^ ( Xp , У р ) e e V l q - p | >  A ) , q = 1, 2,..., n , P = 1, 2,..., n .

Были использованы следующие параметры алгоритма кросс-проверки: B = 36; S = 155.

Для любого w количество соседей k выбиралось методом полного перебора в диапазоне от 1 до 250. Оптимизация по параметрам w выполнялось с помощью модифицированного покоординатного спуска.

С целью улучшения качества модели применялось сглаживание результатов прогнозирования по времени с использованием скользящего среднего:

c

E y ( X P + i , w )

y ( X P ) = i =- 2 c + 1      .                  (3)

Ширина окна сглаживания c = 2 была выбрана из условия минимума критерия:

EE ( y i - y ( X ) ) 2 ^ min.

l ieVl                               C

Если известны значения мощности ветряной установки в моменты времени P - 2 и P - 1 ( y P - 2 и y P - 1), тогда будем использовать их вместо y ( X P - 2 ) и y ( X P - 1 ) в выражение (2). Процедура скользящего среднего приводит к уменьшению ошибок в модели, связанных с временными сдвигами прогноза погоды.

Модель (3) была проверена на тестовой выборке [2]. Среднеквадратическая ошибка приняла значение 0,147 2. Так как прогнозируемая величина является нормированной, в процентном отношении ошибка составляет 14,72 %. Фрагмент сравнения выборочных значений мощности и выхода модели (3) представлен на рис. 2.

При построении модели были последовательно использованы две процедуры усреднения: вначале – в пространстве факторов, затем – по времени, что привело к сглаживанию прогноза. Тем не менее модель позволяет определить положение практически всех экстремумов функции мощности от времени, а по значению среднеквадратической ошибки предложенная модель на конкурсе [3] заняла второе место.

Рис. 2. Сравнение выборки (пунктирная линия) и выхода модели (сплошная линия) для последних двадцати проверочных множеств

Таким образом, построена непараметрическая модель k ближайших соседей. С использованием построенной модели решена задача прогнозирования мощности ветряных электрических установок.

С использованием полученной модели могут быть решены задачи прогнозирования выходной мощности для индивидуальных ВЭУ. Качественный прогноз производства электроэнергии ветряными станциями совместно с прогнозом суточного потребления позволяет минимизировать расходы, связанные с использованием резервных мощностей: снизить сжигание органического топлива, уменьшить общее число вынужденных дорогостоящих запусков и остановок резервных тепловых электростанций. Резервным электростанциям требуется значительное время от запуска до начала генерации энергии. Прогнозирование выходной мощности ВЭУ позволит выводить резервные электростанции на требуемые мощности в случае необходимости заранее.

Статья научная