Робастный метод построения линейной регрессии между двумя физическими величинами с учетом их случайных погрешностей

Автор: Щелканов Николай Николаевич

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Кибернетика, системный анализ, приложения

Статья в выпуске: 5 (31), 2010 года.

Бесплатный доступ

Представлена обобщенная формула, позволяющая находить коэффициенты регрессии линейного уравнения Y = K0 + K1X для общего случая, когда разброс точек в корреляционной связи величин X и Y обусловлен как их случайными погрешностями измерений, так и неконтролируемыми физическими факторами. Все известные выражения для коэффициентов регрессии оказались частными случаями полученной формулы.

Робастный метод, линейная регрессия, случайные погрешности

Короткий адрес: https://sciup.org/148176315

IDR: 148176315

Текст научной статьи Робастный метод построения линейной регрессии между двумя физическими величинами с учетом их случайных погрешностей

При работе с разными массивами данных часто возникает необходимость нахождения коэффициентов линейной регрессии между двумя случайными физическими величинами. В большинстве случаев коэффициенты регрессии имеют конкретный физический смысл и для корректной интерпретации полученных результатов очень важно найти их значения наилучшим образом.

Существует несколько формул для определения коэффициентов регрессии [1–3], но не для всех формул есть общее понимание, в каких случаях их следует использовать. В настоящее время отсутствует единый подход к нахождению коэффициентов линейной регрессии для общего случая, когда разброс точек в корреляционной связи между двумя величинами обусловлен как их случайными погрешностями измерений, так и неконтролируемыми физическими факторами.

Постановка задачи. Рассмотрим две случайные физические величины X 0 и Y 0 , между которыми существует статистическая корреляционная связь. Предположим, что эта связь может быть описана линейной зависимостью

Y 0 = K 0 + K 1 X 0 . (1)

Требуется найти коэффициенты регрессии K 0 и K 1 , которые наилучшим образом отражают физическую взаимосвязь между ними.

Так как X 0 и Y 0 измеряются со случайными погрешностями, то на практике мы имеем дело с величинами X и Y , для которых уравнение регрессии запишется в виде

Y = K 0 + K 1 X . (2)

Запись уравнений (1) и (2) с одинаковыми коэффициентами регрессии показывает, что последние не должны зависеть от случайных погрешностей измеренных величин X и Y. В дальнейшем будем говорить о нахождении только коэффициента регрессии K1, так как K0 вычисляется после нахождения K1 по известной формуле к0 = Y - к 1 ■ X, (3)

где X и Y – средние значения X и Y .

Новый подход к нахождению коэффициента регрессии K 1 . Этот подход заключается в следующих моментах:

– случайные величины X и Y нормируются на значения ^5 X + 5 X и ^5 Y + 5 Y соответственно, где 5 X и 5 Y - случайные среднеквадратические погрешности измерения X и Y для рассматриваемого массива данных; 5 X и 5 Y - некоторые величины, характеризующие разброс точек в корреляционной связи физических величин X 0 и Y 0 за счет неконтролируемых физических параметров;

– при нахождении коэффициента регрессии K 1 используется ортогональная среднеквадратическая регрессия, т. е. минимизируется сумма квадратов отклонений, перпендикулярных искомой прямой.

Тогда уравнение линейной регрессии запишется в виде

2            22

В = 1-р   .Л-— Y-)= 1-Ip I. --- 5 Y /с Y

B А1 |р х о Y >| (1 -2) А1 р XY \ 152/2

V                  с Y )           V     Ux/ ° X

. (13)

Используя (10) и (11), уравнение линейной регрессии (4) запишем в виде

У '    ' X

,         = к 0 + K 1 ■ ,

V5^5”         V5 X +5 X о

.

Y с Y ■ B

_ '     ' X

= Kо + K1--- с Х ■ A

.

Здесь величины 5 х и 5 Yg находятся из решения системы двух уравнений:

– первое уравнение имеет вид

|Р X о Y о | С X о С Y , = V С Х о 5 Х о " V° Y 5 Y о ,        (5)

где сх =  сХ — 5Х и сY =  сY — 5Y — среднеквадра тические отклонения величин Xо и Yо; сх и сY - среднеквадратические отклонения величин Хи Y; рX.Y^ -коэффициент корреляции между X0 и Y0. Коэффициент корреляции рх Y находится из известного уравнения [1]:

р XY с X с Y = р X о Y о с X о с Y о ,              (6)

Уравнение (14) легко привести к виду (2):

Y = Ko '■с,^ B + K '■^Y^B ■ X = K + K ■ X ,(15)

о Y 1 с X ■ A где kо = kо'^ A ■с Y ■ в;(16)

K1 = K1 ■^Y--.(17)

с X A

Применяя ортогональную среднеквадратическую регрессию к уравнению (14) и используя соотношение (17), получим выражение для искомого коэффициента регрессии:

су B 1

K1 = —-----x с X A 2 ^р XY

где р XY - коэффициент корреляции между X и Y . Заметим, что из уравнения (6) следует уравнение (5);

– второе уравнение запишем в виде

x

A

B

B

A

A

B

B

A

+ 4■P XY ^

, (18)

5Х    5У х о = Y о с V   с у

X 0        Y 0

и назовем условием пропорциональности величин 5 у , 5У и с у , с у . Введение величин с у , су и за-

X 0      Y 0        X 0 Y 0                                   X 0 Y 0

пись условия (7) являются ключевыми моментами, так как это позволяет получить обобщенное решение для коэффициентов линейной регрессии уравнения (2).

Результаты. После решения системы уравнений (5) и (7) имеем:

5 X о

= с X

Y 0

= с y

(8) и (9) найдем значения ^5 Х + 5 Хо и

где А и В определяются выражениями (12) и (13).

Впервые формула (18) была представлена в [4], а подробно описана в [5].

Анализ полученных результатов. Выражение (18) позволяет устанавливать однозначную связь между величинами X и Y и определять условия использования известных типов линейной регрессии.

Покажем, что все известные аналитические выражения для коэффициента регрессии K 1 уравнения (2) являются частными случаями формулы (18).

Так, для случая когда разброс точек в корреляционной связи X и Y обусловлен только их случайными погрешностями, т. е. рХ Y = 1, получим выражение для коэффициента регрессии K1, приведенное в [1]:

K 1 =^—

5 X 2 р XY

с Y 5 X — с X 5 Y

Y

5 Y —

5 х

I с y 5 х   с X 5 Y I , д 2

II + 4 ■ р XY

( с х 5 Y с Y 5 X )

С учетом

V 5 -5 Y :

При р х о Y о = 1, 5 х = о и 5 Y * о имеем

где

V 5 X +5 X о

V5 Y + 5 Y

= С X A ,

= с Y B ,

A = А 1 — |р X о Y о Р (1 - А =

V               ° X

1-|р I. 1   5 X^X -

Iр XY | А 1   22 /^2 ;

V 1 —5 Y / с Y

к 1 = lim■    1    ■; " с - ■^ Х — Я х А) +

5 x ^ о 5 х 2 -р XY Кс X 5 Y с Y 5 X J

с X

5 X .XyL 5 Y I 1 , 4 „2    | с Y 5 X

--1---- I 1 + 4 ■ р XY ■ I---

5 Y с Y 5 X Л         1 с X 5 Y

Разлагая выражение под квадратным корнем в ряд Маклорена [6] и оставляя первые два члена, получим

Зу 1     || Gy Зу Gy Зу

K . = lim —----^1 — ■ — —- ■ —

З т ^ о х    2 ■ о су    8      су   8

°X р XY  ^W X иУ   G Y °х.

2

, f G Y 3 X ,X X  3 Y )

+111

1       П 2 I G Y 3 X |

1 + 2 р XY |1

>= (20)

V G X  3 Y G Y  3 X )

_          V G X 3 Y J _

I

XY .

Gy — ■Р

G X

Это известная формула для коэффициента K 1 уравнения прямой регрессии Y = K 0 + K 1 X , которая находится путем минимизации суммы квадратов отклонений вдоль оси Y от искомой прямой [2].

При р XY = 1, З Y = 0 и З X * 0

(23) можно рекомендовать к использованию при отсутствии информации о величинах случайных погрешностей X и Y . Заметим, что эта формула представляет собой среднее геометрическое формул (20) и (21).

Диапазон изменчивости коэффициента регрессии. Для случая когда разброс точек в корреляционной связи величин X и Y обусловлен только их случайными погрешностями, т. е. р XgYg = 1, коэффициент регрессии будет изменяться в следующих пределах:

^^ ■р xy| ^ K 11 G X

G Y    1

Ь: ------- ■ 1--------7 ,

G X xy|

а при р X Y < 1 - в пределах

Зу     1     l| Gy Зу Gy  Зу

K. = lim —----^1 — ■ — —- ■ — зy^0Х    2-0 I су 8 су   8

U X     р XY L\ X Yy   G Y Xx .

^ ■Р xy| K 1| <^^ ■ Д.

G X                G X xy|

+

G Y

З X

G X

З Y

G X

З Y

G Y

З X

1 + 4 ■р

XY

G X

З Y

.

G Y

З X

.

Проведя процедуру разложения выражения под квадратным корнем в ряд Маклорена [6] и оставляя первые два члена, получим

Зу 1 l| Gy Зу Gy Зу

K , = lim —----^1 — ■ — —- ■ —

3 Y >0 Зу  2 ■руу   (Gy  Зу   Gy  Зу

X      XY      X Y Y   X

+

G Y

G X

3 X

■------------

3 Y

X

Y

3 Y ■------------

3 X

1 + 2 ^ p XY

= _G r_ G X Р XY '

Формула (21) – также известная формула для коэффициента 1/ K * уравнения обратной регрессии X = K 0 * + K * Y , которая получается путем минимизации суммы квадратов отклонений вдоль оси X от искомой прямой [2].

При р X Y = 1 и 3 X = 3 Y * 0 для коэффициента K 1 уравнения ортогональной регрессии Y = K 0 + K 1 X получим формулу

K

Из выражений (24), (25) следует, что коэффициенты для прямой и обратной регрессий принимают соответственно минимальное и максимальное значения.

Кратко сформулируем основные выводы:

– получена обобщенная формула, позволяющая находить коэффициенты регрессии линейного уравнения Y = K 0 + K 1 X при условии, что разброс точек в корреляционной связи случайных величин X и Y обусловлен как их случайными погрешностями измерений, так и неконтролируемыми физическими факторами;

– все известные выражения для коэффициентов регрессии являются частными случаями полученной формулы. Определены условия использования данных выражений;

– обобщенная формула позволяет получать робастные, достоверные и физически корректные коэффициенты регрессии. Эта формула представляет интерес для специалистов, занимающихся обработкой разных массивов данных и может быть использована для их корректной физической интерпретации, независимо от области знания.

2 ^ р XY

G Y

G X

G X

G Y

+

G Y

G X

G X

G Y

+ 4 ■р

XY

^, (22)

которая определяется путем минимизации суммы квадратов отклонений, перпендикулярных искомой прямой [3].

Если для массива данных выполняется соотношение -^X- = — , то из выражения (18) вытекает простая G X  G Y формула для коэффициента регрессии:

K 1        .                       (23)

G X 3X   3y

Так как соотношение -^ =    выполняется для

G X G Y большинства экспериментальных данных, то формулу

Статья научная