Робастный метод построения линейной регрессии между двумя физическими величинами с учетом их случайных погрешностей
Автор: Щелканов Николай Николаевич
Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau
Рубрика: Кибернетика, системный анализ, приложения
Статья в выпуске: 5 (31), 2010 года.
Бесплатный доступ
Представлена обобщенная формула, позволяющая находить коэффициенты регрессии линейного уравнения Y = K0 + K1X для общего случая, когда разброс точек в корреляционной связи величин X и Y обусловлен как их случайными погрешностями измерений, так и неконтролируемыми физическими факторами. Все известные выражения для коэффициентов регрессии оказались частными случаями полученной формулы.
Робастный метод, линейная регрессия, случайные погрешности
Короткий адрес: https://sciup.org/148176315
IDR: 148176315 | УДК: 519.233.5
Robust method for construction of linear regression between two physical parameters in view of their random errors
In the article the author presents a generalized equation for determination of the regression coefficients of the linear equation Y = K0 + K1X for a general case, when spread of points in correlation between X and Y is caused both by random measurement errors and by uncontrollable physical factors. All the known equations for the regression coefficients appeared to be particular cases of the equation obtained.
Текст научной статьи Робастный метод построения линейной регрессии между двумя физическими величинами с учетом их случайных погрешностей
При работе с разными массивами данных часто возникает необходимость нахождения коэффициентов линейной регрессии между двумя случайными физическими величинами. В большинстве случаев коэффициенты регрессии имеют конкретный физический смысл и для корректной интерпретации полученных результатов очень важно найти их значения наилучшим образом.
Существует несколько формул для определения коэффициентов регрессии [1–3], но не для всех формул есть общее понимание, в каких случаях их следует использовать. В настоящее время отсутствует единый подход к нахождению коэффициентов линейной регрессии для общего случая, когда разброс точек в корреляционной связи между двумя величинами обусловлен как их случайными погрешностями измерений, так и неконтролируемыми физическими факторами.
Постановка задачи. Рассмотрим две случайные физические величины X 0 и Y 0 , между которыми существует статистическая корреляционная связь. Предположим, что эта связь может быть описана линейной зависимостью
Y 0 = K 0 + K 1 X 0 . (1)
Требуется найти коэффициенты регрессии K 0 и K 1 , которые наилучшим образом отражают физическую взаимосвязь между ними.
Так как X 0 и Y 0 измеряются со случайными погрешностями, то на практике мы имеем дело с величинами X и Y , для которых уравнение регрессии запишется в виде
Y = K 0 + K 1 X . (2)
Запись уравнений (1) и (2) с одинаковыми коэффициентами регрессии показывает, что последние не должны зависеть от случайных погрешностей измеренных величин X и Y. В дальнейшем будем говорить о нахождении только коэффициента регрессии K1, так как K0 вычисляется после нахождения K1 по известной формуле к0 = Y - к 1 ■ X, (3)
где X и Y – средние значения X и Y .
Новый подход к нахождению коэффициента регрессии K 1 . Этот подход заключается в следующих моментах:
– случайные величины X и Y нормируются на значения ^5 X + 5 X и ^5 Y + 5 Y соответственно, где 5 X и 5 Y - случайные среднеквадратические погрешности измерения X и Y для рассматриваемого массива данных; 5 X и 5 Y - некоторые величины, характеризующие разброс точек в корреляционной связи физических величин X 0 и Y 0 за счет неконтролируемых физических параметров;
– при нахождении коэффициента регрессии K 1 используется ортогональная среднеквадратическая регрессия, т. е. минимизируется сумма квадратов отклонений, перпендикулярных искомой прямой.
Тогда уравнение линейной регрессии запишется в виде
2 22
В = 1-р .Л-— Y-)= 1-Ip I. --- 5 Y /с Y
B А1 |р х о Y >| (1 -2) А1 р XY \ 152/2
V с Y ) V Ux/ ° X
. (13)
Используя (10) и (11), уравнение линейной регрессии (4) запишем в виде
У ' ' X
, = к 0 + K 1 ■ ,
V5^5” V5 X +5 X о
.
Y с Y ■ B
_ ' ' X
= Kо + K1--- с Х ■ A
.
Здесь величины 5 х и 5 Yg находятся из решения системы двух уравнений:
– первое уравнение имеет вид
|Р X о Y о | ■ С X о ■ С Y , = V С Х о — 5 Х о " V° Y — 5 Y о , (5)
где сх = сХ — 5Х и сY = сY — 5Y — среднеквадра тические отклонения величин Xо и Yо; сх и сY - среднеквадратические отклонения величин Хи Y; рX.Y^ -коэффициент корреляции между X0 и Y0. Коэффициент корреляции рх Y находится из известного уравнения [1]:
р XY с X с Y = р X о Y о с X о с Y о , (6)
Уравнение (14) легко привести к виду (2):
Y = Ko '■с,^ B + K '■^Y^B ■ X = K + K ■ X ,(15)
о Y 1 с X ■ A где kо = kо'^ A ■с Y ■ в;(16)
K1 = K1 ■^Y--.(17)
с X ■ A
Применяя ортогональную среднеквадратическую регрессию к уравнению (14) и используя соотношение (17), получим выражение для искомого коэффициента регрессии:
су B 1
K1 = —-----x с X A 2 ^р XY
где р XY - коэффициент корреляции между X и Y . Заметим, что из уравнения (6) следует уравнение (5);
– второе уравнение запишем в виде
x
A
B
B
A
A
B
B
A
+ 4■P XY ^
, (18)
5Х 5У х о = Y о с V с у
X 0 Y 0
и назовем условием пропорциональности величин 5 у , 5У и с у , с у . Введение величин с у , су и за-
X 0 Y 0 X 0 Y 0 X 0 Y 0
пись условия (7) являются ключевыми моментами, так как это позволяет получить обобщенное решение для коэффициентов линейной регрессии уравнения (2).
Результаты. После решения системы уравнений (5) и (7) имеем:
5 X о
= с X ■
5У
Y 0
= с y ■
(8) и (9) найдем значения ^5 Х + 5 Хо и
где А и В определяются выражениями (12) и (13).
Впервые формула (18) была представлена в [4], а подробно описана в [5].
Анализ полученных результатов. Выражение (18) позволяет устанавливать однозначную связь между величинами X и Y и определять условия использования известных типов линейной регрессии.
Покажем, что все известные аналитические выражения для коэффициента регрессии K 1 уравнения (2) являются частными случаями формулы (18).
Так, для случая когда разброс точек в корреляционной связи X и Y обусловлен только их случайными погрешностями, т. е. рХ Y = 1, получим выражение для коэффициента регрессии K1, приведенное в [1]:
K 1 =^—
5 X 2 ■ р XY
с Y 5 X — с X 5 Y
—
Y
5 Y —
5 х
I с y 5 х с X 5 Y I , д 2
II + 4 ■ р XY
( с х 5 Y с Y 5 X )
С учетом
V 5 -5 Y :
При р х о Y о = 1, 5 х = о и 5 Y * о имеем
где
V 5 X +5 X о
V5 Y + 5 Y
= С X ■ A ,
= с Y ■ B ,
A = А 1 — |р X о Y о Р (1 - А =
V ° X
1-|р I. 1 5 X^X -
Iр XY | А 1 22 /^2 ;
V 1 —5 Y / с Y
к 1 = lim■ 1 ■; " с - ■^ Х — Я х А) +
5 x ^ о 5 х 2 -р XY Кс X 5 Y с Y 5 X J
—
с X
5 X .XyL 5 Y I 1 , 4 „2 | с Y 5 X
--1---- I 1 + 4 ■ р XY ■ I---
5 Y с Y 5 X Л 1 с X 5 Y
Разлагая выражение под квадратным корнем в ряд Маклорена [6] и оставляя первые два члена, получим
Зу 1 || Gy Зу Gy Зу
K . = lim —----^1 — ■ — —- ■ —
З т ^ о х 2 ■ о су 8 су 8
°X р XY ^W X иУ G Y °х.
|
2 |
||
|
, f G Y 3 X ,X X 3 Y ) +111 |
1 П 2 I G Y 3 X | 1 + 2 ■ р XY |1 |
>= (20) |
|
V G X 3 Y G Y 3 X ) |
_ V G X 3 Y J _ |
I |
XY .
Gy — ■Р
G X
Это известная формула для коэффициента K 1 уравнения прямой регрессии Y = K 0 + K 1 X , которая находится путем минимизации суммы квадратов отклонений вдоль оси Y от искомой прямой [2].
При р XY = 1, З Y = 0 и З X * 0
(23) можно рекомендовать к использованию при отсутствии информации о величинах случайных погрешностей X и Y . Заметим, что эта формула представляет собой среднее геометрическое формул (20) и (21).
Диапазон изменчивости коэффициента регрессии. Для случая когда разброс точек в корреляционной связи величин X и Y обусловлен только их случайными погрешностями, т. е. р XgYg = 1, коэффициент регрессии будет изменяться в следующих пределах:
^^ ■р xy| ^ K 11 G X
G Y 1
Ь: ------- ■ 1--------7 ,
G X |р xy|
а при р X Y < 1 - в пределах
Зу 1 l| Gy Зу Gy Зу
K. = lim —----^1 — ■ — —- ■ — зy^0Х 2-0 I су 8 су 8
U X р XY L\ X Yy G Y Xx .
^ ■Р xy| < K 1| <^^ ■ Д.
G X G X |р xy|
+
G Y
■
З X
—
G X
■
З Y
G X
З Y
G Y
З X
1 + 4 ■р
XY
■
G X
■
З Y
.
G Y
З X
.
Проведя процедуру разложения выражения под квадратным корнем в ряд Маклорена [6] и оставляя первые два члена, получим
Зу 1 l| Gy Зу Gy Зу
K , = lim —----^1 — ■ — —- ■ —
3 Y >0 Зу 2 ■руу (Gy Зу Gy Зу
X XY X Y Y X
+
G Y
G X
3 X
■------------
3 Y
X
Y
3 Y ■------------
3 X
1 + 2 ^ p XY
= _G r_ ■ G X Р XY '
Формула (21) – также известная формула для коэффициента 1/ K * уравнения обратной регрессии X = K 0 * + K * ■ Y , которая получается путем минимизации суммы квадратов отклонений вдоль оси X от искомой прямой [2].
При р X Y = 1 и 3 X = 3 Y * 0 для коэффициента K 1 уравнения ортогональной регрессии Y = K 0 + K 1 X получим формулу
K
Из выражений (24), (25) следует, что коэффициенты для прямой и обратной регрессий принимают соответственно минимальное и максимальное значения.
Кратко сформулируем основные выводы:
– получена обобщенная формула, позволяющая находить коэффициенты регрессии линейного уравнения Y = K 0 + K 1 X при условии, что разброс точек в корреляционной связи случайных величин X и Y обусловлен как их случайными погрешностями измерений, так и неконтролируемыми физическими факторами;
– все известные выражения для коэффициентов регрессии являются частными случаями полученной формулы. Определены условия использования данных выражений;
– обобщенная формула позволяет получать робастные, достоверные и физически корректные коэффициенты регрессии. Эта формула представляет интерес для специалистов, занимающихся обработкой разных массивов данных и может быть использована для их корректной физической интерпретации, независимо от области знания.
2 ^ р XY
■
G Y
G X
—
G X
G Y
+
G Y
G X
—
G X
G Y
+ 4 ■р
XY
^, (22)
которая определяется путем минимизации суммы квадратов отклонений, перпендикулярных искомой прямой [3].
Если для массива данных выполняется соотношение -^X- = — , то из выражения (18) вытекает простая G X G Y формула для коэффициента регрессии:
K 1 . (23)
G X 3X 3y
Так как соотношение -^ = выполняется для
G X G Y большинства экспериментальных данных, то формулу