Линии регрессии. Метод наименьших квадратов (МНК)

2015-12-13

892

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

Линии регрессии - это линии, отражающие основную форму зависимости отклика Y от факторного признака X. Определение вида этих линий – основная задача регрессионного анализа.

МНК позволяет определить параметры линии регрессии

Ломаная линия, соединяющая фактические данные на корреляционном поле, называется эмпирической регрессией.

Основное требование МНК: Сумма квадратов отклонений эмпирических значений отклика от теоретических должна быть минимальной.

или

Отклонение

Рассмотрим простейший случай – линейную регрессию.

Определим с помощью МНК неизвестные параметры a и b:

Решаем эту систему нормальных уравнений методом Крамера:

(*)

Регрессия y на x задается следующей формулой :

Это две различные прямые, пересекающиеся в точке :

Одна из этих прямых y=ax+b получается в результате решения задачи минимизации суммы квадратов отклонений по вертикали, а другая (x=cy+d) - по горизонтали.

Для удобства определения параметров a и b можно использовать следующую таблицу:

i
… n	…	…	…	…

Уравнение регрессии нужно в первую очередь для проведения прогноза (экстраполяции и интерполяции). При экстраполяции не рекомендуется выходить как в сторону больших, так и в сторону меньших значений по X за пределы, превышающие 1/3 размаха вариации по X.

Границы доверительного интервала определяются следующим образом:

- значение точечного прогноза,

-значение факторного признака, для которого выполняется прогноз,

m - число параметров в уравнении регрессии.

n-m - число степеней свободы,

a - уровень значимости, (в нашем случае a будет иметь смысл вероятности ошибки прогноза).

- остаточное среднеквадратическое отклонение, скорректированное по числу степеней свободы.

Нелинейная регрессия

1) Парабола 2-го порядка .

Для определения параметров a,b,c можно воспользоваться МНК.

2) Гипербола .

С помощью замены переменной преобразуем эту формулу к линейному виду.

Замена: X=1/x;

Для нахождения параметров a и b можно воспользоваться формулами:

a=^D^a/_D, b=^D^b/_D, заменив x_i->X_i.

i
… n	…	…	1/ 1/ … 1/
				-

3) Показательная функция или экспонента (e=2,718281828459045…)

y=e^ax⁺^b=(e^a)^xe^b=A^xB {A=e^a, B=e^b} => y=a^xb

ln y= ln (a^xb)= ln a^x+ln b=x ln a+ ln b.

ln y= x ln a+ ln b

Замена: Y=ln y, A=ln a, B=ln b => a=e^A, b=e^B.

Y=Ax+B, A=^D^A/_D, B=^D^B/_D, y_i -> Y_i=ln y_i.

Для нелинейных форм регрессии в качестве характеристики силы связи между факторным и результативным признаком следует использовать корреляционное отношение (а не коэффициент прямолинейной корреляции Пирсона!).

Общая дисперсия результирующего признака:

. Отражает общую вариацию результирующего признака у в зависимости от всех факторов.