Мегаобучалка Главная | О нас | Обратная связь


О построении моделей на примере линейной парной регрессии в R



2019-11-13 203 Обсуждений (0)
О построении моделей на примере линейной парной регрессии в R 0.00 из 5.00 0 оценок




Между рядами данных м.б. зависимость, которую нужно описать математической моделью, например, регрессионной, авторегрессионной и т.д.

Парная линейная регрессия в качестве модели строится если, например, на графике в ходе этапа графического анализа обнаружилась линейная корреляция.

Модель парной линейной регрессии имеет вид:

yt= a+ bxt+ et

где y один фактор (зависимый), а x другой, нехависимый фактор, а et — случайная ошибка модели. X и y известны (это исходные ряды), а параметры a, b надо найти, например, обычно пользуются методом МНК, который реализован во многих пакетах стат.анализа.

В случае зависимости одного фактора от нескольких других факторов может строиться множественная регрессия. Линейная модель множественной регрессии:  

Подключим библиотеки Mcomp и forecast:

 

В качестве примера возьмем 2 готовых ряда из библиотеки R Mcomp, объединив их в матрицу mod:

> mod<-data.matrix(cbind(M3$N1000$x,M3$N1005$x))> View(mod)> pairs(mod) # аналогично функции plot рисует таблицу корреляции факторов x и y друг от друга: похоже, м.б. линейная корреляция (верхний правый и нижний левый квадранты показывают плотное вытянутое облако точек с координатами (x,y) и (y,x)). Можно посчитать коэффициент парной линейной корреляции rxy– если он больше 0,8 по модулю – корреляция есть.

> cor(M3$N1000$x, M3$N1005$x, method = "pearson")

[1] 0.9699964 Корреляцию можно посчитать и для столбцов матрицы (у нас ряды уже сведены в матрицу mod):

> cor(mod)

      M3$N1000$x M3$N1005$x

M3$N1000$x 1.0000000 0.9699964

M3$N1005$x 0.9699964 1.0000000 Т.о. корреляция есть, поэтому можно попытаться построить линейрую регрессионную модель: Параметры а0, а1 можем найти методом наименьших квадратов (он проще всего, но не всегда применим в исходным данным).

По рассчитанным параметрам а строится регрессионная модель

где n число наблюдений; а0, а1 – неизвестные параметры уравнения; ei – ошибка случайной переменной У.

Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:

Воспользумся функциями R и формулами оценки параметров регрессии (см. выше):

> x<-c(M3$N1000$x) # переименуем для удобства ряд M3$N1000$x в ряд х> y<-c(M3$N1005$x) # переименуем для удобства ряд M3$N1005$x в ряд y> a1<-cor(x, y, method = "pearson")*sqrt(var(y))/sqrt(var(x))> a1[1] 0.7104067> a0<-mean(y)-a1*mean(x)> a0[1] 1277.877 Примечание: найти параметры можно было и готовой функцией для построения линейных моделей зависимости одного переменного (Y) от другого (X):> lm(y~x) Call:lm(formula = y ~ x) Coefficients:(Intercept)       x   1277.8765  0.7104 Т.о. результат функции lm() – те же параметры, которые выше вычислялись вручную: свободный параметр а0 = 1277.8765 и параметр а1=0.7104 при переменной х. Найдя параметры регрессии, можем подсчитать ряд расчетных (модельных) значений фактора Y по формуле .Для этого создадим сначала пустой вектор расчетных Y1 (пустой ряд размером 44 элемента):y1 <- rep(NA,44) и заполним его итеративно модельными значениями:for(i in 1:44) {y1[i]<-x[i]*a1+a0}Посмотрим на графике в сравнении исходные Y и расчетные Y1: > plot(y1)> plot(y) # красным цветом показан ряд исходных значений Y>  par (col = "black") # черным цветом будет модельный ряд y1> lines(y1) Оценка значимости параметров линейной регрессии

1) Для оценки значимости коэффициента парной корреляции рассчитывают стандартную ошибку коэффициента корреляции:  Нужно, чтобы хотя бы ошибка коэффициента корреляции не превышала по порядку значения его самого (т.е. коэфф. Был значим) .

2) Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:    где n – число наблюдений;
m – число параметров уравнения регрессии, R –коэфф детерминации (квадрат коэфф парной линейной корреляции). Fрасч также должно быть больше Fтеор при v1 = (m-1) и v2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д.

3) Рассчитывают стандартные ошибки параметров уравнения регрессии, а затем и t-критерии для каждого параметра. Важно опять-таки проверить, чтобы соблюдалось условие tрасч > tтабл. В противном случае доверять полученной оценке параметра нет оснований.

4) Также для оценки значимости регрессии рассчитывают коэффициент детерминации (парный или множественный). По его близости к 1 судят о значимости модели. Более точный вывод позволяет сделать критерий значимости регрессии по Фишеру: Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, вычисляя его расчетное значение:

– где n – число наблюдений; m – число параметров уравнения регрессии, R индекс множественной корреляции оценивает Тесноту совместного влияния факторов на результат (от 0 до 1)

Fрасч также должно быть больше Fтеор при v1 = (m-1) и v2 = (n-m) степенях свободы. В противном случае следует пересмотреть форму уравнения, перечень переменных и т.д.

Упрощенно, чем ближе R к единице, тем качественнее модель регрессии. Если R по модулю меньше 0,6 – модель незначима, неадекватно описывает связь параметров.Подсчитаем хотя бы коэффициент детерминации (формула коэфф.детерминации: > r 2<-1- sum (( y - y 1)^2)/ sum (( y - mean ( y ))^2) # коэффициент детерминации > r2[1] 0.940893 Он получился довольно близким к 1, так что качество подгонки ряда Y регрессионной моделью неплохая. Впрочем, высокие значения коэффициента детерминации не всегда говорят о причинно-следственной зависимости между факторами в реальности.


2019-11-13 203 Обсуждений (0)
О построении моделей на примере линейной парной регрессии в R 0.00 из 5.00 0 оценок









Обсуждение в статье: О построении моделей на примере линейной парной регрессии в R

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней...
Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (203)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.006 сек.)