Качество оценок МНК линейной множественной регрессии. Теорема Гаусса-Маркова
В классическом множественном регрессионном анализе обычно делаются следующие предпосылки:
1. Математическое ожидание случайного членаεiравно нулю в любом на-блюдении
4. Случайный член должен быть распределен независимо от объясняющихпеременных xi в одних и тех же наблюдениях
где было учтено, что М(εi) = 0.
Следует сказать, что последнее условие заведомо выполняется, если объясняющие переменные xit считаются детерминированными величинами. 5. Матрица X X является неособенной, т. е. столбцы матрицы X линейно независимы.
6. Значения случайного члена εi распределены по нормальному закону.
Модель (3.6), удовлетворяющая приведенным предпосылкам 1 6, называ-ется классической нормальной линейной моделью множественной регрессии.
Модель (3.6), удовлетворяющая приведенным предпосылкам 1 5, называ-ется классической линейной моделью множественной регрессии.
Согласно теореме Гаусса-Маркова, при выполнении указанных предпосы-лок оценки параметров линейной множественной регрессии (3.13), полученные методом наименьших квадратов, будут несмещенными и эффективными (т. е. будут иметь наименьшую дисперсию) в классе линейных несмещенных оценок.
Нарушение одного из условий Гаусса-Маркова приводит к нарушению эффективности оценок, т. е. в классе несмещенных оценок можно найти такие, которые имеют меньшую дисперсию. После построения модели необходимо вычислить значения остатков еi и проверить выполнение предпосылок 1 6, так как их нарушение снижает каче-ство модели. Если условия нарушаются, то следует модернизировать модель соответствующим образом. Эти вопросы будут рассмотрены далее.
3.6. Проверка качества уравнения регрессии. F-критерий Фишера
Как и в случае парной регрессии для оценки качества полученного множе-ственной уравнения регрессии (3.6) можно использовать коэффициент детер-минации, представляющий собой отношение объясненной части D(ŷ) диспер-сии переменной у ко всей дисперсии D(y)
R2 D( yˆ)или D( y)
где
R2
Коэффициент детерминации R2 принимает значения в диапазоне от нуля до единицы 0 ≤ R2 ≤ 1 и показывает, какая часть дисперсии результативного признака y объяснена уравнением регрессии. Чем выше значение R2, тем лучше данная модель согласуется с данными наблюдений.
Оценка статистической значимости уравнения регрессии (а также коэффи-циента детерминации R2) осуществляется с помощью F-критерия Фишера
i 1 n p 1
где p число независимых переменных в уравнении регрессии (3.6).
Согласно F-критерию Фишера, выдвигаемая «нулевая» гипотеза H0 о ста-тистической незначимости уравнения регрессии отвергается при выполнении условия F>Fкрит, где Fкрит определяется по таблицам F-критерия Фишера (П3,
П4) по двум степеням свободы k1=p,k2=n p1 и заданному уровню значи-мости α.
Для оценки тесноты связи факторов с исследуемым признаком, задаваемой построенным уравнением регрессии yˆf(x1,x2,...,xp) , используется коэффи-
циент множественной корреляции R
i 1
Коэффициент множественной корреляции R принимает значения в диапазоне 0≤R≤1.
Чем ближе величина R к единице, тем теснее данная связь, тем лучше за-висимость yˆf(x1,x2,...,xp) согласуется с данными наблюдений. При R= 1
(R2 = 1) связь становится функциональной, т. е. соотношениеyˆ f (x1 , x2 ,..., xp )
точно выполняется для всех наблюдений. Коэффициент множественной корреляции может использоваться как ха-рактеристика качества построенного уравнения регрессии yˆf(x1,x2,...,xp) ,
точности построенной модели. Величина коэффициента множественной корреляции не может быть мень-ше максимального парного индекса корреляции Rmaxryxi, (i1, 2,...,p) .
В случае линейной зависимости (3.6) коэффициент корреляции R связан с парными коэффициентами корреляции ryxi соотношением
где i– стандартизованные коэффициенты регрессии (3.16). Использование коэффициента множественной детерминации R2 для оцен-ки качества модели, обладает тем недостатком, что включение в модель нового фактора (даже несущественного) автоматически увеличивает величину R2.
Поэтому при большом количестве факторов предпочтительнее использо-вать, так называемый, скорректированный, улучшенный (adjusted) коэффици- ент множественной детерминации R2, определяемый соотношением
i 1
где p– число факторов в уравнении регрессии,n– число наблюдений. Чем больше величина p, тем сильнее различия R2 и R2. При использовании R2 для оценки целесообразности включения фактора в уравнение регрессии следует однако учитывать, что увеличение R2 при вклю-чении нового фактора не обязательно свидетельствует о его значимости, так как значение увеличивается R2 всегда, когда t-статистика больше единицы (t>1). При заданном объеме наблюдений и при прочих равных условиях с увеличе-нием числа независимых переменных (параметров) скорректированный ко-эффициент множественной детерминации убывает. При небольшом числе наблю-дений скорректированная величина коэффициента множественной детерминации R2имеет тенденцию переоценивать долю вариации результативного признака, связанную с влиянием факторов, включенных в регрессионную модель. Отметим, что низкое значение коэффициента множественной корреляции
и коэффициента множественной детерминации R2 может быть обусловлено следующими причинами:
– в регрессионную модель не включены существенные факторы;
– неверно выбрана форма аналитической зависимости, не отражающая ре-альные соотношения между переменными, включенными в модель.
Популярное: Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1162)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |