Пример поиска модели множественной регрессии МНК вручную.

2019-11-13

207

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 3 4 5 6 789 10 11 12 Следующая ⇒

Модель множественной регрессии вида Y = b₀ +b₁X₁ + b₂X₂;

1) Найти неизвестные b₀, b₁,b₂ можно, решим систему трехлинейных уравнений с тремя неизвестными b₀,b₁,b₂:

Для решения системы можете воспользоваться решение системы методом Крамера
2) Или использовав формулы

Для этого строим таблицу вида:

Y	x₁	x₂	(y-y_ср)²	(x₁-x_1ср)²	(x₂-x_2ср)²	(y-y_ср)(x₁-x_1ср)	(y-y_ср)(x₂-x_2ср)	(x₁-x_1ср)(x₂-x_2ср)

Выборочные дисперсии эмпирических коэффициентов множественной регрессии можно определить следующим образом:

Здесь z'_jj - j-тый диагональный элемент матрицы Z^-1 =(X^TX)^-1.

При этом: , где m - количество объясняющих переменных модели.

В частности, для уравнения множественной регрессии Y = b₀ + b₁X₁ + b₂X₂с двумя объясняющими переменными используются следующие формулы:

Или

или
, , .
Здесьr₁₂ - выборочный коэффициент корреляции между объясняющими переменными X₁ и X₂; Sb_j - стандартная ошибка коэффициента регрессии; S - стандартная ошибка множественной регрессии (несмещенная оценка). По аналогии с парной регрессией после определения точечных оценок b_j коэффициентов βj (j=1,2,…,m) теоретического уравнения множественной регрессии могут быть рассчитаны интервальные оценки указанных коэффициентов.

Доверительный интервал, накрывающий с надежностью (1-α) неизвестное значение параметра βj, определяется как

Обобщенный МНК

(для оценки параметров множественной линейной регрессии при несоблюдении некоторых требований МНК)

Чтобы классический метод МНК для множественной линейной регрессии позволил найтихорошие оценки параметров регрессии методом МНК по формуле:

b=(X^тX)^-1X^тY

требуется выполнение таких условий применимости МНК

(т.н. положения теоремы Гаусса-Маркова):

1) М(ε _i)=0 _n - условие минимизации ошибки модели

2) σ ² = const - условие гомоскедастичности ошибки

3) М(ε ε^т) =σ² E_n - условие отсутствия автокорреляции между ошибками регрессии

4) Cov( х _ij, ε) = 0 - нормальность распределенияошибок регрессии

5) rank Х = p+1< n - отсутствие мультиколлинеарности

Если выяснилось, что некоторые условия (1-5) не выполнены, а применить способ поиска параметров обычным МНК хочется, - пытаются обойти эти трудности путем различных преобразований и отбора факторов и так добиться выполнения этих условий (1-5).

Такой обходной путь называется обобщенным МНК (ОМНК). О нем будет рассказано далее для разных случаев нарушения условий обычного МНК.

1) условие минимизации ошибки модели - гласит: ошибка регрессии для каждого наблюденного значения выборки (Х, У) должна быть максимально близкой к нулю, т.е. ее матожидание ошибок регрессии - ноль (нулевая матрица 1 x n, вектор из одних нулей).

М(ε _i)=0 _n

Понятно, что невыполнение этого условия говорит о неудачности, неадекватности модели.

Т.к. вектор ошибок ε – случайная величина и узнать в точности ее нельзя, на практике имеют дело с оценкой ε – вектором е=Y-F(X), для которой и проверяют выполнение условия.

2) Условие гомоскедастичности остатков модели: σ ² = const

– т.е. на протяжении всей выборки дисперсия ошибка регрессии постоянна (если имеется какая-то тенденция, нестационарность, закономерность в том, как по ходу выборки меняется ошибка, то такая ситуация называется гетероскедастичностью. При гетероскедастичности МНК не дает хорошего решения, поэтому надо выяснить (если это не очевидно сразу), есть ли гетероскедастичность. Если тест покажет, что есть гетероскедастичность, то ее надо устранить, переделав модель.

Устранение гетероскедастичности выполняют, например, нормированием переменных по дисперсии ошибок σ²- и далее действуют как в МНК – этот прием называется взвешенным МНК).

В случае гетероскедастичности дисперсия возмущений меняется от шага к шагу (по выборке), т.е. матрица Ώ=Cov( ε _i , ε _j ) =

Идея устранения гетероскедастичности (т.е. сведение этой матрицы с разными по значению диагональными элементами к матрице, где на диагонали все значения одинаковы и = σ²) состоит в том, чтобы нормировать эту матрицу по σ _i , т.е. поделить каждое i-е значение переменных Х и Y на σ _i , т.е. перейти к модели с новыми переменными:

, где , , , i=1..n

Она гомоскедастична, поэтому (если остальные условия МНК тоже выполнены) можно вычислить параметры модели в новых переменных по формуле:

b’=(Х^Т Ώ ^-1Х)^-1Х^Т ΏY

В качестве величины σ _iна практикеберут корень из дисперсии ошибок Y(X_i)-Y_i - вопрос только в том, каким методом получить первоначальную «черновую» функцию регрессии Y(X) – можно и обычным МНК воспользоваться, а потом взвешенный МНК применить).

3) Проблема автокорреляции остатков устраняется методом 2-шагового МНК.

4) Устранение мультиколлинеарности переменных Х.

Чтобы можно было применить МНК для вычисления параметров модели, недопустима линейная зависимость или даже просто высокая взаимная коррелированность объясняющих переменных Хi – т.е. столбцы матрицы Х должны быть линейно независимы, иначе говоря ранг матрицы должен быть

rank Х = p+1< n

(р+1 – т.к. в матрице значений факторов Х i добавлен еще столбец единиц)

(ранг любой матрицы Х размера (p x n) называется число rank (Х) = min(р, n), где р,n – число столбцов или строк матрицы Х. Для вырожденных матриц (тех, чьи столбцы или строки линейно зависимы) ранг еще меньше – это и есть признак мультиколлинеарности (зависимости параметров Х).

Чем плоха мультиколлинеарность – потому что не позволяет воспользоваться МНК для вычисления параметров модели по формулам классического МНК. А именно:

- дисперсия ошибок параметров модели возрастет (т.е. параметры β будут сильно меняться в зависимости от наблюдений за экономическим процессом, а не от самого процесса), появится взаимозависимость параметров.

- трудно (и даже невозможно) правильно оценить значимость параметров,

- параметры модели чувствительны к изменениям исходных данных (выборкам), поэтому модель с мультиколлинеарностью ненадежна.

Устранить мультиколлинеарность можно, если убрать из рассмотрения (из модели) переменные, коррелирующие с другими переменными модели. Но есть опасность выкинуть, не учесть значимые факторы и тем ухудшить модель, потому перед устранением переменной требуется дополнительный анализ. Если одним из способов (см. пункт 5.2 выше) обнаружена мультиколинеарность факторов, ее устраняют так.

Методы устранения мультиколлинеарности. а) убрать из рассмотрения ту переменную из пары сильно коррелирующих переменных (коэфф. корреляции больше 0,8), которая имеет меньший (чем вторая) коэффициент корреляции с переменной Y. Правда, нужно еще учитывать экономическую целессобразность факторов, учитываемых в модели – а может получиться так, что мультиколлинеарность – чистая случайность, т.е. реально факторы в равной степени важны и неустранимы из модели, и никак не зависят друг от друга, а просто случайно меняются сходным или взаимообратным образом. В общем этот путь устранения мультиколлинеарности не всегда хорош.

б) вместо отдельных сильно коррелириующих друг с другом переменных Хi,Xj… перейти к рассмотрению в модели переменной X’=линейная комбинация коррелирующих переменных.

в) использовать метод пошагового отбора значимых переменных (см. выше) пока не перестанет увеличиваться в каждом следующем шаге скорректированный коэфф. детерминации.

г) Для регрессий временных рядов, в которых содержатся тренды и циклы, мультиколоинеарность – рядовое явление (поэтому приходится избавляться от этой неприятности, очищая временные ряды от трендов (например. сокращают длительности временных периодов (например, вместо годичной периодичности переходят к поквартальной), но может ухудшиться точность данных, могут появиться смещения.

2019-11-13

207

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 3 4 5 6 789 10 11 12 Следующая ⇒

Обсуждение в статье: Пример поиска модели множественной регрессии МНК вручную.

Обсуждений еще не было, будьте первым... ↓↓↓