Проверка на гетероскедастчность данных

2019-11-13

368

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

а) Тест Голдфелда-Квандта (применим, если выполняется условия (5) МНК).

Для проверки на гетероскедастичности оценивают дисперсию фактической ошибки которую сравнивают с χ-квадрат распределением (χ-квадрат –распределение для оценки берется потому, что на него похожа величина, которой границу (критический уровень) доверительного интервала для оценки дисперсии). Если, например, дисперсия ошибки уложилась в 95-99% -ный доверительный интервал , то условие гомоскедастичности считается выполненным. Доверит. интервал находят по формуле:

где критическое значение χ –квадрат определяется с учетом уровня значимости α и степеней свободы (n-p-1) по таблице χ-распределения, e_i=Y(x_i)-Y_i.

б) можно для оценки дисперсии σ² использовать двусторонний критерий Фишера (выборку разбивают на 3 интервала (1 и 3 – одинакового размера) (или просто пополам - (по индексам, например, так:

от 1- до m; ;от m+1 до n

и вычисляют дисперсию ошибки для 1-го и 2-го кусков выборки по отдельности. Потом делят дисперсию ошибки для последнего куска на дисперсию ошибки для 1-го куска и проверяют, попадает ли полученная величина в доверит. диапазон, образованный значениями распределения Фишера: для нижней границы диапазона по таблице распред. Фишера ищут значение с заданной доверит. вероятностью и числом стпеней свобoды (n-p-1), для верхней границы доверит диапазона знач. распр. Фишера с той же доверит вероятностью, но числом степеней свободы (n-m-p-1). Если отношение 2-х дисперсий ошибок на кусках выборки попала в этот доверит. интервал, то считается, что условие (11) соблюдено, т.е. нет проблемы. гетероскедастичности.

Если число n очень велико, то для проверки постоянства дисперсии ошибки (т.е. проверки на отсутствие гетероскедастичности) может быть использован критерий Бартлета (отличается тем, что выборку разбивают на k>3 участков, чтобы анализ был точнее.

в) Тест корреляции Спирмена – ищут т.н. коэффициент ранговой корреляции

Если имеют дело с переменными, выражающими не количество, а качество (степень выраженности какого-нибудь качества), то можно искусственно ввести ранги – условное численное обозначение для степени выраженности качества. Ранговые переменные тоже могут коррелировать друго с другом и другми переменными и их надо как-то сравнивать. Для этого применяют коэфф. ранговой корреляции, а для проверки на гетероскедастичность для ранговых переменных можно использовать такой прием. По формуле

, где d_i – разность между рангами i-го объекта по переменной x_i и ошибке e_i , затем вычисляют величину |t|= .

Эту величину |t| сравнивают с табличным значением t-распределения Стьюдента (при уровне значимости α (обычно 0,05) и если она будет больше критического , значит имеется, возможно, гетероскедастичность.

г) Тест Уайтана гетероскедастичность – дисперсию ошибки регрессии оценивают, строя уравнение регрессии ошибки к переменным Х (т.е. строят обычное уравнение регрессии, но вместо Y – квадрат ошибки

Затем эту регрессию анализируют - например, вычисляют коэффициент детерминации. Если коэфф. детерминации R² оказался близок к нулю, т.е. f(x) оказалась незначима для ошибки (т.е. ошибка не зависит от Х), значит нет гетероскедастичности.

5) Тест Глейзера на гетероскедастичность – почти то же самое, только вместо берут модуль | | - а дальше также.

2)Еще одно условие для применения МНК для оценки параметров множественной регрессии - отсутствие автокорреляции между ошибками регрессии, взятыми в разные моменты:

Cov( ε _i , ε _j )=0 для любых i,j=1..n

или то же самое, но в матричной форме: М(ε ε^т) =σ² E_n , где М(ε ε^т) – это матриц размера (n x n), состоящая из матожиданий произведений возмущений, ε и ε^т – строка и столбец ошибок регрессии ε = (ε₁, ..., ε_n )

σ²- дисперсия ошибок,

E_n - единичная матрица размера n x n. Т.е. условие отсутствия автокорреляции остатков в матричной записи выглядит так:

Автокорреляция проявляется в том, что предыдущие значения наблюдений влияют на последующие (например, для временных рядов для ошибки это влияние выражается как-нибудь так: ). Автокорреляция возникает из-за неудачной формы функции регрессии (например, вместо квадратичной зависимости Y от одного из переменных в функции использована линейная зависимость), или из-за того, что на разных частях выборки (например, для временного ряда) надо было взять разные модели, а не одну (т.е. различные, а не одну функции регрессии). Еще одна причина автокорреляции ошибок – неучет каких-то значимых факторов (переменных) в модели, на которую и приходится автокорреляция.

Есть ли автокорреляция или нет, можно узнать тестом Дарбина-Уотсона, Q-тест Льюинга_Бокса, тест серий Бреуша-Годфри (рассмотрим когда будет идти речь о динамических моделях).

Например, уже упоминавшийся тест Дарбина –Уотсона оценивает, есть ли корреляция между ε_t и ε_t+1:

, где e_t= . Надо убедиться, что d далек от критических крайних значений.

3) Проверка на отсутствие мультиколлинеарности - между переменными есть зависимость, корреляция, а тогда МНК даст плохую модель (грубую регрессию).

Выполняется одним из следующих способов:

(I) можно обнаружить мультиколлинеарность, проверив не велики ли множественные коэффициенты детерминации D=R² (только не для набора Х + Y, а для наборов: отдельный факторов Х + все остальные Х). Если для некоторых переменных Х коэфф. детерминации окажется около 1 (и вообще больше 0,6), то есть подозрение на мультиколлинеарность этих переменных Х.

Вместо точечной оценки коэффициента детерминации при этом можно использовать и интервальную оценку (критерий Фишера – см. выше): если коэффициент Фишера (для выяснения мультиколлинеарности)

F_i=

где n – число наблюдений, р – число факторов, i – номер фактора, для которого вычисляется множественный коэфф. детерминации R_i. Величина F_i затем сравнивается с соответствующим критическим значением распределения Фишера для уровня значимости α (берут оычно число от 0,01 до 0,05) и количества наблюдений n и числе факторов р. Если окажется, что

F_i >

- это значит, что существует мультиколлинеарность для i-й переменной.

(II) Второй способ - посчитать определитель матрицы Х^ТХ – обычно когда определитель матрицы =0, то матрица необратима. В случае det (Х^ТХ)=0 нельзя будет вычислить методом МНК параметры модели по формуле – в этом и состоит проблема мультиколлинеарности.

Поэтому даже если det (Х^ТХ) не ноль, но близок к нулю (или одного порядка с накапливающимися ошибками вычисления), то невозможно будет найти обратную матрицу к Х^ТХ при подсчете параметров модели, а значит и коэффициенты регрессионной модели b не вычислишь по обычному МНК.

(III) Третий способ - вычисляют коэффициенты парной корреляции (формула 15) для разных пар переменных (факторов) Х. Если для некоторых пар коэффициент корреляции окажется близок к 1 (обычно больше 0,8), то это может говорить о мультиколлениарности этих факторов (корреляции).

Этот метод проверки на мультиколлинеарность имеет смысл вот почему. У вырожденных матриц рангменьше min(р, n), т.к. некоторые строки или столбцы вырожденных матриц линейно зависимы друг от друга или (что тоже самое) состоят из одних нулей. Учитывая это, можно сформулировать требование:

матрица Х^ТХ = должна быть невырожденной, а для этого любые факторы Х_i в модели не должны коррелировать (быть зависимы друг от друга), а это, в свою очередь означает, что парные коэффициенты корреляции r_ij любых 2-х переменных Xi Xj не превышают некоторого порогового значения, т.е.

некоторое пороговое значение (обычно менее 0,8)

Если = 1 или близок к 1, значит между переменными есть зависимость, корреляция, а тогда МНК даст плохую модель (грубую регрессию).

Пояснение: парным коэффициентом корреляции двух переменных (Хi и Хj, например) называют число: где - алгебраическое дополнение элемента из матрицы вида: , где элементы вида (s – среднекватратическое отклонение соотвествующей отдельной переменной от своего средневыборочного).

Можно использовать и интервальную оценку коэффициента корреляции - можно сравнивать с критическим значением t-распределения Стьюдента (критич. значение ищут по таблицам распределения Стьюдента с учетом уровня значимости α (обычно 0,05) и числа степеней свободы n-p-1). Если t-оценка коэффициента корреляции для какой-то пары переменных будет больше критического (табличного), то корреляция (мультиколлинеарность этих 2-х переменных) имеет место (знак при r тоже имеет значение – прямая или обратная связь переменных подразумевается, в зависимости от знака).

4) Проверка отсутствия корреляции между остатками e_i,i=1,2,…n., например, тестом Дарбина-Уотсона: Величина должна укладываться к критические границы d₁ и d₂ определяются на основе специальных таблиц для требуемого уровня значимости α, числа наблюдений n и количества объясняющих переменных m.

5) Нормальность распределения случайной величины ε (ε – ошибка регрессии). Иначе говоря, ε должна себя вести как истинная случайная величина, как белый шум, а не быть увязанной со значениями факторов Х, т.е. Cov( х _ij, ε) = 0

2019-11-13

368

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 2 3 4 5 678 9 10 11 Следующая ⇒

Обсуждение в статье: Проверка на гетероскедастчность данных

Обсуждений еще не было, будьте первым... ↓↓↓