Проверка статистической значимости уравнения регрессии
I. Построение регрессионных моделей
1. Смысл регрессионного анализа – построение функциональных зависимостей между двумя группами переменных величин Х1, Х2, … Хр и Y. При этом речь идет о влиянии переменных Х (это будут аргументы функций) на значения переменной Y (значение функции). Переменные Х мы будем называть факторами, а Y – откликом. Сегодня мы разберем наиболее простой случай – установление зависимости одного отклика y от одного фактора х. Такой случай называется парной (простой) регрессией.
Построение модели
Этап 1. Исходные данные: заранее известные (экспериментальные, наблюденные) значения фактора хi – экзогенная переменная и соответствующие им значения отклика yi, (i = 1,…,n) - эндогенная переменная; Активный и пассивный эксперимент. Выборочные характеристики – позволяют кратко охарактеризовать выборку, т. е., получить ее модель, хотя и очень грубую: а) среднее арифметическое:
Среднее арифметическое – это «центр», вокруг которого колеблются значения случайной величины. Пример: средняя продолжительность жизни в России и США б) дисперсия: Отклонение от среднего: Можно попытаться усреднить все отклонения, но «среднее арифметическое отклонений от среднего арифметического» имеет особенность:
Эта величина обнуляется из-за того, что отрицательные значения отклонений и положительные взаимно погашаются. Чтобы избежать этого, возведем их в квадрат, получив так называемую выборочную дисперсию:
Выборочная дисперсия характеризует разброс (вариацию) элементов выборки вокруг их среднего арифметического. Важно иметь в виду, что сами элементы выборки и их дисперсия имеют разные порядок: если элементы выборки измеряются в метрах, то дисперсия – в квадратных метрах. Стандартное отклонение: Полезное свойство дисперсии:
Т. о. Характеристики генеральной совокупности: математическое ожидание М(Х) дисперсия D(X) Несмещенная оценка дисперсии:
Для простоты, мы будем использовать смещенную оценку – выборочную дисперсию – при достаточно больших n они практически равны. Этап 2. Постановка задачи: предположим, что значение каждого отклика yi как бы состоит из двух частей: - во-первых, закономерный результат того, что фактор х принял конкретное значение хi; - во-вторых, некоторая случайная компонента ei, которая никак не зависит от значения хi. Таким образом, для любого i = 1,…,n yi = f(xi) + ei Смысл случайной величины (ошибки) e: а) внутренне присущая отклику у изменчивость; б) влияние прочих, не учитываемых в модели факторов; в) ошибка в измерениях Этап 3. Предположения о характере регрессионной функции Возможный вид функции f(xi) - линейная: - полиномиальная - степенная: - экспоненциальная: - логистическая: Методы подбора вида функции: - графический - аналитический Этап 4. Оценка параметров линейной регрессионной модели 1. Имея два набора значений: x1, x2, …, xn и y1, y2, …, yn, предполагаем, что между ними существует взаимосвязь вида: yi = a + bxi + ei т. н. функция регрессии Истинные значения параметров функции регрессии мы не знаем, и узнать не можем. Задача: построить линейную функцию: ŷi = a + bxi так, чтобы вычисленные значения ŷi(xi) были максимально близки к экспериментальным уi (иначе говоря, чтобы остатки (ŷi - yi) были минимальны). Экономическая интерпретация коэффициентов: a – «постоянная составляющая» отклика, независимая от фактора b – степень влияния фактора на отклик (случаи отрицательного) 2. Метод наименьших квадратов (МНК):
подставим в задачу формулу (2.2):
В данном случае у нас a и b – переменные, а х и у – параметры. Для нахождения экстремума функции, возьмем частные производные по a и b и приравняем их к нулю.
Получили систему из двух линейных уравнений. Разделим оба на 2n:
Из первого уравнения выразим неизвестную а:
и подставим это выражение во второе уравнение:
Построив оценки a и b коэффициентов a и b, мы можем рассчитать т. н. «предсказанные», или «смоделированные» значения ŷi = a + bxi и их вероятностные характеристики – среднее арифметическое и дисперсию. Несложно заметить, что оказалось
Кроме того, вычислим т. н. случайные остатки Оказалось,
Таким образом, дисперсия случайных остатков будет равна:
Мы произвели вычисления, и построили регрессионное уравнение, позволяющее нам построить некую оценку переменной у (эту оценку мы обозначили ŷ). Однако, если бы мы взяли другие данные, по другим областям (или за другой период времени), то исходные, экспериментальные значения х и у у нас были бы другими и, соответственно, а и b, скорее всего, получились бы иными. Вопрос: насколько хороши оценки, полученные МНК, иначе говоря, насколько они близки к «истинным» значениям a и b? Этап 5. Исследование регрессионной модели 1. Теснота связи между фактором и откликом Мерой тесноты связи служит линейный коэффициент корреляции:
-1 £ rxy £ 1 (2.14) Отрицательное значение КК означает, что увеличение фактора приводит к уменьшению отклика и наоборот:
2. Доля вариации отклика у, объясненная полученным уравнением регрессии характеризуется коэффициентом детерминации R2. Путем математических преобразований можно выразить:
где – оценка дисперсии случайных остатков в модели, Таким образом, R2 – это доля дисперсии у, объясненной с помощью регрессионного уравнения в дисперсии фактически наблюденного у. Очевидно: 0 £ R2 £ 1 Проверка статистической значимости уравнения регрессии
Мы получили МНК-оценки коэффициентов уравнения регрессии и рассчитали коэффициент детерминации. Однако, осталось неясным, достаточно ли он велик, чтобы говорить о существовании значимой связи между величинами х и у. Иначе говоря, достаточно ли сильна эта связь, чтобы на основании построенной нами модели можно было бы делать выводы? Для ответа на этот вопрос можно провести т. н. F-тест. Формулируется гипотеза Н0: предположим, что yi ¹ a + bxi + ei Обратить внимание: выписаны не а, а a, т. е., не оценки коэффициентов регрессии, а их истинные значения. Альтернатива – гипотеза Н1: yi = a + bxi + ei Мы не можем однозначно подтвердить или опровергнуть гипотезу Н0, мы можем лишь принять или отвергнуть ее с определенной вероятностью. Выберем некоторый уровень значимости g, такой что 0 £ g £ 1 – вероятность того, что мы сделаем неправильный вывод, приняв или отклонив гипотезу Н0. Соответственно, величина Р = 1 - g - доверительная вероятность – вероятность того, что мы в итоге сделаем правильный вывод. Для проверки истинности гипотезы Н0, с заданным уровнем значимости g, рассчитывается F-статистика: Значение F-статистики в случае парной регресии подчиняется т. н. F-распределению Фишера с 1 степенью свободы числителя и (n - 2) степенями свободы знаменателя. Для проверки Н0 величина F-статистики сравнивается с табличным значением Fg(1, n-2). Если F > Fg(1, n-2) – гипотеза Н0 отвергается, т. е. мы считаем, что с вероятностью 1-g можно утверждать, что регрессия имеет место и: yi = a + bxi + ei В противном случае гипотеза Н0 не отвергается, принимаем: yi ¹ a + bxi + ei Вопрос: почему бы нам не взять g поменьше? Чем меньше g, тем больше соответствующее табличное значение F-статистики, т. е., тем меньше шансов, что появятся основания отвергнуть гипотезу Н0.
Популярное: Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... Почему двоичная система счисления так распространена?: Каждая цифра должна быть как-то представлена на физическом носителе... ![]() ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (205)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |