Коэффициент детерминации. Как уж ранее отмечалось, в случае линейной регрессии основными показателями качества
Как уж ранее отмечалось, в случае линейной регрессии основными показателями качества построенного уравнения регрессии служат коэффициент детерминации и критерий Фишера. Использование этих показателей обосновывается в теории дисперсионного анализа. Здесь рассматриваются следующие суммы: · – общая сумма квадратов отклонений зависимой переменной от средней (TSS); · – сумма квадратов, обусловленная регрессией (RSS); · – сумма квадратов, характеризующая влияние неучтенных факторов (ESS). Напомним, что для моделей, линейных относительно параметров, выполняется следующее равенство . (6.21) Исходя из этого равенства, вводился коэффициент детерминации . (6.22) В силу определения R2 принимает значения между 0 и 1, . Чем ближе R2 к единице, тем лучше регрессия аппроксимирует эмпирические данные, тем теснее наблюдения примыкают к линии регрессии. Если R2=1, то эмпирические точки (xi,yi) лежат на линии регрессии и между переменными Y и X существует функциональная зависимость. Если R2=0, то вариация зависимой переменной полностью обусловлена воздействием неучтённых в модели переменных. Величина R2 показывает, какая часть (доля) вариации зависимой переменной обусловлена вариацией объясняющей переменной. Однако для моделей, нелинейных относительно параметров, равенство (6.21) не выполняется, т.е. . В связи с этим может получиться, что или . Это означает, что коэффициент детерминации, определяемый по формулам (6.22), может быть больше единицы или меньше нуля. Следовательно, R2 для нелинейных моделей не является вполне адекватной характеристикой качества построенного уравнения регрессии. На практике обычно в качестве коэффициента детерминации принимается величина . (6.23) Эта величина имеет тот же самый смысл, что и для линейной модели, но при его использовании нужно учитывать все рассмотренные выше оговорки. Замечание. Величину R2 для нелинейных моделей иногда называют индексом детерминации, корень из данной величины R называют индексом корреляции. Если после преобразования нелинейное уравнение регрессии принимает форму линейного парного уравнения регрессии, то для оценки тесноты связи может быть использован линейный коэффициент корреляции , где z – преобразованная величина независимой переменной, например z=1/x или z=lnx. Иначе обстоит дело, когда преобразования уравнения в линейную форму связаны с результативным признаком. В этом случае линейный коэффициент корреляции по преобразованным значениям даёт лишь приближённую оценку тесноты связи и численно не совпадает с индексом корреляции. Вследствие близости результатов и простоты расчётов с использованием компьютерных программ для характеристики тесноты связи по нелинейным функциям широко используется линейный коэффициент корреляции ( или ). Несмотря на близость значений Ryx и или Ryx и , следует помнить, что эти значения не совпадают. Это связано с тем, что для нелинейной регрессии , в отличие от линейной регрессии . Коэффициент детерминации можно сравнивать с квадратом коэффициента корреляции для обоснования возможности применения линейной функции. Чем больше кривизна линии регрессии, тем величина меньше . Близость этих показателей означает, что нет необходимости усложнять форму уравнения регрессии и можно использовать линейную функцию. Практически, если величина ( – ) не превышает 0,1, то предположение о линейной форме связи считается оправданным. В противном случае проводится оценка существенности различия этих показателей, вычисленных по одним и тем же исходным данным. Коэффициент детерминации можно использовать при сравнении двух альтернативных уравнений регрессии. Можно выбрать наилучшую из них по максимальному значению коэффициента детерминации. При рассмотрении альтернативных моделей с одним и тем же определением зависимой переменной предложенный способ выбора достаточно проста и очевидна. Однако нельзя сравнивать, например, линейную и логарифмические модели. Значения lnY значительно меньше соответствующих значений Y, поэтому неудивительно, что остатки также значительно меньше, но это ничего не решает. Величина R2 безразмерна, однако в двух уравнениях она относится к разным понятиям. В одном уравнении она измеряет объясненную регрессией долю дисперсии Y, а в другом – объясненную регрессией долю дисперсии lnY. Если для одной модели коэффициент R2 значительно больше, чем для другой, то можно сделать оправданный выбор без особых раздумий, однако, если значения R2 для двух моделей приблизительно равны, то проблема выбора существенно усложняется. Более подробно проблемы спецификации рассматриваются в дополнении 3. Отметим, что критерий Фишера можно применять только для нормальной линейной классической регрессионной модели. Однако в общем случае, в первую для моделей нелинейных по параметрам, критерий Фишера применять нельзя! Иногда критерий Фишера применяют для линеаризованных моделей, однако здесь следует помнить, что исходное и линеаризованное уравнения не одно и то же, т.е. здесь нужны серьезные оговорки. Более подробно использования критерия Фишера для линеаризированных моделей смотрите в дополнении 2. ПРИМЕРЫ Пример 6.1. Вычислить полулогарифмическую функцию регрессии зависимости доли расходов на товары длительного пользования в общих расходах семьи (Y, %) от среднемесячного дохода семьи (X, тыс. $):
Решение. Используем стандартные процедуры линейного регрессионного анализа. Для расчетов воспользуемся данными таблицы 6.1: Табл. 6.1.
В соответствии с формулами (6.103) вычисляем , . В результате, получим уравнение полулогарифмической регрессии: . (6.24) Подставляя в уравнение (6.24) фактические значения xi, получаем теоретические значения результата . Используя программу Excel, получим следующие данные (на уровне значимости a=0,05): Табл. 6.3
Из этих данных видно, в частности, что все коэффициенты регрессии статистически значимы. Оценим качество уравнения регрессии. Рассчитаем среднюю ошибку аппроксимации , т.е. с точки зрения этого показателя уравнение регрессии подобрано очень хорошо. Вычислим теперь средний коэффициент эластичности . Таким образом, при возрастании среднемесячного дохода семьи на 1% доля расходов на товары длительного пользования в общих расходах семьи возрастет на 0,25% . Коэффициент детерминации для данной модели совпадает с квадратом коэффициента корреляции . По данным таблицы 6.3 получаем и . Коэффициент детерминации показывает, что уравнение регрессии на 99% объясняет вариацию значений признака y, т.е. с точки зрения коэффициента детерминации построенное уравнение регрессии очень хорошо описывает исходные данные. Для оценки качества данной модели можно использовать критерий Фишера (при предположении, что мы имеем дело с нормальной классической линейной моделью). В этом случае получаем , . Поскольку Fнабл>Fкрит, то гипотеза о случайной природе оцениваемых параметров отклоняется и признается их статистическая значимость и надежность, т.е. построенное уравнение регрессии признается статистически значимым. â Пример 6.2. Имеются данные о просроченной задолженности по заработной плате за 9 месяцев 2000 г. по Санкт-Петербургу.
а) Оцените МНК коэффициенты линейной модели . Оцените качество построенной регрессии. б) Оцените МНК коэффициенты обратной модели , линеаризуя модель. Оцените качество построенной регрессии. в) Оцените МНК коэффициенты обратной модели , используя численные методы (метод Маркуардта)? г) Проанализируйте полученные результаты. Решение. а) Используя стандартные процедуры линейного регрессионного анализа (считая, как обычно, t=1 для января 2000 г.), получим:
Таким образом, линейное уравнение регрессии будет иметь вид , причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные. На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом: В соответствии с построенным уравнением просроченная задолженность по заработной плате за 9 месяцев 2000 г. ежемесячно снижалась на 6,6 млн. руб. Расчётное значение просроченной задолженности за декабрь 1999 г. составило 410,1 млн. руб. Точечный прогноз за октябрь составила: млн. руб. Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза (на уровне значимости a=0,05): В результате, доверительный интервал для прогнозного значения будет иметь вид . Точность прогноза составила . б) Линеаризуем модель, полагая v=1/y. Составляем расчётную таблицу.
Вычисляем , . В результате, получим уравнение обратной регрессии: . Используя программу Excel получим следующие данные (на уровне значимости a=0,05):
Качество линеаризованного уравнения довольно высокое (R2=0,7). Этот вывод подтверждается и с точки зрения критерия Фишера (отметим, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y, а к обратным значениям 1/y, а это существенная разница. Проанализируем исходную, нелинеаризированную, модель.
Из таблицы видно, что для данной модели . Отметим, что для нелинейных моделей, оцененных МНК, эта сумма всегда равна нулю. Следовательно, оценки исходной нелинейной модели будут смещёнными. Отсюда, в частности, следует, что равенство не выполняется. Действительно, . В связи с этим, для коэффициента детерминации можно получить два разных значения: , или . Это означает, что коэффициент детерминации для нелинейных моделей не всегда является адекватной характеристикой. Отметим, что в компьютерных программах для вычисления коэффициента детерминации в основном используют второе равенство. Сделаем прогноз по полученному уравнению обратной модели и оценим его точность. Точечный прогноз за октябрь составит: млн. руб. Оценим точность прогноза. В соответствии с линейным регрессионным анализом, находим предельную ошибку индивидуального прогноза по линеаризированному уравнению (на уровне значимости a=0,05): В результате, доверительный интервал для прогнозного значения будет иметь вид . Точность прогноза для преобразованной переменной v составляет 9,4%. Однако мы имеем дело нес обратными величинами v=1/y, а с y. Переходя к исходной переменной, получим следующий доверительный интервал . Точность прогноза для непреобразованной переменной y составляет уже 18,9%. Этот результат показывает, что исходное и преобразованное уравнения дают, вообще говоря, разный результат. в) Оценим МНК коэффициенты обратной модели , используя численные методы (метод Левенберга-Маркуардта). Для этого воспользуемся программой STATISTIKA. Программа выдаёт следующие результаты. Уравнение регрессии имеет вид с коэффициентом детерминации R2=0,6947. Для сравнений приведем результаты вычислений.
Видно, что численные методы дают вполне удовлетворительный результат. Более того, они позволяют провести также и некоторый статистический анализ полученной модели (хотя и не такой полный по-сравнению с линейными моделями). Таким образом, как показывает данный пример, линеаризация не всегда даёт более лучший результат по-сравнению с численными методами. г) Сделаем некоторые выводы. Отметим, что коэффициенты детерминации для обеих моделей (линейной и обратной) практически не отличаются друг от друга: R2=0,716 для линейной модели и R2=0,691 для обратной модели. Поэтому обе модели с точки зрения коэффициента детерминации равноценны. Однако при оценке точности прогноза лучше использовать, как мы видели, линейную модель. Таким образом, использование обратной модели для интерпретации имеющихся результатов не совсем оправдано. С точки зрения статистических свойств в данном случае лучше использовать линейную модель. â Пример 6.3. Имеются данные о зависимости расхода топлива (Y, г/на т·км) от мощности двигателя грузовых автомобилей общего назначения (X, л.с.):
а) Оцените МНК коэффициенты линейной модели . Оцените качество построенной регрессии. б) Оцените МНК коэффициенты степенной модели , линеаризуя модель. Оцените качество построенной регрессии. Решение. а) Используя стандартные процедуры линейного регрессионного анализа, получим:
Таким образом, линейное уравнение регрессии будет иметь вид , причём все коэффициенты регрессии значимы. Коэффициент детерминации равен , т.е. линейная модель удовлетворительно описывает исходные данные. На графике поле корреляции и линейное уравнение регрессии будут выглядеть следующим образом: б) Линеаризуем модель . В данном случае линеаризация производится путем логарифмирования обеих частей уравнения: . В результате получаем линейное уравнение регрессии: , где . Таким образом, степенная модель свелась к линейной модели с ее методами оценивания параметров и проверки гипотез. Составляем расчетную таблицу.
Рассчитываем коэффициенты линеаризованного уравнения регрессии: , , . В результате, получим уравнение степенной регрессии: . Коэффициент эластичности в данном случае равен . Это означает, что с увеличением мощности двигателя грузового автомобиля на 1% расход топлива в расчёте на 1 т-км снижается примерно на 0,86%. Используя программу Excel получим следующие данные (на уровне значимости a=0,05):
Качество линеаризованного уравнения довольно высокое (R2=0,678). Этот вывод подтверждается и с точки зрения критерия Фишера (напомним, что для линеаризованных моделей, при определённых оговорках, можно применить критерий Фишера). Однако в рассматриваемом случае МНК применялся не к y, а к их логарифмам lny, а это существенная разница. Проанализируем исходную, нелинеаризированную, модель.
Из таблицы видно, что для данной модели . Следовательно, оценки исходной нелинейной модели будут смещёнными. Для коэффициента детерминации можно получить два разных значения: , или . Это означает, что полученное уравнение достаточно хорошо описывает исходные данные и этот коэффициент выше, чем для коэффициента детерминации линейной регрессии. Хотя средний коэффициент аппроксимации не очень низкий . Сделаем прогноз по полученному уравнению степенной модели и оценим его точность. При мощности двигателя x=70 л.с. расход топлива на 1 т-км составит
2016-01-05 |
7772 |
Обсуждений (0) |
|
5.00
из
|
|
Обсуждение в статье: Коэффициент детерминации. Как уж ранее отмечалось, в случае линейной регрессии основными показателями качества |
Обсуждений еще не было, будьте первым... ↓↓↓ |
Почему 1285321 студент выбрали МегаОбучалку...
Система поиска информации
Мобильная версия сайта
Удобная навигация
Нет шокирующей рекламы