Типовая задача построения множественной регрессии и анализа ее качества

2015-12-13

2861

Обсуждений (0)

0.00 из 5.00 0 оценок

Задача. По 20 предприятиям (табл. 3.1) региона изучается зависимость выработки продукции на одного работника y (тыс. грн.) от ввода в действие новых основных фондов x₁ (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих x₂ (%).

Таблица 3.1. Выработка продукции по предприятиям на одного работника

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной, частной и множественной корреляции. Провести анализ их значений.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с общим коэффициентом детерминации.

4. С помощью F-критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью t -критерия оценить статистическую значимость коэффициентов чистой регрессии.

6. С помощью частных F -критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора x₁ после x₂ и фактора x₂после x₁.

7. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

8. Найти матрицу парных коэффициентов корреляции с помощью инструмента анализа данных Корреляция MS Excel.

9. Выполнить решение задачи с помощью функции Регрессия пакета анализа MS Excel и привести графическую интерпретацию результатов решения.

Решение.

Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу 3.2:

Таблица 3.2. Расчет компонент для нахождения уравнения регрессии

Найдем среднеквадратические отклонения регрессии и признаков:

1. Для нахождения параметров линейного уравнения множественной регрессии

рассчитаем сначала парные коэффициенты корреляции:

Находим по готовым формулам коэффициенты чистой регрессии и параметр a:

В результате получим следующее уравнение множественной регрессии:

Уравнение регрессии показывает, что при увеличении ввода в действие основных фондов на 1% (при неизменном уровне удельного веса рабочих высокой квалификации) выработка продукции на одного рабочего увеличивается в среднем на 0,946 тыс. грн., а при увеличении удельного веса рабочих высокой квалификации в общей численности рабочих на 1% (при неизменном уровне ввода в действие новых основных фондов) выработка продукции на одного рабочего увеличивается в среднем на 0,086 тыс. грн.

После нахождения уравнения регрессии составим новую расчетную таблицу 3.3 для определения теоретических значений результативного признака, остаточной дисперсии и средней ошибки аппроксимации.

Таблица 3.3. Расчет компонент регрессионного анализа

Остаточная дисперсия:

Средняя ошибка аппроксимации:

Качество модели, исходя из относительных отклонений по каждому наблюдению, признается хорошим, т.к. средняя ошибка аппроксимации не превышает 10%.

Коэффициенты b₁ и b₂ стандартизованного уравнения регрессии

находятся по формулам

То есть стандартизованное уравнение будет выглядеть следующим образом:

Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

Вычисляем:

То есть увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% увеличивает в среднем выработку продукции на 0,61% или 0,20% соответственно. Таким образом, подтверждается большее влияние на результат y фактора x₁, чем фактора x₂.

2. Коэффициенты парной корреляции мы уже нашли:

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы x₁ и x₂ явно коллинеарны, так как ). При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при устранении влияния других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить через матрицы парных коэффициентов корреляции:

где Δr – определитель матрицы парных коэффициентов корреляции и Δr₁₁– определитель матрицы межфакторной корреляции представляются как

Находим:

Аналогичный результат получим при использовании других формул:

Коэффициент множественной корреляции указывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной детерминации оценивает долю дисперсии результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 94,7% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации

определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более 94%) детерминированность результата y в модели факторами x₁и x₂.

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает F-критерий Фишера:

В нашем случае фактическое значение F-критерия Фишера:

Получили, что факт (при n=20), то есть вероятность случайно получить такое значение F-критерия не превышает допустимый уровень значимости 5%. Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, то есть подтверждается статистическая значимость всего уравнения и показателя тесноты связи .

5. Оценим статистическую значимость параметров чистой регрессии с помощью t -критерия Стьюдента. Рассчитаем стандартные ошибки коэффициентов регрессии по формулам:

Фактические значения t-критерия Стьюдента:

Табличное значение критерия при уровне значимости α = 0,05 и числе степеней свободы k =17 составит t _табл(a = 0,05; k =17) = 2,11.

Таким образом, признается статистическая значимость параметра b₁, так как t _b1 > t_табл, и случайная природа формирования параметра b₂, так как t_b2 < t_табл.

Доверительные интервалы для параметров чистой регрессии:

6. С помощью частных F-критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора x₁ после x₂и фактора x₂ после x₁при помощи формул:

Найдем и :

Имеем:

Получили, что F_x₂=1,924 < F_табл (α = 0,05; k₁= 1; k ₂=17) = 4,145. Следовательно, включение в модель фактора x₂ после того, как в модель включен фактор x₁ статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака x₂ оказывается незначительным, несущественным; фактор x₂ включать в уравнение после фактора x₁ не следует.

Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения x₁ после x₂, то результат расчета частного F-критерия для x₁ будет иным. F_x1 =19,89 > F _табл = 4,45 , то есть вероятность его случайного формирования меньше принятого стандарта α = 0,05 (5%). Следовательно, значение частного F -критерия для дополнительно включенного фактора x₁ не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора x₁ является существенным. Фактор x₁ должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора x₂.

7. Общий вывод состоит в том, что множественная модель с факторами x₁ и x₂ с содержит неинформативный фактор x₂. Если исключить фактор x₂, то можно ограничиться уравнением парной регрессии: