Корреляционно-регрессионный анализ
Корреляционно-регрессионный анализ решает две важные, неразрывные и дополняющие друг друга задачи: 1) определение формы связи между признаками х и у, т.е. установление математической модели или аналитического выражения этой связи; 2) измерение тесноты, т.е. меры связи между х и у. 1-ая задача решается с помощью регрессионного анализа, 2-ая – с помощью корреляционного анализа. Последовательность их решения может быть различной: вначале регрессионный анализ, а затем корреляционный либо наоборот. Регрессионный анализ начинается с выбора формы связи между признаками х и у. Определяющая роль в этом выборе отводится теоретическому анализу (например, рост текучести кадров будет вызывать падение уровня производительности труда; рост заработной платы будет сопровождаться ростом производительности труда и т.д.). В зависимости от характера изменения признака-результата под влиянием изменения признака-фактора теоретическая форма связи может принимать различные виды уравнений: – прямой ; – параболы ; – гиперболы ; – показательной функции ; – и др. Выбор формы связи всегда является несколько условным, так как статистическая зависимость только приближается к функциональной, а исследователь осуществляет поиск функциональной связи. Для выбора формы связи могут быть использованы такие элементарные методы изучения взаимосвязей, как графический или балансовый. Теоретическая линия связи, с помощью которой описывается исследуемая статистическая связь, называется уравнением регрессии, выбор, построение и анализ этого уравнения – регрессионным анализом. Рассмотрим на примере линейной зависимости: . После того, как определён выбор типа функции, необходимо решить уравнение регрессии, то есть найти параметры этого уравнения a0 и a1. Независимо от формы связи параметры a0 и a1 уравнения регрессии определяются с помощью метода наименьших квадратов. Система нормальных уравнений метода наименьших квадратов для линейного уравнения имеет вид: . Для нахождения в нашем примере используем таблицу 10.2. В результате получаем: . В результате решения этой системы получаем значения: а0 =0,279, а1 = 0,059. Для нашего примера уравнение регрессии принимает вид: . Подставляя значения x в уравнение регрессии, определяем теоретические уровни признака-результата (таблица 10.2), а затем рассчитываем ошибку (или расхождение), которая не должна превышать 1 %: . (10.5) В нашем примере:
. Следовательно, форма связи выбрана правильно. Анализ (экономическая интерпретация) уравнения регрессии основан на параметре a1, который называют коэффициентом регрессии. Он показывает на сколько в абсолютном выражении изменится признак-результат при изменении признака-фактора на единицу. В нашем примере: увеличение удельного веса активной части в общей стоимости основных средств на 1 процентный пункт вызывает рост фондоотдачи на 0,059 рублей. Для более удобного восприятия результатов регрессионного анализа целесообразно рассчитывать коэффициент эластичности. Он выражает зависимость y от x в %-ах и определяется по формуле . (10.6) В нашем примере: ; ;
. Это означает, что при увеличении удельного веса активной части основных средств на 1 % фондоотдача возрастает на 1,09 %. Если уравнение регрессии yx = -0,279 + 0,059x нанести на график (корреляционное поле) и провести на нём ещё одну линию (рисунок 10.2), то на графике получится три линии, расположение которых имеет своё объяснение: - большой угол наклона (yx) теоретической линии связи (2) к горизонтальной линии (3) свидетельствует о наличии тесной связи между x и y. - несовпадение теоретической линии (2) связи (yx) и эмпирической (1) (ломаной линии) объясняется действием на признак-результат не только фактора x, но и других факторов. Значение уравнения регрессии на практике: предполагая, что признак-фактор примет определённое значение, можно составить прогноз признака-результата.
Рисунок 10.2 – Корреляционное поле зависимости фондоотдачи (у) от удельного веса активной части основных средств (x)
Корреляционный анализ предполагает оценку тесноты связи между признаками x и y. В случае линейной зависимости для оценки степени тесноты этой связи используется линейный коэффициент корреляции (он нашёл наибольшее распространение на практике). В теории статистики существует множество формул для определения линейного коэффициента корреляции. Исходным положением является следующее: линейный коэффициент корреляции представляет собой среднюю величину из произведений нормированных отклонений для x и y:
(10.7) Другой вид формулы получается в том случае, если и как постоянные величины выносятся за знак суммы:
(10.8) Путём математических преобразований можно данную формулу привести к виду:
, при этом: (10.9)
, (10.10)
. (10.11) Рассчитаем необходимые составляющие последней формулы для нашего примера (по таблице 10.2): ; ; . Из раздела 10.3 , следовательно . Все дальнейшие необходимые расчеты проведем в таблице 10.2. По данным графы 5: ; а квадрат средней величины признака-фактора: .
Следовательно: . По данным графы 8 таблицы 10.2: ; а квадрат среднего значения признака-результата: . Тогда . Подставляя полученные значения в формулу 10.9, получаем . Иногда линейный коэффициент корреляции удобно рассчитывать по итоговым суммам: (10.12)
В нашем примере (по данным таблицы 10.2): .
Достаточно часто линейный коэффициент корреляции может быть рассчитан и по более простой формуле . (10.13) В примере: . Линейный коэффициент корреляции может быть рассчитан и по другим производным от указанных формул, однако методика его исчисления на результат не влияет. Коэффициент корреляции может принимать значения от -1 до +1. При этом положительное значение коэффициента указывает на наличие прямой связи, а отрицательное – обратной. В оценке тесноты связи обычно руководствуются следующими соотношениями: [r] связь < 0,3 слабая 0,3:0,5 умеренная 0,5:0,7 заметная > 0,7 высокая (тесная). В нашем примере r = 0,87, следовательно, между признаками существует прямая тесная связь. Учитывая, что r рассчитывается по выборке, он, как и любой выборочный показатель, подвержен случайным ошибкам. Оценка значимости линейного коэффициента корреляции производится по критерию Стъюдента: , (10.14) где – средняя квадратическая ошибка r. При небольшом n (n < 30) средняя ошибка: . (10.15) Тогда расчетное значение t-критерия определяется по формуле (10.16) и сравнивается с табличным. Условие ≥ должно выполняться. В нашем примере: При n = 10 t = 3,35. Следовательно, > , а это означает, что полученное значение коэффициента корреляции достоверно. Линейный коэффициент корреляции служит показателем тесноты связи в линейных зависимостях. Однако универсальным показателем тесноты связи считается теоретическое корреляционное отношение. Оно представляет собой относительную величину сравнения среднего квадратического отклонения теоретических уровней признака результата от и среднего квадратического отклонения эмпирических уровней признака результата от :
. (10.17)
факторная общая дисперсия дисперсия Эта формула может быть преобразована следующим образом: . (10.18) Если учесть, что дисперсия эмпирического ряда характеризует общую вариацию признака-результата за счёт всех факторов (включая и фактор x), а дисперсия теоретического ряда характеризует только ту часть вариации, которая обусловлена действием фактора x, то отношение второй дисперсии к первой показывает, какую долю в общей дисперсии занимает дисперсия, вызванная фактором x. Это отношение получило название «теоретический коэффициент детерминации»: . (10.19) Если учесть, что остаточная дисперсия (то есть дисперсия, вызванная действием других, неучтённых факторов) может быть рассчитана по формуле
(10.20) по правилу сложения дисперсий: = (т.е. вызванная фактором x) + (вызванная другими факторами). Следовательно: = - . (10.21) Тогда используемое в формуле теоретического корреляционного отношения выражение:
. (10.22) Рассчитанное в таком виде корреляционное отношение обычно называют индексом корреляции:
. (10.23) Индекс корреляции применяется для оценки тесноты связи линейной и нелинейной, парной и множественной. Индекс корреляции может находиться в пределах от 0 до 1: R = 1 – связь функциональная , R = 0 – связь отсутствует . Интерпретация индекса корреляции обычно производится аналогично коэффициенту корреляции. Рассчитаем индекс корреляции для нашего примера (по данным таблицы 10.2.): , ,
.
Популярное: Почему стероиды повышают давление?: Основных причин три... Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (478)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |