D .1. Парная регрессия и корреляция

2020-02-04

320

Обсуждений (0)

0.00 из 5.00 0 оценок

12 3 Следующая ⇒

Задача 1. По территориям региона приводятся данные за 199X г. (см. таблицу своего варианта).

1. Построить линейное уравнение парной регрессии от .

2. Рассчитать линейный коэффициент парной корреляции и среднюю ошибку аппроксимации.

3. Оценить статистическую значимость параметров регрессии и корреляции с помощью -критерия Фишера и -критерия Стьюдента.

4. Выполнить прогноз заработной платы при прогнозном значении среднедушевого прожиточного минимума , составляющем 107% от среднего уровня.

5. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал.

6. На одном графике построить исходные данные и теоретическую прямую.

	Номер региона			Среднедушевой прожиточный минимум в день одного трудоспособного, руб.,				Среднедневная заработная плата, руб.,
	1			81				124
	2			77				131
	3			85				146
	4			79				139
	5			93				143
	6			100				159
	7			72				135
	8			90				152
	9			71				127
	10			89				154
	11			82				127
	12			111				162

1		81	124		10044	6561	15376		133	- 9	7,2
2		77	131		10087	5929	17161		129	- 2	1,5
3		85	146		12410	7225	21316		136	- 10	6,8
4		79	139		10981	6241	19321		131	- 8	5,7
5		93	143		13299	8649	20449		144	- 1	0,7
6		100	159		15900	10000	25281		157	- 2	1,2
7		72	135		9720	5184	18225		124	- 11	8,1
8		90	152		13680	8100	23104		141	- 11	7,2
9		71	127		9017	5041	16129		123	- 4	3,1
10		89	154		13706	7921	23716		140	- 14	9,1
11		82	127		10414	6724	16129		134	7	5,5
12		111	162		17982	12321	26244		161	- 1	0,6
Итого		1030	1699		147240	89896	242451		1653	- 66	56,7
Среднее значение		85,9	141,6		12270	7491,3	20204,25		–	–	2,8
		10,60	12,4		–	–	–		–	–	–
		112,5	153,7		–	–	–		–	–	–

Получено уравнение регрессии:

С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,95 руб.

2. Тесноту линейной связи оценит коэффициент корреляции:

Это означает, что 81% вариации заработной платы () объясняется вариацией фактора – среднедушевого прожиточного минимума.

Качество модели определяет средняя ошибка аппроксимации:

Качество построенной модели оценивается как хорошее, так как не превышает 8-10%.

3. Оценку значимости уравнения регрессии в целом проведем с помощью -критерия Фишера. Фактическое значение -критерия:

Табличное значение критерия при пятипроцентном уровне значимости и степенях свободы и составляет .

Так как

то уравнение регрессии признается статистически значимым.

Оценку статистической значимости параметров регрессии проведем с помощью -статистики Стьюдента и путем расчета доверительного интервала каждого из показателей.

Табличное значение -критерия для числа степеней свободы и составит .

Определим случайные ошибки , , :

Тогда

Фактические значения -статистики превосходят табличное значение:

, поэтому параметры , и не случайно отличаются от нуля, а статистически значимы.

Рассчитаем доверительные интервалы для параметров регрессии и . Для этого определим предельную ошибку для каждого показателя:

Доверительные интервалы

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры и , находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

4. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

тогда прогнозное значение заработной платы составит:

5. Ошибка прогноза составит:

Предельная ошибка прогноза, которая в случаев не будет превышена, составит:

Доверительный интервал прогноза:

Выполненный прогноз среднемесячной заработной платы является надежным (p=1-a=1-0,05=0,95) и находится в пределах от 131,23руб. до 163,37руб.

D .2. Множественная регрессия и корреляция

Задача 2. По 20 предприятиям региона изучается зависимость выработки продукции на одного работника (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%)

Номер предприятия				Номер предприятия
1	6	3,6	9	11	9	6,3	21
2	6	3,6	12	12	11	6,4	22
3	6	3,9	14	13	11	7	24
4	7	4,1	17	14	12	7,5	25
5	7	3,9	18	15	12	7,9	28
6	7	4,5	19	16	13	8,2	30
7	8	5,3	19	17	13	8	30
8	8	5,3	19	18	13	8,6	31
9	9	5,6	20	19	14	9,5	33
10	10	6,8	21	20	14	9	36

Требуется:

1. Построить линейную модель множественной регрессии. Записать стандартизованное уравнение множественной регрессии. На основе стандартизованных коэффициентов регрессии и средних коэффициентов эластичности ранжировать факторы по степени их влияния на результат.

2. Найти коэффициенты парной, частной и множественной корреляции. Проанализировать их.

3. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.

4. С помощью -критерия Фишера оценить статистическую надежность уравнения регрессии и коэффициента детерминации .

5. С помощью частных -критериев Фишера оценить целесообразность включения в уравнение множественной регрессии фактора после и фактора после .

6. Составить уравнение линейной парной регрессии, оставив лишь один значащий фактор.

Для удобства проведения расчетов поместим результаты промежуточных расчетов в таблицу:

№
1	2	3	4	5	6	7	8	9	10
1	6	3,6	9	21,6	54,0	32,4	12,96	81,0	36
2	6	3,6	12	21.6	72,0	43,2	12,96	144,0	36
3	6	3,9	14	23,4	84,0	54,6	15,21	196,0	36
4	7	4,1	17	28.7	119,0	69,7	16,81	289,0	49
5	7	3,9	18	27,3	126,0	70,2	15,21	324,0	49
6	7	4,5	19	31,5	133,0	85,5	20,25	361,0	49
7	8	5,3	19	42,4	152,0	100,7	28,09	361,0	64
8	8	5,3	19	42,4	152,0	100,7	28,09	361,0	64
9	9	5,6	20	50,4	180,0	112	31,36	400,0	81
10	10	6,8	21	68,0	210,0	142,8	46,24	441,0	100
11	9	6,3	21	56,7	189,0	132,3	39,69	441,0	81
12	11	6,4	22	70,4	242,0	140,8	40,96	484,0	121
13	11	7	24	77,0	264,0	168	49,0	576,0	121
1	2	3	4	5	6	7	8	9	10
14	12	7,5	25	90,0	300,0	187,5	56,25	625,0	144
15	12	7,9	28	94,8	336,0	221,2	62,41	784,0	144
16	13	8,2	30	106,6	390,0	246,0	67,24	900,0	169
17	13	8	30	104,0	390,0	240,0	64	900,0	169
18	13	8,6	31	111,8	403,0	266,6	73,96	961,0	169
19	14	9,5	33	133,0	462,0	313,5	90,25	1089,0	196
20	14	9	36	126,0	504,0	324,0	81	1296,0	196
Сумма	196	125	448	1327,6	4762	3051,7	851,94	11014	2074
Ср. знач.	9,8	6,25	22,4	66,38	238,1	152,6	42,6	550,7	103,7

Найдем средние квадратические отклонения признаков:

1. Вычисление параметров линейного уравнения множественной регрессии.

Для нахождения параметров линейного уравнения множественной регрессии

необходимо решить следующую систему линейных уравнений относительно неизвестных параметров , , :

либо воспользоваться готовыми формулами:

; ;

Рассчитаем сначала парные коэффициенты корреляции:

Находим

Таким образом, получили следующее уравнение множественной регрессии:

Коэффициенты и стандартизованного уравнения регрессии находятся по формулам:

Т.е. уравнение будет выглядеть следующим образом:

Так как стандартизованные коэффициенты регрессии можно сравнивать между собой, то можно сказать, что ввод в действие новых основных фондов оказывает большее влияние на выработку продукции, чем удельный вес рабочих высокой квалификации.

Сравнивать влияние факторов на результат можно также при помощи средних коэффициентов эластичности:

Вычисляем:

Т.е. увеличение только основных фондов (от своего среднего значения) или только удельного веса рабочих высокой квалификации на 1% уменьшает среднем выработку продукции на 0,51% или 0,21% соответственно. Таким образом, подтверждается большее влияние на результат фактора , чем фактора .

2. Коэффициенты парной корреляции мы уже нашли:

Они указывают на весьма сильную связь каждого фактора с результатом, а также высокую межфакторную зависимость (факторы и явно коллинеарны, т.к. . При такой сильной межфакторной зависимости рекомендуется один из факторов исключить из рассмотрения.

Частные коэффициенты корреляции характеризуют тесноту связи между результатом и соответствующим фактором при элиминировании (устранении влияния) других факторов, включенных в уравнение регрессии.

При двух факторах частные коэффициенты корреляции рассчитываются следующим образом:

Если сравнить коэффициенты парной и частной корреляции, то можно увидеть, что из-за высокой межфакторной зависимости коэффициенты парной корреляции дают завышенные оценки тесноты связи. Именно по этой причине рекомендуется при наличии сильной коллинеарности (взаимосвязи) факторов исключать из исследования тот фактор, у которого теснота парной зависимости меньше, чем теснота межфакторной связи.

Коэффициент множественной корреляции определить через матрицу парных коэффициентов корреляции:

где

– определитель матрицы парных коэффициентов корреляции;

– определитель матрицы межфакторной корреляции.

Коэффициент множественной корреляции

Коэффициент множественной корреляции показывает на весьма сильную связь всего набора факторов с результатом.

3. Нескорректированный коэффициент множественной детерминации оценивает долю вариации результата за счет представленных в уравнении факторов в общей вариации результата. Здесь эта доля составляет 97,6% и указывает на весьма высокую степень обусловленности вариации результата вариацией факторов, иными словами – на весьма тесную связь факторов с результатом.

Скорректированный коэффициент множественной детерминации

определяет тесноту связи с учетом степеней свободы общей и остаточной дисперсий. Он дает такую оценку тесноты связи, которая не зависит от числа факторов и поэтому может сравниваться по разным моделям с разным числом факторов. Оба коэффициента указывают на весьма высокую (более ) детерминированность результата в модели факторами и .

4. Оценку надежности уравнения регрессии в целом и показателя тесноты связи дает -критерий Фишера:

В нашем случае фактическое значение -критерия Фишера:

Получили, что (при ), т.е. вероятность случайно получить такое значение -критерия не превышает допустимый уровень значимости . Следовательно, полученное значение не случайно, оно сформировалось под влиянием существенных факторов, т.е. подтверждается статистическая значимость всего уравнения и показателя тесноты связи .

5. С помощью частных -критериев Фишера оценим целесообразность включения в уравнение множественной регрессии фактора после и фактора после при помощи формул:

;

Найдем и .

;

Имеем

Получили, что . Следовательно, включение в модель фактора после того, как в модель включен фактор статистически нецелесообразно: прирост факторной дисперсии за счет дополнительного признака оказывается незначительным, несущественным; фактор включать в уравнение после фактора не следует.

Если поменять первоначальный порядок включения факторов в модель и рассмотреть вариант включения после , то результат расчета частного -критерия для будет иным. , т.е. вероятность его случайного формирования меньше принятого стандарта . Следовательно, значение частного -критерия для дополнительно включенного фактора не случайно, является статистически значимым, надежным, достоверным: прирост факторной дисперсии за счет дополнительного фактора является существенным. Фактор должен присутствовать в уравнении, в том числе в варианте, когда он дополнительно включается после фактора .

6. Общий вывод состоит в том, что множественная модель с факторами и с содержит неинформативный фактор . Если исключить фактор , то можно ограничиться уравнением парной регрессии: ,

2020-02-04

320

Обсуждений (0)

0.00 из 5.00 0 оценок

12 3 Следующая ⇒

Обсуждение в статье: D .1. Парная регрессия и корреляция

Обсуждений еще не было, будьте первым... ↓↓↓