Мегаобучалка Главная | О нас | Обратная связь


Тема: « Парная регрессия и корреляция».



2018-07-06 1542 Обсуждений (0)
Тема: « Парная регрессия и корреляция». 0.00 из 5.00 0 оценок




 

Задание. Периодически в средствах массовой информации обсуждаются высокие должностные оклады президентов благотворительных организаций. Дана информация о десяти крупнейших филиалах общества United Way в таблице 2.2.1.

Таблица 2.2.1

№ п/п Город Должностной оклад президента, тыс. дол. (Y) Собранная сумма пожертвований в расчете на душу населения, дол. (X)
Детройд
Атланта
Лос-Анжелес
Канзас-Сити
Чикаго
Миннеаполис
Хьюстон
Сиэтл
Денвенр
Кливленд

Требуется:

1. Построить поле корреляции и сформулировать гипотезу о форме связи.

2. Рассчитать параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий.

3. Оценить тесноту связи с помощью показателей корреляции и детерминации.

4. Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

5. Оценить с помощью средней ошибки аппроксимации качество уравнений.

6. Оценить с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования.

7. По значениям характеристик, рассчитанных в пп. 3, 5 и 6, выберать лучшее уравнение регрессии и дайть его обоснование.

8. Рассчитайть прогнозное значение результата, если прогнозное значение фактора увеличится на 6 % от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости .

9. Оценить надежность и точность полученного прогноза.

 

Решение.

1. Для условия задачи поле корреляции выглядит следующим образом (Рисунок 2.2.1):

Рисунок 2.2.1

По расположению точек можно предположить, что между должностным окладом президента (Y) и собранной суммой пожертвований (X) существует прямая линейная зависимость.

2. Определим параметры уравнения парной линейной регрессии . Вычисления организуем в таблицу 2.2.2:

Таблица 2.2.2

№ п/п x y xy ŷx y – ŷx (y – ŷx Ai
135,75 -1,75 3,063 0,013
144,25 9,75 95,063 0,063
-15 225,000 0,106
165,5 -4,5 20,250 0,028
169,75 19,25 370,563 0,102
-15 225,000 0,094
182,5 12,5 156,250 0,064
199,5 3,5 12,250 0,017
203,75 -26,75 715,563 0,151
324,000 0,080
Сред нее 4131,2 559,4 31039,8     214,7 0,071827
σ 5,51362 27,63693              
σ² 30,4 763,8              

Напомним, что средние значения рассчитываются по формулам , , , и т.д., где (число наблюдений в рассматриваемой задаче). Дисперсия определяется по формулам , , а среднеквадратическое отклонение ( , ) есть корень квадратный из дисперсии.

По формулам находим: и .

Т.о. уравнение регрессии запишется в виде: ŷx = 76,25 + 4,25x.

Интерпретация коэффициента регрессии. С увеличением суммы пожертвований на душу населения на один доллар должностной оклад президента благотворительной организации увеличивается на 4,25 тыс. дол.

1) Рассчитаем линейный коэффициент корреляции по формуле:

.

С учетом вычислений в столбцах 2,3 и 4 таблицы получим

.

Т.е. связь между изучаемыми переменными прямая (так как > 0), тесная (так как > 0,7). Определим коэффициент детерминации R² = 0,848² = 0,719.Т.е. 71,9% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

, ,

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

< 8%

Это означает, что качество рассматриваемой модели хорошее.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим: . Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

Обработка данных в табличном редакторе Excel приводит к следующему результату (Рисунок 2.2.2):

Рисунок 2.2.2

3. Определим параметры уравнения полулогарифмической регрессии . Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения . Вычисления организуем в таблицу 2.2.3:

Таблица 2.2.3

№п/п x y X=lnx Xy ŷx y - ŷx (y - ŷx)² Ai
2,639 353,634 6,965 131,121 2,879 8,286 0,021
2,773 426,979 7,687 143,414 10,586 112,070 0,069
2,944 418,110 8,670 159,233 -17,233 296,989 0,121
3,045 490,168 9,269 168,447 -7,447 55,451 0,046
3,091 584,207 9,555 172,729 16,271 264,747 0,086
3,135 498,544 9,831 176,821 -17,821 317,586 0,112
3,219 627,681 10,361 184,497 10,503 110,321 0,054
3,367 683,561 11,339 198,159 4,841 23,431 0,024
3,401 602,012 11,568 201,280 -24,280 589,531 0,137
3,434 776,081 11,792 204,299 21,701 470,946 0,096
Среднее 3,105 546,098 9,704 31039,8     224,9357 0,076692
σ²   763,8 0,064              

По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим

1) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации R² = 0,8399² ≈ 0,706.

Т.е. 70,6% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

, , ,

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,53% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

< 8%

Это означает, что качество рассматриваемой модели хорошее.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим: . Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом. В Excel получим следующий результат (Рисунок 2.2.3):

Рисунок 2.2.3

 

4. Построению степенной модели предшествует процедура линеаризации переменных. Проведем линеаризацию путем логарифмирования обеих частей уравнения: ; , где , , .

Для расчетов используем данные таблицы 2.2.4:

Таблица 2.2.4

№ п/п x y X=lnx Y=lny XY ŷx y - ŷx (y - ŷx)² Ai
2,639 4,898 12,926 6,965 133,936 0,064 0,004 0,000
2,773 5,037 13,965 7,687 143,854 10,146 102,942 0,066
2,944 4,956 14,592 8,670 157,707 -15,707 246,703 0,111
3,045 5,081 15,470 9,269 166,381 -5,381 28,957 0,033
3,091 5,242 16,202 9,555 170,574 18,426 339,515 0,097
3,135 5,069 15,894 9,831 174,679 -15,679 245,836 0,099
3,219 5,273 16,973 10,361 182,648 12,352 152,577 0,063
3,367 5,313 17,891 11,339 197,742 5,258 27,646 0,026
3,401 5,176 17,605 11,568 201,361 -24,361 593,472 0,138
3,434 5,421 18,614 11,792 204,925 21,075 444,164 0,093
Среднее 3,105 5,147 16,013 9,704     218,1817 0,072663
σ²   763,8 0,064              

По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим: С=lna, a = eС= 32,638;

1) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации R² = 0,8452² ≈ 0,714.

Т.е. 71,4% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

, ,

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,54% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

< 8%

Это означает, что качество рассматриваемой модели хорошее.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим:

Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

В Excel получим следующий результат (Рисунок 2.2.4):

Рисунок 2.2.4

5. Построению экспоненциальной модели предшествует процедура линеаризации переменных. Проведем линеаризацию путем логарифмирования обеих частей уравнения: ; , где .

Для расчетов используем данные таблицы 2.2.5:

Таблица 2.2.5

№ п/п x y Y=lny xY ŷx y - ŷx (y - ŷx)² Ai
4,898 68,570 137,804 -3,804 14,473 0,028
5,037 80,591 144,732 9,268 85,894 0,060
4,956 94,161 155,782 -13,782 189,946 0,097
5,081 106,709 163,614 -2,614 6,831 0,016
5,242 115,318 167,676 21,324 454,724 0,113
5,069 116,585 171,839 -12,839 164,833 0,081
5,273 131,825 180,477 14,523 210,905 0,074
5,313 154,083 199,079 3,921 15,371 0,019
5,176 155,284 204,022 -27,022 730,197 0,153
5,421 168,037 209,088 16,912 286,030 0,075
Сумма 51,466 1191,163     2159,205 0,7167
Среднее 5,147 119,116 559,4     215,9205 0,0717
σ² 30,4 763,8              

По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим: , или

1) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации R² = 0,8469² ≈ 0,717.

Т.е. 71,7% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

, ,

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

< 8%

Это означает, что качество рассматриваемой модели хорошее.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим:

Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

В Excel получим следующий результат (Рисунок 2.2.5):

Рисунок 2.2.5

6. Определим параметры уравнения обратной регрессии . Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения . Вычисления организуем в таблицу 2.2.6:

Таблица 2.2.6

№ п/п x y Y=1/y xY ŷx y - ŷx (y - ŷx)² Ai
0,00746 0,104 139,143 -5,143 26,448 0,038
0,00649 0,104 144,947 9,053 81,962 0,059
0,00704 0,134 154,621 -12,621 159,291 0,089
0,00621 0,130 161,821 -0,821 0,675 0,005
0,00529 0,116 165,679 23,321 543,862 0,123
0,00629 0,145 169,725 -10,725 115,031 0,067
0,00513 0,128 178,441 16,559 274,208 0,085
0,00493 0,143 198,864 4,136 17,103 0,020
0,00565 0,169 204,722 -27,722 768,533 0,157
0,00442 0,137 210,936 15,064 226,925 0,067
Сумма 0,05892 1,311     2214,037 0,7106
Среднее 0,00589 0,131 559,4     221,4037 0,0711
σ² 30,4 763,8              

По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим: .

1) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации R² = 0,8427² ≈ 0,71.

Т.е. 71% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

, ,

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

< 8%

Это означает, что качество рассматриваемой модели хорошее.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим:

Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

 

7. Определим параметры уравнения равносторонней гиперболы . Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения .

 

Вычисления организуем в таблицу 2.2.7:

Таблица 2.2.7

№ п/п x y X=1/x Xy ŷx y - ŷx (y - ŷx)² Ai
0,07143 9,571 0,005 127,401 6,599 43,544 0,049
0,06250 9,625 0,004 143,971 10,029 100,586 0,065
0,05263 7,474 0,003 162,284 -20,284 411,459 0,143
0,04762 7,667 0,002 171,587 -10,587 112,078 0,066
0,04545 8,591 0,002 175,604 13,396 179,465 0,071
0,04348 6,913 0,002 179,271 -20,271 410,918 0,127
0,04000 7,800 0,002 185,726 9,274 86,007 0,048
0,03448 7,000 0,001 195,965 7,035 49,493 0,035
0,03333 5,900 0,001 198,098 -21,098 445,124 0,119
0,03226 7,290 0,001 200,093 25,907 671,150 0,115
Сумма 0,46319 77,831 0,023     2509,824 0,837
Среднее 0,04632 7,783 0,002 31039,8     250,9824 0,083739
σ²   763,8 0,00015              

По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим .

2) Рассчитаем индекс корреляции по формуле:

Определим коэффициент детерминации R² = 0,8194² ≈ 0,671.

Т.е. 67,1% вариации должностного оклада объясняется вариацией пожертвований.

2) Рассчитаем средний коэффициент эластичности:

, ,

Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,53% от своего среднего значения.

3) Найдем среднюю ошибку аппроксимации:

> 8%

Это означает, что качество рассматриваемой модели удовлетворительное.

4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим

По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим:

Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.

8) Для анализа составим таблицу 2.2.8:

Таблица 2.2.8

Регрессия Показатель корреляции Ср. ошибка аппроксимации Fнабл
Линейная 0,848 7,2 20,47
Полулогарифмическая 0,84 7,7 19,21
Степенная 0,845 7,3
Экспоненциальная 0,847 7,2 20,26
Обратная 0,843 7,1 19,6
Равностор. гипербола 0,82 8,3 16,34

 

Из таблицы видим, что рассматриваемую в задаче зависимость лучше всего описывает уравнение линейной регрессии, поскольку для этой модели показатель корреляции оказался больше, при этом качество линейной модели хорошее и уравнение линейной регрессии статистически надёжно.

9. Рассчитаем прогнозное значение . Для этого найдем . Построим точечный прогноз: .

Построим 95% доверительный интервал для прогноза. Определим среднюю стандартную ошибку прогноза :

=

Далее строим доверительный интервал прогноза:

,

,

,

где .

По таблице находим для уровня значимости по условию α= 0,05 и числа степеней свободы 10-2 = 8: t0,05;8= 2,306.

И, следовательно, 179,865 ± 2,306×17,42 = 179,865 ± 40,18 или

139,685 ≤ ≤ 220,047.

Таким образом, с вероятностью 0,95 можно утверждать, что прогнозное значение оклада президента отдельной благотворительной организации, которая соберет пожертвований в расчете на душу населения на 6% больше от среднего значения, будет находиться в интервале от 139,685 до 220,047тыс. долларов. Прогноз оказался надежным.

Оценим точность полученного прогноза

Прогноз оказался не очень точным.

Варианты индивидуальных заданий к лабораторной работе №1

Задание

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий.

3. Оцените тесноту связи с помощью показателей корреляции и детерминации.

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

5. Оцените с помощью средней ошибки аппроксимации качество уравнений.

6. Оцените с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования.

7. По значениям характеристик, рассчитанных в пп. 3, 5 и 6, выберите лучшее уравнение регрессии и дайте его обоснование.

8. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на d % от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

9. Оцените полученные результаты, выводы оформите в аналитической записке.

 

Варианты исходных данных

1. По территориям некоторых регионов (i – номер региона) известны данные за год по среднедневной заработной плате (y, руб.) и среднедушевому прожиточному минимуму в день одного трудоспособного (x, руб.):

i
x
y

 

Для пункта 7 d = 10 %.

 

2. Имеются данные о цене однокомнатной квартиры и величине ее общей площади по 10 сделкам одного района города:

i
x
y

 

Для пункта 7 d = 7 %.

 

3. По однородным предприятиям (i – номер предприятия) имеются данные о количестве рабочих с профессиональной подготовкой (x, %) и количестве бракованной продукции (y, %):

i
x 39,4 40,1 48,6 54,7 58,4 70,5 85,1 65,3 57,3 50,6
y 17,1 18,3 11,2 9,3 10,8 5,9 3,8 6,7 8,4 9,5

 

Для пункта 7 d = 6 %.

 

4. Компания «Вест», состоящая из 12 региональных представительств (i – номер представительства), продает кухонные принадлежности, рассылая каталоги по почте. Данные, иллюстрирующие количество рассылок (x, тыс. адресов) и объем выручки региональных представительств компании (y, млн у.е.):

i
x
y 17,5 24,5 29,5 18,5

 

Для пункта 7 d = 5 %.

5. Имеются данные о количестве копий (x, тыс. шт.), сделанных копировальными машинами различных марок в издательских центрах города и стоимости технического обслуживания копировальных машин (y, тыс. у.е.):

i
x
y 1,4 1,6 1,7 1,75 1,85 2,4 2,7 2,8 2,8 2,7 2,9

 

Для пункта 7 d = 8 %.

 

6. Имеются данные по 12 группам населения о среднегодовом доходе и уровне потребления мяса жителями штата Канзас (США):

i
x 41,2 35,3 40,7 55,1 80,1 65,9 64,2 70,5 61,1 51,7 59,4 65,8
y 41,5 29,6 31,8 69,8 100,5 93,3 82,1 77,4 55,7 38,9 45,2 60,2

 

Для пункта 7 d = 4 %.

 

7. По территориям некоторых регионов (i – номер региона) известны данные за год по среднедневной заработной плате (y, руб.) и среднедушевому прожиточному минимуму в день одного трудоспособного (x, руб.):

i
x
y

 

Для пункта 7 d = 3 %.

 

8. Имеются данные по 10 хозяйствам (i – номер хозяйства) по урожайности (y, ц/га) и количеству внесенных удобрений (x, кг/га):

i
x 2,1 3,6 3,5 5,0 6,5 4,2 6,3 4,0 6,0 7,5
y

 

Для пункта 7 d = 9 %.

 

9. Администрация страховой компании приняла решение о введении нового вида услуг – страхования на случай пожара. С целью определения тарифов по выборке анализируется зависимость стоимости ущерба (y, млн руб.), нанесенного пожаром, от расстояния до ближайшей пожарной станции (x, км):

i
x 4,5 3,8 5,1 4,8 10,1 8,2 6,1 9,2 3,1 2,1
y 25,0 38,9 68,1 75,4 91,4 55,3 40,7 79,3 88,8 19,1

 

Для пункта 7 d = 10 %.

10. Компанию по прокату автомобилей интересует зависимость между пробегом (y, тыс. км) автомобилей и стоимостью ежемесячного обслуживания (x, у.е.):



i
2018-07-06 1542 Обсуждений (0)
Тема: « Парная регрессия и корреляция». 0.00 из 5.00 0 оценок









Обсуждение в статье: Тема: « Парная регрессия и корреляция».

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...
Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1542)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.009 сек.)