Тема: « Парная регрессия и корреляция».
Задание. Периодически в средствах массовой информации обсуждаются высокие должностные оклады президентов благотворительных организаций. Дана информация о десяти крупнейших филиалах общества United Way в таблице 2.2.1. Таблица 2.2.1
Требуется: 1. Построить поле корреляции и сформулировать гипотезу о форме связи. 2. Рассчитать параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий. 3. Оценить тесноту связи с помощью показателей корреляции и детерминации. 4. Дать с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом. 5. Оценить с помощью средней ошибки аппроксимации качество уравнений. 6. Оценить с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования. 7. По значениям характеристик, рассчитанных в пп. 3, 5 и 6, выберать лучшее уравнение регрессии и дайть его обоснование. 8. Рассчитайть прогнозное значение результата, если прогнозное значение фактора увеличится на 6 % от его среднего уровня. Определить доверительный интервал прогноза для уровня значимости . 9. Оценить надежность и точность полученного прогноза.
Решение. 1. Для условия задачи поле корреляции выглядит следующим образом (Рисунок 2.2.1): Рисунок 2.2.1 По расположению точек можно предположить, что между должностным окладом президента (Y) и собранной суммой пожертвований (X) существует прямая линейная зависимость. 2. Определим параметры уравнения парной линейной регрессии . Вычисления организуем в таблицу 2.2.2: Таблица 2.2.2
Напомним, что средние значения рассчитываются по формулам , , , и т.д., где (число наблюдений в рассматриваемой задаче). Дисперсия определяется по формулам , , а среднеквадратическое отклонение ( , ) есть корень квадратный из дисперсии. По формулам находим: и . Т.о. уравнение регрессии запишется в виде: ŷx = 76,25 + 4,25x. Интерпретация коэффициента регрессии. С увеличением суммы пожертвований на душу населения на один доллар должностной оклад президента благотворительной организации увеличивается на 4,25 тыс. дол. 1) Рассчитаем линейный коэффициент корреляции по формуле: . С учетом вычислений в столбцах 2,3 и 4 таблицы получим . Т.е. связь между изучаемыми переменными прямая (так как > 0), тесная (так как > 0,7). Определим коэффициент детерминации R² = 0,848² = 0,719.Т.е. 71,9% вариации должностного оклада объясняется вариацией пожертвований. 2) Рассчитаем средний коэффициент эластичности: , , Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения. 3) Найдем среднюю ошибку аппроксимации: < 8% Это означает, что качество рассматриваемой модели хорошее. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим: . Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом. Обработка данных в табличном редакторе Excel приводит к следующему результату (Рисунок 2.2.2): Рисунок 2.2.2 3. Определим параметры уравнения полулогарифмической регрессии . Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения . Вычисления организуем в таблицу 2.2.3: Таблица 2.2.3
По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим 1) Рассчитаем индекс корреляции по формуле: Определим коэффициент детерминации R² = 0,8399² ≈ 0,706. Т.е. 70,6% вариации должностного оклада объясняется вариацией пожертвований. 2) Рассчитаем средний коэффициент эластичности: , , , Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,53% от своего среднего значения. 3) Найдем среднюю ошибку аппроксимации: < 8% Это означает, что качество рассматриваемой модели хорошее. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим: . Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом. В Excel получим следующий результат (Рисунок 2.2.3): Рисунок 2.2.3
4. Построению степенной модели предшествует процедура линеаризации переменных. Проведем линеаризацию путем логарифмирования обеих частей уравнения: ; , где , , . Для расчетов используем данные таблицы 2.2.4: Таблица 2.2.4
По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим: С=lna, a = eС= 32,638; 1) Рассчитаем индекс корреляции по формуле: Определим коэффициент детерминации R² = 0,8452² ≈ 0,714. Т.е. 71,4% вариации должностного оклада объясняется вариацией пожертвований. 2) Рассчитаем средний коэффициент эластичности: , , Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,54% от своего среднего значения. 3) Найдем среднюю ошибку аппроксимации: < 8% Это означает, что качество рассматриваемой модели хорошее. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим: Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом. В Excel получим следующий результат (Рисунок 2.2.4): Рисунок 2.2.4 5. Построению экспоненциальной модели предшествует процедура линеаризации переменных. Проведем линеаризацию путем логарифмирования обеих частей уравнения: ; , где . Для расчетов используем данные таблицы 2.2.5: Таблица 2.2.5
По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим: , или 1) Рассчитаем индекс корреляции по формуле: Определим коэффициент детерминации R² = 0,8469² ≈ 0,717. Т.е. 71,7% вариации должностного оклада объясняется вариацией пожертвований. 2) Рассчитаем средний коэффициент эластичности: , , Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения. 3) Найдем среднюю ошибку аппроксимации: < 8% Это означает, что качество рассматриваемой модели хорошее. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим: Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом. В Excel получим следующий результат (Рисунок 2.2.5): Рисунок 2.2.5 6. Определим параметры уравнения обратной регрессии . Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения . Вычисления организуем в таблицу 2.2.6: Таблица 2.2.6
По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим: . 1) Рассчитаем индекс корреляции по формуле: Определим коэффициент детерминации R² = 0,8427² ≈ 0,71. Т.е. 71% вариации должностного оклада объясняется вариацией пожертвований. 2) Рассчитаем средний коэффициент эластичности: , , Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,56% от своего среднего значения. 3) Найдем среднюю ошибку аппроксимации: < 8% Это означает, что качество рассматриваемой модели хорошее. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим: Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом.
7. Определим параметры уравнения равносторонней гиперболы . Предварительно проведем процедуру линеаризации переменных. Для этого сделаем замену и определим параметры уравнения .
Вычисления организуем в таблицу 2.2.7: Таблица 2.2.7
По формулам находим: и . Т.о. уравнение регрессии запишется в виде: . После замены получим . 2) Рассчитаем индекс корреляции по формуле: Определим коэффициент детерминации R² = 0,8194² ≈ 0,671. Т.е. 67,1% вариации должностного оклада объясняется вариацией пожертвований. 2) Рассчитаем средний коэффициент эластичности: , , Это означает, что при изменении фактора (собранной суммы пожертвований на душу населения) на 1% от своего среднего значения, результат (должностной оклад президента) изменится в среднем по совокупности на 0,53% от своего среднего значения. 3) Найдем среднюю ошибку аппроксимации: > 8% Это означает, что качество рассматриваемой модели удовлетворительное. 4) Определим статистическую надежность результатов регрессионного моделирования, для этого находим По таблице значений F-критерия Фишера для уровня значимости α = 0,05 находим: Так как > , то гипотеза о статистической незначимости уравнения регрессии отвергается и принимается гипотеза о статистической значимости и надежности уравнения регрессии в целом. 8) Для анализа составим таблицу 2.2.8: Таблица 2.2.8
Из таблицы видим, что рассматриваемую в задаче зависимость лучше всего описывает уравнение линейной регрессии, поскольку для этой модели показатель корреляции оказался больше, при этом качество линейной модели хорошее и уравнение линейной регрессии статистически надёжно. 9. Рассчитаем прогнозное значение . Для этого найдем . Построим точечный прогноз: . Построим 95% доверительный интервал для прогноза. Определим среднюю стандартную ошибку прогноза : = Далее строим доверительный интервал прогноза: , , , где . По таблице находим для уровня значимости по условию α= 0,05 и числа степеней свободы 10-2 = 8: t0,05;8= 2,306. И, следовательно, 179,865 ± 2,306×17,42 = 179,865 ± 40,18 или 139,685 ≤ ≤ 220,047. Таким образом, с вероятностью 0,95 можно утверждать, что прогнозное значение оклада президента отдельной благотворительной организации, которая соберет пожертвований в расчете на душу населения на 6% больше от среднего значения, будет находиться в интервале от 139,685 до 220,047тыс. долларов. Прогноз оказался надежным. Оценим точность полученного прогноза Прогноз оказался не очень точным. Варианты индивидуальных заданий к лабораторной работе №1 Задание 1. Постройте поле корреляции и сформулируйте гипотезу о форме связи. 2. Рассчитайте параметры уравнений линейной, степенной, экспоненциальной, полулогарифмической, обратной, гиперболической парной регрессий. 3. Оцените тесноту связи с помощью показателей корреляции и детерминации. 4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом. 5. Оцените с помощью средней ошибки аппроксимации качество уравнений. 6. Оцените с помощью F-критерия Фишера статистическую надежность результатов регрессионного моделирования. 7. По значениям характеристик, рассчитанных в пп. 3, 5 и 6, выберите лучшее уравнение регрессии и дайте его обоснование. 8. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на d % от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости . 9. Оцените полученные результаты, выводы оформите в аналитической записке.
Варианты исходных данных 1. По территориям некоторых регионов (i – номер региона) известны данные за год по среднедневной заработной плате (y, руб.) и среднедушевому прожиточному минимуму в день одного трудоспособного (x, руб.):
Для пункта 7 d = 10 %.
2. Имеются данные о цене однокомнатной квартиры и величине ее общей площади по 10 сделкам одного района города:
Для пункта 7 d = 7 %.
3. По однородным предприятиям (i – номер предприятия) имеются данные о количестве рабочих с профессиональной подготовкой (x, %) и количестве бракованной продукции (y, %):
Для пункта 7 d = 6 %.
4. Компания «Вест», состоящая из 12 региональных представительств (i – номер представительства), продает кухонные принадлежности, рассылая каталоги по почте. Данные, иллюстрирующие количество рассылок (x, тыс. адресов) и объем выручки региональных представительств компании (y, млн у.е.):
Для пункта 7 d = 5 %. 5. Имеются данные о количестве копий (x, тыс. шт.), сделанных копировальными машинами различных марок в издательских центрах города и стоимости технического обслуживания копировальных машин (y, тыс. у.е.):
Для пункта 7 d = 8 %.
6. Имеются данные по 12 группам населения о среднегодовом доходе и уровне потребления мяса жителями штата Канзас (США):
Для пункта 7 d = 4 %.
7. По территориям некоторых регионов (i – номер региона) известны данные за год по среднедневной заработной плате (y, руб.) и среднедушевому прожиточному минимуму в день одного трудоспособного (x, руб.):
Для пункта 7 d = 3 %.
8. Имеются данные по 10 хозяйствам (i – номер хозяйства) по урожайности (y, ц/га) и количеству внесенных удобрений (x, кг/га):
Для пункта 7 d = 9 %.
9. Администрация страховой компании приняла решение о введении нового вида услуг – страхования на случай пожара. С целью определения тарифов по выборке анализируется зависимость стоимости ущерба (y, млн руб.), нанесенного пожаром, от расстояния до ближайшей пожарной станции (x, км):
Для пункта 7 d = 10 %. 10. Компанию по прокату автомобилей интересует зависимость между пробегом (y, тыс. км) автомобилей и стоимостью ежемесячного обслуживания (x, у.е.):
Популярное: Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1542)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы (0.009 сек.) |