Задача №2. Множественный регрессионный анализ
Торговая компания, располагающая семью магазинами (i=1:7), поставила задачу: исследовать зависимость объема продаж у (в десятках тыс.руб./день) от размера торговой площади х1 (в сотнях м2) и от размера паркинговой площади х2 (в десятках автомашин) в определенном радиусе вокруг магазина. В табл. 2 приведены соответствующие данные для х2 по 5-ти вариантам. Данные для у и х1 взять из табл. 1. Единицы измерения выбраны с учетом достоверности данных и удобства вычислений. Жирным шрифтом в табл. 2 выделен столбец, для которого рассмотрен пример решения задачи. По данным вашего варианта из табл. 1 и табл. 2: 2.1. нанести в координатах х2у точки на плоскость (построить корреляционное поле); 2.2. записать для своего варианта матрицу Х значений объясняющих переменных (матрицу плана); 2.3. записать транспонированную матрицу плана Х’; 2.4. найти произведение матриц Х’X; 2.5. найти обратную матрицу (Х’X)-1; 2.6. найти произведение матриц X’Y; 2.7. найти уравнение регрессии Y по Х1 и Х2 в форме =b0+ b1х1 + + b2х2 методом наименьших квадратов путем умножения матрицы (Х’X)-1 на матрицу X’Y, т.е. рассчитать коэффициенты регрессии по формуле b=(Х’X)-1X’Y; 2.8. объяснить смысл изменения значения коэффициента регрессии b1; 2.9. рассчитать значения коэффициентов эластичности для обоих факторов и сравнить влияние каждого из них на средний объем продаж; 2.10. оценить аналитически прогнозное среднее значение объема продаж для проектируемого магазина "СИ" с торговой площадью х1=11 (напомним, что это 1100 м2) и паркинговой площадью х2=8 (напомним, что это 80 автомашин); 2.11. найти 95%-ные доверительные интервалы для индивидуального и среднего прогнозных значений объема продаж магазина "СИ"; 2.12. проверить значимость коэффициентов регрессии; 2.13. найти с надежностью 0,95 интервальные оценки коэффициентов регрессии b1 и b2 и дисперсии s2; 2.14. определить множественный коэффициент детерминации и проверить значимость уравнений регрессии на уровне a=0,05; 2.15. определить, существенно ли увеличилось значение коэффициента детерминации при введении в регрессию второй объясняющей переменной.
Задача №3. Временные ряды и прогнозирование
Торговая компания поставила задачу: исследовать динамику объема продаж у (в млн руб./год) за семилетний период (t=1:7) в магазине "ДО". По данным вашего варианта из табл. 1: 3.1. нанести в координатах tу точки на плоскость и соединить их отрезками прямой линии; 3.2. найти среднее значение у и нанести его на график; 3.3. найти среднее квадратическое отклонение и нанести его на график в виде двух параллельных линий (коридор); 3.4. рассчитать значения коэффициентов автокорреляции 1-го и 2-го порядков, нанести три точки - 1, r(1), r(2) - коррелограммы на плоскость в координатах t, r.
Исходные данные для задач 1, 2, 3 Таблица 1
Продолжение табл. 1
Продолжение табл. 1
Продолжение табл. 1
Продолжение табл. 1
Таблица 2
Исходные дополнительные данные для задачи 2
4. Примеры решения задач Задача №1 Решить задачу №1 по данным варианта из табл 1. 1.1. Нанести в координатах ХY точки на плоскость (построить корреляционное поле). Решение. Для наглядности выберем наши данные из табл.1. в табл. 3. Таблица 3
На рис. 1 представлено корреляционное поле. Как видно, оно должно хорошо аппроксимироваться прямой линией. Зависимость между Х и Y тесная и прямая.
Рис. 1 1.2. Найти методом наименьших квадратов уравнение регрессии Y по Х в линейной форме:
Решение. Расчетные формулы для неизвестных параметров регрессии:
(2) На основе табл. 3 рассчитаем необходимые суммы, входящие в формулу (2).
Таблица 4
Искомые оценки параметров регрессии и само уравнение регрессии:
1.3. Построить линию регрессии на координатной плоскости XY. Решение. Искомую линию проще всего построить по двум точкам (см. рис. 1), например (0; 0,43) и (8,00; 12,75). 1.4. Показать графически и аналитически, что линия регрессии проходит через точку ( , ). Решение. Из графика на рис.1 видно, что линия регрессии проходит через точку “средних” ( =3,43; =5,71). Проверим это аналитически: =0,43+1,54×3,43 = 5,71, что и требовалось доказать. 1.5. На сколько вырастет средний объем продаж при увеличении х на 1. Решение. При увеличении торговой площади на 1 (100 м2) в среднем объем продаж увеличится на b1= 1,54 (т.е. на 15400 руб./день). 1.6. Имеет ли смысл свободный член в уравнении регрессии. Решение. Свободный член b0=0,43 смысла не имеет, т.к. при нулевой торговой площади положительного объема продаж быть не может. 1.7. Вычислить коэффициент корреляции между переменными X и Y. Решение. Используем формулу: (4) Здесь известно все, кроме
Окончательно
Полученное значение коэффициента корреляции говорит о высокой (почти функциональной) зависимости объема продаж от размера торговой площади. 1.8. Определить графически и аналитически прогнозное среднее значение объема продаж для проектируемого магазина "СИ" с торговой площадью х=11 (напомним, что это 1100 м2). Решение. Прогнозное значение из рис.1 и из формулы совпадают: =0,43+1,54×11=17,37 (173700 руб./день) 1.9, а) Найти 95%-ный доверительный интервал для среднего прогнозного значения объема продаж. Решение. Оценка значения условного МО Мх=11(Y) равна 17,37. Чтобы построить доверительный интервал для СВ х=11, нужно оценить дисперсию ее оценки .
Для этого определим дисперсию возмущений (см. табл. 4, графы 4-6):
Искомая дисперсия
Для статистики Стьюдента число степеней свободы k = n – 2 = 7 – 2 = 5. По табл. П2 находим значение t0,95;5=2,57 критерия Стьюдента. Искомый 95%-ный доверительный интервал для среднего прогнозного значения объема продаж магазина "СИ":
Нижнее значение интервала: 17,37-2,57×1,48=13,57. Верхнее значение интервала: 17,37+2,57×1,48=21,37. Окончательно интервал имеет вид:
13,57 £ Mx(Y) £ 17,37.
1.9, б). Найти 95%-ный доверительный интервал для индивидуального прогнозного значения объема продаж xo=11. Решение. Чтобы построить доверительный интервал для СВ хo=11, нужно оценить ее дисперсию:
Нижнее значение интервала: 17,37-2,57×1,88=12,54. Верхнее значение интервала: 17,37+2,57×1,88=22,20. Окончательно интервал имеет вид:
12,54 £ £ 22,20.
Как и следует из теории, этот интервал больше предыдущего и большой по величине. Коэффициент осцилляции для него:
Ко=(R/ )100%= ((22,2-12,54)/17,37)100%=55,6%.
1.10, а) Найти с надежностью 0,95 интервальные оценки коэффициента регрессии b1. Решение. Общая формула для расчета интервала: b1-D £ b1 £ b1+D, где Нижнее значение интервала: 1,54-0,48=1,06. Верхнее значение интервала: 1,54+0,48=2,02. Окончательно интервал имеет вид: 1,06 £ b1 £ 2,02. 1.10, б) Найти с надежностью 0,95 интервальные оценки дисперсии возмущений s2. Решение. Найдем по табл.П3 (критерий Пирсона) табличное значение статистики хи-квадрат: Формула для доверительного интервала:
1.11, а) Оценить на уровне a=0,05 значимость уравнения регрессии Y по Х по критерию Фишера. Решение. Вычислим суммы квадратов. Общая сумма: Q=å(yi- )2=13,77+7,35+2,93+0,51+0,51+1,67+68,73= 95,47. Регрессионная сумма: QR=å( i- )2=13,99+13,99+4,84+0,44+0,78+8,56+49,56=92,16. Остаточная сумма: Qe=å( i-у)2=6,65 (см. табл. 4). Значение статистики Фишера :
Уравнение регрессии значимо, если F > Fa,k1,k2, где степени свободы k1=m-1=2-1=1, k2=n-m=7-2=5. По табл. П4 находим критическое значение F0,05;1;5=6,61. Так как 69,66 > 6,61, то уравнение значимо: коэффициент регрессии b1 =1,54 значимо отличается от нуля. 1.11, б) Оценить на уровне a=0,05 значимость уравнения регрессии Y по Х по критерию Стьюдента. Решение. Уравнение парной регрессии значимо, если
По табл. П2 находим t0,95;7-2=5=2,57. Так как 8,22 > 2,57, то гипотезу Но(Но : β1=0) отвергаем и принимаем противоположную гипотезу Н1: уравнение значимо. 1.12. Определить коэффициент детерминации R2 и раскрыть его смысл: на сколько процентов в среднем объем продаж зависит от размера торговой площади. Решение. Используем формулу: R2= QR/Q = 92,16 / 95,47 = 0,97. R2 показывает, какая доля вариации зависимой переменной обусловлена вариацией объясняющей переменной. Ответ: эта доля составляет 97%.
Задача №2 Решить задачу №2 по данным варианта из табл. 1 и 2. 2.1) Нанести в координатах х2у точки на плоскость (построить корреляционное поле). Решение. Для наглядности выберем наши данные из табл. 1 и 2. Из рис. 2 видно, что прямая линия хорошо аппроксимирует связь между у и х2. Эта связь прямая и очень тесная.
Рис. 2
2.2. Записать для своего варианта матрицу Х значений объясняющих переменных (матрицу плана). Решение. См.среднюю матрицу в п. 2.4. 2.3. Записать транспонированную матрицу плана . Решение. См. левую матрицу в п. 2.4. 2.4. Найти произведение матриц . Решение.
2.5. Найти обратную матрицу ( )-1. Решение. Для краткости введем обозначение: А= . требуется найти обратную матрицу А-1. Используем формулу:
где - определитель матрицы А, – транспонированная матрица, составленная из алгебраических дополнений матрицы А.
=7×120×79+24×96×21+21×96×24-21×120×21-96×96×7-79×24×24=192. Находим алгебраические дополнения:
Обратная матрица:
Проверка. Если расчеты верны, то должно выполниться равенство: А А-1 = Е. Для повышения точности множитель 1/192 введем отдельно.
Как видно, равенство выполнено, значит расчет обратной матрицы выполнен верно.
2.6. Найти произведение матриц . Решение.
2.7. Найти уравнение регрессии Y по Х1 и Х2 в форме =b0+ b1 х1 + + b2х2 методом наименьших квадратов путем умножения матрицы ( .)-1 на матрицу , т.е. рассчитать коэффициенты регрессии по формуле b=( )-1 . Решение. Итак, ответ: b0 = -0,88; b1 = 0,50; b2 = 1,63. Уравнение множественной регрессии имеет вид: = -0,88 + 0,50x1 + 1,63x2. 2.8. Объяснить смысл изменения значения коэффициента регрессии b1. Решение. В задаче №1 значение b1=1,54, а теперь его значение снизилось до b1=0,50. Это связано с тем, что на объем продаж помимо торговой площади теперь влияет учитываемая площадь паркинга. 2.9. Рассчитать значения коэффициентов эластичности для обоих факторов и сравнить влияние каждого из них на средний объем продаж. Решение. Коэффициент эластичности в общем случае есть функция объясняющей переменной, например:
Если то при увеличении х1 от среднего на 1% объем продаж возрастет на 0,30%. Аналогично при увеличении х2 от среднего на 1% объем продаж возрастет на 0,86%. 2.10. Оценить аналитически прогнозное среднее значение объема продаж для проектируемого магазина "СИ" с торговой площадью х1=11 (1100 м2) и паркинговой площадью х2 = 8 (80 автомашин). Решение. Объем продаж рассчитаем по уравнению регрессии:
= -0,88 + 0,50 × 11 + 1,63 × 8 = 17,66.
2.11, а) Найти 95%-ный доверительный интервал для среднего прогнозного значения объема продаж магазина "СИ". Решение. По условию нужно оценить Мх(Y), где вектор переменных Выборочной оценкой условного МOМх(Y) является значение регрессии (11, 8) = 17,66. Для построения доверительного интервала для Мх(Y) нужно знать дисперсию оценки и дисперсию возмущений s2:
Для удобства вычислений составим табл. 5. Таблица 5
На основе табличных данных:
По табл. П2 находим критическое значение статистики Стьюдента t0,95; 7-2-1=5 = 2,78. Полуинтервал D = t0,95; 5 = 2,78 × 1,46 = 4,05. Нижняя граница интервала: min = Xo - D = 17,66 - 4,05 = 13,61. Верхняя граница интервала: mах = Xo + D = 17,66 + 4,05 = 21,71. Окончательно доверительный интервал для среднего прогнозного значения Xo : 13,61 £ МХo(Y) £ 21,71. Интервал большой, что объясняется слишком короткой выборкой. 2.11, б) Найти 95%-ный доверительный интервал для индивидуального прогнозного значения объема продаж магазина "СИ" . Решение. Интервал рассчитаем по выражению:
где Полуинтервал D = 2,78 × 1,82 = 5,06. Нижние и верхние границы интервала: min = 17,66 - 5,06 = 12,60 и max = 17,66 + 5,06 = 22,72. Окончательно интервал имеет вид: 12,60 £ £ 22,72. Как и следовало ожидать, данный индивидуальный интервал больше предыдущего среднего. 2.12. Проверить значимость коэффициентов регрессии. Решение. Стандартная ошибка рассчитывается по формуле:
где выражение под корнем есть диагональный элемент матрицы -1. Отсюда: sb1 = 1,09 = 1,28; sb2 =1,09 = 0,83. Так как t = çb1ç/ sb1 = 0,50/1,28 = 0,39 < t0,95;4 = 2,78, то коэффициент b1незначим (незначимо отличается от нуля). Так как t = çb2ç/ sb2 = 1,63/0,83 = 1,96 < t0,95;4 = 2,78, то и коэффициент b2 незначим на 5%-ном уровне. 2.13. Найти с надежностью 0,95 интервальные оценки коэффициентов регрессии b1 и b2 и дисперсии s2. Решение. Интервалы коэффициентов регрессии рассчитываются по формуле: bj + t1-a,n-p-1sbj £ bj £ bj + t1-a,n-p-1sbj. Поскольку оба коэффициента регрессии незначимы, то не имеет смысла строить для них доверительные интервалы. 2.14. Определить множественный коэффициент детерминации и проверить значимость уравнения регрессии на уровне a=0,05. Решение. Коэффициент детерминации рассчитывается по формуле:
;
Уравнение регрессии значимо, если (критерий Фишера): F = R2 (n-p-1)/(1- R2) p > Fa;k1;k2. Отсюда F = 0,96(7-2-1)/(1-0,962)2 = 24,62 > F0,05;2;4. Вывод: уравнение значимо. 2.15. Определить, существенно ли увеличилось значение коэффициента детерминации при введении в регрессию второй объясняющей переменной. Решение. Значения коэффициентов детерминации для регрессий с одной и с двумя объясняющими переменными соответственно равны: R2 = 0,97 и R2 = 0,96. Увеличения значения не произошло. Введение второй переменной не увеличило адекватность модели.
Задача №3
Решить задачу №3 по данным табл. 1 и 2. 3.1. Выписать из табл. 1 временной ряд и построить график в координатах уt (см. табл. 6 и рис. 3). Таблица 6
3.2. Найти среднее ряда 2015-11-20 |
393 |
Обсуждений (0) |
|
5.00
из
|
|
Обсуждение в статье: Задача №2. Множественный регрессионный анализ |
Обсуждений еще не было, будьте первым... ↓↓↓ |
Почему 1285321 студент выбрали МегаОбучалку...
Система поиска информации
Мобильная версия сайта
Удобная навигация
Нет шокирующей рекламы