Элементы корреляционного анализа
Математической основой регрессионного анализа является метод наименьших квадратов (МНК). В вероятностно-статистическом смысле регрессия – это условное математическое ожидание. Термин регрессионного анализа ввел Френсис Гальтон (1822-1911) в связи с его работой по изучению изменения роста высоких родителей и их потомков. В настоящее время под регрессией понимают стремление к среднему в смысле метода наименьших квадратов при решении задач прогнозирования (экстраполирования).
Меры связи и формы зависимости случайных величин. Основополагающим понятием, на котором строится математическая теория корреляции, является понятие стохастической связи между случайными величинами. Само понятие стохастической связи основывается на определении случайной величины и должно быть строго отделено от понятия функциональной зависимости. Рассмотрим вопрос о различии понятий стохастической зависимости и функциональной зависимости. Говорят, что переменная величина В реальной жизни переменные, находящиеся в функциональной зависимости, преобразуются в случайные переменные, состоящие в стохастической связи, из за данных, связанных с погрешностями измерений, и из за того, что не учитывается влияние не включенных в рассмотрение неслучайных факторов. Таким образом, при исследовании переменных, состоящих в стохастической связи, результаты должны интерпретироваться по-разному. Иногда стохастическая связь является лишь завесой, за которой скрывается интересующая нас функциональная зависимость. Иногда же изучению подлежит стохастическая связь, как таковая. В соответствии с целью исследования должны выбираться и соответствующие подходы и математические методы. Так, если речь идет о том, чтобы посредством изучения стохастической связи дойти до закона функциональной зависимости между интересующими исследователя величинами, то исследователь должен прибегать к методам "сглаживания". Если же ставится задача нахождения стохастической связи между случайными величинами, то тогда необходимо пользоваться методами теории корреляции. Таким образом, необходимо четко представлять себе постановку задачи, то есть какая задача решается: восстановление неизвестной функциональной зависимости по выборочным данным или нахождении корреляционной зависимости выраженной в виде регрессии. Методы нахождения зависимостей в этих двух случаях могут совпадать, но результаты должны интерпретироваться совершенно по-разному. Когда условное распределение При исследовании связи между случайными величинами общая статистическая задача заключается в полном изучении их распределения, представляемого в виде корреляционной таблицы. И в этом изучении особый интерес представляет задача об исследовании связи между условными математическими ожиданиями одних случайных величин и соответствующими значениями других. Если можно представить связь
где
При рассмотрении корреляционной связи
При этом, когда корреляционная связь не совершенно точна, можно ставить вопрос о ее точности, который существенно отличается от вопроса о силе связанности Рассмотрим статистическую совокупность
По таблице можем найти:
Условное среднее(например, Полные средние: Условные дисперсии (например, Межгрупповые дисперсии: Полные дисперсии:
Основная теорема дисперсионного анализа: Общая дисперсия равна сумме межгрупповой и внутригрупповой дисперсий:
Рассмотрим крайние случаи:
Пусть Пусть
В качестве меры нелинейной связанности рассмотрим предложенную К. Пирсоном величину – корреляционное отношение.
Она называется корреляционным отношением
и представляет отношение среднего квадратичного отклонения условных средних
Свойства корреляционного отношения. 1. Всегда
2. Если между 3. Всегда
4. Условие, необходимое и достаточное для того, чтобы регрессия была линейной, заключается в выполнении равенства:
То есть корреляционное отношение является мерой корреляционной связи Можно проверить статистическую гипотезу о значимости корреляционного отношения то есть, рассмотреть вопрос Для этого выдвигают гипотезу вида:
Для проверки гипoтезы рассмотрим случайную величину Корреляционное отношение и коэффициент корреляции для данного распределения могут отличаться друг от друга незначительно и тогда возникает вопрос, существенно ли их расхождение? Когда оно не существенно, тогда можно считать, что мы имеем дело с линейной регрессией
и ее среднее квадратичное отклонение. Выборочная ошибка этого показателя определяется по формуле:
Критерием достоверности показателя Для проверки критерия используют распределение Стьюдента. Если Если Пример: Рассмотрим данные о живом весе
Найти корреляционное отношение Решение:
Пусть Так как
Популярное: Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... ![]() ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (570)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |