Основные числовые характеристики выборки
Тема 5. Статистические методы оценивания параметров распределений, проверки гипотез и исследования зависимостей. 5.1 Точечные оценки. Одной из основных задач математической статистики является оценканеизвестных параметров, характеризующих распределение генеральной совокупности . Совокупность независимых случайных величин , каждая из которых имеет то же распределение, что и случайная величина называют случайной выборкой объёма из генеральной совокупности и обозначают . Любую функцию случайной выборки называют статистикой. Если функция распределения генеральной совокупности известна с точностью до параметра , то его точечной оценкой называют статистику , значение которой на данной выборке принимают за приближённое значение неизвестного параметра : . Чтобы точечные оценки давали «хорошее» приближение оцениваемых параметров, они должны удовлетворять определённым требованиям. «Хорошей» считается оценка, обладающая свойствами состоятельности, несмещённости и эффективности. Оценка называется: 1) состоятельнойоценкой параметра , если при неограниченном увеличении объёма выборки она сходится по вероятности к оцениваемому параметру, т.е. ; 2) несмещённой(оценкой без систематических ошибок), если её математическое ожидание при любом равно оцениваемому параметру, т.е. ; 3) эффективной(в некотором классе несмещённых оценок), если она имеет минимальную дисперсию в этом классе. Пусть распределение генеральной совокупности известно с точностью до вектора параметров и требуется найти значение его оценки по выборке . Оценкой метода моментов вектора параметров называют статистику значение которой для любой выборки удовлетворяет системе уравнений: , , где - теоретические начальные моменты -го порядка случайной величины , - эмпирические начальные моменты -го порядка выборки . В систему уравнений метода моментов могут входить и уравнения вида , где - теоретические центральные моменты -го порядка случайной величины , эмпирические центральные моменты -го порядка выборки . Часто для нахождения значения оценки одного параметра используют первый начальный момент. Для нахождения значений оценок двух параметров используют первый начальный и второй центральный моменты. Оценкой метода максимального правдоподобиявектора параметров называют статистику , значение которой для любой выборки удовлетворяет условию: , где - функция правдоподобия выборки , - множество всех возможных значений вектора параметров . Функция правдоподобия имеет вид: 1) - для дискретной случайной величины ; 2) - для непрерывной случайной величины . Если функция дифференцируема как функция аргумента для любой выборки и максимум достигается во внутренней точке , то значение точечной оценки максимального правдоподобия находят, решая систему уравнений максимального правдоподобия: , . Нахождение упрощается, если максимизировать не саму функцию правдоподобия, а её логарифм , так как при логарифмировании точки экстремума остаются теми же, а уравнения, как правило, упрощаются и записываются в виде: , . 5.2 Интервальные оценки. Если функция распределения генеральной совокупности известна с точностью до параметра , то его интервальной оценкой или доверительным интерваломназывается случайный интервал , который накрывает неизвестное значение параметра с заданной вероятностью , т.е. . Число называется доверительной вероятностью, а число - уровнем значимости. Обычно используются значения , равные , , . Точность интервальной оценки характеризуется длиной доверительного интервала и зависит от объёма выборки и доверительной вероятности . Очевидно, что, чем меньше длина доверительного интервала, тем точнее оценка. Доверительный интервал, симметричный относительно точечной оценки , определяется формулой и имеет вид , где характеризует отклонение выборочного значения параметра от его истинного значения и называется предельной ошибкой выборки. Доверительные интервалы часто строятся в предположении, что выборка получена из генеральной совокупности, имеющей нормальное распределение. Доверительный интервал для параметра нормально распределённой генеральной совокупности.
Здесь: , где- двусторонняя критическая точка распределения Стьюдента (находится с помощью специальных таблиц). 5.3. Проверка статистических гипотез. Статистической гипотезой называют любое предположение относительно параметров или вида распределения генеральной совокупности (случайной величины) . Гипотезы относительно неизвестного значения параметра распределения генеральной совокупности (случайной величины) называются параметрическимии непараметрическими в иных случаях. Статистическая гипотеза называется простой, если она однозначно определяет распределение , в противном случае она называется сложной. Проверяемая гипотеза называется основной и обозначается . Наряду с гипотезой рассматривают одну из альтернативных гипотез , противоречащих основной. Например, если проверяется гипотеза о равенстве параметра распределения некоторому заданному значению , т.е. , то в качестве альтернативной гипотезы, как правило, рассматривается одна из следующих гипотез: , , . Выбор альтернативы определяется конкретной постановкой задачи. Правило, по которому принимается решение принять или отклонить основную гипотезу , называется критерием проверки гипотезы. Критерий задают с помощью критического множества , где - выборочное пространство (множество всех возможных значений случайной выборки ). Решение принимают на основе выборки наблюдаемых значений случайной величины , используя для этого подходящую статистику , называемую статистикой критерия . При проверке параметрической гипотезы в качестве статистики критерия выбирают ту же статистику, что и при оценивании параметра . Решение принимают следующим образом: 1) если выборка , то принимают основную гипотезу ; 2) если выборка , то основную гипотезу отклоняют и принимают альтернативную гипотезу . При использовании любого критерия возможны ошибки двух видов: 1) отклонить верную основную гипотезу - ошибка первого рода; 2) принять неверную основную гипотезу - ошибка второго рода. Вероятности совершения ошибок первого и второго рода обозначают и : , , где - вероятность события при условии, что справедлива гипотеза , . Вероятность совершения ошибки первого рода называют также уровнем значимости критерия , а величину , равную вероятности отклонить основную гипотезу , когда она неверна, называют мощностью критерия. Уровень значимости определяет «размер» критического множества. Обычно используются значения , равные , , . Проверка статистической гипотезы основывается на принципе, в соответствии с которым маловероятные события считаются невозможными, т.е. если выборка попадает в критическое множество с исключительно малой вероятностью, то естественно предположить, что утверждение, которое привело к этому маловероятному событию, не соответствует истине и отклонить его. Поступая так, мы будем отклонять в действительности верную основную гипотезу крайне редко – не более чем в случаев. Поэтому за основную гипотезу естественно принять утверждение, отклонение которого, когда оно в действительности является верным, приводит к более тяжёлым последствиям, чем его принятие при справедливости альтернативы. Общая схема проверки параметрической гипотезы состоит в следующем: 1) формулируется альтернативная гипотеза ; 2) задаётся уровень значимости ; 3) выбирается статистика критерия проверки гипотезы ; 4) определяется выборочное распределение статистики при условии, что гипотеза является верной; 5) по заданным значениям и определяется критическое множество критерия в зависимости от формулировки альтернативной гипотезы ; 6) по выборке вычисляется наблюдаемое значение статистики критерия; 7) принимается статистическое решение: если , то основная гипотеза отклоняется как не согласующаяся с данными выборки; если , то принимается, т.е. считается, что гипотеза не противоречит данным выборки. Критерии, используемые для проверки гипотезы о виде распределения случайной величины (генеральной совокупности) называют критериями согласия (с основной гипотезой), при этом альтернатива , как правило, не формулируется, подразумевая под ней «всё остальное». Одним из наиболее широко применяемых на практике критериев согласия, является критерий согласия («хи-квадрат»). Критерий «хи-квадрат» в качестве меры расхождения эмпирического и теоретического законов распределения случайной величины использует значения статистики , где - объём выборки; -число непересекающихся множеств на которые разбита область возможных значений случайной величины ; -эмпирическая частота попадания в ; -вероятность попадания в , вычисленная для теоретического закона распределения . Закон распределения статистики при независимо от вида закона распределения случайной величины стремится к закону -распределения с степенями свободы ( -число параметров теоретического закона распределения , вычисляемых по выборке). Для его применения практически достаточно, чтобы . Общая схема проверкинепараметрическойгипотезы , утверждающей, что случайная величина имеет теоретический закон распределения , состоит в следующем. 1) Задают уровень значимости . 2) По выборке находят значения оценок неизвестных параметров предполагаемого закона распределения . 3) Множество возможных значений случайной величины разбивают на непересекающихся множеств : интервалов, если - непрерывная величина или групп отдельных значений, если - дискретная величина, и подсчитывают их частоты , . 4) Используя предполагаемый закон распределения вычисляют вероятности , - вероятности того, что наблюдаемое значение принадлежит множеству . Замечание. Критерий «хи-квадрат» использует тот факт, что случайные величины , , имеют распределения, близкие к нормальному . Чтобы это утверждение было достаточно точным, необходимо, чтобы для всех выполнялось условие . Если для некоторых это условие не выполняется, то их объединяют с соседними. 5) По заданным значениям и определяют критическое множество критерия «хи-квадрат»: , , где - критическая точка -распределения (находится с помощью специальных таблиц). Замечание. Если проводилось объединение , то - число множеств , оставшихся после их объединения. 6) По выборке вычисляют наблюдаемое значение статистики критерия «хи-квадрат». 7) Принимают решение: если , то основная гипотеза отклоняется как не согласующаяся с данными выборки; если , то принимается, т.е. считается, что гипотеза не противоречит данным выборки. 5.4 Корреляционно-регрессионный анализ. На практике часто бывает важно знать, существует ли зависимость между некоторыми наблюдаемыми величинами, насколько тесно они связаны между собой, можно ли по значению одной величины сделать какие-либо выводы о предполагаемом значении другой величины и т.д. Для решения задач такого рода и применяется корреляционно-регрессионный анализ. Пусть - выборка из двумерной генеральной совокупности . Предварительное представление о зависимости между случайными величинами и можно получить, изобразив в прямоугольной системе координат на плоскости точки . Такое графическое представление двумерной выборки называют диаграммой рассеивания (корреляционным полем). Количественной характеристикой степени линейной зависимости между величинами и является коэффициент корреляции . Его состоятельной оценкой служит статистика , где , , , , . Если , то все выборочные точки , лежат на одной прямой. При выборочные данные только имеют тенденцию сосредотачиваться около прямых: , , называемых (теоретическими) прямыми регрессии на и на , соответственно. Здесь , . Первое уравнение даёт наилучший в среднем квадратичном прогноз ожидаемых значений по наблюдениям , второе – прогноз значений по наблюдениям . Прямые , называются эмпирическими прямыми регрессии на и на , соответственно. Здесь , , , , - найденные по выборке , , значения статистик , , , , , являющихся состоятельными оценками параметров , , , , двумерной генеральной совокупности. Проверка гипотезы о значимости выборочного коэффициента корреляции .
Здесь: - двусторонняя критическая точка распределения Стьюдента (находится с помощью специальных таблиц), .- объём выборки.
Популярное: Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (900)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |