Проверка гипотезы о нормальности исходного распределения
Нулевая гипотеза отвергается в тех случаях, когда по выборке получается результат, который при истинности выдвинутой гипотезы маловероятен. Границей маловероятного или невозможного обычно считается а= 0.05; а=0.01. Критерий согласия Пирсона
Критерий согласия Пирсона (χ2) применяют для проверки гипотезы о соответствии эмпирического распределения предполагаемому теоретическому распределению F(x) при большом объеме выборки (n ≥ 100). Критерий применим для любых видов функции F(x), даже при неизвестных значениях их параметров, что обычно имеет место при анализе результатов механических испытаний. В этом заключается его универсальность. Использование критерия χ2 предусматривает разбиение размаха варьирования выборки на интервалы и определения числа наблюдений (частоты) nj для каждого из e интервалов. Для удобства оценок параметров распределения интервалы выбирают одинаковой длины, так чтобы формировалось 10-20 групп. Число интервалов зависит от объема выборки. Обычно принимают: при n = 100 e = 10 ÷ 15, при n = 200 e = 15 ÷ 20 и т.д. Статистикой критерия Пирсона служит величина
где pj - вероятность попадания изучаемой случайной величины в j-и интервал, вычисляемая в соответствии с гипотетическим законом распределением F(x). При вычислении вероятности pj нужно иметь в виду, что левая граница первого интервала и правая последнего должны совпадать с границами области возможных значений случайной величины. Например, при нормальном распределении первый интервал простирается до -∞, а последний - до +∞. Нулевую гипотезу о соответствии выборочного распределения теоретическому закону F(x) проверяют путем сравнения вычисленной по формуле (*) величины с критическим значением χ2α, найденным по табл. VI приложения для уровня значимости α и числа степеней свободы k = e1 - m - 1. Здесь e1 - число интервалов после объединения; m - число параметров, оцениваемых по рассматриваемой выборке. Если выполняется неравенство χ2 ≤ χ2α (**) то нулевую гипотезу не отвергают. При несоблюдении указанного неравенства принимают альтернативную гипотезу о принадлежности выборки неизвестному распределению. Недостатком критерия согласия Пирсона является потеря части первоначальной информации, связанная с необходимостью группировки результатов наблюдений в интервалы и объединения отдельных интервалов с малым числом наблюдений.
Проверка гипотезы о нормальности исходного распределения
Рассмотрим гипотезу о том, что рассматриваемое нами распределение подчиняется нормальному закону со средним значением Xср = 0.18 % и среднеквадратичным отклонением S = 0.0186 %. Проверим эту гипотезу с применением критерия согласия Пирсона (χ2 - критерия). Здесь и далее в этом проекте (если не оговорено специально) будем принимать уровень значимости α = 0.05. Уровень значимости – это вероятность того, что мы сочли различия существенными, в то время как она на самом деле случайны.
Составляем расчетную таблицу. Эта таблица будет несколько отличаться от приведенной в [1] за счет того, что в настоящее время существуют более удобные средства расчета, появившиеся после написания книги. В первый и второй столбцы расчетной таблицы вносим данные из гистограммы - содержание углерода xi и количество наблюдений ni, соответствующее такому содержанию.
Примечание 1: Применяемый нами метод построения гистограмм включает в себя "отбрасывание" крайних значений, частота которых не превышает 2 %. С связи с этим диапазоны [-∞ ÷ 0.135] и [22.5 ÷ ∞] не рассматриваются. Еще одно последствие применения такого метода выразится в определении предполагаемого общего количества испытаний (см. далее). Теперь определим границы рассматриваемых интервалов. Фактически критерий согласия Пирсона изначально предполагает разбиение исследуемой случайной величины на определенные интервалы. В данной задаче мы такого разбиения не специально производили. Это было сделано уже в момент определения химического состава. Содержание углерода в стали не является дискретной величиной. Фактически оно (содержание) величина непрерывная. И может быть как 0.18359125, так и 0.180001. Приведенные на гистограмме (рис. 1) и в расчетной таблице значения xi представляют собой округление до второго знака после запятой. При xi = 0.18 %, например, фактическое значение содержания углерода может быть в пределах 0.175 ÷ 0.185 %. Исходя из этих соображений и определим фактические границы интервалов xi_min ÷ ximax и занесем эти границы в 3-й и 4-й столбцы расчетной таблицы:
Следующий этап расчетов заключается в определении вероятности попадания нормальной случайной величины x с предполагаемыми средним значением Xср = 0.18 % и среднеквадратичным отклонением S = 0.0186 % в заданные интервалы. В [1] для этого используется функция Лапласа для нормализованной случайной величины. Однако, пользуясь современными математическими пакетами, этого можно не делать. Так, в Excel существует функция НОРМРАСП(x; xср; σ; Интегральная), а в MatLab - normcdf(x, xср, σ). Функция НОРМРАСП(x; xср; σ; 1) возвращает вероятность того, что нормально распределенная случайная величина при среднем xср и среднеквадратичном σ окажется не больше значения x. Например, для нашего рассматриваемого случая вероятность того, что содержание в стали углерода окажется не больше 0.155 % равна F(0.155) = P(X < 0.155) = НОРМРАСП(0.155; 0.18; 0.0186; 1) = 0.089. Аналогично для содержания углерода 0.165 % имеем F(0.165) = P(X < 0.165) = НОРМРАСП(0.165; 0.18; 0.0186; 1) = 0.210. А вероятность того, что содержание углерода в стали окажется в пределах 0.16±0.005 равна F(0.165) - F(0.155) = 0.121. Пользуясь описанной выше функцией НОРМРАСП(x; 0.18; 0.0186; 1) заполним 5 - 7 столбцы расчетной таблицы:
По второму столбцу подсчитаем общую сумму анализируемых наблюдений n = ∑ni = 290, а по седьмому столбцу - общую сумму наблюдаемых вероятностей ∑pi = 0.984. При неукоснительном использовании критерия согласия Пирсона общая сумма наблюдаемых вероятностей должна быть равна 1. В нашем случае этого не происходит. Это обусловлено применяемым нами методом построения гистограмм (см. Примечание 1 выше). В связи с этим введем еще одну величину - предполагаемое общее количество испытаний n*. Эту величину предлагаем определять по формуле Определим и внесем в расчетную таблицу предполагаемое общее количество испытаний n* = 290/0.984 = 295.
Определим наблюдаемую χ2 - статистику. Для этого в восьмой столбец расчетной таблицы внесем значения n*·pi (произведение n* на значения седьмого столбца), в девятый - ni-n*·pi (разность значений второго и седьмого столбцов), в десятый - (ni-n*·pi)2/n*·pi (квадрат значения в девятом столбце делим на значение восьмого). Сумма значений в десятом столбце и будет равна значению наблюдаемой χ2 - статистики.
Наблюдаемое значение χ2 - статистики в нашем случае равно 5.652. Рассмотренный нами расчет приведен в таблице MS Excel krit_sogl.xls. Теперь наблюдаемое значение χ2 - статистики необходимо сравнить в критическим значением. Уровень значимости, как договорились выше, принимаем равным α = 0.05. Количество степеней свободы равно количеству наблюдаемых интервалов 9 уменьшенному на количество определенных параметров (2, так как мы ранее определили для выборки среднее и среднеквадратичное отклонение) и на 1: Для уровня значимости α = 0.05 и числа степеней свободы k = 6 определяем критическое значение χ2 - статистики. Вместо таблицы, как это предлагается в [1] можно использовать функции Ecxel ХИ2ОБР(α; k) или MatLab chi2inv(1-α, k). Функция Ecxel ХИ2ОБР(0,05; 6) даст нам критическое значение χ2 - статистики для уровня значимости α = 0.05 и числа степеней свободы k = 6. χ2крит. 0.05, 6 = 12.6. Условие χ2набл. ≤ χ2крит. (5.7 < 12.6) выполняется, следовательно гипотезу о нормальности закона распределения для исследуемой выборки отвергать нет основания.
Литература:
Популярное: Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация... Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение... Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1001)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |