Анализ данных с помощью блочных диаграмм. Базовые показатели
Вычисление показателей с помощью Пакета Анализа. Стандартная ошибка – стандартное отклонение деленное на квадратный корень объема выборки. Ассиметричность характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением. Эксцесс – это мера относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения; зависит от разностей между элементами выборки и средним значением, возведенными в четвертую степень. Основные характеристики позволяют описать свойства данных и перейти к более глубоким исследованиям. Довольно часто для анализа данных применяется подход, основанный на пятерке базовых показателей и построении блочной диаграммы. Блочная диаграмма представляет собой удобное средство для изображения пяти базовых показателей. Вертикальная линия, проведенная внутри прямоугольника, отмечает медиану. Левая сторона прямоугольника соответствует первому квартилю , а правая – третьему квартилю . Таким образом, прямоугольник содержит средние 50% элементов выборки. Младшие 25%данных изображаются в виде линии (так называемый ус), соединяющей левую сторону прямоугольника с наименьшим выборочным значением . Следовательно, старшим 25% данных соответствует линия, соединяющая правую сторону прямоугольника с наибольшим выборочным значением . Основная задача выборочного обследования. Статистика не всегда имеет дело с данными сплошного наблюдения. Из всех видов несплошного наблюдения главным является выборочное наблюдение, т.к. только выборка позволяет распространить данные, полученные по части совокупности, на всю совокупность. Выборочный метод – это метод статистического исследования, при котором обобщающие показатели изучаемой совокупности (генеральной совокупности) устанавливаются по некоторой её части (выборочной совокупности или просто выборке) на основе положений случайного отбора. В проведении ряда исследований выборочный метод является единственно возможным, например, при контроле качества продукции (товара), если проверка производится с уничтожением или разложением на составные части обследуемых образцов. Причины использования выборочного метода: 1) повышение точности данных 2) экономия материальных, трудовых, финансовых ресурсов и времени (аудиторские проверки крупных фирм; составление баланса денежных доходов и расходов населения) 3) без выборки не обойтись, когда наблюдение связано с порчей наблюдаемых объектов) Далее будем использовать следующие понятия: Генеральная совокупность – это подлежащая изучению статистическая совокупность, из которой производится отбор части единиц Выборочная совокупность (выборка) – отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию. Суть выборочного метода: получение характеристик изучаемой совокупности (генеральной) по обследованию некоторой ее части (выборке). Выборочный метод использует два основных вида обобщающих показателей: - относительную величину альтернативного (качественного) признака. Она характеризует долю (удельный вес) единиц в статистической совокупности, которые отличаются от других единиц только наличием изучаемого признака (доля нестандартных изделий во всей партии товара) - среднюю величину количественного признака. Это обобщающая характеристика варьирующего признака, который имеет различные значения у отдельных единиц статистической совокупности (средняя цена акции; средняя выработка; средняя оплата труда) Определим следующие величины для генеральной совокупности: - доля единиц с изучаемым признаком (генеральная доля) ; - средняя величина варьирующего признака (генеральная средняя) . Определим следующие величины для выборки: - доля изучаемого признака (выборочная доля или частота) ; - средняя величина в выборке (выборочная средняя) . Определение оптимальной численности выборки. Размер ошибки выборки прежде всего зависит от численности выборочной совокупности n. При доведении N до n ошибка выборки =0. Однако это требует увеличения объемов исследований, дополнительных затрат труда и материальных средств. Определение оптимальной численности выборки основывается на формуле предельной ошибки выборки. Необходимая численность выборки (для среднего значения) и (для доли альтернативного признака) определяется как:
В случае бесповторного отбора величины (12) и (13) примут следующий вид:
Малая выборка. Под малой выборкой понимается несплошное статистическое обследование, при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности. К минимальному объему выборки прибегают, когда большая выборка невозможна, или экономически невыгодна (если проведение исследования связано с порчей или уничтожением обследуемых образцов). Объем малой выборки обычно не превышает 30 единиц, но может быть до 4-5 единиц. Первые работы в области теории малой выборки были выполнены английским статистиком В. Госсетом в 1908г. (псевдоним Стьюдент) и продолжены в исследованиях Р. Фишера. Величина ошибки малой выборки определяется по формулам, отличным от формул выборочного наблюдения со сравнительно большим объемом выборки (n > 100). Средняя ошибка малой выборки исчисляется по формуле:
При малой выборке величина имеет существенной значение, поэтому вычисление дисперсии малой выборки проводится с учетом числа степеней свободы. Число степеней свободы – это количество вариантов, которые могут принимать произвольные значения, не меняя величины средней. При определении дисперсии число степеней свободы = n – 1, тогда дисперсия МВ находится по формуле:
Предельная ошибка малой выборки: . При этом для малой выборки t зависит не только от заданной доверительной вероятности, но и от численности единиц выборки n. Для отдельных значений t и n доверительная вероятность малой выборки определяется по таблицам Стьюдента, в которых даны распределения стандартизованных отклонений:
При увеличении n распределение Стьюдента приближается к нормальному и при n = 20 оно уже мало отличается от нормального распределения.
21. Ошибка выборки. Ошибка выборки – это объективно возникающие расхождения между характеристиками выборки и генеральной совокупности. В математической статистике доказывается, что среднее значение ошибки выборки определяется по формуле:
где - генеральная дисперсия; n – объем выборки. Однако обычно неизвестно, наоборот, его как правило надо определить. Поэтому используют соотношение:
где - дисперсия в выборочной совокупности. Если n – велико, то стремится к 1. Тогда где - дисперсия в выборочной совокупности; n - объём выборки. Формула (1) используется при повторном отборе. При этом для показателя доли альтернативного признака w дисперсия в выборочной совокупности определяется по формуле:
где w=m/n и m – доля единиц с изучаемым признаком; n – объем выборки. Для бесповторного отбора:
где N - численность генеральной совокупности. Повторный отбор – каждая попавшая в выборку единица после фиксации значения изучаемого признака, должна быть возвращена в генеральную совокупность, где ей опять предоставляется равная возможность попасть в выборку. (Используется редко) Возможные значения, в пределах которых может находиться доля единиц, обладающих изучаемым признаком, в генеральной совокупности определяется по формуле: . Для средних значений в генеральной совокупности установлены следующие границы: Формулы (3) и (4) гарантированы не с абсолютной достоверностью, а лишь с определённой степенью вероятности. В математической статистике доказывается, что пределы значений характеристик генеральной совокупности (Р и ) отличаются от характеристик выборочной совокупности ( и ) на величину лишь с определенной вероятностью = 0,683. Т.е. в 317 случаях из 1000 значения могут выйти из этих пределов. Эту вероятность можно увеличить, увеличив в t раз среднюю ошибку . Здесь t - коэффициент доверия. При t =2 доверительная вероятность = 0,954 При t =3 доверительная вероятность = 0,997 (т.е. выход в 3-х случаях из 1000) Величина коэффициента доверия t зависит о доверительной вероятности и определяется по специальным таблицам, исчисленным применительно к случаю нормально распределенной совокупности (таблицы интегральной функции Лапласа). Тогда: При изучении доли альтернативного признака показатели соотносятся следующим образом: При изучении средней величины:
Ошибки репрезентативности выборочного наблюдения это разновидность случайных ошибок. Они появляются как результат неполноты наблюдения. Если провести несколько выборочных наблюдений по одной совокупности, то полученные расхождения между показателями выборочной и генеральной совокупностей (т.е. ошибки выборки) будут различны как по знаку, так и по величине. Вот почему с помощью теорем математической статистики определяется средняя из возможных ошибок. Смысл средней ошибки выборки: средняя ошибка выборки, по существу, это средняя квадратическая величина из отдельных ошибок, взвешенная по вероятности их возникновения.
Предельная ошибка выборки находится следующим образом:
t- зависит от вероятности, с которой гарантируется величина предельной ошибки выборки. Расчёт при бесповторном отборе может быть записан следующими алгоритмами: - доля альтернативного признака
- средняя величина количественного признака
Если процент единиц, взятых в выборку небольшой (до 5 %) то и расчёт производится по формулам повторного отбора:
Однако в этом случае мы несколько преувеличиваем результаты выборки (т.е. немного повышается средняя ошибка выборки).
Популярное: Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней... Почему стероиды повышают давление?: Основных причин три... Как построить свою речь (словесное оформление):
При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (873)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |