Мегаобучалка Главная | О нас | Обратная связь


Технология выполнения интервальной группировки в Statistica



2019-12-29 282 Обсуждений (0)
Технология выполнения интервальной группировки в Statistica 0.00 из 5.00 0 оценок




 

Для выполнения группировки в системе Statistica из стартовой панели модуля Описательные статистики и таблицы выбирается процедура Таблицы частот По этой команде открывается одноименный диалог рис.3.1. Это окно содержит пять вкладок: Быстрый, Дополнительно, Опции, Описательные, Нормальность и кнопки управления: Переменные, Ок, Отмена, Опции.

Этот диалог предлагает множество настроек, позволяющие изменять вид и группировку в таблицах частот, проверять нормальность распределения, в том числе и графическим способом. Диалог в режиме вкладки Быстрый содержит несколько управляющих кнопок.

Кнопка Переменные открывает стандартное окно выбора списка переменных для анализа.

После нажатия этой кнопки ОК программа вычислит описательные статистики для всех выбранных переменных и разместит их в таблице.

Отмена . При нажатии кнопки Отмена закрывается текущий диалог и появляется стартовая панель модуля Основные статистики и таблицы.

Опции . При нажатии этой кнопки вызывается меню Опции в котором устанавливаются режим вычисления с повышенной точностью и некоторые параметры отображения таблиц и графиков.

Ниже кнопки Опции находятся две кнопки: Кнопка SELEKT CASES (Выбор наблюдений). При нажатии этой кнопки появляется диалоговое окно Условия выбора наблюдений Анализа/Графика. Эта функция используется для того, чтобы включить в анализ только подмножество наблюдений.

 При нажатии кнопки В (Вес) появляется диалоговое окно Веса наблюдений Анализа/Графика. Эта функция позволяет "изменять" вклад отдельных наблюдений, пропорциональных значениям выбранной переменной.

Правила установки Условий выбора наблюдений и установка весов наблюдений описаны в гл.1.

В правом нижнем углу диалогового окна находится группа опций Удаление ПД. Если выбрано Построчное удаление пропусков, то STATISTICA игнорирует все наблюдения, имеющие пропуски хотя бы для одной переменной в списке. Если выбрано Попарное удаление пропусков, то наблюдения будут удаляться из вычислений вместе с переменными, для которых в них содержатся пропущенные данные.

 

- Вкладка Быстрый

Вкладка Быстрый содержит доступ к опциям, представленным на рис.3.1.

Кнопка Таблицы частот строит последовательность таблиц частот для выбранных переменных по одной для каждой переменной. Способ, которым переменные группируются в таблицах частот определяется опцией из набора опций M етод категоризации для таблиц и графиков (см. вкладку Дополнительно). Опции из раздела Опции отображения (см. вкладку Опции) определяют различные обобщающие статистики, которые будут включены в таблицу частот. Если выбран какой-либо Критерий нормальности (например, если выбрана любая опция из раздела, см. вкладку Нормальность), тогда для каждой переменной появится дополнительная таблица с результатами вычисления соответствующего критерия.

- Кнопка Гистограммы строит последовательность гистограмм по одной для каждой выбранной переменной. Способ группировки переменных при построении гистограмм определяется теми же настройками, что и при построении Таблиц частот.

Кнопка Описательные статистики строит таблицы с описательными статистиками для каждой переменной. Способ обработки данных при вычислении описательных статистик зависит от установки опции в наборе M етод категоризации для таблиц и графиков (см. вкладку Дополнительно):

В частности:

1. Если выбрана опция Размер шага и пользователем задано минимальное значение, тогда все наблюдения, которые не превышают это заданное значение, будут проигнорированы;

2. Если выбрана опция Целые категории, то все нецелые значения будут проигнорированы;

3. Если выбрана опция Заданные группирующие коды (значения), то все значения, которые не совпадают ни с одним из выбранных целых кодов, будут проигнорированы;

4. Если выбрана опция Определенные пользователем категории, то кнопки Описательные статистики будут неактивными (потому что сложные правила разбиения на группы могут привести к тому, что одно наблюдение может быть приписано более чем к одной категории). Наблюдение будет приписано первому Определенному пользователем интервалу, которому оно "удовлетворяет" и Описательные статистики для этих интервалов вычисляться не будут.

Во всех случаях пропущенные данные будут построчно или попарно, удаляться в зависимости от выбора в разделе У даление ПД.

3М гистограммы . Эта опция строит последовательность 3М гистограмм для выбранных переменных, по одному на каждую выбранную переменную. После нажатия этой кнопки программа попросит пользователя выбрать два набора переменных (из выбранных ранее с помощью кнопки Переменные). 3М гистограммы будут построены для каждой пары переменных, включающей переменные из разных списков.

 

- Вкладка Дополнительно

Вкладка Дополнительно содержит доступ опциям, представленным на рис.2.3. Данные опции служат для управления способом группировки в таблицах частот, в графиках и при расчете описательных статистик.

Кнопки Таблицы частот и Гистограммы имеют такое же назначение, что и во вкладке Быстрый.

Опции в наборе M етод категоризации для таблиц и графиков определяют, как будут сгруппированы или табулированы выбранные переменные в таблицах частот и в гистограммах, а также как обрабатываются наблюдения при расчете описательных статистик.

Все различные значения – частоты строятся с учетом всех различных значений анализируемых переменных.

С текстовыми значениями – частоты строятся с учетом всех текстовых значений выбранных переменных.

Число равных интервалов – диапазон значений каждой переменной делится на указанное число интервалов:

Приблизительное число интервалов : – построит приближенные интервалы и выберет приближенный шаг так, что последняя десятичная цифра в значениях границ интервалов будет равна 1, 2 или 5 (например, 10.5, 11.0, 11.5, и т.д.). Такие интервалы легче интерпретировать, чем интервалы с большим числом десятичных разрядов.

Размер шага – Опция задает ширину интервала категоризации в таблицах частот (и гистограммах). Если выбрана опция с мин. значения, то группировка начинается с минимального значения переменной (первый интервал группировки включает это значение). Если опция не выбрана, то левая граница первого интервала группировки задается пользователем в соответствующем поле.

Целые значения – Если опция выбрана, то границами интервалов категоризации в таблицах частот (и гистограммах) будут целые числа, а размер шага равен наименьшему целому значению. Все нецелые значения переменных будут проигнорированы программой в процедурах Таблицы частот - Гистограммы и Описательные статистики. Если выбрана опция с текст. значениями, тогда категории при выборе таблиц частот и гистограмм будут помечены текстовыми значениями (например, мужчины, женщины) а не целыми значениями (например, 1, 2), которые доступны в текущем файле данных границами интервалов группировки будут целые значения, а размер шага будет равен наименьшему целому значению. Все нецелые значения переменных будут игнорированы программой.

Заданные группирующие коды (значения ) – таблицы частот и гистограммы будут построены с помощью целых кодов, определенных пользователем и задаваемых с помощью отдельной группирующей переменной (см рис.2.5). Все нецелые значения переменных будут проигнорированы программой

Определенные пользователем категории – позволяет определить до 16 логических условий, позволяющих отнести наблюдения к определенной категории в таблице частот.

При нажатии кнопки Определенные пользователем категории вызовается диалоговое окно Определить категории рис.3.3. Диалоговое окно позволяет вам задать до 16 условий выбора наблюдений для использования их в вычислениях таблиц частот (разбиения наблюдений на категории). Заданные здесь условия выбора будут проверены последовательно; т.е. наблюдение попадет в первую категорию, к которой он "подходит".

Заметим, что в файле данных вы так же можете создать новую (группирующую) переменную и задать в ней необходимые значения. Например, это бывает удобным, когда вам требуется перекодировать данные так, что значения целевой переменной не фиксированы, а рассчитываются по специальному закону (например как среднее набора других значений). Для этого воспользуйтесь формулами в таблице исходных данных, или для более сложных вычислений, средой разработки STATISTICA Visual Basic.

Пример. Этот набор (двух) условий выбора приведет к образованию двух групп в таблице частот. Первая группа будет содержать все наблюдения со значениями переменной 1, которые больше нуля или равны нулю, вторая группа будет содержать все наблюдения со значениями переменной 1, которые меньше нуля.

Категория 1: Включ., если: v1>=0

Категория 2: Включ., если: v1<0

Задание категорий в полях Категория 1, 2, 3, …. Прокручивая этот список, можно определить до 252 категорий, разбивающих наблюдения на подгруппы. Заданные здесь условия выбора будут проверены последовательно; т.е. наблюдение попадет в первую категорию, к которой он "подходит"

· Включить/Исключить, если: Если выбрана команда Включ., если то значения выделенной переменной для наблюдений, которые удовлетворяют условию, будут помещены в соответствующую группу. Если выбрана команда Искл., если то значения выделенной переменной для наблюдений, которые удовлетворяет заданному условию, будут исключены из группы.

· Условия выбора наблюдений задаются в полях ввода Категория 1, 2, 3, … согласно стандартным Условиям выбора наблюдений системы STATISTICA.

· Операторы. При задании условия используются операторы: =, <>, <, >, <=, >=, NOT, AND, OR

· Имена переменных. В условиях необходимо указать имена переменных (например, v1, v2, v3, . . . ) или их имена (например, Пол, Дата, Время, . . .).

· Номер наблюдения. Обозначение v0 задает номера наблюдений

Примеры: v1=0 OR v2>=0;

(v1<1 OR v9='YES' ) AND v4<>0

Замечание: При использовании текстовых значений нужно заключать их в апострофы, например, 'Yes'.

Кнопка Откр/Сохр используется для открытия файла системы STATISTICA со стандартными Условиями выбора наблюдений (которые могут использоваться в программе для выбора или фильтрации наблюдений для всех видов анализа), а также для сохранения текущего условия для каждой Категории. При нажатии кнопки Откр/Сохр открывается диалоговое окно Условия выбора наблюдений, в котором можно отредактировать, сохранить или открыть условия выбора наблюдений (это те же самые условия, которые используются для обработки подгрупп наблюдений во всей программе). Условия выбора наблюдений из этого диалогового окна сохраняются в файле с расширением *.sel. При нажатии кнопки OK в диалоговом окне Условия выбора наблюдений, введенные условия будут использованы для разбиения на подгруппы.

Кнопка Просмотр переменных открывает диалоговое окно Выбрать переменную, в котором можно посмотреть переменные текущего файла данных.

Кнопка Открыть ...  открывает диалоговое окно Открыть условия, в котором можно выбрать файл (содержащий все условия выбора подгрупп), который нужно открыть в диалоговом окне Определить категории. В этом диалоговом окне открываются стандартные текстовые файлы с расширением *.txt.

Кнопка Сохранить ...  открывает диалоговое окно Сохранить условия, где можно указать имя файла, в котором будут сохранены все условия выбора. Это файл будет сохранен в текстовом виде с расширением *.txt.

 

Вкладка Опции

Установки опций этой вкладки определяют способы отображения результатов и то, как будут удаляться пропущенные данные рис.3.4.

Группа Опции отображения в таблицах частот определяет статистики, которые вычисляются для каждой категории в Таблицах частот. В зависимости от выбора в поле Удаление ПД STATISTICA включает ПД в обработку, или исключает их из нее.

Кумулятивные частоты – Опция вычисляет кумулятивные или накопленные частоты. Это сумма частот по последовательным интервалам группировки.

Проценты (относительные частоты)) – вычисляются относительные частоты.

Кумулятивные проценты - вычисляются кумулятивные или накопленные проценты.

100% минус кумулятивные проценты – вычисляются 100 минус кумулятивные проценты.

- Логит преобразования частот – для частот каждого интервала производится преобразование логит. В частности, логиты для категории i вычисляются из соответствующей кумулятивной пропорции pi как:

.

Пробит преобразования частот – для кумулятивных частот каждого интервала производится преобразование пробит – вычисляются z-значения, связанные с вероятностью в соответствующей ячейке.

Ожидаемые нормальные частот – вычисляется нормальное приближение для наблюдаемых частот.

- В нижней части окна указаны опции, назначение которых опций следующее:

Считать пропущенные данные (ПД) – Опция вычисляет группу специально для пропущенных данных. Проценты и кумулятивные (накопленные) проценты также вычисляются для пропущенных данных.

Считать ПД и невыбранные переменные – опция вычисляет дополнительно группы невыбранных (и не пропущенных) наблюдений в таблице частот. Вычисляются проценты и кумулятивные проценты относительно общего числа наблюдений.

 

- Вкладка Описательные

Опции этой вкладки рис.3.5 служат для просмотра набора статистик и графиков распределений для каждой из выбранных переменных.

Описательные статистики . Опция строит таблицы с описательными статистиками для выбранных переменных аналогично одноименной опции во вкладке Быстрые.

Имеется несколько кнопок для графического представления результатов наблюдений:

Диаграмма размаха для всех переменных . Процедура строит каскад диаграмм размаха для зависимых переменных; один график для каждой переменной. Каждая группа представлена одним графиком, который состоит из трех компонент:

1. Центральная точка, показывающая главную тенденцию или положение;

2. Прямоугольник, показывающий разброс значений относительно главной тенденции;

3. Отрезки вокруг прямоугольника, показывающие диапазон значений переменной.

При нажатии этой кнопки появляется диалоговое окно Диаграмма размаха рис.3.6 , в котором необходимо выбрать тип диаграммы для построения.

Нормальные вероятностные графики . Процедура строит последовательность нормальных вероятностных графиков - один график для каждой выбранной переменной.

Полунормальные вероятностные графики . Процедура строит последовательность полунормальных вероятностных графиков - один график для каждой выбранной переменной.

Нормальные вероятностные графики без тренда . Процедура строит последовательность нормальных вероятностных графиков без тренда - один график для каждой выбранной переменной.

Правила построения вероятностных графиков описаны в гл. 2.

3М гистограммы . Эта опция строит каскад 3М гистограмм для выбранных переменных, по одному на каждую выбранную переменную. После нажатия этой кнопки программа попросит пользователя выбрать два набора переменных (из выбранных ранее с помощью кнопки Переменные). 3М гистограммы будут построены для каждой пары переменных, включающей переменные из разных списков.

 

- Вкладка Нормальность

Вкладку Нормальность обеспечивает доступ к представленным опциям рис.3.7. Эти опции служат для проверки нормальности выбранных переменных. Если выбрана любая из представленных здесь опций, то при построении таблицы частот (посредством кнопки ОК) для выбранной переменной, будет построена еще одна таблица, содержащая результаты выбранных критериев нормальности (одна таблица на критерий).

Критерии нормальности . Кнопка выведет таблицы результатов с запрошенными критериями нормальности для выбранных переменных.

Критерий Колмогорова-Смирнова , ср./ст.откл. известны. Опция вычисляет одновыборочный критерий Кoлмогорова-Смирнова. Если D статистика значима, то гипотеза нормальности распределения значений переменной отвергается. Вычисляются два значения вероятности для каждого критерия: первое, табулировано Massey (1951), относится к случаю, когда параметры распределения - среднее и стандартное отклонение известны заранее и не оцениваются. Однако обычно эти параметры не известны и оцениваются по наблюдениям. Тогда проверяется сложная гипотеза (с неизвестными заранее параметрами распределения и вычисляются вероятности Лиллиефорса.

Критерий Лиллиефорса, ср./ст.откл. неизвестны . Если эта опция выбрана, то программа вычислит одновыборочную D статистику Колмогорова-Смирнова, а также вероятности Лиллиефорса (см. предыдущий абзац).

Критерий Шапиро-Уилка W . Опция вычисляет W статистику Шапиро-Уилка для каждой выбранной переменной. Если W-статистика значима, то гипотеза нормальности отвергается. Заметим, что в STATISTICA используется улучшенная версия алгоритма, которая применима к выборкам, содержащим до 2000 наблюдений; если число наблюдений больше 2000, этот критерий неприменим.

Пример: Технологию расчета описательных характеристик вариационного ряда в программе Statistica покажем на примере данных, представленных в табл.2.1.

Расположение исходных данных в таблице данных представлено на рис.2.9.

Для выполнения группировки в системе Statistica из стартовой панели Описательные статистики и таблицы выбирается процедура Таблица частот. По этой команде открывается одноименный диалог рис.3.1, в котором произведем следующие установки:

· Переменные - выбираем список переменных для анализа, в данном случае переменную Var1.

· Активизируем вставку Дополнительно и в группе опций M етод категоризации для таблиц и графиков устанавливаем флажок перед опцией Число равных интервалов равным 9 интервалов

· Активизируем вставку Опции и в группе опций Опции отображения устанавливаем флажки перед опциями:

- Кумулятивные частоты – вычисляем кумулятивные или накопленные частоты.

- Проценты (относительные частоты ) – вычисляем относительные частоты.

- Кумулятивные проценты - вычисляем кумулятивные или накопленные проценты.

- 100% минус кумулятивные проценты – вычисляем 100 минус кумулятивные проценты.

- Логит преобразования частот – для частот каждого интервала производим преобразование логит:

- Ожидаемые нормальные частоты – вычисляем нормальное приближение для наблюдаемых частот.

· Активизируем вставку Нормальность и выделяем флажками следующие опции:

- Критерий Колмогорова-Смирнова, ср./ст. откл. известны – вычисляем одновыборочный критерий Колмогорова-Смирнова

- Критерий Лиллиефорса, ср./ст. откл. неизвестны –вычисляем вероятности Лиллиефорса, на основе которых вычисляем одновыборочную D статистику Колмогорова-Смирнова.

- W критерий Шапиро-Уилка – вычисляем W статистику Шапиро-Уилка.

При нажатии на кнопку Таблицы частот получаем результирующую таблицу частот, представленную на рис.3.8,а).

 

 

- При нажатии на кнопку Гистограммы получаем гистограмму распределения частот рис.3.8,б).

При нажатии на Критерий нормальности вкладки Нормальность – на экран выводятся таблицы результатов со значениями критериев нормальности рис.3.9.

На рис.2.14 представлена распечатка таблицы частот.

 

                                                                            

STAT.         VAR1 (new.sta)                                   

                                                                            

                            Cumul.        Cumul. 100% -  

Category         Count Count Percent  Percent Percent 

                                                                        

,457143<x<=1,94285    4    4     4,00    4,00 100,00 

1,94286<x<=3,42857   12   16    12,00   16,00 96,00 

3,42857<x<=4,91428   35   51    35,00   51,00 84,00 

4,91429<x<=6,40000   22   73    22,00   73,00 49,00 

6,40000<x<=7,88571   11   84    11,00   84,00 27,00 

7,88571<x<=9,37142   13   97    13,00   97,00 16,00 

9,37143<x<=10,8571    2   99     2,00   99,00 3,00 

10,8571<x<=12,3428    1  100     1,00  100,00 1,00 

Missing               0  100   0,00  100,00 0,00 

                                     

STAT.          VAR1 (new.sta)

                           

Category        Logits  

                                

,457143<x<=1,94285 -3,17 

1,94286<x<=3,42857 -1,65 

3,42857<x<=4,91428 ,04 

4,91429<x<=6,40000 ,99 

6,40000<x<=7,88571 1,65 

7,88571<x<=9,37142 3,47 

9,37143<x<=10,8571 4,59 

10,8571<x<=12,3428 --    

Missing                      

 

Рис.2.14. Распечатка таблицы частот

 



2019-12-29 282 Обсуждений (0)
Технология выполнения интервальной группировки в Statistica 0.00 из 5.00 0 оценок









Обсуждение в статье: Технология выполнения интервальной группировки в Statistica

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...
Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (282)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.015 сек.)