Мегаобучалка Главная | О нас | Обратная связь


Обработка пропущенных значений



2018-06-29 1581 Обсуждений (0)
Обработка пропущенных значений 0.00 из 5.00 0 оценок




 

В процессе работы с программой SPSS вы нередко будете сталкиваться с пробле-мой отсутствующих данных. Обратимся к переменным из примера ex01.sav. Впол-не вероятна ситуация, когда кто-либо из учеников отсутствовал при проведении тестирования или не ответил на вопрос о внешкольном увлечении, либо не опреде-лился с перспективой поступления в вуз. Подобные случаи приводят к тому, что в данных рабочего файла появляются пропущенные значения. Пропущенные значе-ния не только мешают осмысливать данные, но и могут оказывать нежелательное влияние на результаты анализа. Некоторые статистические процедуры игнориру-ют объекты (строки), в которых содержится хотя бы одно пропущенное значение.


62 Глава 4.Управление данными

 

 

Если, к примеру, из 35 наблюдений 13 имеют пропущенные значения по разным переменным, то анализу будет подлежать немногим более 60 % данных файла, что, несомненно, исказит результаты.

 

Большинство статистических методов SPSS позволяет учитывать пропуски в дан-ных двумя принципиально различными способами: построчно (listwise) и попарно (pairwise). При построчном учете пропусков SPSS перед выполнением операции проверяет строки (объекты) на наличие пропущенных значений и в случае об-наружения последних исключает соответствующие строки из анализа целиком. Этот способ позволяет получить наиболее корректные статистические результаты, однако потери данных при этом максимальны. При попарном учете пропусков об-работка выполняется без дополнительных проверок, и в процессе вычислений не выполняются только те операции, которые требуют наличия пропущенного зна-чения. Таким образом, в анализе участвуют все введенные данные, но результаты анализа содержат погрешности.

 

Мы рекомендуем вам по возможности решать проблему пропущенных значений на этапе ввода и кодирования данных, а не полагаться на то, что SPSS сделает это за вас. В любом случае, чем больше пропусков в исходных данных, тем менее точ-ны и корректны результаты анализа.

 

Для номинальной переменной проблема пропущенных значений решается легко: вы можете просто ввести для нее еще одну градацию, которая соответствует про-пуску в данных. Для количественной переменной (метрической или порядковой), имеющей множество возможных значений, в SPSS предусмотрены специальные процедуры заполнения пропусков: в меню Преобразовать есть команда Заменить пропущенные значения. При всем соблазне ее использовать следует помнить, что результаты обработки данных с заменой пропусков фиктивными значениями, на-пример средними, вряд ли могут вызвать доверие. Поэтому лучше на месте про-пуска честно оставлять пустую ячейку. А вопрос о построчном или попарном учете пропусков решать отдельно для каждого конкретного метода анализа данных.

 

в справочной системе SPSS часто используется два термина: системные пропу-щенные значения (system missing values) и пользовательские пропущенные значе-ния (user missing values). Под физически пропущенными значениями понимаютсязначения, не введенные в компьютер. В редакторе данных пустые ячейки, не со-держащие значений, помечены точкой. Логически пропущенные значения — это специальные значения переменной, отражающие невозможность адекватного ко-дирования некоторой ситуации. Если, например, 1, 2 и 3 — тестовые оценки ис-пытуемого, 8 означает, что тест не завершен, а 9 фиксирует неявку испытуемого, то значения 8 и 9 относятся к логически пропущенным, поскольку их нельзя ин-терпретировать как результаты теста.

 

Преобразование данных

 

Вычисления


 

Операция Вычислить позволяет путем вычислений создавать новые переменные на основе существующих данных файла. Так, среди данных файла ex01.sav исследова-


Преобразование данных

 

телю может понадобиться средний балл результатов тестирования (тест1, ..., тест5) каждого учащегося. Для этого необходимо создать новую переменную, например с именем тест_ср.

 

Шаг 4А После выполнения шага 3 должно быть открыто окно редактора дан-ных (ex01.sav - Редактор данных IBM SPSS Statistics). При активном окне редактора данных в меню Преобразовать выберите команду Вычислить переменную. На экране появится диалоговое окно Вычислить переменную, показанное на рис. 4.1.

 

Диалоговое окно Вычислить переменную содержит в левой части уже ставший при-вычным список доступных переменных. Над списком, в левом верхнем углу окна, имеется поле Вычисляемая переменная, в которое необходимо ввести имя создавае-мой, или вычисляемой, переменной. В поле Числовое выражение вводится выраже-ние, с помощью которого вычисляется новая переменная. Вы можете вводить в это поле символы с клавиатуры, через буфер обмена, а также пользоваться перечис-ленными ниже вспомогательными элементами интерфейса окна, позволяющими формировать выражение.

 

Рис. 4.1.Диалоговое окно Вычислить переменную


 

На панели калькулятора содержатся кнопки цифр и десятичного разделителя, а также разнообразных операций. Щелчок на каждой из этих кнопок приводит


64 Глава 4.Управление данными

 

 

3. появлению соответствующего символа (или нескольких символов) в поле Число-вое выражение. Разумеется, при составлении выражения вы можете обойтись без панели калькулятора, поскольку все представленные там символы можно ввести с клавиатуры. Кнопки основных операций перечислены в табл. 4.1.

 

Таблица 4.1.Кнопки основных операций,доступных при создании переменных

 

Арифметические операции Операции сравнения Логические операции
+ сложение < меньше & И
- вычитание > больше | ИЛИ
* умножение <= меньше или равно ~ НЕ
/ деление >= больше или равно  
** возведение в степень = равно  
() очередность операций ~= не равно  

 

 

ff В списке Группы функций перечислены названия 20 групп функций, причем назначение большинства из них весьма туманно. Далее мы приводим описа-ния нескольких групп функций, которые кажутся нам наиболее употреби-тельными.

 

ff В списке Функции и специальные переменные перечислены операции, входящие

в состав данной группы функций. Например, на рис. 4.1 выделена группа функций Статистические и в окне ниже перечислены доступные статистические функции. Для того чтобы воспользоваться одной из них, необходимо ее выделить и при помощи стрелки, направленной вверх, перенести ее в окно Числовое выражение.

 

ff При щелчке на кнопке Если открывается диалоговое окно выбора наблюдений. Это окно используется в том случае, когда необходимо произвести вычисле-ния только для части наблюдений (строк). Функция кнопки Если аналогична команде Отобрать наблюдения, описанной далее в этой главе.

 

Ниже перечислены основные группы функций, доступные при создании перемен-ных.

 

 

Арифметические

 

Арифметические и алгебраические операции. Например, ABS(числвыр) — возвра-щает абсолютное значение числового выражения в скобках (числвыр).

 

Пропущенных значений

 

Операции с пропущенными значениями. Например, NVALID(переменная[,..]) воз-вращает количество действительных значений (не пропущенных) из списка пере-менных, имена которых заданы в квадратных скобках.


Преобразование данных

 

Статистические

 

Статистические операции. Например, MEAN(числвыр,числвыр[,..]) возвращает сред­ нее значение числовых выражений (числвыр,числвыр [,..]), включающих имена пере­ менных, список которых указан в скобках.

 

Случайных чисел

 

Операции, генерирующие в качестве значений переменной случайные числа с за-данными свойствами распределения. Например, Rv.Normal(срдн,стдоткл) возвраща-ет массив нормально распределенных случайных чисел с заданным средним значе-нием срдн и стандартным отклонением, равным stddev. Если Случнорм — целевая переменная, выражение NORMAL(0,3) создаст переменную Случнорм, значениями которой будут случайные числа, распределенные нормально с нулевым средним значением и стандартным отклонением, равным 3.

 

с следующем примере создадим новую переменную тест_ср. Она получается путем вычисления среднего для значений переменных тест1, ..., тест5.

 

Шаг 5А Для выполнения следующих действий диалоговое окно Вычислить пере-менную должно быть открыто (см. рис. 4.2) в результате выполнения шага 4.

 

В поле Вычисляемая переменная введите имя тест_ср.

 

В окне Группы функций найдите и выделите щелчком мыши Статисти-

 

ческие, а в окне Функции и специальные переменные выделите Mean

 

(среднее).

 

При помощи стрелки, направленной вверх, или двойным щелчком мыши на пункте Mean введите функцию Mean (?,?) в поле Числовое выражение.

 

В выражении MEAN(?,?) в поле Числовое выражение сотрите символы вопросов и запятую в скобках, оставив курсор между скобками.

 

Щелкните сначала на имени тест1, чтобы выделить его, а затем — на кнопке с направленной вправо стрелкой (можно также дважды щелк­ нуть на имени тест1), чтобы ввести его в скобки в поле Числовое вы-

ражение.

 

Щелкните на кнопке , (или введите запятую с клавиатуры) и дважды щелкните на переменной тест2.

 

Повторите те же действия для переменных тест3, тест4 и тест5. В ито-ге должно получиться выражение: MEAN(тест1,тест2,тест3,тест4,тест5). Если это не так, внесите изменения. Все выражение в поле Число-вое выражение можно целиком вводить с клавиатуры, в том числе – и имена переменных.

 

Щелкните на кнопке OK.

 

В меню Файл выберите команду Сохранить.

 

и результате выполнения процедуры будет создана новая переменная тест_ср, ко-торая разместится в крайнем правом столбце файла данных. Если вам удобнее


66 Глава 4.Управление данными

 

 

держать эту переменную ближе к началу файла, можете воспользоваться опера-циями вырезания и вставки в нужную позицию.

 

После завершения процедуры программа возвращает вас в окно редактора данных, чтобы вы могли просмотреть содержимое новой переменной.

 

3. более сложных вычислениях с привлечением разнообразных арифметических и других операций вам придется следить за приоритетами операций и при необхо-димости регулировать очередность вычислений с помощью скобок.

 

Ранжирование

 

Рассмотренная команда Вычислить позволяет создать новую переменную, значения которой вычисляются при помощи выражения, содержащего другие переменные. Команда Преобразовать Ранжировать наблюдения тоже позволяет создать новую переменную, значения которой — ранговые места наблюдений по заданной пере-менной. Эта процедура применяется, когда необходимо перейти от исходных зна-чений переменной к рангам.

 

Команда ранжирования (перехода к рангам) выполняется при помощи диалогового окна, показанного на рис. 4.2. Для перехода к рангам достаточно задать имя перемен-ной в поле Переменные и щелкнуть на кнопке OK. Появится новая переменная с за-данным по умолчанию именем, содержащая ранги значений исходной переменной.

 

 

Рис. 4.2.Диалоговое окно Ранжировать наблюдения

 

Предположим, исследователь решил ранжировать всех учащихся по успеваемости за 11 класс. Для этого ему необходимо перейти от исходных значений переменной отметка2 к новой переменной, содержащей ранги учащихся по этой переменной.

 

Рассмотрим процедуру ранжирования на примере.

 

Шаг 4б После выполнения шага 3 должно быть открыто окно редактора данных (ex01.sav - Редактор данных IBM SPSS Statistics).

 

Для ранжирования переменной отметка2 выполните следующие действия.

 

в В меню Преобразовать выберите команду Ранжировать наблюдения. На экране появится диалоговое окно, представленное на рис. 4.2.


Выбор наблюдений для анализа

 

 

Щелкните сначала на переменной отметка2, чтобы выделить ее, а за-тем — на кнопке со стрелкой. Флажок Вывести таблицы-сводки можно сбросить, так как никаких результатов обработки, кроме новой пере-менной, получать не планируется.

 

По умолчанию в группе Ранг 1 присвоить наблюдению установлен пе-реключатель С минимальным значением. При желании вы можете из-менить порядок ранжирования на обратный, установив в группе Ранг

 

1 присвоить наблюдению переключатель С максимальным значением.

 

При щелчке на кнопке Типы рангов вам будет предложен дополни-тельный набор экстравагантных способов ранжирования, а при щелч-ке на кнопке Совпадающие — способов обработки одинаковых (со-впадающих) рангов. По умолчанию принято обычное присвоение одинаковым значениям переменной одного и того же среднего ранга (Средний). Для ранжирования по общепринятым правилам оставьте все те параметры, которые установлены по умолчанию, и щелкните на кнопке OK.

 

А результате выполнения этого шага в конце списка появится новая переменная с именем Rотметка, присвоенным по умолчанию. Это имя можно оставить или по-менять на другое.

 



2018-06-29 1581 Обсуждений (0)
Обработка пропущенных значений 0.00 из 5.00 0 оценок









Обсуждение в статье: Обработка пропущенных значений

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...
Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней...
Почему двоичная система счисления так распространена?: Каждая цифра должна быть как-то представлена на физическом носителе...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1581)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.012 сек.)