Пошаговые алгоритмы вычислений
Структура раздела пошаговых процедур принципиально ничем не отличается от аналогичных разделов в других главах книги: шаги 1–4 являются подготовитель-ными для выполнения анализа, шаги 6–7 требуются для печати результатов и за-вершения работы программы, а несколько вариантов (в данном случае два) шага 5 соответствуют разным способам выполнения статистической операции. Снача-ла мы продемонстрируем вариант использования кластерного анализа объектов
7. включением в вывод нескольких интересующих нас величин. Второй вариант шага 5 проиллюстрирует кластерный анализ переменных. В нем мы вновь обра-тимся к файлу TestIQ.sav для того, чтобы вы имели возможность сравнить кластер-ный анализ переменных с факторным анализом, описанным в предыдущей главе.
При проведении кластерного анализа сначала выполняются три подготовительных шага. Эти шаги (шаги 1–3) позволят подготовить рабочий файл данных, запустить программу IBM SPSS Statistics 19 и открыть файл (в данном случае — файл cars.sav). Пошаговые инструкции этого процесса приведены в главе 4 (с. 60), а подробные разъяснения — в главе 2.
После завершения шага 3 на экране должно присутствовать окно редактора дан-ных со строкой меню и загруженным файлом cars.sav.
Шаг 4 В меню Анализ выберите команду Классификация Иерархическая кла-стеризация. Откроется диалоговое окно Иерархический кластерный ана-лиз, показанное на рис. 21.1.
Ваши дальнейшие действия в значительной степени зависят от того, какой тип кластеризации вы выберете. Для этой цели в группе Кластеризовать предусмотре-ны два переключателя: Наблюдения и Переменные. Вначале в списке Переменные указываются имена тех переменных, значения которых будут использоваться при кластеризации. В нашем примере в список Переменные следует поместить все переменные, кроме переменной марка, поскольку последняя представляет собой марку автомобиля. Далее следует задать способ идентификации объектов. Как правило, в роли идентификатора выступает переменная, содержащая уникальный номер объекта или его имя в виде строки. В данном случае мы будем использовать вполне подходящую для этого переменную марка. Имя идентифицирующей пере-менной указывается в поле Метить значениями.
Если вместо переключателя Наблюдения в группе Кластеризовать установить пере-ключатель Переменные, в списке Переменные потребуется указать кластеризуемые переменные, а поле Метить значениями останется пустым. По умолчанию флаж-ки Статистики и Графики в группе Вывести установлены, и в большинстве случаев нет необходимости их сбрасывать. В правой части диалогового окна расположены 4 кнопки, предназначенные для задания дополнительных параметров команды.
Рис. 21.1.Диалоговое окно Иерархический кластерный анализ
При щелчке на кнопке Статистики на экране появляется диалоговое окно Иерархи-ческий кластерный анализ: Статистики, показанное на рис. 21.2.
Рис. 21.2.Диалоговое окно Иерархический кластерный анализ:Статистики
Флажок Порядок агломерации по умолчанию установлен, обеспечивая включение
В результаты кластерного анализа стандартного компонента окна вывода, который будет подробно рассмотрен в разделе «Представление результатов». Флажок Ма-трица близостей предназначен для отображения информации о расстояниях между объектами и кластерами. Использование матрицы удобно лишь для небольших файлов данных, поскольку с увеличением числа объектов размер матрицы резко возрастает, что делает ее громоздкой и неудобной для воcприятия. Группа Принад-лежность к кластерам состоит из трех переключателей, описанных ниже.
ff Нет — в выводимые результаты включаются все кластеры. Этот вариант уста-новлен по умолчанию. 304 Глава 21.Кластерный анализ
ff Одно решение — позволяет задать точное число кластеров в решении.
ff Диапазон решений — обеспечивает вывод нескольких решений с разным чис-лом кластеров. Так, если ввести в поле Минимальное число кластеров число 3,
6. в поле Максимальное число кластеров число 5, то в выводимые результаты будут включены все решения с 3, 4 и 5 кластерами.
Щелчок на кнопке Графики в окне Иерархический кластерный анализ открывает ди-алоговое окно Иерархический кластерный анализ: Графики, показанное на рис. 21.3.
Рис. 21.3.Диалоговое окно Иерархический кластерный анализ:Графики
Флажок Дендограмма позволяет включить в выводимые результаты ту же инфор-мацию, которая содержится на «сосульчатой» диаграмме, предлагаемой по умолча-нию, а также относительную величину разности между переменными или класте-рами на каждом шаге процесса. Поскольку Сосульчатая диаграмма лишь дублирует информацию других разделов, а ее вид оставляет желать лучшего, мы откажемся от ее вывода. Для этого в группе Сосульчатая диаграмма достаточно установить переключатель Нет.
Щелчок на кнопке Метод в окне Иерархический кластерный анализ открывает диа-логовое окно Иерархический кластерный анализ: Метод, показанное на рис. 21.4.
13. этом окне для нас представляют интерес раскрывающиеся списки Метод, Мера: Интервальная и Стандартизация. Мы опишем лишь наиболее важные пункты этих списков и кратко упомянем остальные. Более детальные описания вы можете най-ти самостоятельно в руководстве пользователя SPSS.
14. списке Метод наиболее часто используется пункт Межгрупповые связи. Суть ме-тода заключается в том, что объединению на каждом шаге подвергаются кластеры
или объекты, расстояние между которыми минимально. Более полное описание межгруппового связывания можно найти в разделе «Представление результатов».
Рис. 21.4.Диалоговое окно Иерархический кластерный анализ:Метод
Помимо пункта Межгрупповые связи раскрывающийся список Метод содержит сле-дующие пункты:
ff Внутригрупповые связи
ff Ближайший сосед;
ff Дальний сосед;
ff Центроидная кластеризация;
ff Медианная кластеризация;
ff Метод Варда.
15. раскрывающемся списке Интервальная по умолчанию выбран пункт Квадрат рас-стояния Евклида. Это означает, что расстояние между объектами вычисляется как разность квадратов соответствующих переменных этих объектов, участвующих в анализе. Остальные пункты списка Интервальная:
ff Косинус — метод измерения близости, основанный на косинусах векторов зна-чений;
ff Корреляция Пирсона — метод измерения близости, основанный на корреляции векторов значений;
ff Чебышев — вычисление расстояния как максимума абсолютной величины раз-ности между элементами; 306 Глава 21.Кластерный анализ
ff Блок — определяет меру расстояния по метрике города (см. главу 23); ff Минковского — определяет меру расстояния Минковского (см. главу 23); ff Настроенная — позволяет задавать пользовательскую меру расстояния. Процедура стандартизации выбирается в раскрывающемся списке Стандартизация. По умолчанию выбран пункт Нет, однако в случаях, когда переменные представ-лены в разных шкалах (единицах измерения) стандартизация необходима, и чаще всего выбирают пункт z-значения. Оставшиеся пункты, в которых допускается ва-рьирование среднего значения или стандартного отклонения распределения, могут привести к другим результатам; выбор какого-либо из них определяется степенью его применимости к исследуемым данным и удобством для исследователя.
в группе Преобразовать значения по умолчанию установлен переключатель По переменным, и в большинстве случаев менять его на альтернативный (По наблюде-ниям) нет необходимости.
в группе Мера преобразования имеются три флажка, позволяющих изменить зна-чения переменных: Взять модуль, Сменить знак и Привести к 0–1.
Последняя из четырех функциональных кнопок окна Иерархический кластерный анализ — кнопка Сохранить — открывает диалоговое окно Иерархический кластер-ный анализ: Сохранить, показанное на рис. 21.5. С помощью этого окна можно со здавать новые переменные, значения которых будут указывать принадлежность наблюдений кластерам.
Рис. 21.5.Диалоговое окно Иерархический кластерный анализ:Сохранить
Если установлен переключатель Нет, никакого сохранения в процессе анализа не производится. Иначе при выполнении анализа будут созданы переменные, которые окажутся в конце файла. Если поставить переключатель в Одно решение и указать
В поле число 3, то получим новую переменную, значение которой равно 1, 2 или
3 в зависимости от того, какому кластеру будет принадлежать соответствующий объект в решении. Если же установить переключатель Диапазон решений, в поле
Минимальное число кластеров указать число 3, а в поле Максимальное число кла-
стеров — число 5, это приведет к созданию трех новых переменных: первая будет принимать значения от 1 до 3, вторая — от 1 до 4, третья — от 1 до 5.
и следующем примере проводится кластерный анализ с несколькими допол-нительными параметрами, обсуждавшимися выше. В качестве идентификатора используется переменная марка. Все остальные переменные файла задействуются для вычисления расстояния между объектами. Мы включим в выводимые резуль-таты последовательность слияния и дендрограмму, но исключим диаграмму на-копления. Значения всех переменных нормализуем для того, чтобы придать им равные веса и привести к одной шкале. В качестве расстояния между объектами зададим квадрат Евклидова расстояния, а в качестве метода кластеризации — меж-групповое связывание. Кроме того, мы создадим новую переменную, в которой сохраним решение с тремя кластерами.
Шаг 5 После выполнения шага 4 должно быть открыто диалоговое окно Ие-рархический кластерный анализ, показанное на рис. 21.1. Если вы уже успели поработать с этим окном, щелкните на кнопке Сброс.
и Щелкните сначала на переменной марка, а затем — на нижней кноп-ке со стрелкой, чтобы переместить переменную в поле Метить зна- чениями.
и Щелкните сначала на переменной цена и, нажав на клавиатуре кнопку Shift, щелкните на переменной пробег. В результате окажут-ся выделенными все оставшиеся в списке переменные.
и Щелкните на верхней кнопке со стрелкой, чтобы переместить вы-деленные переменные в список Переменные.
и Щелкните на кнопке Графики, чтобы открыть диалоговое окно
Иерархический кластерный анализ: Графики, показанное на рис. 21.3.
и Установите флажок Дендограмма и переключатель Нет в группе Со-
сульчатая диаграмма. Щелкните на кнопке Продолжить, чтобы вер-нуться в диалоговое окно Иерархический кластерный анализ.
и Щелкните на кнопке Метод, чтобы открыть диалоговое окно Иерар-
хический кластерный анализ: Метод, показанное на рис. 21.4.
и В списке Метод оставьте выбранным пункт Межгрупповые связи, в списке Стандартизация выберите пункт z-значения и щелкните на кнопке Продолжить, чтобы вернуться в диалоговое окно Иерархиче-
ский кластерный анализ.
и Щелкните на кнопке Сохранить, чтобы открыть диалоговое окно Иерар хический кластерный анализ: Сохранить, показанное на рис. 21.5.
и Установите переключатель Одно решение, введите в расположенное рядом поле значение 3 и щелкните на кнопке Продолжить, чтобы вернуться в Иерархический кластерный анализ.
Щелкните на кнопке OK, чтобы открыть окно вывода.
В следующем примере проводится кластерный анализ, в котором вместо объек-тов участвуют переменные. Мы используем данные файла TestIQ.sav, содержащего 11 переменных и1, ..., и11. Обратите внимание на следующее обстоятельство. Обыч-но при группировании переменных исследователя интересует их взаимосвязь, а не их различие (сходство), как при группировании объектов. Исключением является 308 Глава 21.Кластерный анализ
случай, когда данные представляют собой оценки объектов экспертами — тогда строки соответствуют экспертам, а столбцы оцениваемым объектам. Поскольку
в нашем примере интерес представляют именно взаимосвязи между переменными, и мы хотим сравнить результаты с факторным анализом, то в качестве меры близо-сти целесообразно выбрать корреляцию. При этом корреляции надо учитывать по абсолютной величине, так как большие (по модулю) отрицательные их величины так же свидетельствуют о связи, как и большие положительные. Все это необхо-димо иметь в виду, если речь идет о кластеризации переменных. Большинство остальных параметров команды оставим установленными по умолчанию; даже
в стандартизации в данном случае нет необходимости, так как на величину корре-ляции не влияют единицы измерения переменных. Добавим лишь дендрограмму в выводимые результаты и исключим оттуда сосульчатую диаграмму. Обратите внимание, поскольку для выполнения анализа необходим файл TestIQ.sav, а не cars. sav, который использовался в предыдущем примере, мы начинаем с шага 3а.
Шаг 3а Откройте файл данных, с которым вы намерены работать (в нашем слу-чае — это файл TestIQ.sav). Если он расположен в текущей папке, то вы-полните следующие действия.
В Выберите в меню Файл команду Открыть Данные или щелкните на кнопке Открыть файл данных панели инструментов.
В В открывшемся диалоговом окне дважды щелкните на имени TestIQ. sav или введите его с клавиатуры и щелкните на кнопке OK.
Шаг 4а В меню Анализ выберите команду Классификация Иерархическая кла-стеризация. Откроется диалоговое окно Иерархический кластерный ана-лиз, показанное на рис. 21.1.
Шаг 5а После выполнения предыдущего шага должно быть открыто диалоговое окно Иерархический кластерный анализ. Если вы уже успели поработать с этим окном, щелкните на кнопке Сброс.
11. В группе Кластеризовать установите переключатель Переменные.
12. Нажмите кнопку мыши на переменной и1 и, не отпуская кнопки, пере-тащите указатель на переменную и11, затем кнопку мыши отпустите. В результате окажутся выделенными все 11 переменных и1, и2, ..., и11.
13. Щелкните на верхней кнопке со стрелкой, чтобы переместить вы-деленные переменные в список Переменные.
14. Щелкните на кнопке Графики, чтобы открыть диалоговое окно Иерар хический кластерный анализ: Графики, показанное на рис. 21.3.
15. Установите флажок Дендограмма и переключатель Нет в группе Со-
сульчатая диаграмма. Щелкните на кнопке Продолжить, чтобы вер-нуться в диалоговое окно Иерархический кластерный анализ.
16. Щелкните на кнопке Метод, чтобы открыть диалоговое окно Иерар-
хический кластерный анализ: Метод, показанное на рис. 21.4.
11. В ниспадающем списке Интервальная выберите пункт Корреляция Пирсона, а в группе Мера преобразований установите флажок Взять модуль. Щелкните на кнопке Продолжить, чтобы вернуться в диало-говое окно Иерархический кластерный анализ.
12. Щелкните на кнопке OK, чтобы открыть окно вывода.
Эта процедура реализует кластерный анализ 11-ти показателей теста интеллекта.
В выводимые данные включается такая информации о переменных, как число на-блюдений, число пропущенных значений и т. п. Затем выводятся шаги агломе-рации (объединения в кластеры) и горизонтальная дендрограмма. Рекомендуем сравнить полученные результаты с результатами факторного анализа в главе 20.
После выполнения шага 5 (5а) программа автоматически откроет окно вывода. Для просмотра результатов при необходимости можно воспользоваться вертикальной
В горизонтальной полосами прокрутки. Обратите внимание на стандартную стро-ку меню в верхней части окна вывода: ее присутствие позволяет выполнять любые статистические операции, не переключаясь обратно в окно редактора данных.
9 следующем примере кластерный анализ проводится с применением языка Син-таксис.
Шаг 3Б Создайте файл Синтаксис, как это описано в разделе «Кластерный ана-лиз матрицы различий (сходства)» в этой главе, или откройте файл примера Synt_Clust.sps. Если он расположен в текущей папке, то выпол-ните следующие действия.
и Выберите в меню Файл команду Открыть Синтаксис.
и В открывшемся диалоговом окне дважды щелкните на имени Synt_ Clust.sps. Откроется редактор синтаксиса с текстом команд.
и Выберите в меню команду Запуск Все.
После выполнения шага 3б будет создан и открыт новый файл данных, содержа-щий матрицу 8 × 8 попарных различий 8 объектов. Кроме того, будет открыто окно вывода, содержащее результаты кластерного анализа этих 8 объектов мето-дом средней связи (между группами). В окне редактора данных вы можете заме-нить представленную матрицу своими данными и выполнить кластерный анализ, отредактировав открытое окно редактора синтаксиса. Для этого надо просто уда-лить все строки с начала до строки CLUSTER и запустить команду Запуск Все.
Популярное: Как построить свою речь (словесное оформление):
При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою... Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (496)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |