Пошаговые алгоритмы вычислений

2018-06-29

496

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 54 55 56 57 585960 61 62 63 Следующая ⇒

Структура раздела пошаговых процедур принципиально ничем не отличается от аналогичных разделов в других главах книги: шаги 1–4 являются подготовитель-ными для выполнения анализа, шаги 6–7 требуются для печати результатов и за-вершения работы программы, а несколько вариантов (в данном случае два) шага 5 соответствуют разным способам выполнения статистической операции. Снача-ла мы продемонстрируем вариант использования кластерного анализа объектов

7. включением в вывод нескольких интересующих нас величин. Второй вариант шага 5 проиллюстрирует кластерный анализ переменных. В нем мы вновь обра-тимся к файлу TestIQ.sav для того, чтобы вы имели возможность сравнить кластер-ный анализ переменных с факторным анализом, описанным в предыдущей главе.

При проведении кластерного анализа сначала выполняются три подготовительных шага. Эти шаги (шаги 1–3) позволят подготовить рабочий файл данных, запустить программу IBM SPSS Statistics 19 и открыть файл (в данном случае — файл cars.sav). Пошаговые инструкции этого процесса приведены в главе 4 (с. 60), а подробные разъяснения — в главе 2.

После завершения шага 3 на экране должно присутствовать окно редактора дан-ных со строкой меню и загруженным файлом cars.sav.

Шаг 4 В меню Анализ выберите команду Классификация Иерархическая кла-стеризация. Откроется диалоговое окно Иерархический кластерный ана-лиз, показанное на рис. 21.1.

Ваши дальнейшие действия в значительной степени зависят от того, какой тип кластеризации вы выберете. Для этой цели в группе Кластеризовать предусмотре-ны два переключателя: Наблюдения и Переменные. Вначале в списке Переменные указываются имена тех переменных, значения которых будут использоваться при кластеризации. В нашем примере в список Переменные следует поместить все переменные, кроме переменной марка, поскольку последняя представляет собой марку автомобиля. Далее следует задать способ идентификации объектов. Как правило, в роли идентификатора выступает переменная, содержащая уникальный номер объекта или его имя в виде строки. В данном случае мы будем использовать вполне подходящую для этого переменную марка. Имя идентифицирующей пере-менной указывается в поле Метить значениями.

Если вместо переключателя Наблюдения в группе Кластеризовать установить пере-ключатель Переменные, в списке Переменные потребуется указать кластеризуемые переменные, а поле Метить значениями останется пустым. По умолчанию флаж-ки Статистики и Графики в группе Вывести установлены, и в большинстве случаев нет необходимости их сбрасывать. В правой части диалогового окна расположены 4 кнопки, предназначенные для задания дополнительных параметров команды.

Пошаговые алгоритмы вычислений

Рис. 21.1.Диалоговое окно Иерархический кластерный анализ

При щелчке на кнопке Статистики на экране появляется диалоговое окно Иерархи-ческий кластерный анализ: Статистики, показанное на рис. 21.2.

Рис. 21.2.Диалоговое окно Иерархический кластерный анализ:Статистики

Флажок Порядок агломерации по умолчанию установлен, обеспечивая включение

В результаты кластерного анализа стандартного компонента окна вывода, который будет подробно рассмотрен в разделе «Представление результатов». Флажок Ма-трица близостей предназначен для отображения информации о расстояниях между объектами и кластерами. Использование матрицы удобно лишь для небольших файлов данных, поскольку с увеличением числа объектов размер матрицы резко возрастает, что делает ее громоздкой и неудобной для воcприятия. Группа Принад-лежность к кластерам состоит из трех переключателей, описанных ниже.

ff Нет — в выводимые результаты включаются все кластеры. Этот вариант уста-новлен по умолчанию.

304 Глава 21.Кластерный анализ

ff Одно решение — позволяет задать точное число кластеров в решении.

ff Диапазон решений — обеспечивает вывод нескольких решений с разным чис-лом кластеров. Так, если ввести в поле Минимальное число кластеров число 3,

6. в поле Максимальное число кластеров число 5, то в выводимые результаты будут включены все решения с 3, 4 и 5 кластерами.

Щелчок на кнопке Графики в окне Иерархический кластерный анализ открывает ди-алоговое окно Иерархический кластерный анализ: Графики, показанное на рис. 21.3.

Рис. 21.3.Диалоговое окно Иерархический кластерный анализ:Графики

Флажок Дендограмма позволяет включить в выводимые результаты ту же инфор-мацию, которая содержится на «сосульчатой» диаграмме, предлагаемой по умолча-нию, а также относительную величину разности между переменными или класте-рами на каждом шаге процесса. Поскольку Сосульчатая диаграмма лишь дублирует информацию других разделов, а ее вид оставляет желать лучшего, мы откажемся от ее вывода. Для этого в группе Сосульчатая диаграмма достаточно установить переключатель Нет.

Щелчок на кнопке Метод в окне Иерархический кластерный анализ открывает диа-логовое окно Иерархический кластерный анализ: Метод, показанное на рис. 21.4.

13. этом окне для нас представляют интерес раскрывающиеся списки Метод, Мера: Интервальная и Стандартизация. Мы опишем лишь наиболее важные пункты этих списков и кратко упомянем остальные. Более детальные описания вы можете най-ти самостоятельно в руководстве пользователя SPSS.

14. списке Метод наиболее часто используется пункт Межгрупповые связи. Суть ме-тода заключается в том, что объединению на каждом шаге подвергаются кластеры

Пошаговые алгоритмы вычислений

или объекты, расстояние между которыми минимально. Более полное описание межгруппового связывания можно найти в разделе «Представление результатов».

Рис. 21.4.Диалоговое окно Иерархический кластерный анализ:Метод

Помимо пункта Межгрупповые связи раскрывающийся список Метод содержит сле-дующие пункты:

ff Внутригрупповые связи

ff Ближайший сосед;

ff Дальний сосед;

ff Центроидная кластеризация;

ff Медианная кластеризация;

ff Метод Варда.

15. раскрывающемся списке Интервальная по умолчанию выбран пункт Квадрат рас-стояния Евклида. Это означает, что расстояние между объектами вычисляется как разность квадратов соответствующих переменных этих объектов, участвующих в анализе. Остальные пункты списка Интервальная:

ff Косинус — метод измерения близости, основанный на косинусах векторов зна-чений;

ff Корреляция Пирсона — метод измерения близости, основанный на корреляции векторов значений;

ff Чебышев — вычисление расстояния как максимума абсолютной величины раз-ности между элементами;

306 Глава 21.Кластерный анализ

ff Блок — определяет меру расстояния по метрике города (см. главу 23); ff Минковского — определяет меру расстояния Минковского (см. главу 23); ff Настроенная — позволяет задавать пользовательскую меру расстояния.

Процедура стандартизации выбирается в раскрывающемся списке Стандартизация. По умолчанию выбран пункт Нет, однако в случаях, когда переменные представ-лены в разных шкалах (единицах измерения) стандартизация необходима, и чаще всего выбирают пункт z-значения. Оставшиеся пункты, в которых допускается ва-рьирование среднего значения или стандартного отклонения распределения, могут привести к другим результатам; выбор какого-либо из них определяется степенью его применимости к исследуемым данным и удобством для исследователя.

в группе Преобразовать значения по умолчанию установлен переключатель По переменным, и в большинстве случаев менять его на альтернативный (По наблюде-ниям) нет необходимости.

в группе Мера преобразования имеются три флажка, позволяющих изменить зна-чения переменных: Взять модуль, Сменить знак и Привести к 0–1.

Последняя из четырех функциональных кнопок окна Иерархический кластерный анализ — кнопка Сохранить — открывает диалоговое окно Иерархический кластер-ный анализ: Сохранить, показанное на рис. 21.5. С помощью этого окна можно со здавать новые переменные, значения которых будут указывать принадлежность наблюдений кластерам.

Рис. 21.5.Диалоговое окно Иерархический кластерный анализ:Сохранить

Если установлен переключатель Нет, никакого сохранения в процессе анализа не производится. Иначе при выполнении анализа будут созданы переменные, которые окажутся в конце файла. Если поставить переключатель в Одно решение и указать

В поле число 3, то получим новую переменную, значение которой равно 1, 2 или

3 в зависимости от того, какому кластеру будет принадлежать соответствующий объект в решении. Если же установить переключатель Диапазон решений, в поле

Минимальное число кластеров указать число 3, а в поле Максимальное число кла-

стеров — число 5, это приведет к созданию трех новых переменных: первая будет принимать значения от 1 до 3, вторая — от 1 до 4, третья — от 1 до 5.

Пошаговые алгоритмы вычислений

и следующем примере проводится кластерный анализ с несколькими допол-нительными параметрами, обсуждавшимися выше. В качестве идентификатора используется переменная марка. Все остальные переменные файла задействуются для вычисления расстояния между объектами. Мы включим в выводимые резуль-таты последовательность слияния и дендрограмму, но исключим диаграмму на-копления. Значения всех переменных нормализуем для того, чтобы придать им равные веса и привести к одной шкале. В качестве расстояния между объектами зададим квадрат Евклидова расстояния, а в качестве метода кластеризации — меж-групповое связывание. Кроме того, мы создадим новую переменную, в которой сохраним решение с тремя кластерами.

Шаг 5 После выполнения шага 4 должно быть открыто диалоговое окно Ие-рархический кластерный анализ, показанное на рис. 21.1. Если вы уже успели поработать с этим окном, щелкните на кнопке Сброс.

и Щелкните сначала на переменной марка, а затем — на нижней кноп-ке со стрелкой, чтобы переместить переменную в поле Метить зна-

чениями.

и Щелкните сначала на переменной цена и, нажав на клавиатуре кнопку Shift, щелкните на переменной пробег. В результате окажут-ся выделенными все оставшиеся в списке переменные.

и Щелкните на верхней кнопке со стрелкой, чтобы переместить вы-деленные переменные в список Переменные.

и Щелкните на кнопке Графики, чтобы открыть диалоговое окно

Иерархический кластерный анализ: Графики, показанное на рис. 21.3.

и Установите флажок Дендограмма и переключатель Нет в группе Со-

сульчатая диаграмма. Щелкните на кнопке Продолжить, чтобы вер-нуться в диалоговое окно Иерархический кластерный анализ.

и Щелкните на кнопке Метод, чтобы открыть диалоговое окно Иерар-

хический кластерный анализ: Метод, показанное на рис. 21.4.

и В списке Метод оставьте выбранным пункт Межгрупповые связи, в списке Стандартизация выберите пункт z-значения и щелкните на кнопке Продолжить, чтобы вернуться в диалоговое окно Иерархиче-

ский кластерный анализ.

и Щелкните на кнопке Сохранить, чтобы открыть диалоговое окно Иерар хический кластерный анализ: Сохранить, показанное на рис. 21.5.

и Установите переключатель Одно решение, введите в расположенное рядом поле значение 3 и щелкните на кнопке Продолжить, чтобы вернуться в Иерархический кластерный анализ.

Щелкните на кнопке OK, чтобы открыть окно вывода.

В следующем примере проводится кластерный анализ, в котором вместо объек-тов участвуют переменные. Мы используем данные файла TestIQ.sav, содержащего 11 переменных и1, ..., и11. Обратите внимание на следующее обстоятельство. Обыч-но при группировании переменных исследователя интересует их взаимосвязь, а не их различие (сходство), как при группировании объектов. Исключением является

308 Глава 21.Кластерный анализ

случай, когда данные представляют собой оценки объектов экспертами — тогда строки соответствуют экспертам, а столбцы оцениваемым объектам. Поскольку

в нашем примере интерес представляют именно взаимосвязи между переменными, и мы хотим сравнить результаты с факторным анализом, то в качестве меры близо-сти целесообразно выбрать корреляцию. При этом корреляции надо учитывать по абсолютной величине, так как большие (по модулю) отрицательные их величины так же свидетельствуют о связи, как и большие положительные. Все это необхо-димо иметь в виду, если речь идет о кластеризации переменных. Большинство остальных параметров команды оставим установленными по умолчанию; даже

в стандартизации в данном случае нет необходимости, так как на величину корре-ляции не влияют единицы измерения переменных. Добавим лишь дендрограмму

в выводимые результаты и исключим оттуда сосульчатую диаграмму. Обратите внимание, поскольку для выполнения анализа необходим файл TestIQ.sav, а не cars. sav, который использовался в предыдущем примере, мы начинаем с шага 3а.

Шаг 3а Откройте файл данных, с которым вы намерены работать (в нашем слу-чае — это файл TestIQ.sav). Если он расположен в текущей папке, то вы-полните следующие действия.

В Выберите в меню Файл команду Открыть Данные или щелкните на кнопке Открыть файл данных панели инструментов.

В В открывшемся диалоговом окне дважды щелкните на имени TestIQ. sav или введите его с клавиатуры и щелкните на кнопке OK.

Шаг 4а В меню Анализ выберите команду Классификация Иерархическая кла-стеризация. Откроется диалоговое окно Иерархический кластерный ана-лиз, показанное на рис. 21.1.

Шаг 5а После выполнения предыдущего шага должно быть открыто диалоговое окно Иерархический кластерный анализ. Если вы уже успели поработать с этим окном, щелкните на кнопке Сброс.

11. В группе Кластеризовать установите переключатель Переменные.

12. Нажмите кнопку мыши на переменной и1 и, не отпуская кнопки, пере-тащите указатель на переменную и11, затем кнопку мыши отпустите. В результате окажутся выделенными все 11 переменных и1, и2, ..., и11.

13. Щелкните на верхней кнопке со стрелкой, чтобы переместить вы-деленные переменные в список Переменные.

14. Щелкните на кнопке Графики, чтобы открыть диалоговое окно Иерар хический кластерный анализ: Графики, показанное на рис. 21.3.

15. Установите флажок Дендограмма и переключатель Нет в группе Со-

16. Щелкните на кнопке Метод, чтобы открыть диалоговое окно Иерар-

хический кластерный анализ: Метод, показанное на рис. 21.4.

Представление результатов

11. В ниспадающем списке Интервальная выберите пункт Корреляция Пирсона, а в группе Мера преобразований установите флажок Взять модуль. Щелкните на кнопке Продолжить, чтобы вернуться в диало-говое окно Иерархический кластерный анализ.

12. Щелкните на кнопке OK, чтобы открыть окно вывода.

Эта процедура реализует кластерный анализ 11-ти показателей теста интеллекта.

В выводимые данные включается такая информации о переменных, как число на-блюдений, число пропущенных значений и т. п. Затем выводятся шаги агломе-рации (объединения в кластеры) и горизонтальная дендрограмма. Рекомендуем сравнить полученные результаты с результатами факторного анализа в главе 20.

После выполнения шага 5 (5а) программа автоматически откроет окно вывода. Для просмотра результатов при необходимости можно воспользоваться вертикальной

В горизонтальной полосами прокрутки. Обратите внимание на стандартную стро-ку меню в верхней части окна вывода: ее присутствие позволяет выполнять любые статистические операции, не переключаясь обратно в окно редактора данных.

9 следующем примере кластерный анализ проводится с применением языка Син-таксис.

Шаг 3Б Создайте файл Синтаксис, как это описано в разделе «Кластерный ана-лиз матрицы различий (сходства)» в этой главе, или откройте файл примера Synt_Clust.sps. Если он расположен в текущей папке, то выпол-ните следующие действия.

и Выберите в меню Файл команду Открыть Синтаксис.

и В открывшемся диалоговом окне дважды щелкните на имени Synt_ Clust.sps. Откроется редактор синтаксиса с текстом команд.

и Выберите в меню команду Запуск Все.

После выполнения шага 3б будет создан и открыт новый файл данных, содержа-щий матрицу 8 × 8 попарных различий 8 объектов. Кроме того, будет открыто окно вывода, содержащее результаты кластерного анализа этих 8 объектов мето-дом средней связи (между группами). В окне редактора данных вы можете заме-нить представленную матрицу своими данными и выполнить кластерный анализ, отредактировав открытое окно редактора синтаксиса. Для этого надо просто уда-лить все строки с начала до строки CLUSTER и запустить команду Запуск Все.

2018-06-29

496

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 54 55 56 57 585960 61 62 63 Следующая ⇒

Обсуждение в статье: Пошаговые алгоритмы вычислений

Обсуждений еще не было, будьте первым... ↓↓↓