Этапы кластерного анализа

2018-06-29

849

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 52 53 54 55 565758 59 60 61 Следующая ⇒

Кластерный анализ выполняется в несколько этапов, приводящих к конечному ре-зультату. Сначала мы рассмотрим пример, созданный специально, чтобы показать суть кластерного анализа. Отметим, что кластерный анализ неприменим к файлам данных, использовавшимся ранее, поскольку при их составлении основное внима-ние было уделено смыслу и связям между переменными, а содержимое объектов (то есть информация, касающаяся субъектов) практически не играло роли. Для де-монстрации кластерного анализа нами был подготовлен файл cars.sav, содержащий гипотетические данные о 15 подержанных автомобилях разных марок, выставлен-ных на продажу. Файл имеет структуру, подходящую для наглядной иллюстрации кластерного анализа.

Итак, выделяют несколько этапов кластерного анализа.

В Выбор переменных-критериев для кластеризации. В нашем примере класте-ризация будет осуществляться по следующим переменным: цена (стоимость), т_сост (экспертная оценка технического состояния по 10-балльной шкале), воз-раст (количество лет эксплуатации), пробег (пройденный километраж с начала эксплуатации).

В Выбор способа измерения расстояния между объектами, или кластерами (из-начально считается, что каждый объект соответствует одному кластеру). По умолчанию используется квадрат Евклидова расстояния, согласно которому расстояние между объектами равно сумме квадратов разностей между значе-

Этапы кластерного анализа

ниями одноименных переменных объектов. Предположим, что марка автомо-биля A имеет показатели технического состояния и возраста 5 и 6, а марка B — соответственно 7 и 4. Тогда по этим двум переменным (координатам) расстояние между марками А и В вычисляется следующим образом: (5 – 7)2 +

и (6 – 4)2 = 8. При выполнении анализа сумма квадратов разностей вычисля-ется для всех переменных. Получаемые расстояния используются программой при формировании кластеров. Помимо Евклидова существуют и другие виды расстояний, вычисляемые по другим формулам, однако мы не будем на них останавливаться. При необходимости обратитесь к руководству пользователя SPSS.

Относительно вычисления расстояния может возникнуть следующий вопрос: будет ли адекватным результат кластерного анализа в том случае, если пере-менные имеют различные шкалы измерения? Так, все переменные файла cars. sav имеют самые разные шкалы. Для решения проблемы шкалирования в SPSS используется стандартизация, в частности ее простой метод — нормализация переменных, приводящая все переменные к стандартной z-шкале (среднее рав-но 0, стандартное отклонение — 1). При нормализации всех переменных при проведении кластерного их веса становятся одинаковыми. В случае если все исходные данные имеют одну и ту же шкалу измерения либо веса переменных по смыслу должны быть разными, стандартизацию переменных проводить не нужно.

в Формирование кластеров. Существует два основных метода формированиякластеров: метод слияния и метод дробления. В первом случае исходные кла-стеры увеличиваются путем объединения до тех пор, пока не будет сформиро-ван единственный кластер, содержащий все данные. Метод дробления основан на обратной операции: сначала все данные объединяются в один кластер, ко-торый затем делится на части до тех пор, пока не будет достигнут желаемый результат. По умолчанию программой SPSS используется метод слияния, и мы рассмотрим его в этой главе.

В методе слияния предусмотрены несколько способов объединения объектов. Способ, применяемый по умолчанию, называется межгрупповым связыванием, или связыванием средних внутри групп. SPSS вычисляет наименьшее среднее значение расстояния между всеми парами групп и объединяет две группы, оказавшиеся наиболее близкими. На первом шаге, когда все кластеры пред-ставляют собой одиночные объекты, данная операция сводится к обычному попарному сравнению расстояний между объектами. Термин «среднее значе-ние» приобретает смысл лишь на втором этапе, когда сформированы кластеры, содержащие более одного объекта. Так, в нашем примере на начальном этапе имеется 15 кластеров (объектов); сначала в кластер объединяются два объекта с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторя-ется, и в кластер объединяется еще одна пара переменных. На втором этапе вы получите либо 13 свободных объектов и один кластер, объединяющий 2 объек-та, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В конечном счете, все объекты окажутся в одном большом кластере. Существуют и другие

300 Глава 21.Кластерный анализ

методы объединения объектов, однако мы не станем рассматривать их в этой книге. При необходимости обратитесь к руководству пользователя SPSS.

в Интерпретация результатов. Как и в случае факторного анализа, желаемоечисло кластеров и оценка результатов анализа зависят от целей исследователя. Для рассматриваемого примера нам представляется наиболее предпочтитель-ным число кластеров, равное 3. Как показывает анализ, все марки можно разде-лить на 3 группы: первая группа имеет высокую стоимость (среднее значение — 15 230), небольшой срок эксплуатации (4 года) и средний пробег (85 400 км). Вторая группа имеет среднюю стоимость, небольшой пробег, наибольший воз-раст, но хорошее техническое состояние. Третья группа содержит недорогие модели с большим пробегом и невысоким рейтингом технического состояния.

2018-06-29

849

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 52 53 54 55 565758 59 60 61 Следующая ⇒

Обсуждение в статье: Этапы кластерного анализа

Обсуждений еще не было, будьте первым... ↓↓↓