Мегаобучалка Главная | О нас | Обратная связь


Этапы кластерного анализа



2018-06-29 805 Обсуждений (0)
Этапы кластерного анализа 0.00 из 5.00 0 оценок




 

Кластерный анализ выполняется в несколько этапов, приводящих к конечному ре-зультату. Сначала мы рассмотрим пример, созданный специально, чтобы показать суть кластерного анализа. Отметим, что кластерный анализ неприменим к файлам данных, использовавшимся ранее, поскольку при их составлении основное внима-ние было уделено смыслу и связям между переменными, а содержимое объектов (то есть информация, касающаяся субъектов) практически не играло роли. Для де-монстрации кластерного анализа нами был подготовлен файл cars.sav, содержащий гипотетические данные о 15 подержанных автомобилях разных марок, выставлен-ных на продажу. Файл имеет структуру, подходящую для наглядной иллюстрации кластерного анализа.

 

Итак, выделяют несколько этапов кластерного анализа.

 

В Выбор переменных-критериев для кластеризации. В нашем примере класте-ризация будет осуществляться по следующим переменным: цена (стоимость), т_сост (экспертная оценка технического состояния по 10-балльной шкале), воз-раст (количество лет эксплуатации), пробег (пройденный километраж с начала эксплуатации).

 

В Выбор способа измерения расстояния между объектами, или кластерами (из-начально считается, что каждый объект соответствует одному кластеру). По умолчанию используется квадрат Евклидова расстояния, согласно которому расстояние между объектами равно сумме квадратов разностей между значе-


Этапы кластерного анализа

 

ниями одноименных переменных объектов. Предположим, что марка автомо-биля A имеет показатели технического состояния и возраста 5 и 6, а марка B — соответственно 7 и 4. Тогда по этим двум переменным (координатам) расстояние между марками А и В вычисляется следующим образом: (5 – 7)2 +

 

и (6 – 4)2 = 8. При выполнении анализа сумма квадратов разностей вычисля-ется для всех переменных. Получаемые расстояния используются программой при формировании кластеров. Помимо Евклидова существуют и другие виды расстояний, вычисляемые по другим формулам, однако мы не будем на них останавливаться. При необходимости обратитесь к руководству пользователя SPSS.

 

Относительно вычисления расстояния может возникнуть следующий вопрос: будет ли адекватным результат кластерного анализа в том случае, если пере-менные имеют различные шкалы измерения? Так, все переменные файла cars. sav имеют самые разные шкалы. Для решения проблемы шкалирования в SPSS используется стандартизация, в частности ее простой метод — нормализация переменных, приводящая все переменные к стандартной z-шкале (среднее рав-но 0, стандартное отклонение — 1). При нормализации всех переменных при проведении кластерного их веса становятся одинаковыми. В случае если все исходные данные имеют одну и ту же шкалу измерения либо веса переменных по смыслу должны быть разными, стандартизацию переменных проводить не нужно.

 

в Формирование кластеров. Существует два основных метода формированиякластеров: метод слияния и метод дробления. В первом случае исходные кла-стеры увеличиваются путем объединения до тех пор, пока не будет сформиро-ван единственный кластер, содержащий все данные. Метод дробления основан на обратной операции: сначала все данные объединяются в один кластер, ко-торый затем делится на части до тех пор, пока не будет достигнут желаемый результат. По умолчанию программой SPSS используется метод слияния, и мы рассмотрим его в этой главе.

 

В методе слияния предусмотрены несколько способов объединения объектов. Способ, применяемый по умолчанию, называется межгрупповым связыванием, или связыванием средних внутри групп. SPSS вычисляет наименьшее среднее значение расстояния между всеми парами групп и объединяет две группы, оказавшиеся наиболее близкими. На первом шаге, когда все кластеры пред-ставляют собой одиночные объекты, данная операция сводится к обычному попарному сравнению расстояний между объектами. Термин «среднее значе-ние» приобретает смысл лишь на втором этапе, когда сформированы кластеры, содержащие более одного объекта. Так, в нашем примере на начальном этапе имеется 15 кластеров (объектов); сначала в кластер объединяются два объекта с наименьшим расстоянием друг от друга. Затем подсчет расстояний повторя-ется, и в кластер объединяется еще одна пара переменных. На втором этапе вы получите либо 13 свободных объектов и один кластер, объединяющий 2 объек-та, либо 11 свободных объектов и 2 кластера по 2 объекта в каждом. В конечном счете, все объекты окажутся в одном большом кластере. Существуют и другие


300 Глава 21.Кластерный анализ

 

 

методы объединения объектов, однако мы не станем рассматривать их в этой книге. При необходимости обратитесь к руководству пользователя SPSS.

 

в Интерпретация результатов. Как и в случае факторного анализа, желаемоечисло кластеров и оценка результатов анализа зависят от целей исследователя. Для рассматриваемого примера нам представляется наиболее предпочтитель-ным число кластеров, равное 3. Как показывает анализ, все марки можно разде-лить на 3 группы: первая группа имеет высокую стоимость (среднее значение — 15 230), небольшой срок эксплуатации (4 года) и средний пробег (85 400 км). Вторая группа имеет среднюю стоимость, небольшой пробег, наибольший воз-раст, но хорошее техническое состояние. Третья группа содержит недорогие модели с большим пробегом и невысоким рейтингом технического состояния.

 



2018-06-29 805 Обсуждений (0)
Этапы кластерного анализа 0.00 из 5.00 0 оценок









Обсуждение в статье: Этапы кластерного анализа

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (805)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.007 сек.)