Стратегии кластеризации
Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояние между кластерами определяется по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором – между наиболее удаленными друг от друга. Аггломеративные стратегии позволяют строить дендрограмму классификации в ходе иерархического процесса объединения кластеров: - стратегия ближайшего соседа очень сильно сжимает пространство исходных переменных и рекомендуется для получения минимального дерева взамен групповой классификации; - стратегия дальнего соседа сильно растягивает пространство; - стратегия группового соседа сохраняет метрику пространства; - гибкая стратеги универсальна и зависит от значения коэффициента бета, ввод которого запрашивается при выборе этой стратегии (бета должно быть меньше 1): при бета=0 метрика не меняется, при бета>0 пространство сжимается, а при бета<0 - растягивается; - метод Уорда минимизирует внутрикластерный разброс объектов и дендрограмма получается с глубоко, "гипертрофированно" разделенными кластерами. - Дивизивная стратегия динамических сгущений позволяет сгруппировать объекты в заданное число кластеров. Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга. На первом шаге алгоритма каждое наблюдение zi (i = 1,2,…, n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединением двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.
Пример Провести классификацию пяти предприятий, каждое из которых характеризуется следующими экономическими показателями: x1 - прибыль от реализации x2 - удельный вес продукции высшей категории качества x3 - выработка товарной продукции на одного работника ППП, x4 – среднегодовая стоимость основных производственных фондов.
Таблица 5.5.1. Значение основных экономических показателей.
Решение: Для устранения различия в единицах измерения показателей нормируем их. В результате расчетов по программе получаем матрицу нормированных исходных данных
;
А также среди значений показателей x1, x2, x3, x4 и их средние квадратические отклонения: x1 = 4,0366 s1 = 2.0088277 x2 = 48,2444 s2 = 25.187455 x3 = 3,2294 s3 = 1.0560776 x4 = 11,3092 s4 = 7.2609854
В качестве расстояния между объектами возьмем взвешенное евклидово расстояние, причем «веса» wl зададим пропорционально степени важности экономического показателя: w1 = 0.4; w2 = 0.3; w3 = 0.2; w4 = 0.1. Получаем матрицу расстояний между всеми пятью предприятиями:
;
Из матрицы следует, что объекты 2 и 4 наиболее близки и поэтому объединяются в один кластер. После объединения имеем 4 кластера.
Номер кластера 1 2 3 4 __________________ Состав кластера (1) (2,4) (3) (5)
Расстояние между кластерами будем находить по принципу «ближайшего соседа». За расстояние между кластерами S1 и S(2,4) берем минимальное из расстояний и . Аналогично находим расстояния между S3, S5 и S(2,4) , которые соответственно равны: и Расстояние между остальными кластерами остается без изменения. Таким образом, получаем матрицу расстояний ;
Из матрицы следует, что кластеры S3 S5 наиболее близки и поэтому объединяются в новй кластер S(3,5). После объединения будем иметь три кластера S1, S(2,4) и S(3,5) . Расстояние между новым кластером S(3,5) и кластерами S1, S(2,4) соответственно равны: меньше и . Матрица расстояний имеет следующий вид:
;
Из этой матрицы следует, что кластеры S1и S(2,4) объединяются в новый кластер S(1,2,4), так как расстояние между ними минимально . Тогда получим матрицу расстояний
.
Таким образом, на расстояние два кластера и объединяются в один. Задание. Проведите кластерный анализ.
Популярное: Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы... Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (776)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |