Мегаобучалка Главная | О нас | Обратная связь


Общие сведения о кластерном анализе. Понятие, преимущества



2020-02-03 190 Обсуждений (0)
Общие сведения о кластерном анализе. Понятие, преимущества 0.00 из 5.00 0 оценок




Кластерный анализ - совокупность математических методов, предназначенных для формирования относительно "отдаленных" друг от друга групп "близких" между собой объектов по информации о расстояниях или связях (мерах близости) между ними.

Термин кластерный анализ, впервые был введен Трионом в 1939 году. Фактически, кластерный анализ является не столько обычным статистическим методом, сколько "набором" различных алгоритмов "распределения объектов по кластерам", т.е. включает в себя более 100 различных алгоритмов классификации.

Во многих отраслях науки перед исследователями постоянно встает вопрос о том, как организовать наблюдаемые данные в наглядные структуры, т.е. развернуть таксономии (группы, классы). Таким образом, в многомерном статистическом анализе кластерный анализ занимает особое место.

Кластерный анализ, в отличие от других статистических методов, имеет несколько преимуществ:

1. с помощью кластерного анализа задачи распознавания образов решаются простыми и логичными методами, причем алгоритмы этих решений легко формализуются в компьютерные программы;

2. в кластерном анализе существуют методы комплексного изучения показателей различных типов данных (интервальных данных, частот, бинарных данных), при этом, не накладываются ограничения на представление исследуемых объектов;

3. простота и доступность процедур кластерных методов распознавания образов позволяет сосредоточить внимание исследователя на содержании сложных многофакторных объектов;

4. методы кластерного анализа позволяют накапливать знания с помощью информации, полученной в результате каждого эксперимента (измерения), выполненного в ходе использования кластерной модели. При этом характеристики кластеров могут корректироваться этими новыми знаниями, благодаря чему идет их накопление на каждой итерации (повторении).

Помимо всего этого, кластерный анализ позволяет сокращать размерность данных, делать ее наглядной; так же может применяться к совокупностям временных рядов, здесь могут выделяться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой.

Сочетание таких характеристик делает аппарат кластерного анализа незаменимым инструментом в задачах управления, классификации, оптимизации и прогноза промышленных, экономических и социальных систем.

Существенно затрудняет работу при использовании кластерного анализа лишь то, что развивался он параллельно сразу в нескольких направлениях, таких как психология, биология и др., поэтому у большинства методов существует по два и более названий.

Техника кластеризации применяется в самых разнообразных областях. Например, в области медицины кластеризация заболеваний, лечения заболеваний или симптомов заболеваний - широко используемые таксономии. В археологии с помощью кластерного анализа исследователи пытаются установить таксономии каменных орудий, похоронных объектов и т.д. Так же широкое применение кластерного анализа присутствует в маркетинговых исследованиях в истории, географии, экономике, филологии, искусствоведении,

Задача кластеризации

Задача кластерного анализа состоит в разбиении неоднородного множества, состоящего из каких-либо элементов, имеющих сходные измерения, на группу подмножеств, каждое из которых признается условно однородным. При этом основополагающую роль играет изучение различий между элементами множества, разными объектами, подмножествами, множествами.

На основе функций близости (схожести) элементов возможно несколько способов решения задач классификации:

1. Исследователь может задать заранее известные ему характеристики исследуемых множеств или кластеров и после этого сформировать граничные условия этих кластеров, обозначив их контуры и целевые функции. Далее каждый элемент исходного неоднородного множества проверяется на близость каждому кластеру и в результате присоединяется к одному из них. Однако интуитивное определение кластеров не совсем корректно, так как объекты зачастую имеют большое количество взаимозависимых функций, в результате чего часть обозначенных первоначально кластеров может оказаться пустыми или же возможна неоднородность большинства характеристик внутри кластера.

2. Кластеры могут быть определены в автоматическом режиме в процессе нейтрального изучения функций расстояния. В этом случае рассматриваются некоторые сгущения объектов, проводятся границы между получившимися сгущениями, и, таким образом, определяются кластеры. Полученные в автоматическом режиме кластеры анонимны, не изучены и требуют определения наиболее существенных характеристик кластеров в процессе разделения исходного множества.

3. Исследователь может задать определенные критерии оптимальности, исходя из которых, решением задачи кластерного анализа может быть некоторая структура групп. Эти критерии, заданные целевыми функциями, определяют содержание кластеров, их характеристики, количество групп и факторов управления. В качестве целевой функции можно принять максимальную плотность элементов внутри групп или минимум отклонений от ядра группы, т. е. наименьшее расхождение характеристик.

Для решения задач кластерного анализа необходимо количественно определить меру сходства, подобия и различия объектов исследования. Эта мера в кластерном анализе называется функцией расстояния и определяется не только для объектов, имеющих естественные количественные характеристики, но и для тех объектов, параметры которых носят качественный характер.

 

 

Понятие кластера

Само название метода – кластерный анализ – этимологически берет начало от слов «класс», «классификация». Английское слово «the cluster» имеет значения: группа, пучок, куст, гроздь, т.е. объединение каких-то однородных явлений. В данном контексте оно близко к математическом понятию «множество». Кластер представляет собой множество условно однородных (схожих) элементов (объектов). Степень однородности (сходства) может быть различной и определяется целями классификации.

Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера.

Центр кластера - это среднее геометрическое место точек в пространстве переменных. Кластеры могут быть перекрывающимися. В этом случае невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров. Такие объекты называют спорными. Спорный объект - это объект, который по мере сходства может быть отнесен к нескольким кластерам.

Радиус кластера - максимальное расстояние точек от центра кластера.

Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным. Неоднозначность данной задачи может быть устранена экспертом или аналитиком.

Каждая единица совокупности в кластерном анализе рассматривается как точка в заданном признаковом пространстве. Значение каждого из признаков у данной единицы служит ее координатой в этом пространстве по аналогии с координатами точки в нашем реальном трехмерном пространстве. Таким образом, признаковое пространство – это область варьирования всех признаков совокупности изучаемых явлений.

 



2020-02-03 190 Обсуждений (0)
Общие сведения о кластерном анализе. Понятие, преимущества 0.00 из 5.00 0 оценок









Обсуждение в статье: Общие сведения о кластерном анализе. Понятие, преимущества

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение...
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (190)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.007 сек.)