Основные способы определения центроидов.
1. Логический профиль (обозначается Р1). Заданы вектора документов в следующем виде: VDi = (d1 , d2 , d3 , … , dt), где t – число индексационных терминов, выделенных во всех документах нашего массива. Тогда логический профиль определяется как результат с логической “или”: Р1 = VD1 v VD2 v VD3 v … 1, если термин tk входит в вектор документа Di; dk (k = 1,t) = 0, в противном случае. 2.Профиль частотного документа (Р2). Исходные данные также вектора документов. Исходная информация задана прошлой матрицей, а в формуле используются не логическое сложение, а арифметическое: 3.Профиль частотности термина (Р3). Здесь используются веса терминов в документах: VDi = (w1 , w2 , w3 , … , wt), где wi – веса терминов входящих в вектор документа VDi. В вычислении Р3 участвуют веса. Р3 (k = 1,t) = сумм(j = 1,N) wik , где j – порядковый номер документа; N – число документов кластера; t – число индексационных терминов в массиве; k – порядковый номер термина. Логический способ определения центроидов. Логический профиль (обозначается Р1). Заданы вектора документов в следующем виде: VDi = (d1 , d2 , d3 , … , dt), где t – число индексационных терминов, выделенных во всех документах нашего массива. Тогда логический профиль определяется как результат с логической “или”: Р1 = VD1 v VD2 v VD3 v … 1, если термин tk входит в вектор документа Di; dk (k = 1,t) = 0, в противном случае. Профиль частотности документа. Исходные данные также вектора документов. Исходная информация задана матрицей, а в формуле используются не логическое сложение, а арифметическое: Профиль частотности термина. Здесь используются веса терминов в документах: VDi = (w1 , w2 , w3 , … , wt), где wi – веса терминов входящих в вектор документа VDi. В вычислении Р3 участвуют веса. Р3 (k = 1,t) = сумм(j = 1,N) wik , где j – порядковый номер документа; N – число документов кластера; t – число индексационных терминов в массиве; k – порядковый номер термина. Вопрос 28(окончание). Dp+1), если существуют пары: (Di , Dp+1) , (Dj , Dp+1) , … , (Dp , Dp+1). Алгоритм заканчивается, когда дальнейшее слияние невозможно. Недостаток метода: образуется большое число кластеров. Метод одной связи. Здесь классы представляются документами, между которыми установлены отношения подобия, которые подчиняются следующему требованию: между двумя документами устанавливается связь при выполнении одного из следующих условий: существуют Di , Dj, S(Di , Dk) , S(Dk , Dj); S(Di , Dk) , S(Dk , Dm) , S(Dm , Dj); Самое сильное требование: S(Di , Dk) – если в матрице подобия уже существует подобие. Если одно из условий выполняется, то документы в одном классе. Кластеризация вокруг выборочных документов. Вместо построения матрицы подобия используют плотность пространства некоторых документов. В качестве возможных центров кластера выступают те документы, которые по результатам расчётов оказались расположенными в плотных зонах пространства. Все документы в данном методе делятся на 3 класса: Документы, уже включённые в кластеры; Документы, ещё не подвергшиеся исследованию(не включенные в кластеры); Свободные документы. Те документы, относительно которых делалась попытка включения в кластер, но она закончилась неудачей. Берём документ, пробуем включить его в кластер. Если не получается, то заносим его в множество свободных документов. Далее из свободного множества пытаемся подключить документы к кластеру. Алгоритм: Выбирается очередной, не включённый в кластеры документ и считается возможным центром кластера; Рассчитываются коэффициенты подобия между этим документом, документами свободного типа и документами, не включёнными в классы; Плотность считается достаточной, если: существует по меньшей мере n1 документов, коэффициенты подобия которых по отношению к выбранному документу превышает некоторое пороговое значение T1; Существует по крайней мере n2 документов, коэффициенты подобия (КП) которых, по отношению к исследуемому документу превышают пороговое значение T2; Если между n2 и T2 существует некоторое соотношение: n2>=n1; T2<=T1, тогда считается, что выбранный документ - “центр массы”, вокруг которого собраны другие документы. Если плотность недостаточна (если одно из условий не выполняется), то документ относят к свободным и аналогичным образом исследуют следующий документ из множества не включенных в кластеры. Если плотность достаточна, то формируют кластер, включающий все свободные документы и не включённые ранее в кластеры документы, для которых КП с исследуемым документом не меньше порогового значения T3. Для нового кластера строится вектор центроида, и все документы, включённые в этот кластер и те, которые включены в остальные кластеры сопоставляются с данным центроидом. Это сопоставление служит для отнесения каждого документа к одной из следующих категорий: Вопрос 33(окончание). Фиксированная адаптация. При этом пользователь сам явно выбирает свой уровень подготовки; Полная адаптивность. Здесь диалоговая система строит модель пользователя, которая меняется автоматически по ходу работы системы. Косметическая. Занимает промежуточное место между фиксированной полной и достигается использованием специальных приёмов: Приём использования сокращений (md – mkdir , cd – chdir , *.bak); Синонимы – пользователь выбирает то, что ему ближе; Использование объектов по умолчанию и макросы.
Популярное: Почему стероиды повышают давление?: Основных причин три... Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (142)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |