Мегаобучалка Главная | О нас | Обратная связь


Основные способы определения центроидов.



2020-03-19 142 Обсуждений (0)
Основные способы определения центроидов. 0.00 из 5.00 0 оценок




1. Логический профиль (обозначается Р1).

Заданы вектора документов в следующем виде:

VDi = (d1 , d2 , d3 , … , dt), где t – число индексационных терминов, выделенных во всех документах нашего массива. Тогда логический профиль определяется как результат с логической “или”:

Р1 = VD1 v VD2 v VD3 v …

1, если термин tk входит в вектор документа Di;

dk (k = 1,t) = 0, в противном случае.

2.Профиль частотного документа (Р2).

Исходные данные также вектора документов. Исходная информация задана прошлой матрицей, а в формуле используются не логическое сложение, а арифметическое:

3.Профиль частотности термина (Р3).

Здесь используются веса терминов в документах:

VDi = (w1 , w2 , w3 , … , wt), где wi – веса терминов входящих в вектор документа VDi.

В вычислении Р3 участвуют веса.

Р3 (k = 1,t) = сумм(j = 1,N) wik , где j – порядковый номер документа;    N – число документов кластера; t – число индексационных терминов в массиве; k – порядковый номер термина.

Логический способ определения центроидов.

Логический профиль (обозначается Р1).

Заданы вектора документов в следующем виде:

VDi = (d1 , d2 , d3 , … , dt), где t – число индексационных терминов, выделенных во всех документах нашего массива. Тогда логический профиль определяется как результат с логической “или”:

Р1 = VD1 v VD2 v VD3 v …

1, если термин tk входит в вектор документа Di;

dk (k = 1,t) = 0, в противном случае.

Профиль частотности документа.

Исходные данные также вектора документов. Исходная информация задана матрицей, а в формуле используются не логическое сложение, а арифметическое:

Профиль частотности термина.

Здесь используются веса терминов в документах:

VDi = (w1 , w2 , w3 , … , wt), где wi – веса терминов входящих в вектор документа VDi.

В вычислении Р3 участвуют веса.

Р3 (k = 1,t) = сумм(j = 1,N) wik , где j – порядковый номер документа;      N – число документов кластера; t – число индексационных терминов в массиве; k – порядковый номер термина.

Вопрос 28(окончание).

Dp+1), если существуют пары: (Di , Dp+1) , (Dj , Dp+1) , … , (Dp , Dp+1).

Алгоритм заканчивается, когда дальнейшее слияние невозможно.

Недостаток метода: образуется большое число кластеров.

Метод одной связи.

Здесь классы представляются документами, между которыми установлены отношения подобия, которые подчиняются следующему требованию: между двумя документами устанавливается связь при выполнении одного из следующих условий: существуют Di , Dj,

S(Di , Dk) , S(Dk , Dj);

S(Di , Dk) , S(Dk , Dm) , S(Dm , Dj);

Самое сильное требование: S(Di , Dk) – если в матрице подобия уже существует подобие.

Если одно из условий выполняется, то документы в одном классе.

Кластеризация вокруг выборочных документов.

Вместо построения матрицы подобия используют плотность пространства некоторых документов. В качестве возможных центров кластера выступают те документы, которые по результатам расчётов оказались расположенными в плотных зонах пространства. Все документы в данном методе делятся на 3 класса:

Документы, уже включённые в кластеры;

Документы, ещё не подвергшиеся исследованию(не включенные в кластеры);

Свободные документы. Те документы, относительно которых делалась попытка включения в кластер, но она закончилась неудачей.

Берём документ, пробуем включить его в кластер. Если не получается, то заносим его в множество свободных документов. Далее из свободного множества пытаемся подключить документы к кластеру.

Алгоритм:

Выбирается очередной, не включённый в кластеры документ и считается возможным центром кластера;

Рассчитываются коэффициенты подобия между этим документом, документами свободного типа и документами, не включёнными в классы;

Плотность считается достаточной, если:

существует по меньшей мере n1 документов, коэффициенты подобия которых по отношению к выбранному документу превышает некоторое пороговое значение T1;

Существует по крайней мере n2 документов, коэффициенты подобия (КП) которых, по отношению к исследуемому документу превышают пороговое значение T2;

Если между n2 и T2 существует некоторое соотношение: n2>=n1; T2<=T1, тогда считается, что выбранный документ - “центр массы”, вокруг которого собраны другие документы. Если плотность недостаточна (если одно из условий не выполняется), то документ относят к свободным и аналогичным образом исследуют следующий документ из множества не включенных в кластеры. Если плотность достаточна, то формируют кластер, включающий все свободные документы и не включённые ранее в кластеры документы, для которых КП с исследуемым документом не меньше порогового значения T3. Для нового кластера строится вектор центроида, и все документы, включённые в этот кластер и те, которые включены в остальные кластеры сопоставляются с данным центроидом. Это сопоставление служит для отнесения каждого документа к одной из следующих категорий:

Вопрос 33(окончание).

Фиксированная адаптация. При этом пользователь сам явно выбирает свой уровень подготовки;

Полная адаптивность. Здесь диалоговая система строит модель пользователя, которая меняется автоматически по ходу работы системы.

Косметическая. Занимает промежуточное место между фиксированной полной и достигается использованием специальных приёмов:

Приём использования сокращений (md – mkdir , cd – chdir , *.bak);

Синонимы – пользователь выбирает то, что ему ближе;

Использование объектов по умолчанию и макросы.



2020-03-19 142 Обсуждений (0)
Основные способы определения центроидов. 0.00 из 5.00 0 оценок









Обсуждение в статье: Основные способы определения центроидов.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (142)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.006 сек.)