Вопрос 20. Методы снижения размерности многомерного признакового пространства

2015-11-10

1515

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 7 8 9 10 111213 14 15 16 Следующая ⇒

Снижение размерности дает следующие преимущества:

· Возможность визуализации данных при размерности k≤3.

· Сокращение числа параметров эконометрических моделей.

· Лучшая интерпретируемость результатов исследования.

· Выявление и анализ структуры изучаемого процесса или явлений.

· Сжатие массивов хранимой статистической информации.

Существует три основных действия, позволяющих уменьшить число факторов:

1. Устранение дублирующей информации при наличии сильно коррелированных признаков

2. Редукция слабоинформативных (маломеняющихся для различных объектов) признаков

3. Агрегирование (объединение) нескольких признаков в один.

Количественный данные – факторный анализ (МГК), корреляционный анализ.

Качественные данные – кластерный анализ.

Корреляционный анализ:Смотрим матрицу парных и частных корреляций. При наличии сильно коррелированных признаков, удаляем их по принципу общей логики.

Кластерный анализ.Если признаки не сопоставимы – стандартизируем их. Далее применяем методы кластерного анализа – строим дендрограмму. Признаки, для которых межклассовое расстояние мало, дублируют друг друга, удаляем один из них так же по принципу общей логики.

МГК позволяет: 1)сократить многомерность; 2) вскрыть причинно-следственные связи процесса.

Суть - выделить некоторое кол-во вспомогательных показателей или факторов {f1,…,fk}, k<<m, которые достаточно полно отражают процесс. Пример: реализация двумерной нормальнойСВ. Признаки, соответвующие двум осям, сильно положительно коррелированны. Поэтому объекты с большим значением первого признака, как правило, имеют большое значение второго признака. Если нужно описать объекты в одномерном пространстве, то целесообразно выбрать в качестве обобщающего признака (первой ГК) направление оси Р1, поскольку проекция объектов на эту ось ведет к минимальным потерям информации. Геометрически первая ГК является осью, для которой сумма квадратов расстояний от наблюдаемых объектов минимальна. Соответственно, сумма квадратов вдоль выбранной оси (дисперсия вдоль оси) максимальна. В двумерном случае вторая ось P2 определяется однозначно, как ортогональная к Р1. В случае большей размерности следующая главная компонента находится из тех же соображений минимизации расстояния (максимизации дисперсии) в подпространстве, ортогональном первой главной компоненте.

Математический метод нахождения главных осей заключается в вычислении собственных чисел и собственных векторов ковариационной матрицы S.

Если исходные признаки не сопоставимы по масштабу и единицам измерения – стандартизируем данные, чтобы каждый признак имел единичную дисперсию и нулевое МО.

Тогда применяем корелляционную матрицу R. (Т.е. Либо S, либо R – для несопоставим. данных – мы делали по R, в основном).

Векторы, задающие направления главных осей, являются решением системы уравнений:

Sv = λv или (S-λE)v=0, где λ- собственное значение, v – собственный вектор матрицы S.

Из этого, в частности следует, что λ является корнем характеристического уравнения det(S-λE)=0.

В частности для двумерного пространства: det(S-λE)= λ²-λ trS+detS, где trS- след матрицы (сумма диагональных элементов). Тогда λ1 и λ2 (λ1≥ λ2) находятся прямым решением квадратного уравнения. А собственные векторы v1 и v2 определяются из решения однородных линейных уравнений:

(S- λ1E)v1=0 и (S- λ2E)v2=0

Алгоритм вычисления главных компонент для трехмерного и более пространства на выходе имеет:

· Собственные значения λ1≥…≥λm≥0

· Ортогональную матрицу перехода в собственный базис С, такую что

S=CΛC*; Λ=

Координаты объекта p=(p1,…,pm) в пространстве ГК вычисляются по формуле p=C(x- ). Столбцы матрицы перехода совпадают с собственными векторами vi. В литературе их называют весами ГК. Соответственно ГК являются линейными комбинациями исходных признаков с вычисленными весами.

В случае стандартизированных признаков обычно рассматриваются только те ГК, для которых собственное значение >1. Если <1, изменчивость соответствующей главной компоненты меньше изменчивости любого из исходных признаков.Полученные в итоге обобщенные признаки (ГК) являются линейными комбинациями исходных признаков и могут не нести конкретного экономического смысла (но правильнее его найти и объяснить).

2015-11-10

1515

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 7 8 9 10 111213 14 15 16 Следующая ⇒

Обсуждение в статье: Вопрос 20. Методы снижения размерности многомерного признакового пространства

Обсуждений еще не было, будьте первым... ↓↓↓