Вопрос 20. Методы снижения размерности многомерного признакового пространства
Снижение размерности дает следующие преимущества: · Возможность визуализации данных при размерности k≤3. · Сокращение числа параметров эконометрических моделей. · Лучшая интерпретируемость результатов исследования. · Выявление и анализ структуры изучаемого процесса или явлений. · Сжатие массивов хранимой статистической информации. Существует три основных действия, позволяющих уменьшить число факторов: 1. Устранение дублирующей информации при наличии сильно коррелированных признаков 2. Редукция слабоинформативных (маломеняющихся для различных объектов) признаков 3. Агрегирование (объединение) нескольких признаков в один. Количественный данные – факторный анализ (МГК), корреляционный анализ. Качественные данные – кластерный анализ. Корреляционный анализ:Смотрим матрицу парных и частных корреляций. При наличии сильно коррелированных признаков, удаляем их по принципу общей логики. Кластерный анализ.Если признаки не сопоставимы – стандартизируем их. Далее применяем методы кластерного анализа – строим дендрограмму. Признаки, для которых межклассовое расстояние мало, дублируют друг друга, удаляем один из них так же по принципу общей логики. МГК позволяет: 1)сократить многомерность; 2) вскрыть причинно-следственные связи процесса. Суть - выделить некоторое кол-во вспомогательных показателей или факторов {f1,…,fk}, k<<m, которые достаточно полно отражают процесс. Пример: реализация двумерной нормальнойСВ. Признаки, соответвующие двум осям, сильно положительно коррелированны. Поэтому объекты с большим значением первого признака, как правило, имеют большое значение второго признака. Если нужно описать объекты в одномерном пространстве, то целесообразно выбрать в качестве обобщающего признака (первой ГК) направление оси Р1, поскольку проекция объектов на эту ось ведет к минимальным потерям информации. Геометрически первая ГК является осью, для которой сумма квадратов расстояний от наблюдаемых объектов минимальна. Соответственно, сумма квадратов вдоль выбранной оси (дисперсия вдоль оси) максимальна. В двумерном случае вторая ось P2 определяется однозначно, как ортогональная к Р1. В случае большей размерности следующая главная компонента находится из тех же соображений минимизации расстояния (максимизации дисперсии) в подпространстве, ортогональном первой главной компоненте. Математический метод нахождения главных осей заключается в вычислении собственных чисел и собственных векторов ковариационной матрицы S. Если исходные признаки не сопоставимы по масштабу и единицам измерения – стандартизируем данные, чтобы каждый признак имел единичную дисперсию и нулевое МО. Тогда применяем корелляционную матрицу R. (Т.е. Либо S, либо R – для несопоставим. данных – мы делали по R, в основном). Векторы, задающие направления главных осей, являются решением системы уравнений: Sv = λv или (S-λE)v=0, где λ- собственное значение, v – собственный вектор матрицы S. Из этого, в частности следует, что λ является корнем характеристического уравнения det(S-λE)=0. В частности для двумерного пространства: det(S-λE)= λ2-λ trS+detS, где trS- след матрицы (сумма диагональных элементов). Тогда λ1 и λ2 (λ1≥ λ2) находятся прямым решением квадратного уравнения. А собственные векторы v1 и v2 определяются из решения однородных линейных уравнений: (S- λ1E)v1=0 и (S- λ2E)v2=0 Алгоритм вычисления главных компонент для трехмерного и более пространства на выходе имеет: · Собственные значения λ1≥…≥λm≥0 · Ортогональную матрицу перехода в собственный базис С, такую что S=CΛC*; Λ= Координаты объекта p=(p1,…,pm) в пространстве ГК вычисляются по формуле p=C(x- ). Столбцы матрицы перехода совпадают с собственными векторами vi. В литературе их называют весами ГК. Соответственно ГК являются линейными комбинациями исходных признаков с вычисленными весами. В случае стандартизированных признаков обычно рассматриваются только те ГК, для которых собственное значение >1. Если <1, изменчивость соответствующей главной компоненты меньше изменчивости любого из исходных признаков.Полученные в итоге обобщенные признаки (ГК) являются линейными комбинациями исходных признаков и могут не нести конкретного экономического смысла (но правильнее его найти и объяснить).
Популярное: Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы... Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... Почему стероиды повышают давление?: Основных причин три... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1432)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |