Описательная статистика.

2019-07-03

169

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 12

Результаты проведенного исследования интерпретируются как матрица данных T размера n р, строки которой соответствуют участникам исследования (случаи), а столбцы - значениям переменных или параметров. Пусть X - количественная переменная с набором значений xi, i=1,2,...n. Тогда основными параметрами её распределения являются:

Показатели положения. К ним относятся выборочное среднее Xср=( xi)n, минимальный и максимальный элементы, верхний и нижний квартили (они определяют границы зоны, в которую попадает 5% выборки), выборочная медиана (квантиль, соответствующая значению p=.5).

Показатели разброса и ассимметрии. Это в первую очередь исправленное выборочное отклонение s, дисперсия D, коэффициент вариации Квар, размах (разность между максимальным и минимальным элементами), межквартильный размах (разность между верхней и нижней квартилью), центральные отклонения  i, ассимметрия Ass(X), эксцесс Eks(X), вычисляемые по формулам

D = 1/(n-1) (  (xi - Xср)2)1/2, s =  D, (1)

 k = (  (xi - Xср)k) / n , Ass( X)=  3 / s3, Eks(X)=  4/s4 - 3. (2)

Отметим, что  1=,  2= 2, и для нормально распределенной случайной переменной Х справедливы равенства Ass(X)=Eks(X)= (значительные отклонения этих параметров от нуля свидетельствуют о ненормальности распределения).

Показатели, описывающие закон распределения. Эта группа показателей включает диаграммы рассеяния, графики гистограммы и эмпирической функции распределения, таблицы частот.

Для двух случайных переменных X, Y параметрами их совместного распределения служат корреляционный момент  xy (или коэффициент ковариации), коэффициент линейной корреляции r, корреляционные отношения  xy ,  yx, определяемые следующим образом:

 xy = 1 n ((  (xi - Xср) (yi -Yср) = (XY) ср - Xср Yср, (3)

r =  xy (sxsy) = (  nxy xy - n Xср Yср)(n sxsy ), (4)

 yx = sмежгр sy = ((  nx (yx - Y)2(  ny (y - Y)2)12, (5)

 xy = sмежгр sx = ((  ny (xy - Xср)2(  nx (x - Xср)2)12. (6)

Здесь nx ny - частоты значений соответственно признака x в X и y в Y, xy , yx - условные средние. В большинстве статистических пакетов одновременно с коэффициентом корреляции определяется его уровень значимости  . Основное различие между коэффициентом корреляции r и корреляционными отношениями состоит в том, что первый измеряет тесноту линейной связи между переменными, в то время как корреляционнное отношение служит мерой уровня любой, в том числе и линейной, зависимости. Недостатком же корреляционного отношения является то, что оно не позволяет определить аппроксимирующую кривую связи между X и Y, так как при определении корреляционного отношения конкретный вид зависимости во внимание не принимается. При анализе ординальных переменных вместо коэффициента линейной корреляции К.Пирсона r используются коэффициенты ранговой корреляции Спирмена  и Кенделла  . Для этого набор значений переменных Х и Y предварительно ранжируется, и в качестве значений переменных берутся соответствующие ранги. Таким образом, набор значений ранжированной переменной есть некоторая перестановка натуральных чисел от 1 до n. Коэффициент  для рядов числовых значений xi и yi (i = 1,.., n) вычисляется по формуле  = 1- 6S(n3 - n), где S =  (xi - yi )2. Для определения коэффициента  вводится статистика Кенделла К, определяемая как число инверсий в ряду xi, упорядоченном значениями yi. Тогда  = 1- 4K(n(n -1)). Как и r, эти числа удовлетворяют неравенствам -1<  ,  < 1, и крайние значения принимаются в случае полной предсказуемости одной ранговой последовательности по другой. Для выявления связи номинальных признаков используются таблицы сопряженности.

Параметрами многомерного распределения системы переменных {Хi}, определяемой матрицей данных T или ее подматрицей Tk, являются вектор средних и матрицы ковариаций М и корреляций R, элементами которых соответственно будут корреляционные моменты  i,j и коэффициенты парной корреляции ri,j. Диагональные элементы  i,i ковариационной матрицы М - это выборочные дисперсии Di. Обе матрицы симметричны , матрица R по сути есть нормирование М и обе они служат базой для последующего регрессионного и факторного анализа.

Регрессионный анализ. Задачей регрессионного анализа является построение модели функциональной связи между группой независимых переменных (это могут быть номинальные параметры - регрессоры либо случайные переменные, называемые предикторами или предсказательными переменными) и одномерной переменной Y, называемой откликом. Рассмотрим уравнение связи Y = f(X1, X2,...Xk ,  ) +  (7), где f - n-мерная вектор-функция от k переменных Xi и  - параметра связи;  -n-мерный случайный параметр, отражающий отклонение от функциональной зависимости (вектор остатков или ошибок). В классической модели предполагается, что координаты  независимы и одинаково распределены по нормальному закону N(, 2). Рассматрим ситуацию, когда f линейно зависит от  , т.е. задачу линейного регрессионного анализа (с методами нелинейного анализа можно ознакомиться в [4]). Тогда уравнение (7) можно представить в виде Y =  1 +  2X1 +  3X2 +...+  k+1Xk +  , (8) или в матричной форме Y = A +  . Здесь А={ai,j} - матрица размера n (k+1) , называемая регрессионной матрицей, в которой ai,1=1, ai,j =хi,j-1 - компоненты вектора Xj-1 при j>1. Одним из основных методов получения оценки  является метод наименьших квадратов, заключающийся в минимизации остаточной суммы квадратов (RSS) =   i2 по отношению к  . Применяя его, мы получим значения ( 2 ,...  k+1)= M-1CyX,  1=Yср -  2X1 -  3X2 -...-  k+1Xk , где М - матрица ковариаций для Xi, CyX = (  Y,Xi , i=1,..k) - вектор оценок ковариаций между Y и Xi. Оценкой для остатка будет е =Y- A , a RSS= |e|. Доверительный интервал для  i на уровне значимости  определяется как  i + (D( i)t1- 2( ))12, где t1- 2( ) - квантиль для t-распределения с  = n-k степенями свободы. Определим квадрат коэффициента множественной корреляции между Y и Xi как R2 = CyXT M-1CyX = ( CyX )  Y2. Его статистический смысл можно объяснить, рассмотрев дисперсию условного распределения Y при заданных Xi: ( yXi)2 = Y2 (1- R2). Таким образом, величина R2 есть доля дисперсии Y, объясненная переменными Xi. Параметры R2, RSS, доверительные интервалы для  и оценки для дисперсий ошибок  и коэффициентов регрессии ([5, 7.1.3]) определяют качество приближения Y уравнением регрессии и являются важными параметрами анализа.

Наряду с изложенным выше параметрическим подходом существуют непараметрические методы построения уравнений регрессии. Их преимуществом является отсутствие предположений относительно нормальности распределения предикторов и ошибок, а недостатком - меньшая мощность критериев. Одни из таких методов используют идею кластерного группирования переменных относительно заданной метрики в пространстве предикторов [5, 7.1.9], другие основаны на ранжировании переменных и используют ранговые коэффициенты корреляции Спирмена и Кендалла [9, 8.5]. Выбор того или иного метода зависит от типа анализируемых переменных и в каждой ситуации решается отдельно.

Дисперсионный анализ (ДА). Предположим, что в уравнении линейной регрессии (8) параметры  i могут принимать значения только или 1. Тогда мы получим модель, в которой учитывается не степень влияния переменных Хi на Y, а сам факт этого влияния - модель дисперсионного анализа. Переменные Хi в этой модели назывются факторами, Y - откликом. В зависимости от числа факторов различают однофакторный, двухфакторный, мультифакторный виды анализа. Предполагается, что остатки  i независимы и одинаково распределены по закону N(, 2). Второе существенное условие - переменная Y должна быть нормально распределена. Общая идеология ДА заключается в том, чтобы представить общую дисперсию Y в виде суммы дисперсий, обусловленных влиянием факторов Хi и остаточного случайного параметра  , и, оценивая дисперсионные отношения, определить наличие и степень влияния факторов Хi на Y. Рассмотрим самую простую, и в то же время достаточно распространенную модель однофакторного анализа. Сгруппируем значения Y в k групп, параметризованных значениями фактора Х, обозначим через nj объемы соответствующих групп, через yi,j - i-е значение переменной Y в j-й группе, а yj ср - среднее в j-й группе. Тогда уравнение (8) можно представить в виде yi,j = aj +  i,j, j=1,..,k, i =1,..,n, где аj - неизвестные константы (генеральные средние по группам),  i,j независимы с распределением N(, 2). Будет проверяться гипотеза Н: а1=...=аk. Для этого рассмотрим две оценки дисперсии  2. Первая имеет вид:  * 2 = (  (yi,j - yj ср)2 )(n-k). Она не зависит от гипотезы и ассимптотически стремится к  2. Вторая оценка получается через разбиение на группы, определяемые значениями фактора:   2 =( nj (yj ср - Y ср )2)(k-1). Она зависит от Н и при её нарушении имеет тенденцию к возрастанию. Отношение этих оценок F =   2  *2 имеет F - распределение с ( k-1, n-k) степенями свободы и не зависит от  . Таким образом, при наблюдаемом значении F большем, чем соответствующая  - процентная точка распределения F ( (1-  ) - квантиль F) гипотеза Н отвергается и принимается предположение о влиянии фактора Х на Y. Тогда можно ставить вопрос о доверительных интервалах для аi. Ответ следующий: |yj ср-aj | <  t1-  nj с доверительной вероятностью 1-2 , где t1- - квантиль уровня (1- ) распределения Стьюдента с n-k степенями свободы.

Отметим, что выводы ДА о равенстве или неравенстве сj довольно устойчивы даже при нарушении основных предположений о нормальном распределении и равенстве дисперсий остатков  i,j. Если же распределение переменной Y сильно отличается от нормального, или Y - ординальная переменная, лучше использовать непараметрические критерии связи, такие, как ранговый критерий Фридмана или критерий Пейджа для двухфакторного анализа (см. [8, 7.4.9]), а также ранговые критерии Краскела-Уоллеса и Джонхиера для однофакторного анализа ([8, 6.2]).

Факторный анализ (ФА). Рассмотрим набор нормированных случайных переменных Х1,..,Хk как векторов в n-мерном пространстве V. Задача ФА состоит в том, чтобы представить Хi в виде линейных комбинаций небольшого числа общих факторов Fj , т.е. в виде Хi =  ai,j Fj + Ei (9), где i= 1,..,k, p < k. Переменные Ei называются остатком (невязкой) или остаточными факторами. Обычно предполагается, что общие факторы либо некоррелированные случайные величины с дисперсией 1, либо неизвестные случайные параметры. Остаточные факторы имеют нормальное распределение и не коррелируют между собой и с общими факторами. Коэффициенты ai,j называются факторными нагрузками и совпадают с коэффициентами корреляции между Xi и Fj. Интерпретируя коэффициент корреляции ri,j как скалярное произведение (Xi, Хj), мы при этих предположениях получим геометрическую модель ФА: уравнение (9) есть разложение системы нормированных векторов Х1,...,Хk через ортогональную систему Ei, F1,..,Fp с максимальной суммарной информативностью I =  D(Fj)  D(Xi). Матрица ковариации М для переменных Xi приводится к диагональному виду в базисе, состоящем из собственных векторов, и в качестве Fj выбираются собственные векторы с максимальными собственными значениями  j (метод главных компонент). При этом  j интерпретируются как дисперсии соответствующих факторов. Критерий информативности I может быть записан в виде I =   j k, т.е. он равен доле суммарной дисперсии переменных Хi, обьясненных первыми p главными компонентами - факторами. Чем ближе это значение к 1, тем более точно факторы Fj описывают переменные Хi. Помимо метода главных компонент, существуют и другие способы выделения факторов Fj - методы минимальных остатков, максимального правдоподобия, центроидный метод и др. Все они, как правило, приводят к близким результатам, так что более важным вопросом ФА является не выбор способа извлечения факторов, а определение их количества и интерпретация латентных факторов в содержательном плане (это могут быть психофизиологические свойства личности, а также социальные, экономические факторы и т.п.). При выборе числа факторов полезно руководствоваться следующими соображениями:

Имеет смысл учитывать только те факторы, для которых собственные числа больше 1, т.е. вклад фактора в суммарную дисперсию больше вклада любой переменной.

Критерий "каменистой осыпи" рекомендует ограничиться фактором, после которого убывание собственных чисел замедляется наиболее сильно.

На заданном числе факторов критерий информативности I превышает 0.75 ( т.е. факторы обьясняют 75% разброса переменных).

Матрица интеркорреляции для Ei не имеет значимых на заданном уровне  (обычно  = .5) недиагональных коэффициентов.

Построенная факторная структура в пространстве V определена не однозначно. Вращая систему координат в V, можно получать различные разложения переменных Хi через Fj. Существуют различные критерии для определения наилучшей позиции системы координат - критерии согласования с результатами, полученными другими методами, с общей гипотезой относительно природы латентных факторов и т.п. Есть и чисто математический критерий, базирующийся на принципе "простой структуры" Терстона. В его основе лежит идея, что из нескольких равносильных гипотез следует выбирать наиболее простую, что в данном случае означает, что каждая переменная должна иметь максимально простое факторное содержание, то есть в ней доминирует нагрузка одного какого-либо фактора, и наоборот - данный фактор проявляется только в некотором минимальном числе переменных. Другими словами, вращением базиса необходимо получить одновременно наибольшее число максимальных по модулю и минимальных (близких к нулю) факторных нагрузок. Эта процедура реализуется тем или иным итерационным методом (варимакс, квартимакс, эквимакс) в статистических электронных пакетах, содержащих модули ФА (Statistica и др.).

Кластерный анализ (КА). В целом алгоритмы КА можно разделить на два основных направления - это разбиение данных на некоторые группы (кластеры) и иерархическая классификация данных. В качестве объектов анализа могут выступать как случаи (субъекты исследования), так и случайные переменные. Общая идея первого направления КА заключается в том, что случаи (или переменные) рассматриваются как точки векторного пространства с определенной на нем метрикой (функцией расстояний) d(X,Y) и затем разбиваются на группы близких относительно этой метрики обьектов, называемых кластерами. В качестве метрики используются евклидово расстояние ( (xi - yi)2)12, расстояние Чебышева max{|xi - yi |} и др. Обьекты анализа определяются исходной матрицей Т либо матрицей расстояний. Пусть задана матрица Т. Выделим классифицирующее множество признаков - переменные Х1,..,Хk. Тогда каждый случай представим как точка в k-мерном пространстве V. Естественно предполагать, что геометрическая близость точек в V соответствует близости соответствующих объектов по своим характеристикам. Это определяет геометрический подход, не требующий никаких вероятностных предположений. Другой подход основан на предположении, что матрица Т определяет выборку из смеси унимодальных распределений, и задача выделения групп сводится либо к оценке параметров этих распределений (параметрические методы), либо к поиску модальных значений (точек локального максимума) непараметрической оценки Парзена для функции плотности вероятности. Параметрические методы, например, алгоритм Дея (см. [5, 9.1.4]), близки методам дискриминантного анализа.Обычно при этом предполагается, что распределение выборки есть взвешенная сумма многомерных нормальных распределений. Во втором случае рассматривается функция Парзена P(X,h) = c(h, p)  exp(-1h2 (X - Xj)T (X -Xj)), дающая непараметрическую оценку плотности распределения случайных величин Х1,.., Хk. Здесь c(h, p) - нормирующая константа, p - параметр сглаживания. Если данные образуют сгущение в n-мерном пространстве, то P(X,h) будет иметь локальный максимум (модальное значение ) в точке, близкой к центру сгущения. Таким образом, определяя модальные точки функции P(X,h), мы определяем количество классов, на которые можно разбить данные, и центры этих классов, вокруг которых затем группируем данные.

Иерархические методы классификации основаны на включении групп данных Di, рассматриваемых как единичные объекты, в некоторую иерархическую структуру, отражающую близость этих групп. В качестве Di могут выступать отдельный случай или переменная. Определяя расстояние между группами d(Di , Dj) (например, как расстояние между центрами групп d(Ci, Cj )) и рассматривая Di как вершины некоторого графа G с ребрами между Di и Dj длины di,j = d(Di, Dj ), мы получим интерпретацию задачи на языке теории графов. Иерархическая структура на множестве объектов {Di} определяется путем нахождения минимального покрывающего дерева, т.е. графа без циклов, такого, что суммарная длина его ребер минимальна. Эта процедура реализуется по правилу "ближайшего соседа" - выделяется ребро минимальной длины di,j, соответствующая пара объектов Di, Dj объединяется в один объект (т.е. добавляется новая вершина графа, соединенная с вершинами Di, Dj,), в получившемся графе снова выделяется ребро минимальной длины и т.д. В результате мы получаем иерархическое дерево, в котором вершины низшего уровня есть исходные объекты, а остальные вершины определяют уровни иерархической структуры. В других алгоритмах используются методы разрезания дерева по самому длинному ребру (вроцлавская классификация) либо по ребру с максимальным весом w=dn1n2, где d - длина ребра, а n1, n2 - количество вершин поддеревьев, получающихся после разреза дерева, содержащего данное ребро (см. [11]).

Критерии согласия.. Критерии согласия предназначены для обнаружения расхождений между гипотетической моделью и данными, которые эта модель призвана описать. Они используются для проверки применимости предположения о законе распределения случайной величины либо для проверки гипотезы об однородности выборки. Обычно, полагая выборочные среднее и отклонение оценкой параметров гипотетического распределения, используют критерии Колмогорова-Смирнова, омега-квадрат для переменных с большой вариативностью значений, и критерии хи-квадрат К.Пирсона или Р.Фишера для дискретных переменных с небольшим числом значений. Для проверки однородности распределений в подвыборках, извлеченных из генеральной совокупности с нормальным распределением, используют t-критерий Стьюдента для средних и критерий Бартлетта для дисперсий. При проверке однородности выборок относительно ординальных переменных используют ранговые критерии однородности - критерий Вилкоксона и критерий нормальных меток Фишера-Йэтса (см. [2]).

В заключение отметим, что существует большое число различных статистических компъютерных пакетов, позволяющих проводить стандартные виды анализа - Statistica, SPSS, Stadia, Statgraphics и др. Личный опыт автора позволяет рекомендовать в практических исследованиях пакеты Statistica версии 4.5 и выше и SPSS версии 7.0.

Список литературы

Айвазян С.А., Бухштабер В.М., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Классификация и снижение размерности. - М.: Финансы и статистика, 1989. - 607с.

Айвазян С.А., Енюков И.С., Мешалкин Л.Д. Прикладная статистика: Основы моделирования и первичная обработка данных.- М.: Финансы и статистика, 1983. - 471с.

Боровиков В.П., Боровиков И.П. Statistika. Статистический анализ и обработка данных в среде Windows. - М.: Информ.-издат. Дом "Филинъ", 1997. - 608 с.

Демиденко Е.З. Линейная и нелинейная регрессия. - М.: Финансы и статистика, 1982. - 302 с.

Енюков И.С. Методы, алгоритмы, программы многомерного статистического анализа. - М.: Финансы и статистика, 1986. - 232 с.

Кокс Д., Хинкли Д. Теоретическая статистика. - М.: Мир, 1978. - 560 с.

Крамер Г. Математические методы статистики. - М.: Мир, 1975. - 648 с.

Себер Дж. Линейный регрессионный анализ. - М.: Мир, 1980. - 456 с.

Тюрин Ю.Н., Макаров А.А. Статистический анализ данных на компьютере. - М.: ИНФРА-М, 1998. - 528 с.

Факторный, дискриминантный и кластерный анализ. - М.: Финансы и статистика, 1989. - 215 с.

Жамбю М. Иерархический кластерный анализ и соответствия. - М.: Финансы и статистика, 1988.

2019-07-03

169

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 12

Обсуждение в статье: Описательная статистика.

Обсуждений еще не было, будьте первым... ↓↓↓