Линейная и криволинейная корреляции

2015-12-06

843

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 123 Следующая ⇒

Основной коэффициент корреляции г Пирсона является мерой прямолинейной связи между переменными: его значения достигают максимума, когда точки па графике двухмерного рассеивания лежат па одной прямой линии. В реальной жизни отношения между переменными часто оказываются не только вероятностными, но и непрямолинейиыми: монотонными или немонотонными. Если связь нелинейная, но монотонная, то вместо г Пирсона следует использовать ранговые корреляции Спирмепа или Кеидалла.

Нередко связь между двумя переменными является не только нелинейной, но и немонотонной. В качестве примера рассмотрим такие два фактора, как нервное возбуждение перед экзаменом и успешность его сдачи. Исследования показывают, что студенты, испытывающие умеренное нервное возбуждение, имеют наилучшие результаты на экзаменах, в то время как очень спокойные или очень нервные студенты сдают экзамены значительно хуже. Если по оси абсцисс отложить степень нервного возбуждения, а по оси ординат — результаты сдачи экзаменов, то график зависимости между ними примет вид, близкий к перевернутой букве U. При этом любой коэффициент корреляции, вычисленный для этих величии, окажется весьма низким. Это объясняется тем, что для немонотонных отношений нужны другие методы оценки корреляции. Частично мы коснемся этих методов в главах 15 и 16, посвященных видам регрессионного анализа.

Перед тем как оценивать корреляцию двух переменных, рекомендуется построить график зависимости между ними — график двухмерного рассеивания. Если график демонстрирует монотонность связи, то для вычисления корреляции можно использовать команды подменю Correlate (Корреляция).

Ранговые корреляции

Как уже отмечалось, необходимость в применении ранговых корреляций возникает в двух случаях: когда распределение хотя бы одной из двух переменных не соответствует нормальному и когда связь между переменными является нелинейной (но монотонной). В этих случаях вместо корреляции г Пирсона можно

выбрать ранговые корреляции: г Спирмепа либо т (читается «тау») Кендалла. ранговыми они являются потому, что программа предварительно ранжирует переменные, между которыми они вычисляются.

Корреляцию г Спирмепа программа SPSS вычисляет следующим образом: сначала переменные переводятся в ранги, а затем к рангам применяется формула г Пирсона. Таким образом, г Спирмепа интерпретируется но аналогии с г Пирсона. Иначе дело обстоит с корреляцией т Кеидалла, которая имеет вероятностную природу.

Рассмотрим принцип вычисления т Кендалла на примере. Предположим, оценивается связь между ростом и весом в группе людей, предварительно ранжированных но этим переменным. Тогда при сравнении любых двух человек из этой группы возможны две ситуации: однонаправленное изменение переменных («совпадение»), когда и рост, и вес одного больше, чем другого, и разнонаправленное изменение («инверсия»), когда рост у второго больше, а вес меньше, чем у первого. Перебрав все пары испытуемых, можно оцепить вероятность совпадений (Р) и вероятность инверсий (Q). Корреляция Кеидалла — это разность вероятностей «совпадений» и «инверсий»: т = Р - Q. По значению корреляции Кепдалла можно всегда вычислить вероятность «совпадений» (Р = (1 + х)/2) и «инверсий» (Q = (1 - х)/2). Например, если корреляция между ростом и весом т = 0,5, то вероятность «совпадений» (чем больше рост, тем больше вес) Р = 0,75, а вероятность «инверсий» (чем больше рост, тем меньше вес) Q = 0,25. Таким образом, важным преимуществом корреляции т Кеидалла является ее отчетливая вероятностная интерпретация.

Значимость

Как и большинство статистических процедур, команды подменю Correlate (Корреляция) наряду с описательными статистиками (корреляциями в данном случае) вычисляют их уровень значимости. Напомним, что уровень значимости является мерой статистической достоверности результата вычислений, в данном случае — корреляции, и служит основанием для интерпретации. Если исследование показало, что уровень значимости корреляции не превышает 0,05, то это означает, что с вероятностью 5 % и менее корреляция является случайной. Обычно это является основанием для вывода о статистической достоверности корреляции. В противном случае (р > 0,05) связь признается статистически недостоверной и не подлежит содержательной интерпретации.

SPSS позволяет определять два теста значимости: односторонний (one-tailed) и двусторонний (two-tailed). Обычно используется двусторонний тест значимости. Но если вы заранее знаете направление корреляции (положительное или отрицательное) и вас интересует только одно направление, то можно использовать односторонний тест значимости. Однако такая ситуация встречается редко, а если и встречается, то правомерность односторонней проверки с трудом поддается обоснованию.

Частная корреляция

Понятие частной корреляции (partial correlation) связано с ковариацией, разговор о которой пойдет в главе 14. Здесь мы упоминаем частную корреляцию лишь как одну из команд подменю Correlate (Корреляция). Суть частной корреляции заключается в следующем. Если две переменные коррелируют, то всегда можно предположить, что эта корреляция обусловлена влиянием третьей переменной, как общей причины совместной изменчивости первых двух переменных. Для проверки этого предположения достаточно исключить влияние этой третьей переменной и вычислить корреляцию двух переменных без учета влияния третьей переменой (при фиксированных ее значениях). Корреляция, вычисленная таким образом, и называется частной. Например, при исследовании связи между скоростью чтения и зрелостью моральных суждений у детей разного возраста наверняка будет обнаружена корреляция этих двух переменных. Ответ на вопрос, связаны ли они непосредственно, или связь обусловлена возрастом, позволяет дать частная корреляция. Если при фиксированных значениях возраста частная корреляция скорости чтения и зрелости моральных суждений приближается к нулю, то можно заключить, что связь между этими переменными обусловлена возрастом.

В меню Analyze (Анализ) выберите команду Correlate ► Bivariate (Корреляция ► Двумерная). На экране появится диалоговое окно Bivariate Correlations (Двумерные корреляции)

В группе Correlation Coefficients (Коэффициенты корреляции) по умолчанию установлен флажок Pearson (Пирсон). Если требуется вычислить ранговые корреляции, то следует установить флажок Spearman (Спирмен) и (или) Kendall's tau-b (Тау-би Кендалла). Можете установить все три флажка, чтобы иметь возможность сравнивать три коэффициента корреляции для различных распределений данных.

В группе Test of Significance (Тест значимости) по умолчанию установлен переключатель Two-tailed (Двусторонний). Если вы заранее уверены в направлении (знаке) корреляции, то можете установить переключатель One-tailed (Односторонний).

Флажок Flag significant correlations (Помечать значимые корреляции) по умолчанию установлен. Это означает, что корреляции, вычисленные с уровнем значимости от 0,01 до 0,05, будут помечены одной звездочкой (*), а от 0 до 0,01 — двумя звездочками (**). Вне зависимости от значимости в вывод включаются коэффициенты корреляции и р-уровни, вычисленные с точностью до 3 знаков после запятой, а также количество объектов, участвовавших в процедуре.

Кнопка Options (Параметры) позволяет задать дополнительные параметры корреляции. При щелчке на этой кнопке открывается диалоговое окно Bivariate Correlations: Options (Двухмерные корреляции: Параметры), представленное па рис. 9.2.

В группе Statistics (Статистики) имеется два флажка, управляющих отображением статистических величии: Means and standard deviations (Средние значения и стандартные отклонения) и Cross-product deviations and covariances (Произведения отклонений и ковариации). Группа Missing Values (Пропущенные значения) из двух переключателей позволяет выбрать способ исключения объектов, содержащих пропущенные значения. Установка переключателя Exclude cases pairwise (Попарное исключение объектов) означает, что если при вычислении корреляции между нарой переменных для какого-нибудь объекта обнаружится отсутствующее значение, то объект будет исключен из вычисления, но только для этой пары переменных. В результате может оказаться, что для разных пар переменных коэффициенты корреля-

ции будут вычислены с разным числом объектов. При установке переключателя Exclude cases listwise (Построчное исключение объектов) программа перед началом вычислительного процесса исключит из рассмотрения все объекты, содержащие хотя бы одно отсутствующее значение. В любом случае, разрешение проблемы отсутствующих значений лучше провести до начала анализа. О том, каким образом это можно сделать, рассказывается в главе 4.

С помощью команды Crosstabs (Таблицы сопряженности), описанной в главе 8, вычисляются частоты по градациям пеколичествеииых (номинативных) переменных. Таблицы сопряженности позволяют сравнивать частоты для разных подгрупп, которые соответствуют градациям номинативной переменной. Например, составив таблицу сопряженности полххобби, вы могли видеть, что среди девушек 15 увлекаются спортом, 27 — искусством и т. п. Команда Means (Средние) предназначена для сравнения подгрупп объектов по средним значениям количественных признаков. При этом предполагается, что в данных имеются не только количественные переменные, для которых вычисляются средние, но и номинативные переменные, разделяющие объекты на подгруппы. Команда Means (Средние) вполне применима и к данным файла exOi.sav, который мы рассматриваем в качестве примера. Так, при помощи этой команды можно сравнить средние значения успеваемости (отметка!, отметка2) юношей и девушек (пол), учащихся разных классов (класс) и т. д. Результаты вычислений представляются в виде таблиц, похожих па таблицы сопряженности при использовании команды Crosstabs (Таблицы сопряженности). Отличие заключается в том, что для каждой подгруппы вычисляется не только частота, по и среднее значение.

Команда Means (Средние) является одной из самых простых в SPSS. Для выбранных подгрупп она подсчитывает средние значения, стандартные отклонения и частоты. Кроме того, с помощью кнопки Options (Параметры) можно задать вывод результатов одпофакторпого дисперсионного анализа.

В меню Analyze (Анализ) выберите команду Compare Means ► Means (Сравнение средних ► Средние). На экране появится диалоговое окно Means (Средние),

В диалоговом окне Means (Средние) вам необходимо задать переменные, которые будут участвовать в процедуре. Список Dependent List (Зависимые переменные) в верхней части окна предназначен для количественных переменных, характеристики которых будут вычисляться. Например, в качестве зависимых переменных могут выступать переменные отметка1, отметка2, тест! и т. д. Список Dependent List (Зависимые переменные) может содержать несколько переменных, при этом для каждой из переменных можно задавать собственные наборы вычисляемых характеристик.

С помощью диалогового окна Means: Options (Средние¹ Параметры) можно задать дополнительные параметры вывода для команды Means (Средние). Например, помимо величии, вычисляемых по умолчанию (среднего значения, стандартного отклонения и числа объектов), можно указать любую совокупность показателей, перечисленных в списке Statistics (Статистики). Для этого следует выделить нужный пункт списка, а затем щелчком на кнопке со стрелкой добавить его в список Cell Statistics (Статистики ячеек).

Как уже упоминалось, команда Means (Средние) позволяет выполнять одио-факюриый дисперсионный анализ. Для этого в группе Statistics for the First Layer (Статистики для первого слоя) нужно установить флажок ANOVA table and eta (Таблица ANOVA и коэффициент Эта). В процессе группировки зависимой переменной отметка2 по градациям независимой переменной класс программа путем одно-факторного дисперсионного анализа сравнит три средних значения для градаций переменной класс.

2015-12-06

843

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 123 Следующая ⇒

Обсуждение в статье: Линейная и криволинейная корреляции

Обсуждений еще не было, будьте первым... ↓↓↓