Коэффициент корреляции Пирсона
Для метрических величин применяется коэффициент корреляции Пирсона, точная формула которого была введена Фрэнсисом Гальтоном: Пусть X,Y — две случайные величины, определённые на одном вероятностном пространстве. Тогда их коэффициент корреляции задаётся формулой: где cov обозначает ковариацию, а D — дисперсию, или, что то же самое, , где символ обозначает математическое ожидание. Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния». Коэффициент детерминации: Статистический показатель, отражающий объясняющую способность уравнения регрессии и равный отношению суммы квадратов регрессии SSR к общей вариацииSST: , где – уровень ряда, – смоделированное значение, – среднее по всем уровням ряда. Данный показатель является статистической мерой согласия, с помощью которой можно определить, насколько уравнение регрессии соответствует реальным данным. Коэффициент детерминации изменяется в диапазоне от 0 до 1. Если он равен 0, это означает, что связь между переменными регрессионной модели отсутствует, и вместо нее для оценки значения выходной переменной можно с таким же успехом использовать простое среднее ее наблюдаемых значений. Напротив, если коэффициент детерминации равен 1, это соответствует идеальной модели, когда все точки наблюдений лежат точно на линии регрессии, т.е. сумма квадратов их отклонений равна 0. На практике, если коэффициент детерминации близок к 1, это указывает на то, что модель работает очень хорошо (имеет высокую значимость), а если к 0, то это означает низкую значимость модели, когда входная переменная плохо "объясняет" поведение выходной, т.е. линейная зависимость между ними отсутствует. Очевидно, что такая модель будет иметь низкую эффективность. Эта процедура предназначена для проведения корреляционного анализа, установления тесноты линейной связи между переменными. В стартовом окне этой процедуры "Pearson Product-Moment Correla-tion" (Корреляция Пирсона) (рис. 15) для расчета квадратной матрицы используется кнопка One variable list (square matrix). В списке переменных выбирают переменные, между которыми будут рассчитаны парные коэффициенты корреляции Пирсона. После нажатия на кнопку OK или Correlationes на экране появится корреляционная матрица (рис. 16). Процедура Correlation matrices сразу же дает возможность проверить достоверность рассчитанных коэффициентов корреляции. Значение коэффициента корреляции может быть высоким, но не достоверным, случайным. Чтобы увидеть вероятность нулевой гипотезы (p), гласящей о том что коэффициент корреляции равен 0, нужно в опции Display окна Pearson Product-Moment Correlation (рис. 15) установить переключатель на вторую строку Corr. matrix (display p & N). Но даже если этого не делать и оставить переключатель в первом положении Corr. matrix (highlight p), статистически значимые на 5-% уровне коэффициенты корреляции будут выделены в корреляционной матрице на экране монитора цветом, а при распечатке помечены звездочкой. Третье положение переключателя опции Display - Detail table of results позволяет просмотреть результаты корреляционного анализа в деталях (рис. 17). Флажок опции Casewise deletion of MD устанавливается для исключения из обработки всей строки файла данных, в которой есть хотя бы одно пропущенное значение. 20)) Многомерный регрессионный анализ в пакете STATISTICA: Определение коэффициентов уравнения регрессии, оценка адекватности уравнения и оценка параметров и остатков Коэффициенты регрессии показывают интенсивность влияния факторов на результативный показатель. Если проведена предварительная стандартизация факторных показателей, то b0 равняется среднему значению результативного показателя в совокупности. Коэффициенты b1, b2, ..., bn показывают, на сколько единиц уровень результативного показателя отклоняется от своего среднего значения, если значения факторного показателя отклоняются от среднего, равного нулю, на одно стандартное отклонение. Таким образом, коэффициенты регрессии характеризуют степень значимости отдельных факторов для повышения уровня результативного показателя. Конкретные значения коэффициентов регрессии определяют по эмпирическим данным согласно методу наименьших квадратов (в результате решения систем нормальных уравнений). Аналитические достоинства регрессионных моделей заключаются в том, что, во-первых, точно определяется фактор, по которому выявляются резервы повышения результативности хозяйственной деятельности; во-вторых, выявляются объекты с более высоким уровнем эффективности; в-третьих, возникает возможность количественно измерить экономический эффект от внедрения передового опыта, проведения организационно-технических мероприятий. Рассмотрим пример построения регрессионной модели в пакете Statistica 6.0. Для этих целей обычно используется модуль Multiple Regressions (Множественная регрессия), который позволяет предсказать зависимую переменную по нескольким независимым переменным. В стартовом диалоговом окне этого модуля (рис.1) при помощи кнопки Variables указываются зависимая (dependent) и независимые(ая) (independent) переменные. В поле Input file указывается тип файла с данными: Raw Data - данные в виде строчной таблицы; Correlation Matrix - данные в виде корреляционнойматрицы. В поле MD deletion указывается способ исключения из обработки недостающих данных: Casewise - игнорируется вся строка, в которой есть хотя бы одно пропущенное значение; Mean Substitution - взамен пропущенных данных подставляются средние значения переменной; Pairwise - попарное исключение данных с пропусками из тех переменных, корреляция которых вычисляется. В таблицу включены все случаи (м), приведены исходные данные (Observed), данные модели (Predicted) и остатки (Residual). Остатки – это разность исходных и предсказанных данных. 21)) Понятие кластерного анализа и области его применения Термин кластерный анализ, впервые введенный Трионом (Tryon) в 1939 году, включает в себя более 100 различных алгоритмов. В отличие от задач классификации, кластерный анализ не требует априорных предположений о наборе данных, не накладывает ограничения на представление исследуемых объектов, позволяет анализировать показатели различных типов данных (интервальным данным, частотам, бинарным данным). При этом необходимо помнить, что переменные должны измеряться в сравнимых шкалах. Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной. Кластерный анализ может применяться к совокупностям временных рядов, здесь могут выделяться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой. Кластерный анализ параллельно развивался в нескольких направлениях, таких как биология, психология, др., поэтому у большинства методов существует по два и более названий. Это существенно затрудняет работу при использовании кластерного анализа. Задачи кластерного анализа можно объединить в следующие группы: 1. Разработка типологии или классификации. 2. Исследование полезных концептуальных схем группирования объектов. 3. Представление гипотез на основе исследования данных. 4. Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных. Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач. Критерием для определения схожести и различия кластеров является расстояние между точками на диаграмме рассеивания. Это сходство можно "измерить", оно равно расстоянию между точками на графике. Способов определения меры расстояния между кластерами, называемой еще мерой близости, существует несколько. Наиболее распространенный способ - вычисление евклидова расстояния между двумя точками i и j на плоскости, когда известны их координаты X и Y: (1) Когда осей больше, чем две, расстояние рассчитывается таким образом: сумма квадратов разницы координат состоит из стольких слагаемых, сколько осей (измерений) присутствует в нашем пространстве. Например, если нам нужно найти расстояние между двумя точками в пространстве трех измерений), формула (1) приобретает вид: (2) в пространстве трех измерений Кластер имеет следующие математические характеристики: центр, радиус, среднеквадратическое отклонение, размер кластера Центр кластера - это среднее геометрическое место точек в пространстве переменных. Радиус кластера - максимальное расстояние точек от центра кластера Как было отмечено в одной из предыдущих лекций, кластеры могут быть перекрывающимися. Такая ситуация возникает, когда обнаруживается перекрытие кластеров. В этом случае невозможно при помощи математических процедур однозначно отнести объект к одному из двух кластеров. Такие объекты называют спорными Спорный объект - это объект, который по мере сходства может быть отнесен к нескольким кластерам Размер кластера может быть определен либо по радиусу кластера, либо по среднеквадратичному отклонению объектов для этого кластера. Объект относится к кластеру, если расстояние от объекта до центра кластера меньше радиуса кластера. Если это условие выполняется для двух и более кластеров, объект является спорным
- деление исходных данных на среднеквадратичное отклонение соответствующих переменных; - вычисление Z-вклада или стандартизованного вклада. Наряду со стандартизацией переменных, существует вариант придания каждой из них определенного коэффициента важности, или веса, который бы отражал значимость соответствующей переменной. В качестве весов могут выступать экспертные оценки, полученные в ходе опроса экспертов - специалистов предметной области. Полученные произведения нормированных переменных на соответствующие веса позволяют получать расстояния между точками в многомерном пространстве с учетом неодинакового веса переменных. В ходе экспериментов возможно сравнение результатов, полученных с учетом экспертных оценок и без них, и выбор лучшего из них. Методы кластерного анализа можно разделить на две группы: - иерархические; - неиерархические. Каждая из групп включает множество подходов и алгоритмов. Используя различные методы кластерного анализа, аналитик может получить различные решения для одних и тех же данных. Это считается нормальным явлением. Рассмотрим иерархические и неиерархические методы подробно. Иерархические методы кластерного анализа
Популярное: Как построить свою речь (словесное оформление):
При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою... Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1362)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |