Вопрос 5. Статистический анализ.

2020-02-04

221

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒

В данном вопросе рассматривается ряд статистических функций, с помощью которых можно описать и подытожить значения в наборе данных.

Под термином переменная понимают одну характеристику объекта или события. Поэтому при статистическом анализе каждый столбец созданной таблицы должен являться одной переменной, т.е. относиться к одной характеристике, например, содержать наименование товара или количество реализованных изделий.

Переменные могут быть количественными или качественными. Количественные переменные должны иметь конкретные числовые значения, например штуки, вес единицы товара или его цена. Количественные переменные могут быть дискретными или непрерывными. Дискретная переменная может принимать только целые значения, например такие единицы измерения, как штуки (1, 2, 3 и т.д.). Непрерывная переменная может иметь значения в широком диапазоне величин. Например, вес товара может выражаться дробным, а не обязательно целочисленным значением: 185, 185,5 или 185,562 кг.

Качественные или категориальные переменные относятся к другому типу переменных, которые характеризуют качества или свойства объекта, например цвет или имя продукта. Качественные переменные обычно, но не всегда, выражаются с помощью текстовых строк. Иногда для них используются специализированные числовые коды, к которым не имеет смысла применять арифметические действия.

Специфика деятельности товароведов-экспертов определяет как наболее характерные - исследования, в которых участвуют непрерывные количественные переменные.

Следует отметить, что необходимые статистические функции, которые могут отсутствовать в модуле Пакет анализа (Сервис→Надстройки, после выполнения этой операции в меню Сервис появится команда Анализ данных) можно найти в модуле StatPlus.

Прежде всего в приведенном наборе данных интерес для специалиста представляет анализ распределения значений. Распределение — это способ расположения наблюдений в допустимом диапазоне значений. Например, таким образом можно определить количество положительных ответов на вопрос в рамках проведения экспертизы качества социологическим методом или выявить процентную долю изделий с ценой менее 1000 руб. и т.д.

Для получения распределения значений нужно создать таблицу частот (frequency table) для анализируемых данных. Это таблица, в которой собраны сведения о том, сколько раз встречаются данные с определенной величиной. Команда для создания таблицы частот предусмотрена в подключаемом к Excel модуле StatPlus. Для создания таблицы частот необходимо выбрать команду меню StatPlus ® Описательная статистика (Descriptive Statistics) ® Таблицы частот (Frequency Tables), в появившемся диалоговом окне Создание таблицы частот (Create Frequency Table) щелкнуть на кнопке Значения данных (Data Values), затем в диалоговом окне Параметры ввода (Input Options) выбрать переключатель Использовать имена диапазонов (Use Range Names), после чего в списке диапазонов выбрать переключатель, соответствующий нужному наименованию столбца, и щелкнуть на кнопке ОК.

Важным этапом анализа данных является выявление центральных мер распределения значений (среднее, медиана). Вычисление значения каждой из них будет характеризовать весь набор данных. Это значение часто называется типичным или наиболее представительным. Медиана (median) представляет собой середину распределения, т.е. одна половина заданного набора данных имеет меньшие значения, а другая — большие значения. Точный подсчет медианы зависит от количества наблюдений в наборе данных. При нечетном количестве значений медианой является промежуточное значение, а при четном — полусумма двух центральных значений.

Еще одной распространенной характеристикой является среднее значение (average или mean), которое равно сумме значений, деленной на их количество. Одним из недостатков среднего значения является то, что оно существенно зависит от экстремальных значений. Медиана в большей степени представляет "типичную" величину характеристики, поскольку игнорирует величину экстремальных значений.

Функциями, позволяющими вычислить перечисленные центральные меры распределения, являются: СРЗНАЧ (массив) и МЕДИАНА (массив).

Следует отметить, что среднее и медиана не полностью характеризуют распределение, так как не учитывают изменчивость данных. Изменчивость характеризует различия между данными или их разброс от центра.

Простейшей мерой изменчивости является диапазон, т.е. разница между максимальным и минимальным значениями распределения. Более высокой изменчивости обычно соответствует более широкий диапазон значений. Однако диапазон значений не совсем точно характеризует изменчивость распределения, поскольку два распределения могут иметь одинаковый диапазон, но с разной изменчивостью.

Наиболее распространенной мерой изменчивости является отклонение di значения наблюдения хi, от среднего х. Одни отклонения могут иметь отрицательные значения (для наблюдений, значения которых меньше среднего), а другие — положительные (для наблюдений, значения которых больше среднего). Простое суммирование отклонений ничего не дает, поскольку они могут взаимно компенсировать друг друга, т.е. среднее отклонение всегда равно нулю. Поэтому каждое отклонение возводят в квадрат, суммируют и делят на количество наблюдений минус 1. Данная мера изменчивости называется дисперсией (variance) и обозначается s².

Вычисление дисперсии производится при помощи функции ДИСП(массив). Чем больше ее величина, тем соответственно больше разброс значений вокруг среднего.

Для измерения изменчивости также вычисляется стандартное отклонение, обозначаемое символом s и равное квадратному корню из дисперсии, для вычисления которого используется функция СТАНДОТКЛОН. Эта характеристика представляет «типичное» отклонение значений от среднего, более высокое значение которой свидетельствует о более высокой степени изменчивости данных. При выборе функций для вычисления стандартного отклонения нужно обращать внимание на их описание, поскольку предлагаются функции как для генеральной совокупности, так и для выборки данных, а также с учетом или без учета текстовых и логических значений.

В ряде случаев возникает необходимость определения диапазона значений, в который попадает средняя величина исследуемой характеристики при заданной вероятности. Для этого используется функция ДОВЕРИТ, при вычислении которой должны быть указаны следующие данные: уровень значимости альфа, используемый для вычисления уровня надежности (уровень надежности равняется 100*(1 - альфа) процентам, т.е. альфа равное 0,05 означает 95-процентный уровень надежности), размер выборки – число наблюдений и предварительно рассчитанное стандартное отклонение.

В целом, следует отметить, что Ехсе1 предоставляет большое количество функций для проведения статистического анализа. В данном разделе рассмотрены функции, которые находят наиболее частое применение при анализе данных, проводимых товароведами-экспертами.

В случае отсутствия необходимых функций, можно произвести расчет требуемых показателей путем создания формулы.

Рассмотрим процедуру проведения корреляционного анализа. Величина наклона в уравнении регрессии зависит от единицы измерения данных. При использовании другой шкалы наклон изменится. Поэтому иногда бывает удобнее выражать взаимосвязь между одной переменной и другой в безразмерном виде, для чего и предназначена корреляция, выражающая силу взаимосвязи по безразмерной шкале ( -1; 1).

Положительная корреляция означает сильную положительную взаимосвязь, т.е. увеличение одной переменной вызывает увеличение другой переменной. Например, такая корреляция наблюдается между содержанием золота в сплаве и ценой на изделие, изготовленное из этого сплава. Отрицательная корреляция означает сильную отрицательную взаимосвязь, т.е. увеличение одной переменной вызывает уменьшение другой переменной например, увеличение цены товара может сопровождаться уменьшением объема продаж.

Близкая к нулю корреляция означает, что между двумя переменными нет никакой взаимосвязи. Если между переменными существует нелинейная взаимосвязь, она будет характеризоваться нулевой корреляцией.

Чаще всего для измерения корреляции используется коэффициент корреляции Пирсона, который обычно обозначается символом r.

При нулевой корреляции наклон равен нулю, а знак наклона всегда соответствует знаку корреляции. Наклон может выражаться любым действительным числом, но корреляция всегда должна быть в промежутке от - 1 до +1. Корреляция +1 означает, что все точки данных падают точно на одну линию с положительным наклоном. В таком случае все остатки равны
нулю, а подогнанная линия регрессии точно проходит через все точки.

Корреляция означает взаимосвязь между двумя переменными без предположения о том, что изменение одной переменной вызывает изменения другой, поэтому следует крайне осторожно интерпретировать полученные результаты и не путать корреляцию с причинно-следственной связью.

Для вычисления коэффициента корреляции служит функция КОРРЕЛ(х, у).

Для применения этого инструмента необходимо построить таблицу, как это требуется при регрессионном анализе. После установления курсора внутри таблицы следует обратиться к меню Сервис→Анализ данных для определения матрицы коэффициентов корреляции. В появившемся окне отметить опцию Корреляция. В следующем диалоговом окне ввести в указанных строках диапазон для переменной Х и У. Нажатием ОК будут произведены расчеты. При этом на листе появится матрица, элементами которой будут являться коэффициенты корреляции между всеми выбранными показателями.

Рассмотрим основы регрессионного анализа.

При отображении на диаграмме зависимости двух переменных друг от друга полученные значения обычно не укладываются точно на прямую линию. Выполняя анализ линейной регрессии, пытаются найти такую линию, которая наилучшим образом оценивает взаимосвязь между двумя переменными (зависимой переменной у и независимой переменной х). Такая линия называется подогнанной линией регрессии, а описывающее ее уравнение — уравнением регрессии.

В Excel предусмотрена подгонка линии регрессии с помощью уравнения у= а + b х, где у — зависимая переменная, значения которой нужно предсказать; х — независимая переменная, или предиктор , на основе которой нужно сделать предсказание; а и b — коэффициенты.

Короткие вертикальные отрезки между подогнанной линией и точками представляют собой ошибки или остатки. Остаток — это разность между наблюдаемыми и предсказываемыми значениями. Поскольку а является значением переменной у в месте пересечения вертикальной оси и подогнанной линии регрессии, этот коэффициент иногда называют пересечением или постоянным членом. Поскольку b характеризует наклон подогнанной линии регрессии, этот коэффициент называют наклоном. Коэффициент b выражает отношение вертикального и горизонтального приращений вдоль линии. Например, если переменная у возрастает от 10 до 30, а переменная х при этом увеличивается от 0 до 10, то наклон подогнанной линии регрессии выражается формулой, в числителе которой будет разница (30-10), в знаменателе – (10-0). Отсюда b =2.

Предположим, что переменная х обозначает крутку текстильных нитей, а переменная у — их прочность. В таком случае пересечение регрессии (т.е. значение переменной у при х = 0) обозначает прочность нитей без крутки. Кроме того, наклон регрессии обозначает приращение прочности нитей при увеличении крутки на определенную величину, которая определяется шагом измерений, например, десять витков.

У нитей с прочностью выше подогнанной линии регрессии наблюдается положительный остаток, а у нитей с прочностью ниже подогнанной линии регрессии — отрицательный остаток.

Если линия направлена вниз так, что при возрастании значений переменной х уменьшаются значения переменной у, то линия регрессии имеет отрицательный наклон. Например, если переменная х обозначает срок эксплуатации компьютера в годах, а переменная у — его цену, то в таком случае наклон обозначает ежегодное снижение цены. В этом примере пересечение регрессии обозначает цену нового компьютера.

При подгонке линии к данным используются такие а и b , для которых сумма квадратов остатков принимает наименьшее значение. Эта процедура называется методом наименьших квадратов. Для определенияэтих членовслужат функции ОТРЕЗОК (у,х) и НАКЛОН (у,х).

Для применения инструмента Регрессия необходимо построить таблицу, указав в ней значения анализируемых показателей. Результирующим показателем должен быть только один, а в качестве объясняющих переменных может быть использовано несколько показателей.

Для активизации инструмента обращаются к меню Сервис→Пакет анализа→Регрессия.

В появившемся окне указываются следующие параметры:

- диапазон для У (результативного показателя);

- диапазон для Х (объясняющих показателей);

- флажок в позиции Уровень надежности – 0,95.

- флажок в позиции Метки переменных (только в тех случаях, когда перед выполнением анализа была выделена вся таблица или при задании диапазонов У и Х указывались не только сами значения, но и наименования столбцов).

- флажок в позиции остатки и стандартизированные остатки.

- опция в позиции выводить результат на новом листе.

В результате на новом листе появятся результативные таблицы.

В качестве примера интерпретации результативных таблиц рассмотрим регрессионный анализ зависимости двух переменных. В качестве зависимой переменной будет выступать уровень реализации, в качестве независимой переменной - затраты на рекламу. Таблица на основе которой будет проведен анализ состоит из 3 столбцов: вид изделия, затраты на рекламу, уровень реализации. После использования инструмента «Регрессия» на экране появляется несколько таблиц.

Первая - область статистических параметров регрессии. В ней рассмотрим основные параметры.

Величина достоверности аппроксимации R ² измеряет процентную долю изменчивости значений зависимой переменной, которая может объясняться изменениями независимой переменной. При построении однофакторной корреляционной модели (как в данном примере) коэффициент множественной корреляции равен коэффициенту парной корреляции. Величина R ² может принимать значения от 0 до 1. Например, значение 0,7654 говорит о том, что изменчивость уровня реализации, составляющая 76,54%, может объясняться изменениями затрат на рекламу. Оставшаяся доля (23,46%) изменчивости уровня реализации может объясняться случайной изменчивостью.

Величина в строке Множественный R равна квадратному корню величины R ² . Она выражает абсолютную величину корреляции между зависимой переменной и предиктором.

Величина в строке Нормированный R-квадрат используется для анализа регрессии с несколькими предикторами и корректируется с учетом числа независимых переменных, поскольку добавление дополнительных объясняющих переменных в многофакторную модель увеличивает значение коэффициента детерминации.

Величина в строке Стандартная ошибка описывает размер типичного отклонения наблюдаемого значения (х,у) от линии регрессии. Стандартную ошибку можно представить себе как усредненную меру отклонений от линии регрессии.

Величина в строке Наблюдения указывает размер выборки, т.е. в данном случае регрессия основана на количестве наблюдаемых изменений расходов на рекламу.

Вторая таблица - область с результатами анализа изменчивости, в которой приведены параметры изменчивости уровня реализации. Изменчивость определяется двумя составляющими: изменениями линии регрессии и хаотичными изменениями.

В столбце df приводятся данные о количестве степеней свободы, т.е. сколько имеется независимых значений. Общее количество степеней свободы указано в строке Итого. Из них одна степень свободы связана с изменениями линии регрессии. Она указана в строке Регрессия. В строке Остаток указаны степени свободы, которые связаны с хаотичными изменениями.

В столбце ss приводятся значения суммы квадратов. Общая сумма квадратов в ячейке на пересечении со строкой Итого содержит сумму квадратов отклонений объема продаж от среднего. Общая сумма квадратов складывается из двух частей: одна определяется изменениями линии регрессии, а другая связана с хаотичными изменениями и указана в ячейке на пересечении со строкой Остаток. Первая часть указана в ячейке на пересечении со строкой Регрессия и является суммой квадратичных отклонений от среднего. Вторая часть указана в ячейке на пересечении со строкой Остаток и является суммой квадратичных отклонений от линии регрессии. Последнее из двух значений должно принимать минимальное значение в уравнении регрессии. Если сумма квадратичных отклонений равна 3 396,84, причем одно ее слагаемое 2 599,53 определяется изменениями линии регрессии, то другое (796,91) — ошибкой.

Доля общей суммы квадратичных отклонений равна R ², т.е. процентной доле изменчивости, определяемой изменениями линии регрессии.

В столбце MS отображаются результаты деления суммы квадратичных отклонений на количество степеней свободы. Среднеквадратическое значение для остатков равно квадрату стандартной ошибки, указанной в области регрессионной статистики – первой таблице итогов регрессии. Таким образом, среднеквадратическое значение можно использовать для определения стандартной ошибки, являющейся мерой точности оценки.

В столбце F отображаются результаты отношения среднеквадратического значения для регрессии и среднеквадратического значения для остатков. Большая величина F-отношения означает большую статистическую значимость регрессии. В следующем столбце, значимость F, отображается р-значение. Под р-значением понимают вероятность того, что некое значение так же экстремально, как и наблюдаемое заданное значение.

Далее - в третьей по счету таблице приводятся оценочные параметры. В столбце коэффициенты указаны значения пересечения и наклона. В столбце с тандартная ошибка приводятся величины стандартной ошибки для пересечения и наклона. В двух последних столбцах данной области приводятся 95%-ные доверительные интервалы для пересечения и наклона.

В целом, на основании статистических параметров регрессии можно установить, существует ли линейная зависимость между исследуемыми величинами. На основании доверительного интервала для наклона можно с вероятностью 95% утверждать, что при увеличении расходов на рекламу на 1 рубль уровень реализации возрастает на величину, попадающую в диапазон доверительного интервала.

Последняя часть результатов выполнения команды Регрессия включает остатки и предсказываемые значения. Как известно, остатки — это разность между наблюдаемыми значениями и линией регрессии (предсказываемыми значениями). Остатки играют очень важную роль при проверке модели регрессии на линейность.

Таким образом, данный инструмент позволяет построить не только аналитическую модель, реализующую зависимость какого либо показателя от других, но и динамическую модель, использующую фактор времени, предоставляя пользователю наиболее подробную и обширную информацию об аппроксимирующей функции, чем способы, описанные выше. Однако, как было отмечено ранее, он может быть применим только для линейной зависимости. Для анализа любой нелинейной зависимости потребуются дополнительные расчеты.

2020-02-04

221

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 1 2 3 4 567 8 9 10 Следующая ⇒

Обсуждение в статье: Вопрос 5. Статистический анализ.

Обсуждений еще не было, будьте первым... ↓↓↓