Дискриминантный анализ для двух групп
Дискриминантный анализ
В маркетинговом исследовании «Выбор универмага» маркетологи использовали дискриминантный анализ для двух групп, чтобы выяснить, отличаются ли значения, которые присваивают восьми факторам выбора универмага респонденты, которым известны универмаги, от тех значений, которые выставляют респонденты, которым универмаги не известны. Зависимой переменной были две группы респондентов — владеющие и не владеющие информацией об универмагах, а независимыми переменными — важность (значение) восьми факторов критерия выбора. Общая дискриминантная функция была значимой, что указывало на существенное различие между двумя группами. Результаты показали, что по сравнению с респондентами, ничего не знающими о данных универмагах, респонденты, хорошо осведомленные о них, придавали большее относительное значение качеству товаров, условиям возврата товаров, услугам продавцов, а также условиям кредитования и расчета с покупателями. В указанном примере с универмагом фигурируют две группы респондентов (знакомые и не знакомые с универмагом), в то время как в примере с предрасположенностью к покупкам товаров со скидками проверяли три группы (лица, не являющиеся покупателями товаров со скидкой; редкие покупатели и частые). В данных исследованиях обнаружены существенные межгрупповые различия при использовании многих предикторов (независимых переменных). Исследование различий между группами — основа концепции дискриминантного анализа. Дискриминантный анализ (discriminant analysis) используется для анализа данных втом случае, когда зависимая переменная категориальная, а предикторы (независимые переменные) интервальные. Дискриминантный анализ (discriminant analysis) Например, зависимая переменная может быть выбором торговой марки персонального компьютера (торговые марки А, В или С), а независимыми переменными могут быть рейтинги свойств персональных компьютеров, измеренные по семибалльной шкале Лайкерта. Дискриминантный анализ преследует такие цели. § Определение дискриминантных функций (discriminant functions) или линейных комбинаций независимых переменных, которые наилучшим образом различают (дискриминируют) категории (группы) зависимой переменной. § Проверка существования между группами значимых различий с точки зрения независимых переменных. § Определение предикторов, вносящих наибольший вклад в межгрупповые различия. § Отнесение случаев к одной из групп (классификация) исходя из значений предикторов. § Оценка точности классификации данных на группы. Дискриминантная функция (discriminant functions)Выведенная с помощью дискриминантного анализа линейная комбинация независимых переменных, с помощью которой можно наилучшим образом различить (дискриминировать) категории зависимой переменной. Метод дискриминантного анализа описывается количеством категорий, имеющихся у зависимой переменной. Если она имеет две категории, то метод называют дискриминант ным анализом для двух групп (two-group discriminant analsysis). Дискриминантный анализ для двух групп (two-group discriminant analysis)Метод дискриминантного анализа, когда зависимая переменная имеет две категории. Если анализируют три или больше категорий, то метод называют множественным дискриминантным анализом (multiple descriminant analysis). Множественный дискриминантный анализ (multiple descriminant analysis) Главное отличие между ними заключается в том, что при наличии двух групп можно вывести только одну дискриминантную функцию. Используя множественный дискриминантный анализ, можно вычислить несколько функций. В маркетинговых исследованиях можно привести массу примеров применения дискриминантного анализа. Так, с помощью этого метода можно получить ответы на следующие вопросы. § Чем, с точки зрения демографических характеристик, отличаются приверженцы данного магазина от тех, у кого эта приверженность отсутствует? § Отличаются ли в потреблении замороженных продуктов покупатели, которые пьют безалкогольные напитки мало, умеренно и много? § Какие психографические характеристики помогают провести различия между восприимчивыми и не восприимчивыми к цене покупателями бакалейных товаров? § Различаются ли между собой различные сегменты рынка по своим предпочтениям к средствам массовой информации? § Какие существуют различия между постоянными покупателями местных универсальных магазинов и постоянными покупателями общенациональных сетей универмагов с точки зрения стиля жизни? § Какими отличительными характеристиками обладают потребители, реагирующие на прямую почтовую рекламу
Модель дискриминантного анализа (discriminant analysis model) имеет следующий вид: D = b0 + blXl + b2×2+b3Xi+...+bkXk, где D — дискриминантный показатель (дискриминант), b — дискриминантный коэффициент, или вес, X- предиктор, или независимая переменная. Модель дискриминантного анализа (discriminant analysis mode). Статистическая модель, лежащая в основе дискриминантного анализа. Коэффициенты, или веса (D), определяют таким образом, чтобы группы максимально отличались значениями дискриминантной функции. Это происходит тогда, когда отношение межгрупповой суммы квадратов к внутригрупповой сумме квадратов для дискриминантных показателей максимально. Любая другая линейная комбинация предикторов приводит к меньшему значению этого отношения. С дискриминантным анализом связан ряд статистик. Статистики, связанные с дискриминантным анализом Каноническая корреляция (canonical correlation). Измеряет степень связи между дискриминантными показателями и группами. Это мера связи между единственной дискриминирующей функцией и набором фиктивных переменных, которые определяют принадлежность к данной группе. Центроид (средняя точка) (centroid). Центроид — это средние значения для дискриминантных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Средние группы для всех функций — это групповые центроиды. Классификационная матрица (classification matrix). Иногда ее называют смешанной матрицей, или матрицей предсказания. Классификационная матрица содержит ряд правильно классифицированных и ошибочно классифицированных случаев. Верно классифицированные случаи лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же. Элементы, не лежащие на диагонали матрицы, представляют случаи, классифицированные ошибочно. Сумма элементов, лежащих на диагонали, разделенная на общее количество случаев, дает коэффициент результативности. Коэффициенты дискриминантной функции (discriminant function coefficients). Коэффициенты дискриминантной функции (ненормированные) — это коэффициенты переменных, когда они измерены в первоначальных единицах. Дискриминантные показатели (discriminant scores). Сумма произведений ненормированных коэффициентов дискриминантной функции на значения переменных, добавленная к постоянному члену. Собственное (характеристическое) значение (eigenvalue). Для каждойдискриминант-ной функции собственное значение — это отношение межгрупповой суммы квадратов к внутригрупповой сумме квадратов. Большие собственные значения указывают на функции более высокого порядка. F-статистика и ее значимость (F values and their significance). Значения f-статис-тики вычисляют с помощью однофакторного дисперсионного анализа, используя разбивку на группы независимой переменной. Каждый предиктор, в свою очередь, служит в ANOVA метрической зависимой переменной. Средние группы и групповые стандартные отклонения (group means and group standard deviations). Эти показатели вычисляют для каждого предиктора каждой группы. Объединенная межгрупповая корреляционная матрица (pooled within-group correlation matrix). Объединенную межгрупповую корреляционную матрицу вычисляют усреднением отдельных ковариационных матриц для всех групп. Нормированные коэффициенты дискриминантных функций (standardized discriminant function coefficients). Коэффициенты дискриминантных функций используют как множители для нормированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1. Структурные коэффициенты корреляции (structure correlations). Также известны как дискриминантные нагрузки, представляют собой линейные коэффициенты корреляции между предикторами и дискриминантной функцией. Общая корреляционная матрица (total correlation matrix). Если при вычислении корреляций наблюдения обрабатывают так, как будто они взяты из одной выборки, то в результате получают общую корреляционную матрицу. Коэффициент «лямбда» Уилкса (Wilks’s). Иногда называемый статистикой, коэффициент Уилкса для каждого предиктора — это отношение внутригрупповой суммы квадратов к общей сумме квадратов. Его значение варьируется от 0 до 1. Большое значение (около 1) указывает на то, что средние групп не должны различаться. Малые значения (около 0) указывают на то, что средние групп различаются. В дискриминантном анализе существуют такие допущения: каждая группа является выборкой из многомерной нормально распределенной совокупности; все совокупности имеют одну и ту же ковариационную матрицу. Чтобы лучше понять роль допущений и описанных выше статистик, следует изучить методы выполнения дискриминантного анализа.
Выполнение дискриминантного анализа включает следующие стадии: формулирование проблемы, вычисление коэффициентов дискриминантной функции, определение значимости, интерпретация и проверка достоверности (рис. 1). Эти стадии обсуждаются и иллюстрируются для дискриминантного анализа двух групп. Рис. 1. Выполнение дискриминантного анализа. Формулирование проблемы Следующий шаг — разделение выборки на две части. Одна из них — анализируемая выборка (analysis sample) — используется для вычисления дискриминантной функции. Анализируемая выборка (analysis sample)Часть общей выборки, которую используют для вычисления дискриминантной функции. Другая часть — проверочная выборка (validation sample) — предназначена для проверки дискриминантной функции. Проверочная выборка (validation sample)Часть общей выборки, которую используют для проверки результатов расчета на основании анализируемой выборки. Когда выборка достаточно велика, ее можно разбить на две равные части. Одна служит анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок взаимно меняют и повторяют анализ. Это называется двойной перекрестной проверкой, и она аналогична методу, рассмотренному в регрессионном анализе. Часто распределение количества случаев в анализируемой и проверочной выборках следует из распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нелояльно настроенных покупателей, то анализируемая и проверочная выборки должны содержать каждая по 50% лояльных и 50% нелояльных покупателей. В другом случае, если выборка содержит 25% лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%). И наконец, проверку достоверности дискриминантной функции предлагают выполнять неоднократно. Каждый раз выборку следует разбивать на две части — для анализа и проверки. Вычисляют дискриминантную функцию и выполняют анализ достоверности модели. Таким образом, оценка достоверности основана на ряде испытаний. Предлагаются также более точные методы. Чтобы лучше проиллюстрировать дискриминантный анализ для двух групп, обратимся к примеру. Предположим, что мы хотим определить главные характеристики семей, которые отдыхали на курорте в последние два года. Данные получены на основании выборки, включающей 42 семьи. Из них 30 включены в анализируемую выборку, а оставшиеся 12 тали частью проверочной выборки.
Семьям, которые отдыхали на курорте в последние два года, присвоен код 1; тем же, которые не посетили курорт за указанный период времени, присвоен код 2. Обе выборки (как анализируемая, так и проверочная) сбалансированы с точки зрения посещаемости курорта. Как видно, анализируемая выборка содержит 15 семей каждой категории, а проверочная — по 6 семей каждой категории. Кроме того, получены данные о ежегодном доходе каждой семьи (доход), отношении к путешествию (путешествие оценивали по девятибалльной шкале), значении, придаваемом семейному отдыху (отдых оценивали по девятибалльной шкале), размеру семьи (размер семьи) и возрасту главы семьи (возраст). Определение коэффициентов дискриминантной функции Прямой метод (direct method). Метод дискриминантного анализа, в котором дискриминантную функцию вычисляют при одновременном введении всех предикторов. В этом случае учитывается каждая независимая переменная. При этом ее дискриминирующая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда аналитик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы в основе различения лежали все предикторы. Альтернативным методом будет пошаговый метод. При пошаговом дискриминантом анализе (stepwise discriminant analysis) предикторы вводят последовательно, в зависимости от их способности различить (дискриминировать) группы. Пошаговый дискриминантный анализ (stepwise discriminant analysis)Дискриминантный анализ, при котором предикторы вводятся последовательно, в зависимости от их способности различить группы. Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество предикторов для включения их в дискриминатную функцию. Коэффициент X (f-статистика) и f-критерий для одномерной выборки с одной и 28 степенями свободы.
Структурная матрица
Ненормированные коэффициенты канонической дискриминантной функции
Некоторые результаты можно получить, изучив групповые средние и стандартные отклонения. Маркетологи обнаружили, что в деление совокупности на две группы самый большой вклад внесла переменная «Доход». Кроме того, оказалось, что переменная «Значение, придаваемое семейному отдыху», важнее для различения групп, чем переменная «Отношение к путешествию». По возрасту главы семьи две группы различаются мало, а стандартное отклонение этой переменной большое. Объединенная внутригрупповая корреляционная матрица указывает на низкие коэффициенты корреляции между предикторами. Маловероятно, что возникнет проблема мультиколлинеарности. Значимость одномерных f-статистик (отношений внутригрупповых сумм квадратов к общей сумме квадратов) указывает, что когда предикторы рассматриваются по отдельности, то только доход, а также значение, придаваемое семейному отдыху, и размер семьи значимо различаются между семьями, которые посетили курорт, и между теми, кто не отдыхал на курорте. Поскольку имеется две группы, оценивается только одна дискриминантная функция. Собственное значение, соответствующее этой функции, равно 1,7862. Каноническая корреляция, соответствующая этой функции, равна 0,8007. Квадрат корреляции, равный (0,8007)2 = 0,64, показывает, что 64% дисперсии зависимой переменной (посещение курорта) объясняется этой моделью. Следующая стадия дискриминантного анализа включает определение значимости дискриминантной функции. Определение значимости дискриминантной функции Интерпретация результатов При наличии мультиколлинеарности между независимыми переменными не существует однозначной меры относительной важности предикторов для дискриминации между группами. Помня об этом предостережении, можно получить некоторое представление об относительной важности переменных, изучив абсолютные значения нормированных коэффициентов дискриминантной функции. Как правило, предикторы с относительно большими нормированными коэффициентами вносят больший вклад в дискриминирующую мощность функции по сравнению с предикторами, имеющими меньшие коэффициенты. Некоторое представление об относительной важности предикторов можно также получить, изучив структурные коэффициенты корреляции, которые также называют каноническими, или дискриминантными,нагрузками. Эти линейные коэффициенты корреляции между каждым из предикторов и дискриминантной функцией представляют дисперсию, которую предиктор делит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреляции следует использовать осторожно. Полезно исследовать нормированные коэффициенты дискриминантной функции в примере с отпуском на курорте. С данными низкими коэффициентами корреляции между предикторами можно использовать значения нормированных коэффициентов, чтобы предположить, что доход — наиболее важный предиктор при дискриминации между группами, а за ним следуют размер семьи и значение, придаваемое семейному отдыху. Аналогичное наблюдение получено из проверки структурных корреляций. Эти коэффициенты линейной корреляции между предикторами и дискриминантной функцией перечислены в порядке их убывания. Также даны и ненормированные коэффициенты дискриминантной функции. Для классификации данных их можно применить к необработанным значениям переменных в проверочной выборке. Кроме того, показаны групповые центроиды, дающие значения дискриминантной функции, оцененные по групповым средним. Центроид группы 1 (семьи, отдыхающие на курорте) имеет положительное значение, а центроид группы 2 — равное ему, но отрицательное. Знаки коэффициентов соответствующих предикторов положительны. Это означает, что чем выше доход семьи, ее размер, значение, придаваемое семейному отдыху, а также отношение к путешествию и возраст, тем выше вероятность семейной поездки на курорт. Разумно создать профиль двух групп с точки зрения трех предикторов, которые кажутся наиболее важными: доход, размер семьи и значение, придаваемое семейному отдыху. При интерпретации результатов дискриминантного анализа также может помочь разработкахарактеристической структуры (characteristic profile) для каждой группы с помощью описания каждой группы через групповые средние для предикторов. Характеристическая структура (characteristic profile). Средство интерпретации результатов дискриминантного анализа описанием каждой группы через групповые средние для предикторов. Если важные предикторы установлены, то сравнение групповых средних по этим переменным поможет понять межгрупповые различия. Однако прежде чем интерпретировать какие-либо факты, необходимо убедиться в достоверности результатов. Оценка достоверности дискриминантного анализа Коэффициент результативности (hit ratio). Процент случаев, верно классифицированных с помощью дискриминантного анализа. Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и на сколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом. Многие программы для выполнения дискриминантного анализа также определяют классификационную матрицу исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки. Коэффициент результативности, или процент верно классифицированных случаев, равен (12 + 15)/30 = = 0,90, или 90%. Могут возникнуть сомнения, что этот коэффициент результативности искусственно завышен, поскольку данные, использованные для вычисления, использовались и для проверки. Выполнение классификационного анализа по независимому набору данных приводит к классификационной матрице с немного меньшим коэффициентом результативности (4 + 6)/12 = 0,833, или 83,3%. Задав случайным образом две группы равного размера, можно ожидать, что коэффициент результативности равен 1/2 = 0,50, или 50%. Однако превышение точности классификации над случайной классификацией составляет свыше 25%, и поэтому достоверность дискриминантного анализа оценивают как удовлетворительную.
Пошаговый дискриминантный анализ аналогичен пошаговому множественному регрессионному анализу в том отношении, что предикторы вводят последовательно, исходя из их способности различать (дискриминировать) группы. Значение F-статистики рассчитывают для каждого предиктора, выполняя одномерный дисперсионный анализ, в котором группы рассматривают как категориальную переменную, а предиктор — как критериальную переменную. Предиктор с самым высоким значением F-статистики первым отбирают для включения в дискриминантную функцию, если он удовлетворяет определенной значимости и допустимому критерию. Второй предиктор вводят исходя из самого высокого скорректированного или частного значения F, с учетом уже выбранного предиктора. Для того чтобы каждый выбранный предиктор оставить в уравнении, его проверяют исходя из его связи с другими предикторами. Процесс введения и исключения продолжают до тех пор, пока все предикторы не будут удовлетворять критерию значимости — условию, необходимому для их введения в дискриминантную функцию. На каждой стадии рассчитывают несколько статистик. Кроме того, в заключение подводят итог введенным или исключенным предикторам. Пошаговый метод приводит к тому же стандартному выводу, который вытекает из прямого метода. Выбор пошагового метода основан на оптимизации принятого критерия. Метод Махаланобиса (Mahalanobis procedure) основан на максимизации обобщенной меры расстояния между двумя самыми близкими группами. Этот метод позволяет маркетологам-исследователям извлечь максимальную пользу из имеющейся информации. Метод Махаланобиса (Mahalanobis procedure) Первой выбранной переменной был доход, за ним следовали размер семьи и отдых. Порядок введения переменных указывает на их значимость в дискриминации двух групп. Впоследствии это подтвердила проверка нормированных коэффициентов дискриминантной функции и структура коэффициентов корреляции. Обратите внимание, что результаты пошагового анализа согласуются с выводами, ранее полученными прямым методом. Врезки «Практика маркетинговых исследований» — примеры применения дискриминантного анализа в международных маркетинговых исследованиях и при исследование этических проблем в маркетинге.
Популярное: Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... Почему двоичная система счисления так распространена?: Каждая цифра должна быть как-то представлена на физическом носителе... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (234)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |