Мегаобучалка Главная | О нас | Обратная связь


Методы многомерного шкалирования и кластерного анализа



2020-03-17 205 Обсуждений (0)
Методы многомерного шкалирования и кластерного анализа 0.00 из 5.00 0 оценок




 

В данной работе правильнее будет остановиться на обзоре более доступной информации, конкретнее - данных статистического учета официальной статистики, доступных для каждого научного работника или государственного служащего. Так как эта информация отражает различные и не всегда взаимосвязанные между собой стороны существования регионов, мы предлагаем следующий подход в проведении классификации регионов:

1) метод многомерного шкалирования;

2) метод кластерного анализа (иерархический кластер-анализ, метод K-средних).

Основная идея методов многомерного шкалирования состоит в представлении каждого объекта точкой геометрического пространства (обычно размерности 1, 2 или 3), координатами которой служат значения скрытых (латентных) факторов, в совокупности достаточно адекватно описывающих объект. Значения этих факторов определяются на основании "сжатия" факторного пространства до 1-3 факторов. Реализация этого метода позволит нам представить объект, описываемый большим количеством факторов наглядно на плоскости в двухмерном или трехмерном изображении. Если же имеется группа объектов, то мы сможем увидеть и по возможности интерпретировать их взаимное расположение относительно друг друга в пространстве.

Для анализа были использованы данные официальной статистики за 2004 год по следующим показателям:

Коэффициент естественной убыли/прироста населения (на 1000 человек населения).

Уровень безработицы (на конец года; в процентах к численности экономически активного населения).

Номинальная начисленная среднемесячная заработная плата работников (тыс. рублей).

Средняя обеспеченность населения жильем в расчете на одного жителя в городских поселениях и сельской местности (на конец года; квадратных метров общей площади жилищ).

Численность врачей всех специальностей на 10000 человек населения (человек).

Численность населения на 1 больничную койку (на конец года, человек).

Выброшено в атмосферу загрязняющих веществ, отходящих от стационарных источников, тонн.

Объем промышленной продукции в фактических отпускных ценах, миллиардов рублей.

Доля негосударственных предприятий в общем объеме производства по предприятиям, состоящим на самостоятельном балансе, в процентах.

Износ промышленно-производственных основных фондов, в процентах к наличию основных фондов на конец года.

Урожайность зерновых культур в хозяйствах всех категорий, центнеров с одного гектара.

Урожайность картофеля в хозяйствах всех категорий, центнеров с одного гектара.

Урожайность овощей в хозяйствах всех категорий, центнеров с одного гектара.

Реализация скота и птицы сельскохозяйственными организациями.

Инвестиции в основной капитал, в фактически действовавших ценах, миллионов рублей, в живом весе, тонн.

Обеспеченность городского населения домашними телефонными аппаратами телефонной сети общего пользования, на конец года, штук на 1000 человек.

Обеспеченность сельского населения домашними телефонными аппаратами телефонной сети общего пользования, на конец года, штук на 1000 человек.

Розничный товарооборот торговых предприятий, включая общественное питание, в расчете на душу населения, в фактически действовавших ценах, тысяч рублей.

Объем реализации платных услуг в расчете на душу населения по юридическим лицам, в фактически действовавших ценах, тысяч рублей.

Объем реализации бытовых услуг в расчете на душу населения по юридическим лицам, в фактически действовавших ценах, тысяч рублей.

Объем внешнеторгового оборота, миллионов долларов США.

Рентабельность реализованной продукции работ, услуг предприятий и организаций, в процентах к обороту.

Критерием отбора являлась необходимость использования по возможности наименее зависимых друг от друга факторов, чтобы избежать явления мультиколлинеарности в исходной матрице показателей.

Технически данный метод реализован в самых разнообразных статистических программах. Для обработки статистических данных для районов Гомельской области был применен пакет STATISTICA 6.0.

Общий алгоритм реализации этого метода, применительно к анализу районов области можно свести к следующим шагам [4, с.597-604]:

1. Пусть имеется n объектов Регион (1), Регион (2), …, Регион (n). Для каждой пары объектов Регион (i), Регион (j) задана мера их сходства s (i , j). Необходимо, чтобы s (i , j) = s (j , i). В нашем случае пусть это будет мера различия (расстояния), вычисленная по евклидовой метрике.

2. В нашем примере для исследуемых регионов мы отбираем большое число факторов для анализа (28 факторов и 21 регион). Поэтому чтобы придти к необходимому для расчетов виду проведем дополнительно некоторые манипуляции с исходными данными.

Стандартизируем значения в матрице показателей при помощи формулы

 

, (1)

 

где  - стандартизированное значение показателя для региона (j), где i , j=1, 2, …, n;  - значение параметра, характеризующего регион (j);  - среднее значение конкретного параметра для рассматриваемой группы регионов. Например, среднее значение показателя "Выброшено в атмосферу загрязняющих веществ, отходящих от стационарных источников (тонн)" для районов Гомельской области.

Такая манипуляция позволит избежать погрешностей и ошибок, связанных с разницей в измерениях показателей.

Условие s (i , j) = s (j , i) будет выполняться в матрице симметрического вида. Поэтому для каждого из элементов полученной матрицы нормированных показателей рассчитываем меры различия (расстояний) по формуле обычного евклидового расстояния и формируем матрицу симметрического вида, тогда:

 

, (2)

 

где ,  - величина l-го компонента у i-го (j-го) объекта (l =1,2,…,k; i , j=1,2,…,n).

2. В конечном итоге рассматриваемые n объектовдолжны быть представлены конфигурациейтакого же количества точек, причем в качестве меры близости точек-представителей выступает евклидово расстояние d (i , j) между соответствующими точками. Степень соответствия между совокупностью объектов и совокупностью представляющих их точек определяется путем сопоставления матриц сходства объектов ||s (i , j) || и расстояний между точками ||d (i , j) ||. Метрический функционал сходства имеет вид:

 

. (3)

 

При расчетах, производится подбор такого значения S , которое было бы минимальным среди возможных вариантов в искомом количестве измерений (например, 2 или 3). При проведении расчета мы руководствовались вышеуказанным алгоритмом, реализуемым в настройках программы "по умолчанию" [5].

При изначальном условии, что количество итоговых факторов (измерений для отображения положения районов на плоскости или в пространстве) равно 2, нами получены следующие результаты (табл.2):

 

Таблица 2

Результаты многомерного шкалирования районов Гомельской области по 2 измерениям

Район Условное обозначение в программе Измерение 1 Измерение 2
Брагинский 101 -0,158158 -0,165499
Буда-Кошелевский 102 -0,158129 -0,165518
Ветковский 103 -0,158165 -0,165490
Гомельский 104 -0,158021 -0,165597
Добрушский 105 -0,158099 -0,165434
Ельский 106 -0,158161 -0,165527
Житковичский 107 -0,158143 -0,165536
Жлобинский 108 3,235763 0,066417
Калинковичский 109 -0,158121 -0,165501
Кормянский 110 -0,158166 -0,165524
Лельчицкий 111 -0,158154 -0,165582
Лоевский 112 -0,158170 -0,165518
Мозырский 113 -0,231352 3,078363
Наровлянский 114 -0,158173 -0,165471
Октябрьский 115 -0,158158 -0,165524
Петриковский 116 -0,158153 -0,165542
Речицкий 117 -0,158013 -0,165448
Рогачевский 118 -0,158106 -0,165539
Светлогорский 119 -0,158004 -0,165485
Хойникский 120 -0,158148 -0,165547
Чечерский 121 -0,158169 -0,165499
Значение S

0,0000097

 

Далее на базе полученных данных построена диаграмма рассеяния точек, соответствующих отдельным районам.

При этом ось X соответствует измерению № 1, ось Y соответствует измерению № 2 (рис.1). Каждая точка находится на пересечении соответствующих значений измерения № и измерения № 2.

В качестве наименования района, чтобы не загромождать график, используем условные обозначения (см. табл.2).

При анализе диаграммы рассеяния обращаем внимание на то, что районы Жлобинский (108) и Мозырский (113) находятся в значительном удалении от остальных районов. Другие районы распределены на плоскости относительно равномерно.


Рис.1. Распределение районов по результатам многомерного шкалирования по показателям за 2004 год. Источник: [6,7]

 

Согласно составу анализируемых факторов (22 фактора), можно отметить, что Мозырский и Жлобинский районы отличаются от других районов области:

Жлобинский район лидирует по области по следующим показателям:

объем промышленной продукции в фактических отпускных ценах (млрд. рублей);

рентабельность реализованной продукции работ, услуг предприятий и организаций (в процентах к обороту);

объем внешнеторгового оборота (млн. долларов США);

номинальная начисленная среднемесячная заработная плата работников (тыс. рублей);

розничный товарооборот торговых предприятий, включая общественное питание, в расчете на душу населения в фактически действовавших ценах (тыс. рублей).

Мозырский район отличается высоким значением таких показателей:

урожайность картофеля в хозяйствах всех категорий (центнеров с одного гектара);

рентабельность реализованной продукции работ, услуг предприятий и организаций (в процентах к обороту);

выброшено в атмосферу загрязняющих веществ, отходящих от стационарных источников (тонн).

Таким образом, специфическое положение Мозырского района относительно остальных районов обусловлено количеством выбросов в атмосферу.

Мозырский район можно рассматривать как район, ориентированный на сельское хозяйство со средними по области показателями хозяйственной деятельности.

Жлобинский район, выделившийся на рис.1, можно отнести к районам с высоким социально-экономическим развитием, так как он лидирует в области по большинству экономических и социальных показателей.

Распределение остальных районов однотипно и поэтому требует дополнительного анализа (рис.2)


Рис.2. Распределение районов по результатам многомерного шкалирования по показателям за 2004 год

 

Источник: [6,7]

Необходимо обратить внимание на четыре района, находящиеся на некотором удалении от остальных: Речицкий (117), Светлогорский (119), Добрушский (105), Гомельский (104). Гомельский район находится ниже на плоскости, что вызвано влиянием высокого значения показателя реализации сельскохозяйственной продукции в целом. По другим факторам Гомельский район сходен с остальными районами выделенной группы. В данной группе Светлогорский, Речицкий, Добрушский районы находятся наиболее близко друг к другу на плоскости. Для группы этих районов характерно относительно высокое значение показателей инвестиций в основной капитал, объемов промышленного производства (для Светлогорского и Речицкого районов), суммы заработной платы, объема внешнеторгового оборота, розничного товарооборота (для Светлогорского и Речицкого) районов по области.

Остальные районы характеризуются более низким значением социально-экономических показателей в сравнении с выделенными группами. Социально-экономические показатели для третьей группы находятся на уровне или ниже среднеобластного.

Таким образом, можно выделить следующие группы районов в составе Гомельской области (табл.3):

 

Таблица 3

Итоговое распределение районов Гомельской области при помощи метода многомерного шкалирования

Группа районов Районы, вошедшие в состав группы
1. Районы с высоким уровнем социально-экономического развития Жлобинский
2. Районы со средним уровнем социально-экономического развития Гомельский, Светлогорский, Речицкий, Добрушский
3. Районы со средним уровнем социально-экономического развития и высоким уровнем воздействия на окружающую среду Мозырский
4. Районы с низким уровнем социально-экономического развития, в том числе наиболее пострадавшие от аварии на ЧАЭС Лельчицкий, Рогачевский, Лоевский, Житковичский, Петриковский, Брагинский, Буда-Кошелевский, Хойникский, Октябрьский, Калинковичский, Кормянский, Чечерский, Наровлянский, Ветковский, Ельский

 

Другим методом многомерного анализа и группировки данных является кластер-анализ. Методы кластерного анализа широко используются для классификации объектов, состояние которых или свойства которых могут быть описаны не одной, а двумя или несколькими переменными (множеством переменных).

В нашем случае возможно использовать кластер-анализ как дополнительное аналитическое средство ввиду того, что:

кластер-анализ позволяет получить лишь общую картину по проблеме различия/похожести изучаемых объектов;

кластер-анализ с тем же набором данных, что и многомерное шкалирование, не дает возможности графического анализа.

Процедура кластерного анализа состоит в следующем. Как и для многомерного шкалирования, мы отбираем большое число факторов для анализа (27 факторов и 21 регион).

Для расчетов, как и ранее, используем возможности программы STATISTICA 6.

В целях устранения различий в размерности данных, стандартизируем значения в матрице показателей при помощи формулы (1):

 

.

 

Предварительные расчеты расстояний между объектами делать не надо, так как программа все сделает автоматически.

Для нашего случая как средство подтверждения сделанных ранее предположений выбираем процедуру кластер-анализа методом "k-средних". Это позволяет заранее задать определенное число кластеров, что предоставляет свободу для манипулирования данными в отличие от метода иерархического кластер-анализа. Так как при графическом анализе мы визуально выделяем районы или их группы, расположенные на расстоянии друг от друга, то для более четкого выделения групп кластеров используем опцию программы "Выбор центров кластеров на максимальном расстоянии друг от друга" в окне процедуры кластерного анализа методом "k-средних".

Результаты кластер-анализа по методу "k-средних" приведены в табл.4. Распределение районов Гомельской области по группам (в случае использования 4 предполагаемых кластеров) позволяет сделать вывод о правильности анализа проведенного методом многомерного шкалирования. Получились четыре группы кластеров, не отличающихся по составу от выделенных ранее. Можно отметить факт попадания Мозырского района в отдельный кластер, что, при условии дополнительного анализа исходных данных, позволяет выделить его в отдельную группу.

 

Таблица 4

Распределение районов по группам кластеров

Район Расстояние до центра кластера Номер кластера
Гомельский 0,794433 2
Добрушский 0,5773537 2
Речицкий 0,4128007 2
Светлогорский 0,6073875 2
Жлобинский 0 3
Брагинский 0,3007033 4
Буда-Кошелевский 0,3839736 4
Ветковский 0,3717869 4
Ельский 0, 20828 4
Житковичский 0,3325193 4
Калинковичский 0,3517169 4
Кормянский 0,2410133 4
Лельчицкий 0,5554702 4
Лоевский 0,2738039 4
Наровлянский 0,5038733 4
Октябрьский 0,2197551 4
Петриковский 0,3156618 4
Рогачевский 0,4413403 4
Хойникский 0,3488219 4
Чечерский 0,3165721 4
Мозырский 0 1

 

Классификация регионов предполагает выделение критериев отличий. В некотором смысле такая процедура выделения регионов определяет уровень их конкурентоспособности. В нашем случае можно сформулировать определение конкурентоспособности региона. Конкурентоспособность региона в нашем анализе - величина прямо пропорциональная уровню развития социально-экономических показателей, состояния экологической ситуации в регионе. Рассматривая понятие конкурентоспособности регионов Гомельской области, можно сказать, что наиболее конкурентоспособными являются две первые группы. Эти группы характеризуются относительно устойчивыми показателями социально-экономического развития, относятся к числу ведущих регионов Гомельской области по основным показателям экономико-социального развития. Можно отметить, что основополагающим фактором определения конкурентоспособности выступает наличие в этих районах градообразующих промышленных предприятий. Они являются источником развития социально-экономической инфраструктуры районов, центром притяжения инвестиционных потоков.

К "депрессивным" регионам мы можем отнести, например, две остальные группы регионов:

районы со средним уровнем социально-экономического развития и высоким уровнем воздействия на окружающую среду;

районы с низким уровнем социально-экономического развития, в том числе наиболее пострадавшие от аварии на ЧАЭС.

Вторая из указанных групп в Гомельской области наиболее многочисленная, что не может не вызывать опасений в стабильности динамики экономического развития.


Заключение

 

Таким образом, описанная процедура анализа может быть полезна при проведении так называемой "маркетинговой разведки" положения и состояния региона, классификации регионов по признаку конкурентоспособности. Естественно, что анализ социально-экономического положения региона не может ограничиваться применением только одного выделенного метода. Комплексные экономико-математические и статистические методы могут быть использованы для дифференциации уровня конкурентоспособности.


Литература

 

1. Алаев, Э.Б. Социально-экономическая география: понятийно-терминолог. словарь / Э.Б. Алаев. - М.: Мысль, 1983. - 350 с.

2. Горбач, А.В., Ковалев, М.М. Как определяются международные рейтинги государств / А.В. Горбач, М.М. Ковалев // Вестн. ассоц. бел. банков. - 2000. - № 33 (8 сент). - С. 20-54.

3. Фатхутдинов, Р. Стратегическая конкурентоспособность и экономика России / Р. Фатхутдинов // Общество и экономика. - 2003. - № 1. - С.31-43.

4. Статистика: показатели и методы анализа: Справ. пособие / Н.Н. Бондаренко, Н.С. Бузыгина, Л.И. Василевская и др. / Под ред.М. М. Новикова. - Мн.: Современная школа, 2005. - 628 с.

5. Электронный учебник по статистическому пакету Statistica с сайта создателя программы, фирмы Statsoft - http://www.statsoft.ru

6. Гомельская область в цифрах: Краткий стат. сб. / М-во статистики и анализа Респ. Беларусь, Гомельское обл. упр. статистики. - Гомель: Гомельское обл. упр. статистики, 2005. - 153 с.

7. Форма МБ, "Миграция населения по потокам", за период 1994-2004 гг. по районам Гомельской области. Данные отдела социальной статистики Гомельского областного управления статистики.



2020-03-17 205 Обсуждений (0)
Методы многомерного шкалирования и кластерного анализа 0.00 из 5.00 0 оценок









Обсуждение в статье: Методы многомерного шкалирования и кластерного анализа

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (205)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.008 сек.)