Построение дерева решений

2019-07-03

237

Обсуждений (0)

0.00 из 5.00 0 оценок

12 3 Следующая ⇒

МИНИСТЕРСТВО НАУКИ И ВЫСШЕГО ОБРАЗОВАНИЯ

РОССИЙСКОЙ ФЕДЕРАЦИИ

Федеральное государственное бюджетное образовательное учреждение

Высшего образования

«Уральский государственный экономический университет»

КОНТРОЛЬНАЯ РАБОТА

по дисциплине «Информационно-аналитические системы»

Тема: «Интеллектуальный анализ данных с применением инструментальных средств анализа»

Институт непрерывного образования		Студент Барабанов Олег Владимирович

Направление		Группа ИНО ЗЭИ-18
Прикладная информатика
		Руководитель Чиркина Н.Г. , ст. преподаватель
Профиль/программа		(ФИО, должность, звание)
Прикладная информатика в экономике
Кафедра
Кафедра информационных технологий и статистики

Екатеринбург

2019 г.

СОДЕРЖАНИЕ

СОДЕРЖАНИЕ................................................................................................... 2

ВВЕДЕНИЕ......................................................................................................... 4

1. Основные применяемые алгоритмы............................................................ 5

1.1 Деревья решений..................................................................................... 5

1.1.1 Сферы применения деревьев решений............................................. 5

1.1.2 Преимущества................................................................................... 5

1.1.3 Построение дерева решений............................................................. 6

1.1.4 Этапы построения деревьев решений............................................... 8

1.1.5 Теоретико-информационный критерий............................................ 9

1.1.6 Статистический критерий.................................................................. 9

1.1.7 Правило остановки............................................................................ 9

1.1.8 Правило отсечения.......................................................................... 10

1.1.9 Извлечение и создание набора правил........................................... 11

1.2 Самоорганизующиеся карты Кохонена................................................ 11

1.2.1 Преимущества.................................................................................. 11

1.2.2 Описание алгоритма........................................................................ 12

1.3 Многослойные нейронные сети............................................................. 12

2. Практический пример интеллектуального анализа данный..................... 13

2.1 Постановка задачи................................................................................. 13

2.2 Применяемые технологии..................................................................... 13

2.3 Импорт данных в Deductor Studio Academic........................................ 16

2.4 Построение дерева решений................................................................. 17

2.5 Самоорганизующиеся карты Кохонена................................................ 21

2.6 Нейронная сеть...................................................................................... 26

ЗАКЛЮЧЕНИЕ................................................................................................. 31

Список сокращений и аббревиатур................................................................. 32

Список использованных источников................................................................ 33

ВВЕДЕНИЕ

Стремительное развитие информационных технологий, в частности, прогресс в методах сбора, хранения и обработки данных позволил многим организациям собирать огромные массивы данных, которые необходимо анализировать. Объемы этих данных настолько велики, что человеческих возможностей экспертов уже не хватает. Это в свою очередь породило спрос на методы и системы автоматического анализа данных, интерес к которым с каждым годом постоянно увеличивается, что подчеркивает актуальность данной изучаемой темы.

Объектами изучения являются информационно-аналитические системы, а предметом изучения являются алгоритмы интеллектуального анализа.

Целью работы является исследование различных алгоритмов интеллектуального анализа, а также применимость их на практике.

Структура контрольной работы состоит из содержания, введения, двух глав, заключения, списка сокращений и аббревиатур, а также списка литературы.

В первой главе мы опишем теоретические основы трех методов интеллектуального анализа, а именно Деревьев решений, самоорганизующихся карт Кохонена и нейронных сетей.

Во второй главе мы выполним практическую работу, по анализу представленной информации, с помощью вышеописанных методов, с применением информационно-аналитической системы Deductor Academic.

Помимо этого, к контрольной работе прилагается файл выполненного проекта системы Deductor Academic и база анкетной информации о клиентах, также находящаяся в открытом доступе.

Основные применяемые алгоритмы.

Деревья решений

Деревья решений – это способ представления правил в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде "если ... то ...".

Сферы применения деревьев решений

Деревья решений являются прекрасным инструментом во всех системах, где требуется интеллектуальный анализ собранных данных. На практике, деревья решений успешно применяются в таких областях, как:

- Финансы. Как пример можно привести оценку платежеспособности клиента, для решения о предоставлении кредита

- Промышленность. В этой сфере деревья решений можно применять как инструмент контроля качества исполнения и производства и пр.

- Медицина. Деревья решений помогают точно и последовательно выявлять различные заболевания, особенно на ранней стадии.

- Молекулярная биология. В этой сфере возможно применять деревья решений для анализа строения аминокислот

- Множество других сфер, в которых есть широкий потенциал применения деревьев решений.

Преимущества.

Преимуществами деревьев решений являются:

- Возможность хранить в компактной и структурированной форме информацию, содержащую точное описание объектов.

- Классификация объектов, для облегчения поиска и применения

- Установление зависимости целевой переменной, имеющей дискретные значения, от входных независимых переменных.

- Быстрый процесс обучения;

- Генерация правил в областях, где эксперту трудно формализовать свои знания;

- Извлечение правил на естественном языке;

- Высокая точность прогноза, сопоставимая с другими методами (статистика, нейронные сети);

- Построение непараметрических моделей.

Построение дерева решений

Пусть нам задано некоторое обучающее множество T, содержащее объекты (примеры), каждый из которых характеризуется m атрибутами, причем один из них указывает на принадлежность объекта к определенному классу.

Пусть через {C1, C2, ... Ck} обозначены классы (значения метки класса), тогда существуют 3 ситуации:

- множество T содержит один или более примеров, относящихся к одному классу Ck. Тогда дерево решений для Т – это лист, определяющий класс Ck;

- множество T не содержит ни одного примера, т.е. пустое множество. Тогда это снова лист, и класс, ассоциированный с листом, выбирается из другого множества отличного от T, скажем, из множества, ассоциированного с родителем;

- множество T содержит примеры, относящиеся к разным классам. В этом случае следует разбить множество T на некоторые подмножества. Для этого выбирается один из признаков, имеющий два и более отличных друг от друга значений O1, O2, ... On. T разбивается на подмножества T1, T2, ... Tn, где каждое подмножество Ti содержит все примеры, имеющие значение Oi для выбранного признака. Это процедура будет рекурсивно продолжаться до тех пор, пока конечное множество не будет состоять из примеров, относящихся к одному и тому же классу.

Вышеописанная процедура лежит в основе многих современных алгоритмов построения деревьев решений, этот метод известен еще под названием «разделения и захвата» («divide and conquer»). Очевидно, что при использовании данной методики, построение дерева решений будет происходит сверху вниз.

Поскольку все объекты были заранее отнесены к известным нам классам, такой процесс построения дерева решений называется «обучением с учителем» («supervised learning»). Процесс обучения также называют индуктивным обучением или «индукцией деревьев» («tree induction»).

На сегодняшний день существует значительное число алгоритмов, реализующих деревья решений:

- CART;

- C4.5 - усовершенствованная версия алгоритма ID3;

- ID3 (Iterative Dichotomizer);

- NewId;

- ITrule;

- CHAID;

- CN2 и т.д.;

Наиболее распространены CART и C4.5

CART (Classification and Regression Tree) – это алгоритм построения бинарного дерева решений – дихотомической классификационной модели. Каждый узел дерева при разбиении имеет только двух потомков. Как видно из названия алгоритма, решает задачи классификации и регрессии.

C4.5 – алгоритм построения дерева решений, количество потомков у узла не ограничено. Не умеет работать с непрерывным целевым полем, поэтому решает только задачи классификации.

Большинство из известных алгоритмов являются "жадными алгоритмами". Если один раз был выбран атрибут, и по нему было произведено разбиение на подмножества, то алгоритм не может вернуться назад и выбрать другой атрибут, который дал бы лучшее разбиение. И поэтому на этапе построения нельзя сказать даст ли выбранный атрибут, в конечном итоге, оптимальное разбиение.

2019-07-03

237

Обсуждений (0)

0.00 из 5.00 0 оценок

12 3 Следующая ⇒

Обсуждение в статье: Построение дерева решений

Обсуждений еще не было, будьте первым... ↓↓↓