Мегаобучалка Главная | О нас | Обратная связь


Классификация видов данных



2015-11-20 1035 Обсуждений (0)
Классификация видов данных 0.00 из 5.00 0 оценок




Понятие Data Mining. Сравнение статистики, машинного обучения и Data Mining. Применение Data Mining для научных исследований.

Понятие Data Mining

Data Mining - это процесс поддержки принятия решений, основанный на поиске в данных скрытых закономерностей (шаблонов информации).

Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений. Суть и цель технологии

Data Mining. - это процесс выделения из данных неявной и неструктурированной информации и представления ее в виде, пригодном для использования.

Data Mining - это процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (patterns) с целью достижения преимуществ в бизнесе (определение SAS Institute).

Data Mining - это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).

Data Mining можно охарактеризовать так: это технология, которая предназначена для поиска в больших объемах данных неочевидных, объективных и полезных на практике закономерностей.

Неочевидных - это значит, что найденные закономерности не обнаруживаются стандартными методами обработки информации или экспертным путем. Объективных - это значит, что обнаруженные закономерности будут полностью соответствовать действительности, в отличие от экспертного мнения, которое всегда является субъективным.

Практически полезных - это значит, что выводы имеют конкретное значение, которому можно найти практическое применение. Знания - совокупность сведений, которая образует целостное описание, соответствующее некоторому уровню осведомленности об описываемом вопросе, предмете, проблеме и т.д.

Сравнение статистики, машинного обучения и Data Mining

· Статистика

o Более, чем Data Mining, базируется на теории.

o Более сосредотачивается на проверке гипотез.

· Машинное обучение

o Более эвристично.

o Концентрируется на улучшении работы агентов обучения.

· Data Mining.

o Интеграция теории и эвристик.

o Сконцентрирована на едином процессе анализа данных, включает очистку данных,

обучение, интеграцию и визуализацию результатов.

 

Data Mining для научных исследований

 

Биоинформатика; Медицина; Фармацевтика; Молекулярная генетика и генная инженерия;Некоторые применения этого направления; Химия

 

Сопоставление и сравнение понятий «данные», «информация», «знания». Типы наборов данных. Измерения. Форматы хранения данных. Классификация видов данных.

Сопоставление и сравнение понятий "информация", "данные", "знание"

Для того чтобы прочувствовать разницу, рассмотрим применение этих трех понятий на простом примере.

Для начала сделаем попытку разобраться в этих терминах на простых примерах.

1. Студент, который сдает экзамен, нуждается в данных.

2. Студент, который сдает экзамен, нуждается в информации.

3. Студент, который сдает экзамен, нуждается в знаниях.

При рассмотрении первого варианта - студент нуждается в данных - возникает мысль, что студенту нужны данные, например, для вычислений. Информацией во втором варианте может выступать конспект или учебник. В результате их использования студент получает лишь информацию, которая в определенных случаях может перейти в знания. Третий вариант звучит наиболее логично.

Информация, в отличие от данных, имеет смысл.

Понятия "информация" и "знания", с философской точки зрения, являются понятиями более высокого уровня, чем "данные", которое возникло относительно недавно. Понятие "информации" непосредственно связано с сущностью процессов внутри информационной системы, тогда так понятие "знание" скорее ориентировано на качество процессов. Понятие "знание" тесно связано с процессом принятия решений. Несмотря на различия, рассмотренные понятия, как уже отмечалось ранее, не являются разрозненными и несвязанными.

Типы наборов данных

Данные, состоящие из записей

Наиболее часто встречающиеся данные. Примеры таких наборов данных: табличные данные, матричные данные, документальные данные, транзакционные или операционные. Табличные данные - данные, состоящие из записей, каждая из которых состоит из фиксированного набора атрибутов. Транзакционные данные представляют собой особый тип данных, где каждая запись, являющаяся транзакцией, включает набор значений.

 

Графические данные

Примеры графических данных: WWW-данные; молекулярные структуры; графы; карты.

С помощью карт, например, можно отследить изменения объектов во времени и пространстве, определить характер их распределения на плоскости или в пространстве. Преимуществом графического представления данных является большая простота их восприятия, чем, например, табличных данных.

Пример карты, являющейся картой Кохонена (моделью нейронных сетей, которые будут рассмотрены в одной из лекций нашего курса),

 

Химические данные

Химические данные представляют собой особый тип данных. Пример таких данных:

Benzene Molecule: C6H6

 

Измерения

Измерение - процесс присвоения чисел характеристикам изучаемых объектов согласно определенному правилу. В процессе подготовки данных измеряется не сам объект, а его характеристики. Шкала - правило, в соответствии с которым объектам присваиваются числа

Возможны четыре аспекта работы с данными: определение данных, вычисление, манипулирование и обработка (сбор, передача и др.). При манипулировании данными используется структура данных типа "файл". В некоторых инструментах Data Mining эти процедуры называются импорт/экспорт данных, другие позволяют напрямую открывать различные источники данных и сохранять результаты Data Mining в одном из предложенных форматов. Наиболее распространенные форматы, согласно опросу "Форматы хранения данных",

Классификация видов данных

Реляционные данные - это данные из реляционных баз (таблиц).

Многомерные данные - это данные, представленные в кубах OLAP.

Измерение (dimension) или ось - в многомерных данных - это собрание данных одного и того же типа, что позволяет структурировать многомерную базу данных. По критерию постоянства своих значений в ходе решения задачи данные могут быть:

· переменными;

· постоянными;

· условно-постоянными.

Переменные данные - это такие данные, которые изменяют свои значения в процессе решения задачи.

Постоянные данные - это такие данные, которые сохраняют свои значения в процессе решения задачи (математические константы, координаты неподвижных объектов) и не зависят от внешних факторов.

Условно-постоянные данные - это такие данные, которые могут иногда изменять свои значения, но эти изменения не зависят от процесса решения задачи, а определяются внешними факторами.

· данные за период;

· точечные данные.

 



2015-11-20 1035 Обсуждений (0)
Классификация видов данных 0.00 из 5.00 0 оценок









Обсуждение в статье: Классификация видов данных

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как построить свою речь (словесное оформление): При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою...
Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние...
Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1035)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.022 сек.)