Мегаобучалка Главная | О нас | Обратная связь


ЗАДАЧИ,РЕШАЕМЫЕМЕТОДАМИDATAMINING.



2018-07-06 354 Обсуждений (0)
ЗАДАЧИ,РЕШАЕМЫЕМЕТОДАМИDATAMINING. 0.00 из 5.00 0 оценок




1. Классификация–этоотнесениеобъектов(наблюдений,событий)кодномуиззаранееизвестныхклассов.

2. Регрессия,втомчислезадачипрогнозирования.Установлениезависимостинепрерывныхвыходныхотвходныхпеременных.

3. Кластеризация–этогруппировкаобъектов(наблюдений,событий)наосноведанных(свойств),описывающихсущностьэтихобъектов.Объектывнутрикластерадолжныбыть"похожими"другнадругаиотличатьсяотобъектов,вошедшихвдругиекластеры.Чембольшепохожиобъектывнутрикластераичембольшеотличиймеждукластерами,темточнеекластеризация.

4. Ассоциация–выявлениезакономерностеймеждусвязаннымисобытиями.Примеромтакойзакономерностислужитправило,указывающее,чтоизсобытияXследуетсобытиеY.Такиеправиланазываютсяассоциативными.Впервыеэтазадачабылапредложенадлянахождениятипичныхшаблоновпокупок,совершаемыхвсупермаркетах,поэтомуиногдаееещеназываютанализомрыночнойкорзины(marketbasketanalysis).

5. Последовательныешаблоны–установлениезакономерностеймеждусвязаннымивовременисобытиями,т.е.обнаружениезависимости,чтоеслипроизойдетсобытиеX,тоспустязаданноевремяпроизойдетсобытиеY.

6. Анализотклонений–выявлениенаиболеенехарактерныхшаблонов.

Проблемыбизнесанализаформулируютсяпо-иному,норешениебольшинстваизнихсводитсяктойилиинойзадачеDataMiningиликихкомбинации.Например,оценкарисков–эторешениезадачирегрессиииликлассификации,сегментациярынка–кластеризация,стимулированиеспроса–ассоциативныеправила.Фактически,задачиDataMiningявляютсяэлементами,изкоторыхможнособратьрешениеподавляющегобольшинствареальныхбизнесзадач.

ДлярешениявышеописанныхзадачиспользуютсяразличныеметодыиалгоритмыDataMining.Ввидутого,чтоDataMiningразвиваласьиразвиваетсянастыкетакихдисциплин,какстатистика,теорияинформации,машинноеобучение,теориябазданных,вполнезакономерно,чтобольшинствоалгоритмовиметодовDataMiningбылиразработанынаосноверазличныхметодовизэтихдисциплин.Например,процедуракластеризацииk-meansбылапростозаимствованаизстатистики.БольшуюпопулярностьполучилиследующиеметодыDataMining:нейронныесети,деревьярешений,алгоритмыкластеризации,втомчислеимасштабируемые,алгоритмыобнаруженияассоциативныхсвязеймеждусобытиямиит.д.

Deductorявляетсяаналитическойплатформой,вкоторуювключенполныйнаборинструментовдлярешениязадачDataMining:линейнаярегрессия,нейронныесетисучителем,нейронныесетибезучителя,деревьярешений,поискассоциативныхправилимножестводругих.Длямногихмеханизмовпредусмотреныспециализированныевизуализаторы,значительнооблегчающиеиспользованиеполученноймоделииинтерпретациюрезультатов.Сильнойсторонойплатформыявляетсянетолькореализациясовременныхалгоритмованализа,ноиобеспечениевозможностипроизвольнымобразомкомбинироватьразличныемеханизмыанализа.

 

ХРАНИЛИЩАИВИТРИНЫДАННЫХ

 

Храни́лищеда́нных(англ.DataWarehouse)—предметно-ориентированнаяинформационнаябазаданных,специальноразработаннаяипредназначеннаядляподготовкиотчётовибизнес-анализасцельюподдержкипринятиярешенийворганизации.Строитсянабазесистемуправлениябазамиданныхисистемподдержкипринятиярешений.Данные,поступающиевхранилищеданных,какправило,доступнытолькодлячтения.

ДанныеизOLTP-системыкопируютсявхранилищеданныхтакимобразом,чтобыприпостроенииотчётовиOLAP-анализенеиспользовалисьресурсытранзакционнойсистемыиненарушаласьеёстабильность.Естьдвавариантаобновленияданныхвхранилище:

· полноеобновлениеданныхвхранилище.Сначаластарыеданныеудаляются,потомпроисходитзагрузкановыхданных.Процесспроисходитсопределённойпериодичностью,приэтомактуальностьданныхможетнесколькоотставатьотOLTP-системы;

· инкрементальноеобновление—обновляютсятолькотеданные,которыеизменилисьвOLTP-системе.

·

Принципыорганизациихранилища

· Проблемно-предметнаяориентация.Данныеобъединяютсявкатегорииихранятсявсоответствиисобластями,которыеониописывают,анесприложениями,которыеонииспользуют.

· Интегрированность.Данныеобъединенытак,чтобыониудовлетворяливсемтребованиямпредприятиявцелом,анеединственнойфункциибизнеса.

· Некорректируемость.Данныевхранилищеданныхнесоздаются:тоестьпоступаютизвнешнихисточников,некорректируютсяинеудаляются.

· Зависимостьотвремени.Данныевхранилищеточныикорректнытольковтомслучае,когдаонипривязаныкнекоторомупромежуткуилимоментувремени.

Дизайнхранилищданных

Существуютдваархитектурныхнаправления—нормализованныехранилищаданныхихранилищасизмерениями.

Внормализованныххранилищах,данныенаходятсявпредметноориентированныхтаблицахтретьейнормальнойформы.Нормализованныехранилищахарактеризуютсякакпростыевсозданиииуправлении,недостаткинормализованныххранилищ—большоеколичествотаблицкакследствиенормализации,из-зачегодляполучениякакой-либоинформациинужноделатьвыборкуизмногихтаблицодновременно,чтоприводиткухудшениюпроизводительностисистемы.Длярешенияэтойпроблемыиспользуютсяденормализованныетаблицы—витриныданных,наосновекоторыхужевыводятсяотчетныеформы.Пригромадныхобъемахданныхмогутиспользоватьнесколькоуровней«витрин»/«хранилищ».Хранилищасизмерениямииспользуютсхему«звезда»илисхему«снежинка» .Приэтомвцентре«звезды»находятсяданные(таблицафактов),аизмеренияобразуютлучизвезды.Различныетаблицыфактовсовместноиспользуюттаблицыизмерений,чтозначительнооблегчаетоперацииобъединенияданныхизнесколькихпредметныхтаблицфактов(пример—фактыпродажипоставоктовара).Таблицыданныхисоответствующиеизмеренияобразуютархитектуру«шина».Измерениячастосоздаютсявтретьейнормальнойформе,втомчисле,дляпротоколированияизменениявизмерениях.Основнымдостоинствомхранилищсизмерениямиявляетсяпростотаипонятностьдляразработчиковипользователей,также,благодаряболееэффективномухранениюданныхиформализованнымизмерениям,облегчаетсяиускоряетсядоступкданным,особенноприсложныханализах.Основнымнедостаткомявляетсяболеесложныепроцедурыподготовкиизагрузкиданных,атакжеуправлениеиизменениеизмеренийданных.

Придостаточнобольшомобъемеданныхсхемы«звезда»и«снежинка»такжедаютснижениепроизводительностиприсоединенияхсизмерениями.



2018-07-06 354 Обсуждений (0)
ЗАДАЧИ,РЕШАЕМЫЕМЕТОДАМИDATAMINING. 0.00 из 5.00 0 оценок









Обсуждение в статье: ЗАДАЧИ,РЕШАЕМЫЕМЕТОДАМИDATAMINING.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как построить свою речь (словесное оформление): При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою...
Почему двоичная система счисления так распространена?: Каждая цифра должна быть как-то представлена на физическом носителе...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (354)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.009 сек.)