ЗАДАЧИ,РЕШАЕМЫЕМЕТОДАМИDATAMINING.
1. Классификация–этоотнесениеобъектов(наблюдений,событий)кодномуиззаранееизвестныхклассов. 2. Регрессия,втомчислезадачипрогнозирования.Установлениезависимостинепрерывныхвыходныхотвходныхпеременных. 3. Кластеризация–этогруппировкаобъектов(наблюдений,событий)наосноведанных(свойств),описывающихсущностьэтихобъектов.Объектывнутрикластерадолжныбыть"похожими"другнадругаиотличатьсяотобъектов,вошедшихвдругиекластеры.Чембольшепохожиобъектывнутрикластераичембольшеотличиймеждукластерами,темточнеекластеризация. 4. Ассоциация–выявлениезакономерностеймеждусвязаннымисобытиями.Примеромтакойзакономерностислужитправило,указывающее,чтоизсобытияXследуетсобытиеY.Такиеправиланазываютсяассоциативными.Впервыеэтазадачабылапредложенадлянахождениятипичныхшаблоновпокупок,совершаемыхвсупермаркетах,поэтомуиногдаееещеназываютанализомрыночнойкорзины(marketbasketanalysis). 5. Последовательныешаблоны–установлениезакономерностеймеждусвязаннымивовременисобытиями,т.е.обнаружениезависимости,чтоеслипроизойдетсобытиеX,тоспустязаданноевремяпроизойдетсобытиеY. 6. Анализотклонений–выявлениенаиболеенехарактерныхшаблонов. Проблемыбизнесанализаформулируютсяпо-иному,норешениебольшинстваизнихсводитсяктойилиинойзадачеDataMiningиликихкомбинации.Например,оценкарисков–эторешениезадачирегрессиииликлассификации,сегментациярынка–кластеризация,стимулированиеспроса–ассоциативныеправила.Фактически,задачиDataMiningявляютсяэлементами,изкоторыхможнособратьрешениеподавляющегобольшинствареальныхбизнесзадач. ДлярешениявышеописанныхзадачиспользуютсяразличныеметодыиалгоритмыDataMining.Ввидутого,чтоDataMiningразвиваласьиразвиваетсянастыкетакихдисциплин,какстатистика,теорияинформации,машинноеобучение,теориябазданных,вполнезакономерно,чтобольшинствоалгоритмовиметодовDataMiningбылиразработанынаосноверазличныхметодовизэтихдисциплин.Например,процедуракластеризацииk-meansбылапростозаимствованаизстатистики.БольшуюпопулярностьполучилиследующиеметодыDataMining:нейронныесети,деревьярешений,алгоритмыкластеризации,втомчислеимасштабируемые,алгоритмыобнаруженияассоциативныхсвязеймеждусобытиямиит.д. Deductorявляетсяаналитическойплатформой,вкоторуювключенполныйнаборинструментовдлярешениязадачDataMining:линейнаярегрессия,нейронныесетисучителем,нейронныесетибезучителя,деревьярешений,поискассоциативныхправилимножестводругих.Длямногихмеханизмовпредусмотреныспециализированныевизуализаторы,значительнооблегчающиеиспользованиеполученноймоделииинтерпретациюрезультатов.Сильнойсторонойплатформыявляетсянетолькореализациясовременныхалгоритмованализа,ноиобеспечениевозможностипроизвольнымобразомкомбинироватьразличныемеханизмыанализа.
ХРАНИЛИЩАИВИТРИНЫДАННЫХ
Храни́лищеда́нных(англ.DataWarehouse)—предметно-ориентированнаяинформационнаябазаданных,специальноразработаннаяипредназначеннаядляподготовкиотчётовибизнес-анализасцельюподдержкипринятиярешенийворганизации.Строитсянабазесистемуправлениябазамиданныхисистемподдержкипринятиярешений.Данные,поступающиевхранилищеданных,какправило,доступнытолькодлячтения. ДанныеизOLTP-системыкопируютсявхранилищеданныхтакимобразом,чтобыприпостроенииотчётовиOLAP-анализенеиспользовалисьресурсытранзакционнойсистемыиненарушаласьеёстабильность.Естьдвавариантаобновленияданныхвхранилище: · полноеобновлениеданныхвхранилище.Сначаластарыеданныеудаляются,потомпроисходитзагрузкановыхданных.Процесспроисходитсопределённойпериодичностью,приэтомактуальностьданныхможетнесколькоотставатьотOLTP-системы; · инкрементальноеобновление—обновляютсятолькотеданные,которыеизменилисьвOLTP-системе. · Принципыорганизациихранилища · Проблемно-предметнаяориентация.Данныеобъединяютсявкатегорииихранятсявсоответствиисобластями,которыеониописывают,анесприложениями,которыеонииспользуют. · Интегрированность.Данныеобъединенытак,чтобыониудовлетворяливсемтребованиямпредприятиявцелом,анеединственнойфункциибизнеса. · Некорректируемость.Данныевхранилищеданныхнесоздаются:тоестьпоступаютизвнешнихисточников,некорректируютсяинеудаляются. · Зависимостьотвремени.Данныевхранилищеточныикорректнытольковтомслучае,когдаонипривязаныкнекоторомупромежуткуилимоментувремени. Дизайнхранилищданных Существуютдваархитектурныхнаправления—нормализованныехранилищаданныхихранилищасизмерениями. Внормализованныххранилищах,данныенаходятсявпредметноориентированныхтаблицахтретьейнормальнойформы.Нормализованныехранилищахарактеризуютсякакпростыевсозданиииуправлении,недостаткинормализованныххранилищ—большоеколичествотаблицкакследствиенормализации,из-зачегодляполучениякакой-либоинформациинужноделатьвыборкуизмногихтаблицодновременно,чтоприводиткухудшениюпроизводительностисистемы.Длярешенияэтойпроблемыиспользуютсяденормализованныетаблицы—витриныданных,наосновекоторыхужевыводятсяотчетныеформы.Пригромадныхобъемахданныхмогутиспользоватьнесколькоуровней«витрин»/«хранилищ».Хранилищасизмерениямииспользуютсхему«звезда»илисхему«снежинка» Придостаточнобольшомобъемеданныхсхемы«звезда»и«снежинка»такжедаютснижениепроизводительностиприсоединенияхсизмерениями.
Популярное: Личность ребенка как объект и субъект в образовательной технологии: В настоящее время в России идет становление новой системы образования, ориентированного на вхождение... Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... ![]() ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (381)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |