Мегаобучалка Главная | О нас | Обратная связь


Создание витрины данных



2019-08-13 581 Обсуждений (0)
Создание витрины данных 0.00 из 5.00 0 оценок




Создание витрины данных это создание соответствующей базы данных и системы ее загрузки. Если создание базы данных вопрос чисто технический, создание системы загрузки представляет основную сложность. Эта система содержит три этапа:

· извлечение данных из исходных систем;

· преобразование их в требуемую форму;

· загрузка подготовленных данных в витрину.

1. Извлечение данных требует точного знания структуры исходных систем. Структуры и взаимосвязи таблиц, структуры информации в исходной системе. Необходимо четко знать из каких таблиц и полей необходимо извлекать данные и какова структура этих данных.

2. Исходная система изначально никак не ориентирована на работу с витриной данных и данные, извлекаемые из нее, не предназначены для непосредственного использования и должны пройти ряд преобразований. Процесс этих преобразований зависит и от структуры исходных систем, и от требований к самой витрине данных, он может заключать в себе множество функций:

· Создание агрегатных данных

· Изменение форматов данных.

· Проверку достоверности и целостности данных.

· Удаление избыточных данных

· И т.д.

Все эти преобразования осуществляются только на этапе ввода данных в витрину, что обеспечивает высокую скорость извлечения данных из витрины и наилучшее представление этих данных с точки зрения пользователя. В конечном итоге это приводит к лучшему информационному обеспечению пользователя, и способствуют быстрому принятию им правильных управленческих решений.

3. Данные в витрине должны соответствовать данным исходных систем, которые, естественно, изменяются со временем. Поэтому инструменты, осуществляющие преобразования и загрузку данных в витрину должны запускаться периодически при определенных изменениях данных исходных систем и/или автоматически по определенному расписанию.

Из изложенного вытекает довольно важный вывод. Нельзя купить готовую витрину данных для своей компании. Витрина данных это эксклюзивный заказной продукт, который должен создаваться непосредственно под конкретную компанию, под всю ее специфику.

10. Геоинформационная среда – ГИС

Геоинформационные системы (также ГИС — географическая информационная система) — системы, предназначенные для сбора, хранения, анализа и графической визуализации пространственных данных и связанной с ними информации о представленных в ГИС объектах. Другими словами, это инструменты, позволяющие пользователям искать, анализировать и редактировать цифровые карты, а также дополнительную информацию об объектах, например высоту здания, адрес, количество жильцов.

ГИС включают в себя возможности СУБД, редакторов растровой и векторной графики и аналитических средств и применяются картографии, геологии, метеорологии, землеустройстве, экологии, муниципальном, управлении, транспорте, экономике, обороне.

По территориальному охвату различают глобальные ГИС (global GIS), субконтинентальные ГИС, национальные ГИС, зачастую имеющие статус государственных, региональные ГИС (regional GIS), субрегиональные ГИС и локальные, или местные ГИС (local GIS).

ГИС различаются предметной областью информационного моделирования, к примеру, городские ГИС, или муниципальные ГИС, МГИС (urban GIS), природоохранные ГИС (environmental GIS) Шаблон:Nobr; среди них особое наименование, как особо широко распространённые, получили земельные информационные системы.

Проблемная ориентация ГИС определяется решаемыми в ней задачами (научными и прикладными), среди них инвентаризация ресурсов (в том числе кадастр), анализ, оценка, мониторинг, управление и планирование, поддержка принятия решений.

Интегрированные ГИС, ИГИС (integrated GIS, IGIS) совмещают функциональные возможности ГИС и систем цифровой обработки изображений (данных дистанционного зондирования) в единой интегрированной среде.

Полимасштабные, или масштабно-независимые ГИС (multiscale GIS) основаны на множественных, или полимасштабных представлениях пространственных объектов (multiplerepresentation, multiscalerepresentation), обеспечивая графическое или картографическое воспроизведение данных на любом из избранных уровней масштабного ряда на основе единственного набора данных с наибольшим пространственным разрешением. Пространственно-временные ГИС (spatio-temporal GIS) оперируют пространственно-временными данными. Реализация геоинформационных проектов (GIS project), создание ГИС в широком смысле слова, включает этапы: предпроектных исследований (feasibilitystudy), в том числе изучение требований пользователя (userrequirements) и функциональных возможностей используемых программных средств ГИС, технико-экономическое обоснование, оценку соотношения «затраты/прибыль» (costs/benefits); системное проектирование ГИС (GIS designing), включая стадию пилот-проекта (pilot-project), разработку ГИС (GIS development); её тестирование на небольшом территориальном фрагменте, или тестовом участке (testarea), прототипирование, или создание опытного образца, или прототипа (prototype); внедрение ГИС (GIS implementation); эксплуатацию и использование. Научные, технические, технологические и прикладные аспекты проектирования, создания и использования ГИС изучаются геоинформатикой.

Задачи ГИС

Ввод данных. Для использования в ГИС данные должны быть преобразованы в подходящий цифровой формат (оцифрованы). В современных ГИС этот процесс может быть автоматизирован с применением сканерной технологии, либо, при небольшом объеме работ, данные можно вводить с помощью дигитайзера.

Манипулирование данными (например, масштабирование).

Управление данными. В небольших проектах географическая информация может храниться в виде обычных файлов, а при увеличении объема информации и росте числа пользователей для хранения, структурирования и управления данными применяются СУБД.

Запрос и анализ данных — получение ответов на различные вопросы (например, кто владелец данного земельного участка? На каком расстоянии друг от друга расположены эти объекты? Где расположена данная промышленная зона? Где есть места для строительства нового дома? Каков основный тип почв под еловыми лесами? Как повлияет на движение транспорта строительство новой дороги?).

Визуализация данных. Например, представление данных в виде карты или графика.

Возможности ГИС

ГИС включают в себя возможности СУБД, редакторов растровой и векторной графики и аналитических средств и применяются в картографии, геологии, метеорологии, землеустройстве, экологии, муниципальном управлении, транспорте, экономике, обороне. ГИС позволяют решать широкий спектр задач — будь то анализ таких глобальных проблем как перенаселение, загрязнение территории, сокращение лесных угодий, природные катастрофы, так и решение частных задач, таких как поиск наилучшего маршрута между пунктами, подбор оптимального расположения нового офиса, поиск дома по его адресу, прокладка трубопровода на местности, различные муниципальные задачи.

ГИС-система позволяет:

определить какие объекты располагаются на заданной территории;

определить местоположение объекта (пространственный анализ);

дать анализ плотности распределения по территории како-то явления(например плотность расселения);

определить временные изменения на определенной площади);

смоделировать, что произойдет при внесении изменений в расположение объектов (например, если добавить новую дорогу).

Классификация ГИС

По территориальному охвату:

глобальные ГИС;

субконтинентальные ГИС;

национальные ГИС;

региональные ГИС;

субрегиональные ГИС;

локальные или местные ГИС.

По уровню управления:

федеральные ГИС;

региональные ГИС;

муниципальные ГИС;

корпоративные ГИС.

По функциональности:

полнофункциональные;

ГИС для просмотра данных;

ГИС для ввода и обработки данных;

специализированные ГИС.

По предметной области:

картографические;

геологические;

городские или муниципальные ГИС;

природоохранные ГИС и т. п.

 

Если помимо функциональных возможностей ГИС в системе присутствуют возможности цифровой обработки изображений, то такие системы называются интегрированными ГИС (ИГИС). Полимасштабные, или масштабно-независимые ГИС основаны на множественных, или полимасштабных представлениях пространственных объектов, обеспечивая графическое или картографическое воспроизведение данных на любом из избранных уровней масштабного ряда на основе единственного набора данных с наибольшим пространственным разрешением. Пространственно-временные ГИС оперируют пространственно-временными данными.

Области применения ГИС

Управление земельными ресурсами, земельные кадастры. Для решения проблем, имеющих пространственную привязку и начали создавать ГИС. Типичные задачи — составление кадастров, классификационных карт, определение площадей участков и границ между ними и т. д.

Инвентаризация, учет, планирование размещения объектов распределенной производственной инфраструктуры и управление ими. Например, нефтегазодобывающие компании или компании, управляющие энергетической сетью, системой бензоколонок, магазинов и т. п.

Проектирование, инженерные изыскания, планировка в строительстве, архитектуре. Такие ГИС позволяют решать полный комплекс задач по развитию территории, оптимизации инфраструктуры строящегося района, требующегося количества техники, сил и средств.

Тематическое картографирование.

Управление наземным, воздушным и водным транспортом. ГИС позволяет решать задачи управления движущимися объектами при условии выполнения заданной системы отношений между ними и неподвижными объектами. В любой момент можно узнать, где находится транспортное средство, рассчитать загрузку, оптимальную траекторию движения, время прибытия и т. п.

Управление природными ресурсами, природоохранная деятельность и экология. ГИС помогает определить текущее состояние и запасы наблюдаемых ресурсов, моделирует процессы в природной среде, осуществляет экологический мониторинг местности.

Геология, минерально-сырьевые ресурсы, горнодобывающая промышленность. ГИС осуществляет расчеты запасов полезных ископаемых по результатам проб (разведочное бурение, пробные шурфы) при известной модели процесса образования месторождения.

Чрезвычайные ситуации. С помощью ГИС производится прогнозирование чрезвычайных ситуаций (пожаров, наводнений, землетрясений, селей, ураганов), расчет степени потенциальной опасности и принятие решений об оказании помощи, расчет требуемого количества сил и средств для ликвидации чрезвычайных ситуаций, расчет оптимальных маршрутов движения к месту бедствия, оценка нанесенного ущерба.

Военное дело. Решение широкого круга специфических задач, связанных с расчетом зон видимости, оптимальных маршрутов движения по пересеченной местности с учетом противодействия и т. п.

Сельское хозяйство. Прогнозирование урожайности и увеличения производства сельскохозяйственной продукции, оптимизация ее транспортировки и сбыта.

Состав ГИС.

ГИС-система включает в себя пять ключевых составляющих:

- аппаратные средства. Это компьютер, на котором запущена ГИС. В настоящее время ГИС работают на различных типах компьютерных платформ, от централизованных серверов до отдельных или связанных сетью настольных компьютеров;

- программное обеспечение. Cодержит функции и инструменты, необходимые для хранения, анализа и визуализации географической информации. К таким программным продуктам относятся: инструменты для ввода и оперирования географической информацией; система управления базой данных (DBMS или СУБД); инструменты поддержки пространственных запросов, анализа и визуализации;

- данные. Данные о пространственном положении (географические данные) и связанные с ними табличные данные могут собираться и подготавливаться самим пользователем, либо приобретаться у поставщиков на коммерческой или другой основе. В процессе управления пространственными данными ГИС интегрирует пространственные данные с другими типами и источниками данных, а также может использовать СУБД, применяемые многими организациями для упорядочивания и поддержки имеющихся в их распоряжении данных;

- -исполнители. Пользователями ГИС могут быть как технические специалисты, разрабатывающие и поддерживающие систему, так и обычные сотрудники, которым ГИС помогает решать текущие каждодневные дела и проблемы;

 методы.

11. Инструменты Text-mining: IntelligentMinerforText (IBM), TextAnalyst, WebAnalyst (МегапьютерИнтеллидженс), TextMiner (SAS), SemioMap (SemioCorp.), OracleText (Oracle), KnowledgeServer (Autonomy), Galaktika -ZOOM (корпорация "Галактика"), InfoStream (Информационный центр "ЭЛВИСТИ")

Интеллектуальный анализ текстов (ИАТ, англ. text mining) — направление в искусственном интеллекте, целью которого является получение информации из коллекций текстовых документов, основываясь на применении эффективных в практическом плане методов машинного обучения и обработки естественного языка. Название «интеллектуальный анализ текстов» перекликается с понятием «интеллектуальный анализ данных» (ИАД, англ. data mining), что выражает схожесть их целей, подходов к переработке информации и сфер применения; разница проявляется лишь в конечных методах, а также в том, что ИАД имеет дело с хранилищами и базами данных, а не электронными библиотеками и корпусами текстов.

Ключевыми группами задач ИАТ являются: категоризация текстов, извлечение информации и информационный поиск, обработка изменений в коллекциях текстов, а также разработка средств представления информации для пользователя.

Категоризация документов заключается в отнесении документов из коллекции к одной или нескольким группам (классам, кластерам) схожих между собой текстов (например, по теме или стилю). Категоризация может происходить при участии человека, так и без него.

В первом случае, называемом классификацией документов, система ИАТ должна отнести тексты к уже определённым (удобным для него) классам. В терминах машинного обучения для этого необходимо произвести обучение с учителем, для чего пользователь должен предоставить системе ИАТ как множество классов, так и образцы документов, принадлежащих этим классам.

Второй случай категоризации называется кластеризацией документов. При этом система ИАТ должна сама определить множество кластеров, по которым могут быть распределены тексты, — в машинном обучении соответствующая задача называется обучением без учителя. В этом случае пользователь должен сообщить системе ИАТ количество кластеров, на которое ему хотелось бы разбить обрабатываемую коллекцию (подразумевается, что в алгоритм программы уже заложена процедура выбора признаков).

Применение

В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука.

IntelligentMinerforText (IBM), Система является одним из лучших инструментов глубинного анализа текстов. Содержит утилиты : Language Identification Tool - утилита определения языка - для автоматического определения языка, на котором составлен документ. Categorisation Tool - утилита классификации - автоматического отнесения текста к некоторой категории (входной информацией на обучающей фазе работы этого инструмента может служить результат работы следующей утилиты - Clusterisation Tool). Clusterisation Tool - утилита кластеризации - разбиения большого множества документов на группы по близости стиля, формы, различных частотных характеристик выявляемых ключевых слов. Feature Extraction Tool - утилита определения нового - выявление в документе новых ключевых слов (собственные имена, названия, сокращения) на основе анализа заданного заранее словаря. Annotation Tool - утилита "выявления смысла" текстов и составления рефератов - аннотаций к исходным текстам.

TextAnalyst, Система TextAnalyst поможет Вам быстро суммировать, эффективно управлять и объединять в группы документы в Вашей текстовой базе. TextAnalyst способствует поиску семантической информации либо сосредоточит Ваше изучение текста вокруг какого-то определенного предмета.

WebAnalyst (МегапьютерИнтеллидженс), PolyAnalyst может применяться для автоматизированного анализа числовых и текстовых баз данных с целью обнаружения ранее неизвестных, нетривиальных, полезных и доступных пониманию закономерностей. PolyAnalyst является клиент-серверным приложением. При этом пользователь работает с программой PolyAnalyst Workplace. Математические же модули выделены в серверную часть - PolyAnalyst Knowledge Server. PolyAnalyst работает с разными типами данных. Это - числа, логические переменные, текстовые строки, даты, а также свободный текст. PolyAnalyst может обрабатывать исходные данные из различных источников, к примеру, файлы Microsoft Excel 97/2000, ODBC- совместимая СУБД, SAS data files, Oracle Express, IBM Visual Warehouse.

TextMiner (SAS), Система SAS Text Miner может работать с текстовыми докумен-тами различных форматов из баз данных, файловых систем и Web. Text Miner обеспечивает логическую обработку текста в среде мощного пакета SAS Enterprise Miner. Это позволяет интегрировать тексто-вую информацию со структурированными данными.

SemioMap (SemioCorp.), SemioMap - это продукт компании Entrieva, созданный в 1996 г. ученым-семиотиком Клодом Фогелем (Claude Vogel). В мае 1998 г. продукт был выпущен как промышленный комплекс SemioMap 2.0 - первая система Text Mining, работающая в архитектуре клиент-сервер. Система SemioMap состоит из двух основных компонент - сервера SemioMap и клиента SemioMap. Работа системы протекает в три фазы: Индексирование: сервер SemioMap автоматически читает массивы неструктурированного текста, извлекает ключевые фразы (понятия) и создает из них индекс; Кластеризация понятий: сервер SemioMap выявляет связи между извлеченными фразами и строит из них, на основе совместной встречаемости, лексическую сеть ("понятийную карту"); Графическое отображение и навигация: визуализация карт связей, которая обеспечивает быструю навигацию по ключевым фразам и связям между ними, а также возможность быстрого обращения к конкретным документам.

OracleText (Oracle), Средства Text Mining, начиная с Text Server в составе СУБД Oracle 7.3.3 и картриджа interMedia Text в Oracle8i, являются неотъемлемой частью продуктов Oracle. В Oracle9i эти средства развились и получили новое название - Oracle Text. Основной задачей, на решение которой нацелены средства Oracle Text, является задача поиска документов по их содержанию - словам или фразам, которые при необходимости комбинируются с использованием булевых операций. Результаты поиска ранжируются по релевантности, с учетом частоты встречаемости слов запроса в найденных документах. Для повышения полноты поиска Oracle Text предоставляет ряд средств расширения поискового запроса, среди которых можно выделить: расширение слов запроса всеми морфологическими формами, расширение слов запроса близкими по смыслу словами за счет подключения тезауруса, а также расширение запроса словами, близкими по написанию и по звучанию - нечеткий поиск и поиск созвучных слов. Система Oracle Text обеспечивает проведение тематического анализа текстов на английском языке. В ходе обработки текст каждого документа подвергается процедурам лингвистического и статистического анализа, в результате чего определяются его ключевые темы и строятся тематические резюме, а также общее резюме - реферат.

KnowledgeServer (Autonomy), Архитектура IDOL (Intelligent Data Operating Layer) сервера компании Autonomy, известной своими разработками в области статистического контент-анализа, объединяет интеллектуальный парсинг по шаблонам со сложными методами контекстного анализа и извлечения смысла для решения задач автоматической классификацию и организации перекрестных ссылок. Основное преимущество системы Autonomy - интеллектуальные алгоритмы, основанные на статистической обработке. Эти алгоритмы базируются на информационной теории Шеннона, Байесовых вероятностях и нейронных сетях. Autonomy включает такие основные возможности: автоматическая классификация; кластеризация; автореферирование; автоматическое проставление гиперссылок; автоматическое создание профилей (информационных портретов); генерация таксонометрических деревьев; создание и манипулирование метаданными; интеллектуальная обработка XML-данных; персонализация; поиск.

Galaktika -ZOOM (корпорация "Галактика"), Основное назначение Galaktika-ZOOM - интеллектуальный поиск по ключевым словам с учетом морфологии, а также и формирование информационных портретов по конкретным аспектам. Ориентация на большие информационные объекты. Система содержит инструментарий для анализа смысловых связей и формирования "образа" проблемы - многомерной модели в форме списка значимых словосочетаний. Система содержит инструментарий для выявления тенденций и динамики развития проблем.

InfoStream (Информационный центр "ЭЛВИСТИ") Система InfoStream создана для охвата и обобщения динамических новостных информационных массивов, генерируемых в Интернет. Доступ к оперативной информации (более 2700 источников) с единого интерфейса в поисковом режиме с учетом возможного дублирования и семантической близости документов, языковых версий, размеров документов их цифровой насыщенности и т. д. Доступ к уникальному ретроспективному фонду, превышающему 30 млн. записей. Поддержку аналитической работы в режиме реального времени: построение сюжетных цепочек, дайджестов, диаграмм встречаемости и таблиц взаимосвязей понятий, медиа-рейтингов.

12. Инструменты интеллектуального ведения и сопровождения бизнеса.

Задача Text Mining — выбрать ключевую и наиболее значимую информацию для пользователя. Таким образом, ему будет незачем самому "просеивать" огромное количество неструктурированной информации. Разработанные на основе статистического и лингвистического анализа, а также методов искусственного интеллекта, технологии Text Mining как раз и предназначены для проведения смыслового анализа, обеспечения навигации и поиска в неструктурированных текстах. Применяя системы класса Text Mining, пользователи в принципе должны получить новую ценную информацию, т.е. знания. Технология глубинного анализа текста — Text Mining — и представляет собой тот самый инструментарий, который позволяет анализировать большие объемы информации в поисках тенденций, шаблонов и взаимосвязей, способных помочь в принятии стратегических решений. Кроме того, Text Mining — это новый вид поиска, который, в отличие от традиционных подходов, не только находит списки документов, формально релевантных запросам.



2019-08-13 581 Обсуждений (0)
Создание витрины данных 0.00 из 5.00 0 оценок









Обсуждение в статье: Создание витрины данных

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (581)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.014 сек.)