Мегаобучалка Главная | О нас | Обратная связь


Технология обработки текстовых данных в АИС музеев



2016-09-17 1000 Обсуждений (0)
Технология обработки текстовых данных в АИС музеев 0.00 из 5.00 0 оценок




В основе работы автоматизированной информационной системы по коллекциям музея лежит компьютерная БАЗА ДАННЫХ (БД), которая должна содержать важнейшие сведения, касающиеся коллекции музея[4]. К таким сведениям в первую очередь относятся:

· данные о музейных предметах, включенных в фонды музея (основной, вспомогательный, фонд временного хранения),

· данные о лицах, связанных с коллекцией (авторах, художниках, изготовителях, изображенных лицах, меценатах и т.д.),

· библиография,

· данные о выставках,

· нормативные документы: словари, справочники (по материалам, по технике, по жанрам, списки отделов, хранителей и т.д. ).

В процессе работы АИС выполняются следующие технологические операции с данными:

· первоначальный ввод данных в АИС,

· корректировка введенных данных,

· поиск данных с помощью информационно-поисковой системы (ИПС),и представление результатов поиска на экране монитора или на бумаге в удобном для пользователя виде

· обработка данных по заданным алгоритмам и представление результатов обработке для внутримузейных целей в заданной пользователем форме (например, в форме Книги поступлений, Научной карточки, каталога, справочника, статистической таблицы и др.),

· подготовка и передача данных в другие БД или в ИНТЕРНЕТ для представление внешним пользователям.

Текстовые компьютерные БД создаются для того, чтобы на основе введенных в компьютер описаний быстро и эффективно обнаружить нужные сведения и представить результат в удобной для пользователя форме. Как правило, данные, записанные в традиционных документах (в Книге поступлений, Инвентарной книге, Научных карточках и т.д.), представляют собой свободный, слабо структурированный текст. Такой материал непригоден для непосредственной записи в базу данных и последующего поиска. Это становится понятным из следующего примера. В графе 4 "Книги поступлений" имеется параметр:

«Наименование и краткое описание предмета (автор, дата, место происхождения, надписи, подписи и пр.)».

Очевидно, что этот параметр носит комплексный характер и включает в себя характеристики, каждая из которых может представлять интерес сама по себе. Не вызывает сомнения, например, необходимость вести поиск по имени автора, по датировке и др. Для того, чтобы осуществить поиск, данные необходимо записывать в компьютер по определенным правилам, которые в совокупности образуют информационно-поисковый язык (ИПЯ); практическая же реализация поиска данных осуществляется с помощью информационно-поисковых систем (ИПС). Основные сведения об ИПС и ИПЯ, необходимые музейщику для практической работы, представлены в следующем подразделе.

4. ИПС и ИПЯ: основные понятия

Пик теоретических исследований в области теории информационного поиска, выразившийся в появлении в печати целой серии публикаций на эту тему, пришелся на последнюю треть XIX века. Одна из первых публикаций, которую можно отнести к классике этого жанра и которая не потеряла актуальности до настоящего времени – это монография «Основы информатики»[5], опубликованная еще в 1968 году. Конкретные ИПС и используемые в них ИПЯ, практически реализованные в последующие годы, в существенной степени базировались на теоретический задел, сформированный в конце прошлого века. Мы ограничимся лишь самыми общими сведениями об ИПС и ИПЯ.

Процесс поиска данных осуществляется с помощью информационно-поисковой системы ИПС. Под ИПС будем понимать автоматизированную поисковую систему, реализованную на средствах электронной вычислительной техники и предназначенную для поиска, а также выдачи пользователю необходимой информации по заданным параметрам.

Образно можно рассматривать ИПС как «черный ящик» с двумя входами и одним выходом: на первый вход поступает информация, хранящаяся в базе данных, на второй – запросы на выдачу информации из БД, на выходе же мы получаем результат поиска, т.е. данные, выбранные ИПС в ответ на запрос (на представленном рисунке проиллюстрирована работа ИПС в виде схемы).

 

 


В зависимости от вида получения выходных данных ИПС делятся на документальные, где результат поиска выдается в виде документа или ссылки на документ), фактографические(результат поиска – конкретные сведения, например, имя художника, или даты его жизни или др.) и докуметально-фактографические,когда два эти вида интегрированы; в последние годы именно этот класс систем приобрел популярность.

В основе работы ИПС лежит информационно-поисковый язык ИПЯ; это специализированный искусственный язык, предназначенный для:

· формализованного описания тех объектов, сведения о которых представляют интерес для пользователя (музейные предметы, авторы, коллекционеры, выставки и др.).

· формализованного выражения содержания информационных запросов при обращении к информационно-поисковой системе ИПС.

На самом деле речь идет не об одном, а о двух языках: ИПЯ для описания объектов, сведения о которых должны быть введены в БД, и ИПЯ для составления запросов к БД.

В первом случае текст (описание объекта), записанный на естественном языке, переводится с помощью соответствующих правил в текст на ИПЯ, в результате мы получаем поисковый образ объекта (ПОО); во втором случае текст запроса также переводится в текст на ИПЯ, в результате чего мы получаем поисковое предписание (ПП). Процесс перевода с естественного языка на ИПЯ называется индексированием.

Процедура поиска заключается в сопоставлении составленного пользователем ПП множеству ПОО, хранящихся в БД, и выделении тех из них (т.е. описаний тех объектов), которые удовлетворяют запросу в соответствии с принятыми критериями. Качество поиска зависит от свойств ИПС и определяется тем, насколько ответ на запрос является точным и полным, причем эти понятия связаны с понятием соответствия между информационным запросом и сведениями, полученными на этот запрос. Ответ, основное содержание которого соответствует по принятым в ИПС критериям информационному запросу, называется релевантным, ответ же, по существу соответствующий информационной потребности пользователя – пертитнентным (подробно о релевантности и пертинентности см. в упомянутой выше монографии «Основы информатики»). Оценку релевантности при работе ИПЯ производят по показателям полноты и точности выдачи информации, потери информации и информационного шума.

Формально для оценки качества работы ИПС используют следующие критерии:

· Коэффициент полноты: a/(a+c)

· Коэффициент точности: a/(a+b)

Где:

a – число релевантных документов, выданных из ИПС по запросу,

b – число нерелевантных документов, выданных из ИПС по запросу,

c - число релевантных документов, которые ошибочно не были выданы из ИПС по запросу,

 

Для того, чтобы быть эффективным средством информационного поиска, ИПЯ должен отвечать определенным требованиям, в первую очередь:

· обладать грамматическими средствами и лексикой, необходимыми и достаточными для выполнения поставленных перед системой функций,

· учитывать специфику предметной области,

· быть удобным для пользователя.

В зависимости от поставленной задачи в АИС могут быть использованы ИПЯ различных типов: классификационные, дескрипторные, фасетные, объектно-признаковые (подробно об ИПЯ см. в упомянутой выше монографии «Основы информатики»). Например, в ИНТЕРНЕТ в качестве ИПЯ широко используется «язык ключевых слов», представляющий собой совокупность ненормированных лексических единиц из заглавий, рефератов и полного текста документов[6].

Исследования и многолетний практический опыт показали, что для работы с музейными коллекциями наиболее подходящим является ИПЯ объектно-признакового типа[7].

ИПЯ объектно-признакового типа

Основными категориями ИПЯ объектно-признакового типа являются:

· объект (в нашем случае - музейный предмет, входящий в коллекцию; или лицо, связанное с коллекцией; или выставка; или др.),

· признак (в нашем случае - характеристика, необходимая для описания объекта: название музейного предмета, датировка, материал, техника, сохранность и т.д.),

· значение признака (например, значение признака "материал": бумага; "техника": темпера и т.д.).

Следует заметить, что некоторые признаки могут иметь только одно значение (например, номер по КП) и называются однозначными, другие - много значений (например, у одного предмета может быть много значений признака “материал”), такие признаки называются многозначными.

Значения признаков могут представлять собой или свободные слова и словосочетания (например, описание сохранности), или нормативную лексику, которую разрешается брать только из словарей (например, это может быть, материал). Довольно часто применяются линейные или иерархические словари, в некоторых ИПЯ используется и более сложный лексический аппарат, например, тезаурусы[8], в которых учитываются парадигматические отношения между лексическими единицами, т.е. отношения типа “часть-целое”, “род-вид”, синонимия и т.д.

Процедуры, реализованные в музейных АИС для ввода и корректировки данных предельно просты: на экране монитора возникает набор признаков, значения которых должен записать пользователь (пример такого экрана представлен в приложении 1.

Процедуры поиска данных и их представления зависят от конкретных аппаратно-программных решений ИПС.

Создание ИПЯ для музейной АИС - сложный и трудоемкий процесс, требующий активного взаимодействия различных специалистов: лингвистов, музейщиков, программистов и др.

Для того, чтобы БД, создаваемые в различных музеях, были совместимы, необходимо выработать стандартные принципы описания данных. Как показала практика, наибольшие трудности при создании ИПЯ для описания музейных коллекций возникают при решении следующих проблем:

· определение состава и структуры признаков, необходимых для описания музейного предмета;

· классификация музейных предметов и унификация используемых терминов.



2016-09-17 1000 Обсуждений (0)
Технология обработки текстовых данных в АИС музеев 0.00 из 5.00 0 оценок









Обсуждение в статье: Технология обработки текстовых данных в АИС музеев

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы...
Как построить свою речь (словесное оформление): При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою...
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1000)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.007 сек.)