Технология обработки текстовых данных в АИС музеев
В основе работы автоматизированной информационной системы по коллекциям музея лежит компьютерная БАЗА ДАННЫХ (БД), которая должна содержать важнейшие сведения, касающиеся коллекции музея[4]. К таким сведениям в первую очередь относятся: · данные о музейных предметах, включенных в фонды музея (основной, вспомогательный, фонд временного хранения), · данные о лицах, связанных с коллекцией (авторах, художниках, изготовителях, изображенных лицах, меценатах и т.д.), · библиография, · данные о выставках, · нормативные документы: словари, справочники (по материалам, по технике, по жанрам, списки отделов, хранителей и т.д. ). В процессе работы АИС выполняются следующие технологические операции с данными: · первоначальный ввод данных в АИС, · корректировка введенных данных, · поиск данных с помощью информационно-поисковой системы (ИПС),и представление результатов поиска на экране монитора или на бумаге в удобном для пользователя виде · обработка данных по заданным алгоритмам и представление результатов обработке для внутримузейных целей в заданной пользователем форме (например, в форме Книги поступлений, Научной карточки, каталога, справочника, статистической таблицы и др.), · подготовка и передача данных в другие БД или в ИНТЕРНЕТ для представление внешним пользователям. Текстовые компьютерные БД создаются для того, чтобы на основе введенных в компьютер описаний быстро и эффективно обнаружить нужные сведения и представить результат в удобной для пользователя форме. Как правило, данные, записанные в традиционных документах (в Книге поступлений, Инвентарной книге, Научных карточках и т.д.), представляют собой свободный, слабо структурированный текст. Такой материал непригоден для непосредственной записи в базу данных и последующего поиска. Это становится понятным из следующего примера. В графе 4 "Книги поступлений" имеется параметр: «Наименование и краткое описание предмета (автор, дата, место происхождения, надписи, подписи и пр.)». Очевидно, что этот параметр носит комплексный характер и включает в себя характеристики, каждая из которых может представлять интерес сама по себе. Не вызывает сомнения, например, необходимость вести поиск по имени автора, по датировке и др. Для того, чтобы осуществить поиск, данные необходимо записывать в компьютер по определенным правилам, которые в совокупности образуют информационно-поисковый язык (ИПЯ); практическая же реализация поиска данных осуществляется с помощью информационно-поисковых систем (ИПС). Основные сведения об ИПС и ИПЯ, необходимые музейщику для практической работы, представлены в следующем подразделе. 4. ИПС и ИПЯ: основные понятия Пик теоретических исследований в области теории информационного поиска, выразившийся в появлении в печати целой серии публикаций на эту тему, пришелся на последнюю треть XIX века. Одна из первых публикаций, которую можно отнести к классике этого жанра и которая не потеряла актуальности до настоящего времени – это монография «Основы информатики»[5], опубликованная еще в 1968 году. Конкретные ИПС и используемые в них ИПЯ, практически реализованные в последующие годы, в существенной степени базировались на теоретический задел, сформированный в конце прошлого века. Мы ограничимся лишь самыми общими сведениями об ИПС и ИПЯ. Процесс поиска данных осуществляется с помощью информационно-поисковой системы ИПС. Под ИПС будем понимать автоматизированную поисковую систему, реализованную на средствах электронной вычислительной техники и предназначенную для поиска, а также выдачи пользователю необходимой информации по заданным параметрам. Образно можно рассматривать ИПС как «черный ящик» с двумя входами и одним выходом: на первый вход поступает информация, хранящаяся в базе данных, на второй – запросы на выдачу информации из БД, на выходе же мы получаем результат поиска, т.е. данные, выбранные ИПС в ответ на запрос (на представленном рисунке проиллюстрирована работа ИПС в виде схемы).
В зависимости от вида получения выходных данных ИПС делятся на документальные, где результат поиска выдается в виде документа или ссылки на документ), фактографические(результат поиска – конкретные сведения, например, имя художника, или даты его жизни или др.) и докуметально-фактографические,когда два эти вида интегрированы; в последние годы именно этот класс систем приобрел популярность. В основе работы ИПС лежит информационно-поисковый язык ИПЯ; это специализированный искусственный язык, предназначенный для: · формализованного описания тех объектов, сведения о которых представляют интерес для пользователя (музейные предметы, авторы, коллекционеры, выставки и др.). · формализованного выражения содержания информационных запросов при обращении к информационно-поисковой системе ИПС. На самом деле речь идет не об одном, а о двух языках: ИПЯ для описания объектов, сведения о которых должны быть введены в БД, и ИПЯ для составления запросов к БД. В первом случае текст (описание объекта), записанный на естественном языке, переводится с помощью соответствующих правил в текст на ИПЯ, в результате мы получаем поисковый образ объекта (ПОО); во втором случае текст запроса также переводится в текст на ИПЯ, в результате чего мы получаем поисковое предписание (ПП). Процесс перевода с естественного языка на ИПЯ называется индексированием. Процедура поиска заключается в сопоставлении составленного пользователем ПП множеству ПОО, хранящихся в БД, и выделении тех из них (т.е. описаний тех объектов), которые удовлетворяют запросу в соответствии с принятыми критериями. Качество поиска зависит от свойств ИПС и определяется тем, насколько ответ на запрос является точным и полным, причем эти понятия связаны с понятием соответствия между информационным запросом и сведениями, полученными на этот запрос. Ответ, основное содержание которого соответствует по принятым в ИПС критериям информационному запросу, называется релевантным, ответ же, по существу соответствующий информационной потребности пользователя – пертитнентным (подробно о релевантности и пертинентности см. в упомянутой выше монографии «Основы информатики»). Оценку релевантности при работе ИПЯ производят по показателям полноты и точности выдачи информации, потери информации и информационного шума. Формально для оценки качества работы ИПС используют следующие критерии: · Коэффициент полноты: a/(a+c) · Коэффициент точности: a/(a+b) Где: a – число релевантных документов, выданных из ИПС по запросу, b – число нерелевантных документов, выданных из ИПС по запросу, c - число релевантных документов, которые ошибочно не были выданы из ИПС по запросу,
Для того, чтобы быть эффективным средством информационного поиска, ИПЯ должен отвечать определенным требованиям, в первую очередь: · обладать грамматическими средствами и лексикой, необходимыми и достаточными для выполнения поставленных перед системой функций, · учитывать специфику предметной области, · быть удобным для пользователя. В зависимости от поставленной задачи в АИС могут быть использованы ИПЯ различных типов: классификационные, дескрипторные, фасетные, объектно-признаковые (подробно об ИПЯ см. в упомянутой выше монографии «Основы информатики»). Например, в ИНТЕРНЕТ в качестве ИПЯ широко используется «язык ключевых слов», представляющий собой совокупность ненормированных лексических единиц из заглавий, рефератов и полного текста документов[6]. Исследования и многолетний практический опыт показали, что для работы с музейными коллекциями наиболее подходящим является ИПЯ объектно-признакового типа[7]. ИПЯ объектно-признакового типа Основными категориями ИПЯ объектно-признакового типа являются: · объект (в нашем случае - музейный предмет, входящий в коллекцию; или лицо, связанное с коллекцией; или выставка; или др.), · признак (в нашем случае - характеристика, необходимая для описания объекта: название музейного предмета, датировка, материал, техника, сохранность и т.д.), · значение признака (например, значение признака "материал": бумага; "техника": темпера и т.д.). Следует заметить, что некоторые признаки могут иметь только одно значение (например, номер по КП) и называются однозначными, другие - много значений (например, у одного предмета может быть много значений признака “материал”), такие признаки называются многозначными. Значения признаков могут представлять собой или свободные слова и словосочетания (например, описание сохранности), или нормативную лексику, которую разрешается брать только из словарей (например, это может быть, материал). Довольно часто применяются линейные или иерархические словари, в некоторых ИПЯ используется и более сложный лексический аппарат, например, тезаурусы[8], в которых учитываются парадигматические отношения между лексическими единицами, т.е. отношения типа “часть-целое”, “род-вид”, синонимия и т.д. Процедуры, реализованные в музейных АИС для ввода и корректировки данных предельно просты: на экране монитора возникает набор признаков, значения которых должен записать пользователь (пример такого экрана представлен в приложении 1. Процедуры поиска данных и их представления зависят от конкретных аппаратно-программных решений ИПС. Создание ИПЯ для музейной АИС - сложный и трудоемкий процесс, требующий активного взаимодействия различных специалистов: лингвистов, музейщиков, программистов и др. Для того, чтобы БД, создаваемые в различных музеях, были совместимы, необходимо выработать стандартные принципы описания данных. Как показала практика, наибольшие трудности при создании ИПЯ для описания музейных коллекций возникают при решении следующих проблем: · определение состава и структуры признаков, необходимых для описания музейного предмета; · классификация музейных предметов и унификация используемых терминов.
Популярное: Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы... Как построить свою речь (словесное оформление):
При подготовке публичного выступления перед оратором возникает вопрос, как лучше словесно оформить свою... Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1000)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |