Мегаобучалка Главная | О нас | Обратная связь


Средства лингвистического обеспечения Центральной научной сельскохозяйственной библиотеки Российской сельскохозяйственной академии.



2019-12-29 168 Обсуждений (0)
Средства лингвистического обеспечения Центральной научной сельскохозяйственной библиотеки Российской сельскохозяйственной академии. 0.00 из 5.00 0 оценок




Евстигнеева А. Г.

Научный руководитель:

профессор

Яцевич Н. А.

 

 

Допущен к защите________________________

зав. кафедрой инф. ресурсов. профессор

Нешитой В. В.

число_________месяц_________год_________

 

Минск 2010

 

Содержание:

Введение - 3 -

Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем. - 9 -

1.1. Понятие, состав и требования к современному лингвистическому обеспечению.. - 9 -

1. 2. Обзор лингвистического обеспечения сельскохозяйственных библиотек России и Украины.. - 17 -

1.2.2. Средства лингвистического обеспечения Государственной научной сельскохозяйственной библиотеки Украинской академии сельскохозяйственных наук. - 22 -

Глава 2. Структура лингвистических средств Белорусской сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси. - 28 -

2.1. База данных УДК и ее применение в качестве информационно-поискового языка. - 30 -

2.2. Тезаурус по сельскому хозяйству и продовольствию.. - 39 -

2.2.1. Назначение и структура тезауруса. - 39 -

2.2.2. Парадигматические отношения. - 45 -

2.2.3. Использование тезаурусов. - 54 -

2.3. Проблема выбора средств лингвистического обеспечения и их интеграции в библиотеках АПК. - 58 -

Заключение. - 62 -

Приложение №1………………………………………………………………………………………. - 71 -
Введение

Лингвистическое обеспечение - это комплекс средств, используемых в библиотеке для формирования, обработки, хранения и поиска информации, а также средств и методов их создания, ведения, использования и контроля. Лингвистическое обеспечение (ЛО) требуется на всех направлениях деятельности библиотеки. Состав и структура лингвистического обеспечения зависят от того, в какой области библиотечной деятельности оно используется. Можно выделить несколько функций, возложенных на лингвистическое обеспечение и отсюда несколько видов ЛО:

1. лингвистическое обеспечение подготовки баз данных (обработка, ввод информации, формирование баз данных);

2. лингвистическое обеспечение подготовки информационных изданий;

3. лингвистическое обеспечение процессов распределения потоков информации между ее потребителями.

Лингвистическое обеспечение включает в себя лингвистические средства и средства манипулирования с данными и информационными массивами. Лингвистические средства — это совокупность информационно-поисковых языков (ИПЯ), используемых в информационно-поисковой системе (ИПС), правил перевода информации с естественного языка на ИПЯ и критерия выдачи информации, обеспечивающих представление смыслового содержания документов информационных массивов в виде, удобном для машинной обработки и обеспечивающем автоматизированный поиск информации. информационно-поисковые языкои являются основным элементом ЛО, поскольку от них зависит эффективность поиска. Они предназначены для выражения основного содержания документов и информационных запросов с целью последующего хранения и поиска информации в ИПС. информационно-поисковые языки по сути считаются главной характеристикой ИПС, поскольку от их качества (терминологической наполненности, терминологической однозначности лексических единиц, наличия логической связи между элементами, справочного аппарата, удобства пользования и т. д.) зависит эффективность поиска, его полнота и точность. [44, C. 13]

В начале 50-х годов в США начали создаваться информационно-поисковые языки, получившие название дескрипторных (от англ. слова to describe - описывать). В основе дескрипторных информационно-поисковых языков лежит алфавитный перечень слов или словосочетаний.

Одной из первых информационно-поисковой системой, в которой использовался такой информационно-поисковый язык, была система "Унитерм", разработанная в 1952 г. известным американским логиком и документалистом Мортимером Таубе. В этой системе реализован предложенный им принцип координатного индексирования. В системе "Унитерм" в качестве индексов, описывающих содержание документов и запросов и координируемых при поиске, использовались ключевые слова, выбранные из их текстов, названные унитермами. (Слово "унитерм" означает в переводе с английского "единичный термин"). Выбранные из текста унитермы располагались в алфавитном порядке в специальной картотеке. [1, С. 5]

Сейчас прогресс шагнул далеко вперед и мы стоим на пороге информационного общества. И, казалось бы, повсеместная автоматизация - это новый вектор развития библиотек, который позволит создать максимально комфортные условия для работы читателей. Но на практике, изучив данную проблему более детально, я столкнулась с цифрами, которые составляют далеко не самую безоблачную статистическую картину. Автоматизация библиотечно-библиографических процессов идет в библиотеках АПК медленно: только 30% библиотек оснащены компьютерами; 2% библиотек имеют выход в Интернет и менее 0,5% библиотек имеют свои сайты в Интернете. На первом этапе автоматизации библиотеки создают свои электронные каталоги и в качестве ИПЯ используют УДК и/или ББК, язык ключевых слов и язык библиографического описания.

 

Лингвистическое обеспечение в Центральной научной сельскохозяйственной библиотеке Российской Академии Наук, например, включает семь ИПЯ:

- схему комплексно-системного каталога (КСК),

-УДК,

-ББК,

- язык библиографического описания,

- Отраслевой Рубрикатор, разработанный на основе ГРНТИ,

- Информационно-поисковый тезаурус,

- язык ключевых слов.

 

И это действительно хорошая работа! Это результат труда многих людей на протяжении долгих лет.

Но ЦНСХБ - это самая крупная из библиотек АПК на территории бывшего СНГ. Другие же библиотеки не могут похвастаться подобными достижениями. С целью анализа данной проблемы и поиска выхода из нее и было проведено исследование, положенное в основу данной дипломной работы.

 

Актуальность исследования. Обеспеченность информационными ресурсами является необходимым условием функционирования и раз вития агропромышленного комплекса (АПК) России. Научно-технические библиотеки (НТБ) занимают важное место в государственной системе научно-технической информации (ГСНТИ), которая призвана создавать и развивать информационные ресурсы и информационное обеспечение науки и производства. Современный период развития НТБ рассматривается как новый этан компьютеризации, связанный с переходом на сетевые информационные технологии, широкое использование электронных документов и БД. Научные сельскохозяйственные библиотеки (НСХБ), обеспечивающие информационное сопровождение деятельности ученых и специалистов АПК, активно формируют сего дня собственные электронные документные ресурсы, используют доступные по телекоммуникационным каналам машиночитаемые ресурсы других библиотек и информационных служб, разрабатывают и совершенствуют методы и средства информационного поиска. При этом они вынуждены использовать традиционные и автоматизированные информационно-поисковые системы (ИПС).

Если под ИПС мы понимаем совокупность информационно поисковых массивов, их носителей, информационно-поискового языка, правил его использования, критериев выдачи, программных и технических средств, то традиционные ИПС представлены системой карточных каталогов и картотек, где информационно-поисковыми языками являются элементы библиографического описания (автор индивидуальный или коллективный, тин документа, язык документа и т.д.), классификации отраслей знания (УДК, ББК, десятичная классификация Дьюи и т.п.), схемы предметных рубрик и т.п.

 

Информационно-поисковый язык (ИПЯ) - формализованный искусственный язык для индексирования документов, информационных запросов и описания фактов с целью но следующего их хранения и поиска. ИПЯ и дополняющие их методики систематизации документов, инструкций по ведению каталогов и т.п. составляют лингвистическое обеспечение традиционных ИПС. В автоматизированных ИПС используются специально разработанные ИПЯ (рубрикаторы, словари ключевых слов, тезаурусы и т.д.). Информационными массивами являются электронные каталоги и базы данных на машиночитаемых носителях; организация и использование информационных массивов определяются соответствующими стандартами и обеспечиваются программными и техническими средствами. Эффективность информационного поиска в автоматизированных ИПС в значительной степени зависит от ее лингвистического обеспечения: ИПЯ и средств их ведения и поддержки.

От выбора лингвистического обеспечения зависит совместимость языковых средств данной ИПС с другими, а значит и возможности информационного поиска в них, поскольку совместимость лингвистического обеспечения - это возможность использования в ИПС поисковых образов документов на одном ИПЯ, а поисковых предписаний на другом, а также возможность автоматического или ручного перевода поискового образа документа с одного ИПЯ на другой. Создание единого информационного пространства АПК подразумевает возможность использования любых ИПС для получения нужной информации с любого, подключенного в единую информационную сеть терминала. Для того, чтобы поиск в этих информационных ресурсах был возможен, прост и оперативен, необходимо разработать в каждой НСХБ оптимальное лингвистическое обеспечение, позволяющее осуществлять переход из одной ИПС в другую легко и комфортно для пользователя. Теоретические разработки по лингвистическому обеспечению НСХБ отсутствуют.

По статистике 2002 г. только 30% научных СХБ находились на разных стадиях внедрения автоматизации в библиотечно-библиографические процессы. Наиболее передовые позиции в этом занимает Центральная научная сельскохозяйственная библиотека Россельхозакадемии (ЦНСХБ), которая является федеральным учреждением ГСНТИ в об­ласти АПК, крупнейшей научных СХБ РФ, осуществляющей функции отраслевого информационного центра, в т.ч. генерацию документографических БД, создание реферативной и обзорной информации, выпуск реферативных изданий. В ЦНСХБ автоматизированы основные библиотечно-библиографические процессы в рамках интегрированной автоматизированной библиотечно-информационной системы (АБИС), созданы электронные ресурсы по проблематике АПК федерального значения, в т.ч. крупнейшая в мире русскоязычная БД по АПК «АГРОС». ЦНСХБ является головным методическим центром для 688 научно-технических библиотек АПК, которые используют ее разработки и информационные продукты в своей практической деятельности. Как

методический центр ЦНСХБ проводит работы, направленные на формирование единого информационного пространства отрасли. Она имеет самую сложную из всех библиотек АПК структуру лингвистических средств и систему методических пособий по работе с ними. Лингвистическое обеспечение ИПС ЦНСХБ складывалось исторически, в условиях автоматизации назрела необходимость его оптимизации. К объектам оптимизации следует отнести состав используемых ИПЯ, их совместимость и гармонизацию в рамках ИПС, совершенствование самих ИПЯ и средств их ведения и поддержки. Разработка оптимальной структуры лингвистического обеспечения ИПС ЦНСХБ будет способствовать ее эффективному функционированию в рамках единого информационного пространства АПК РФ. Такая структура лингвистического обеспечения ИПС может служить моделью для других НСХБ. Все это обусловливает актуальность выбранной темы для исследования.

 

Целью исследования является обоснование структуры лингвистического обеспечения научных сельскохозяйственных библиотек, способствующей максимально полному удовлетворению информационных потребностей ученых и практиков в релевантной информации по вопросам АПК.

 

Разработка данного исследования ставит перед собой следующие задачи:

1. Теоретическое изучение понятия «лингвистическое обеспечение» и его эволюции.

2. Характеристика основных подходов к лингвистическому обеспечению АБИС.

3. Изучение опыта внедрения лингвистического обеспечения в АБИС библиотек сельскохозяйственного профиля.

4. Анализ состояния лингвистического обеспечения в Белорусской сельскохозяйственной библиотеке.

5. Обоснование проблемы выбора лингвистического обеспечения.

 

Теоретическая и методологическая основа исследования

Проблемы лингвистического обеспечения библиотек АПК ранее углубленно изучались только Л. Н. Пирумовой, на основе работ которой и строилось данное исследование. Отдельные вопросы разработки лингвистического обеспечения также рассматривались в контексте решения общих проблем развития ИПС, электронных каталогов по АПК. Эти вопросы затрагивались в работах М. А. Аветисова, Г. К. Быстровой, С. А. Дубинской, Л. М. Фрида. В работах В. Г. Позднякова подчеркивается роль лингвистического обеспечения в информационном обслуживании ученых и практиков АПК, а также необходимость сотрудничества библиотек АПК в решении ряда проблем.

Однако эти работы носят общий характер, трактующий лингвистическое обеспечение как неотъемлемую часть ИПС, но не касаются детального рассмотрения методики построения, ведения, использования и назначения лингвистических средств. Разработка теоретических и методологических проблем лингвистического обеспечения началась в 60-х годах, когда пришло понимание того, что без информационно-поисковых языков вычислительные машины остаются только машинами, и начался вслед за этапом «механическим» новый «логико-лингвистический», по определению А.В. Соколова, этап в развитии ИПС.

Вопросы лингвистического обеспечения поднимаются, с разной степенью детализации, во всех трудах, касающихся ИПС, поскольку лингвистическое обеспечение является ее неотъемлемой частью. Это подчеркивают в своих работах Ю. М. Арский, Г. Г. Белоногов, В. А. Глинский, Б. А. Кузнецов, А. И. Михайлов, В. А. Мишин, В. В. Морозов, В. В. Попов, Я. Л. Шрайберг и др.

Ранние разработки в области ИПЯ касались лингвистического обеспечения больших электронно-вычислительных машин и отражены в работах М. Г. Гаазе-Рапопорта, Р. Г. Котова, Б. В. Якушина, Л. Н. Пирумовой. Работы последних лет относятся к ИПС, работающим в диалоговых режимах на персональных компьютерах. Теоретические разработки проблемы лингвистического обеспечения автоматизированных ИПС касались в 60-70-х годах только информационных центров, что объясняется отсутствием автоматизации в библиотеках и библиотечно-библиографических процессах. Работы А. Б. Антопольского, Г. Г. Артаманова, Б. Р. Певзнера, А. В. Соколова, А. И. Черного послужи­ли основой для дальнейшего развития теории лингвистического обеспечения ИПС. С развитием автоматизации библиотечно-библиографических процессов появились работы, посвященные развитию ИПЯ библиотечных ИПС. Проблемы лингвистических

средств для библиотечных технологий рассматриваются в трудах Л.И. Беневоленской, Е. М. Зайцевой, О. А. Фуралева, М. В. Экстрем и др.

В работах Н. И. Гендиной обобщены и развиты принципы лингвистического обеспечения, описанные в трудах отечественных исследователей, в приложении к библиотечным технологиям, рассматривается широкий спектр вопросов, относящихся к лингвистическому обеспечению, в т.ч. индексированию, информационному поиску и т.д. Ряд научных разработок посвящен отдельным аспектам лингвистического обеспечения. Вопросы классификационных ИПЯ исследовались такими учеными, как Л. Н. Пирумова, М. А. Довбенко, Е. Н. Пименов, Ю. А. Шрейдер и др. Развитию Библиотечно-библиографической классификации (ББК) посвящен ряд работ Э. Р. Сукиасяна. Проблемы ведения, разработки, актуализации Универсальной десятичной классификации (УДК) отражены в работах О. А. Антошковой, Н. Д. Борисовой, А. В. Владимировой, О. В. Караджи, Б. В. Кристального, Л. В. Лобовой, Б.И. Маршака, Т. В. Тужилковой и др.

Рубрикатору ГСНТИ посвящены работы В. Н. Белоозерова, И. Е. Гендлиной, Б.В. Кристального, Н. В. Лукашевич, В. М. Полонского, Ю.Ф. Тарасюк, З.М. Храпкина и др. С развитием и совершенствованием автоматизированных баз данных все большее внимание уделяется дескрипторным языкам. Методика создания информационно-поискового тезауруса содержится в работах О.А. Лавреновой, А.В. Соколова. Выявлению и обоснованию оптимальных путей развития дескрипторных языков посвящены труды Л. Н. Пирумовой, Л. П. Алексеевой, Д. Н. Бакун, С. А. Белькова, П. И. Браславского, С. Л. Гольдштейн, С. В. Еринева, В. М. Лейчик, С. А. Мамонтова, В. М. Масляковой, Л. И. Оранской, Т. Я. Ткаченко и др.

ИПЯ непосредственно связаны с аналитико-синтетической обработкой информации, поскольку именно на этом этапе осуществляется перевод информации с естественного на искусственные языки и создается поисковый образ документа. Исследованиями в области аналитико-синтетической обработки информации занимаются теоретики и практики библиотековедения и информационной деятельности: Ф. С. Воройский, А. Ф. Еареев, В. В. Корнеев и др. В работах последних лет поднимаются проблемы автоматизированного индексирования, о них пишут Л. В. Кнорина, Н. Н. Литвинова, П.В. Лукашевич. Важное место в разработке лингвистического обеспечения ИПС отводится проблеме совместимости информационно-поисковых языков. Особенно важной и актуальной проблема совместимости ИПЯ становится в наши дни с развитием сетевых технологий, глобальной сети Интернет. Большой интерес, в этой связи, представляют груды А. В. Бобко, Р. С.Еиляревского, Т. Б. Грищенко, А. Ю. Евсюкова, Л. А. Жариковой, А. С. Калиновского. К). В. Ланграф, Н. В. Рябовой, Г. А. Скарук и др.

В отличие от информационных центров, где информация хранится преимущественно в электронной форме, в библиотеке информация часто существует на бумажных носителях и наряду с электронными формами обслуживания применяются традиционные формы. Поэтому особый интерес представляет перевод карточных каталогов в электронные (конверсия каталогов), и в связи с этим - концепции объединения традиционных и электронных каталогов в единую информационно-поисковую систему с единым лингвистическим обеспечением. Эти проблемы освещены в работах С. К. Вилснской, Н. А. Еалюк, М. Н.Захаровой, М. Н.Романовой, Е. М. Ручимской, О. А. Фуралева, И. Ю. Черкасовой и др.

Проблемы лингвистического обеспечения постоянно обсуждаются на страницах библиотечной печати, ею занимаются видные теоретики библиотековедения и информатики, но эти разработки чаще носят теоретический характер и могут служить базой для дальнейших разработок прикладного характера. Практически отсутствуют работы о структуре лингвистического обеспечения НСХБ. Однако необходимость в этом назрела поскольку актуальной стала задача создания единой сетевой ИПС по вопросам АПК с единым или совместимым лингвистическим обеспечением. В этой ситуации с новых позиций следует рассматривать традиционные ИПЯ, которые используются в НСХБ и могут быть использованы в автоматизированной библиотечной ИПС. Поэтому необходимо глубокое и всестороннее исследование лингвистических средств НСХБ с целью разработки структуры ее лингвистического обеспечения, выработки рекомендаций по его совершенствованию. Недостаточная разработанность проблемы применительно к сельскохозяйственной ИПС явилась еще одним основанием для выбора темы иссле­дования.

Практическая значимость данного исследования – это усовершенствование модели лингвистического обеспечения в Белорусской сельскохозяйственной библиотеке, а также разработка путей внедрения средств лингвистического обеспечения в процессы поиска документов.

 

Дипломная работа выполнена на базе Белорусской сельскохозяйственной библиотеки им. И. С. Лупиновича Национальной академии наук Беларуси.

 

 

Глава 1. Теоретические аспекты лингвистического обеспечения автоматизированных библиотечно-информационных систем.

 

1.1. Понятие, состав и требования к современному лингвистическому обеспечению.

Создать условия, при которых читатель может получить доступ к информационно-поисковым системам библиотек различной удаленности и вести эффективный поиск в них, помогают лингвистическое обеспечение (ЛО) и его основная составляющая - информационно-поисковые языки (ИПС). Задача библиотек состоит не только в том, чтобы собрать в своих фондах возможно полно документы, но сделать их доступными для пользователя, дать информацию о них и раскрыть информацию, содержащуюся в них. Всему этому способствуют каталоги, базы данных, библиографические и реферативные издания. Информация в них должна быть систематизирована и представлена в таком виде, который позволяет осуществлять быстрый поиск в данных ИПС, БД, электронном ка­талоге.

Любая ИПК включает следующие элементы:

1. информационный массив;

2. ИПЯ, на которой переводится входная информация и запросы; правила этого перевода (индексирование);

3. критерии выдачи, то есть правила сравнения перевода запроса на ИПЯ с ре­зультатами перевода на ИПЯ входной информации, определяющие отбор информации, подлежащей выдаче на запрос.

 

Понятие ЛО шире понятия информационно-поискового языка, поскольку включает их в себя. Лингвистическое обеспечение автоматизированных систем включает ИПЯ, методики индексирования документов и запросов на них, инструкции и методики их ведения и использования, а также средства поддержания ИПЯ в автоматизированной сис­теме.

Средством свертывания информации и смысловой обработки документов является информационно-поисковый язык (ИПЯ) - формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов. Искусственный язык, специально разработанный для автоматизированного поиска, лишен недостатков естественного языка (многозначность, избыточность) и лучше приспособлен для информационного иска, увеличивая полноту и точность выдачи информации. При создании ИПЯ учитываются требования, которые отвечают его задаче - полноте и точности поиска:

- однозначность - каждая запись на ИПЯ должна иметь только один смысл, то есть искусственный ИПЯ должен устранять такие недостатки, с точки зрения поиска естественного языка, как полисемия и омонимия;

- явное выражение полезных для поиска семантических (смысловых) отношений между словами (логических отношений и психологических ассоциаций) ИПЯ;

- возможность корректировки и дополнения ИПЯ;

удобство пользования, ИПЯ должен обладать компактностью записей, способствующих его запоминанию;

- способность точно идентифицировать предмет, отличить его особенности и описать его с необходимой степенью детализации и глубины.

Семантическое богатство ИПЯ зависит от его терминологической наполненности, структуры построения и от взаимоотношений лексических единиц, составляющих лексику, словарный состав ИПЯ, Лексическая единица (ЛЕ) информационно-поискового языка - это обозначение отдельного понятия, принятое в нем. Лексические единицы каждого ИПЯ называются по-разному: в классифицированных системах - это индексы, в языке предметных рубрик это - рубрики, в дескрипторных языках - дескрипторы, в языке

ключевых слов - ключевое слово. По тому, какие лексические единицы используются в ИПЯ, различают словарные и кодированные ИПЯ. В словарных ИПЯ (тезаурус) используются элементы естественного языка, и перевод на естественный язык не требуется. В кодированных ИПЯ (УДК, ББК) индексы или рубрики сопровождаются таблицей соответствия, то есть каждой лексической единице на искусственном языке дается словесное ее выражение на естественном языке. Основу лексики любого ИПЯ составляют термины, являющиеся носителями научной информации в текстах документов. Любой ИПЯ создается на основе терминологии определенной области зна­ний.

Разработка ИПЯ проходит несколько этапов: отбор лексических единиц; процесс нормализации лексики; систематизация и группировка лексики; построение классификационных схем; оформление лексики ИПЯ.

Этап отбора лексических единиц особенно важен в процессе создания информационно-поискового языка, поскольку от него зависят возможности данного ИПЯ: терминологическая наполненность, соответствие уровню развития науки, отражаемой в нем, а значит, и поисковые возможности данного ИПЯ. Отбор лексических единиц происходит в процессе аналитико-синтетической обработки документов на этапе аннотирования, систематизации индексирования.

ИПЯ неразрывно связан с процессом аналитико-синтетической обработки информации, поскольку на этом этапе раскрывается тематическое содержание документа, происходят свертывание информации, представленной в нем, и ее перевод на формализованный язык, позволяющий внести информацию в ЭК, а затем вести в нем поиск. Прежде чем информа­ция предстанет в виде элементов ИПЯ, она проходит семантическую, то есть смысловую обработку. Текст, представленный на естественном языке, анализируется с точки зрения его содержания. В ходе осмысления содержания текста документа человеком (семантичес­кой обработки) происходит отбор наиболее значимых, основных тем документа, а затем их перевод с естественного на искусственный язык. При этом точность и полнота пере­вода зависят от возможностей ИПЯ, От уровня разработки его лексического и терминологического аппарата, наличия правил этого перевода.

Таким образом, именно ИПЯ является основным компонентом любой ИПС, без которой она превращается только в беспорядочный «сундук» информации. В традиционной ИПС использовались ИПЯ, разработанные для карточных каталогов; наибольшее распространение получили Универсальная десятичная классификация (УДК) и Библиотечно-библиографическая классификация (ББК). Однако использование их в автоматизированных системах пока не обеспечивает эффективного поиска. Вместе с тем существуют ИПЯ, специально разработанные для автоматизированных ИПС и для автоматизированного поиска: рубрикаторы, тезаурусы. При создании электронных ката­логов, автоматизированных ИПС перед библиотеками встает задача выбора ЛО и ИПЯ, которые будут использоваться в них.

Как правило, в одной информационно-поисковой системе используются несколько ИПЯ, поэтому встает вопрос об их совместимости. В условиях одной ИПС эта проблема решается, если все документы, входящие в ее документный поток, индексируются на всех ИПЯ, используемых в данной поисковой системе. Для достижения совместимости в одной ИПС следует обеспечить единую методику индексирования на всех ИПЯ этой системы, а также добиться унификации и стандартизации языковых средств и поддерживающих компонентов ЛО.

Использование нескольких ИПЯ в одной ИПС объясняется тем, что каждый из языков предназначен для выполнения определенных функций в ней, а также осознанием того, что не может быть создан единый ИПЯ, выполняющий одновременно все функции лингвистических средств и все задачи, стоящие перед информационно-поисковой систе­мой. Одновременное использование нескольких информационно-поисковых языков обеспечивает быстрый и разнообразный доступ потребителя к информационным ресурсам

в зависимости от его знания какого-либо из ИПЯ и от того, какого рода информация ему нужна и для каких целей. Все это относится к решению проблемы узкой совместимости в рамках одной ИПС. [51, C. 58]

Проблема совместимости средств ЛО различных ИПС стала особенно актуальна с развитием информационных сетей. Поскольку каждая ИПС использует свои ИПЯ, то обмен информацией между информационно-поисковыми системами затруднен из-за не­совместимости этих ИПЯ. Различают средства и методы достижения лингвистической совместимости. К средствам ее обеспечения относятся рубрикаторы, классификаторы, библиотечные форматы записи, тезаурусы и нормативные словари, конверторы, необходи­мые для перевода информации из одной формы ее предоставления в другую. К основным методам совместимости лингвистических средств относят: методологическую совместимость; стандартизацию и унификацию языковых средств; создание общесетевых универсальных ИПЯ; сопряжение языковых средств; методы конверсии языковых средств; сосуществование разных ИПЯ в сети.

Методическая совместимость - это разработка единых принципов создания и ведения ЛО отдельных ИПС, входящих в одну информационную сеть; разработка нормативных документов, определяющих структуру и состав ЛО участников сети. Стандартизация - это разработка единых стандартов, позволяющих произвести унификацию отдельных элементов БО, ИПЯ, терминологии.

Универсальные (общесистемные) языки должны обеспечить единообразие формирования информационных массивов. Примером создания универсальных языковых средств является разработка Государственного рубрикатора научно-технической информации (ГРНТИ).

Метод конверсии, то есть преобразование записей на одном информационно-поисковом языке в записи на другом ИПЯ автоматизированными средствами, реализуется созданием таблиц соответствия. Например, в отраслевом рубрикаторе Центральной научной сельскохозяйственной библиотеки (ЦНСХБ) каждой рубрике Рубрикатора приписан ин­декс УДК.

Сосуществование языковых средств предполагает параллельное использование нескольких ИПЯ в одной ИПС. Анализ 10 важнейших библиотечных процессов (комплектование, учет библиотечных фондов; библиографическое описание произведений печати, систематизация (или предметизация), организация библиотечного каталога, техническая обработка документов, работа с фондом, обслуживание читателей, работа МБА, справочно-библиографическая и информационная работа) показывает, что ИПЯ в той или иной степени используются в каждом из перечисленных процессов, кроме того, существует прямая зависимость между качеством лингвистических средств и эф­фективностью используемой библиотечно-библиографической технологии. Следовательно, изменение или расширение функций автоматизированной библиотечной системы связано в первую очередь с реальным выбором комплекса ИПЯ, усилением семантической силы используемых информационно-поисковых языков. Исследователи отмечают, что, несмотря на существенные достижения в области интерактивных систем (генерация БД, возрастание скорости передачи информации), совершенствование и упрощение поисковой процедуры достигнуто лишь в части автоматизации механических, рутинных процессов интерактивного поиска. Что касается связанных с ним интеллектуальных процессов, то они автоматизацией охвачены слабо или фактически не охвачены. Другими словами, интерактивный поиск дает быстрые результаты по поиску по простейшим элементам базы обслуживания (БО): автору, названию, но тематический поиск, который является интеллектуальным, остается слабым звеном. В исследованиях по анализу эффективности работы интерактивных систем отмечено, что наибольшее влияние на результаты поиска оказывают именно интеллекту­альные операции: определение предмета, области поиска, выбор базы данных, выбор стратегии поиска и оценка его результатов. Причем основная сложность заключается в

выборе стратегии поиска, что напрямую связано с использованием лингвистических средств. В интерактивном режиме существует задача оптимизации методов поиска, его полноты, релевантности и скорости создания поискового предписания.

Это гарантирует формализованное описание содержания документов в ЭК и информационных запросов, что достигается при помощи комплекса ИПЯ. Классифи­кационные и дескрипторные языки служат инструментом более тонкого анализа для проведения тематического поиска. Сочетание нескольких ИПЯ дает возможность проведения поиска по тематическим признакам, что обеспечивает его полноту и точность.

В Центральной научной сельскохозяйственной библиотеке Российской Академии наук используются для автоматизированного поиска:

• язык библиографического описания (ЯБО);

• язык ключевых слов (ЯКЛ);

• информационно-поисковый тезаурус (ИПТ);

• отраслевой рубрикатор, разработанный на основе ГРНТИ (ОР).

 

Результативность поиска в ЭК во многом зависит от выбора стратегии поиска; от лингвистических средств, используемых в данном ЭК; от качества индексирования документов на используемых в электронных каталогах ИПЯ. Семантическая обработка документа подразумевает полноту и точность перевода с естественного языка на ИПЯ, которые зависят от структуры, лексической наполненности и других возможностей информационно-поискового языка, разработанности правил этого перевода, от соответ­ствия единиц естественного языка лексическим единицам ИПЯ. Именно от точности и единообразия описания исходной информации языковыми средствами зависит релевантность (степень соответствия содержания документа, найденного при поиске, содержанию информационного запроса) и полнота поиска. Если известны источники и реквизиты документа, то поиск ведется по языку библиографического описания, если нужен тематический поиск, то используются отраслевой рубрикатор, информационно-поисковый тезаурус, язык ключевых слов. В ИПС данной библиотеки используется, коммуникативный формат К118МАКС, Структура языка библиографического описания богата поисковыми возможностями, заложенными в этом формате на БО, состоящем из 229 элементов данных. Эти данные позволяют идентифицировать и разыскать документ по каждому из этих -элементов. Чём полнее используются возможности коммуникативного формата, тем шире возможности поиска по формальным признакам документа.

Установлено, что поиск только по БО может быть достаточно эффективен, так как заглавия пригодны для автоматизированного поиска. Эффективность поиска возрастает, когда к БО добавляются рубрики или индексы ИПЯ. Точность поиска в этом случае составляет 70 процентов, а полнота - 50 процентов. Точность поиска возрастает еще на 3-5 процентов, если к этому добавляются ключевые слова и дескрипторы. БД с рефератами и/или аннотациями дает максимально эффективный поиск в автоматизированном режиме, поскольку возможен поиск по всем полям, то есть по всему тексту документа. Использование всех текстов документа (БО, аннотаций, рефератов) в качестве ПОД расширяет возможности поиска, так как в них выражены синтаксические связи между ключевыми словами.

Результативность тематических запросов зависит от ИПЯ, на котором они сформулированы. Запрос может быть сделан на естественном языке, то есть выражен известными пользователю терминами - научными или общеупотребительными, и какое-то количество нужных пользователю документов может быть найдено. Однако, как показал опыт, это будут не все документы по заданной теме и, возможно, в выборку не войдут самые ценные из них, о чем пользователь может и не подозревать. Может показаться, что поисковые возможности естественного языка и ключевых слов одинаковы, но это не так.

К примеру:

• в документе № 1 препарат А упоминается в качестве стандарта при оценке свойств препарата Б;

• в документе № 2 описаны свойства, формы, назначения, способы применения и т. п. препарата. На запрос «препарат А» и при поиске по текстовым полям (естественней язык) пользователь получит оба документа, так как в их текстовых полях, например, в ан­нотации, в реферате, поисковая система найдет термин «препарат А». Однако документ № 1 не релевантен запросу и не нужен пользователю (это «информационный шум»). Документ № 1 релевантен только запросу о «препарате Б». На запрос «препарат А» и при поиске по терминам поля «ключевые слова» поисковая система выдаст только релевантный запросу документ № 2, поскольку индексатор заиндексировал документ ключевым словом «препарат А», так как в нем содержится существенная информация об этом препарате, в отличие от документа № 1.

Но следует иметь в виду, что поиск по терминам текста и ключевым словам не может обеспечить удовлетворительной полноты нахождения нужных источников информации. К примеру, если «препарат А» в документах № 1 и № 2 имеет разные наименования, что очень распространено в научных текст



2019-12-29 168 Обсуждений (0)
Средства лингвистического обеспечения Центральной научной сельскохозяйственной библиотеки Российской сельскохозяйственной академии. 0.00 из 5.00 0 оценок









Обсуждение в статье: Средства лингвистического обеспечения Центральной научной сельскохозяйственной библиотеки Российской сельскохозяйственной академии.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как распознать напряжение: Говоря о мышечном напряжении, мы в первую очередь имеем в виду мускулы, прикрепленные к костям ...
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (168)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.015 сек.)