Мегаобучалка Главная | О нас | Обратная связь


Машиночитаемый эталон УДК



2019-12-29 205 Обсуждений (0)
Машиночитаемый эталон УДК 0.00 из 5.00 0 оценок




 

       Одним из первых мероприятий Консорциума УДК, созданного для развития и совершенствования Универсальной десятичной классификации на современном этапе, стало создание международной базы данных, которая могла стать основой для всех изданий УДК – это машиночитаемый эталон УДК (Master Reference File – MRF).

MRF представляет собой базу данных, которая содержит таблицы УДК вместе с отчетами, необходимыми для управления, обслуживания и архивирования. Он содержит окончательную утвержденную версию УДК и функционирует в качестве рабочего инструмента для Консорциума УДК (УДКК), который создал и ведет базу данных для управления содержанием УДК, для определения потребностей и приоритетов для изменений, а также для того, чтобы отслеживать все изменения во времени.

Дубликат базы данных используется для регулярного технического обслуживания и обновления в течение года. После завершения он используется для создания нового MRF каждый год (в период декабрь / январь). Новая версия MRF, содержащая изменения за этот год, используется для распространения среди членов Консорциума и держателей лицензии.

Пользователи – не издатели – могут также воспользоваться прямым доступом к MRF, независимо от того, для каких целей им это необходимо: классификации, научных исследований или для других целей.

Консорциум УДК разрешает доступ (по лицензии) к базе данных MRF, с тем чтобы способствовать созданию различных программных приложений, направленных на отображения и обработку таблиц УДК, или использовать их в других приложениях. УДКК всегда готов обсудить такие случаи и готов вести переговоры для активного сотрудничества.

База данных MRF была разработана с помощью программного пакета ЮНЕСКО CDS/ISIS, который поддерживает международные стандарты обмена библиографическими данными в формате ИСО-2709. CDS/ISIS является международно-признанной информационно-поисковой программой, очень популярной из-за ее низкой стоимости, стабильности и адаптивности. Хотя у нее нет особых требований, когда дело доходит до компьютерной обработки и памяти, она способна обработать большое количество данных и имеет очень надежный поиск и сортировку объектов. Кроме того, программа доступна для разных платформ (DOS, Windows, UNIX) и постоянно совершенствуется.

Данные из MRF могут быть экспортированы как в формате ИСО-2709, так и в формате обычного текста, а также могут быть использованы в любом другом ИСО-2709-совместимом приложении или дополнительно отформатированы для печати, издательских целей и др.

По соображениям эффективности (с точки зрения затрат и времени) размер MRF-базы ограничивается приблизительно размером средних изданий УДК, какими они были известны до начала 1990-х годов.

База данных MRF потенциально может быть многоязычной, но в настоящее время распространяется только на английском языке, хотя с конца 1980-х годов существуют неполные версии на немецком и французском языках. Английский остается рабочим языком Консорциума.

Каждый индекс УДК в базе данных MRF, включая основные и вспомогательные определители, проходит в отдельном отчете. Каждый кусок данных, имеющих отношение к индексу УДК, его значению, регистрации, отображения, источнику или применению, вводится в отдельном поле (поля в CDS/ISIS не ограничены, и длина каждой области может составлять, где это необходимо, несколько подполей). Одна запись в MRF состоит из 30 областей, сгруппированных в две категории. Первые двадцать полей носят описательный характер и отражают фактическое содержание этих индексов УДК, остальные десять – это административные данные, которые содержат информацию, имеющую отношение к обслуживанию базы данных.

Есть три базы данных, содержащие записи MRF:

 

1) MRF - содержит наиболее актуальную версию машиночитаемого эталона, включая самые последние официально разрешенные дополнения и другие изменения, за исключением аннулирований. Эта база данных постоянно обновляется, но не распространяются, за исключением особых случаев. MRF является основной базой данных и используется для поддержания текущего состояния.

 

2) MRFCAN – содержит аннулированные индексы. В настоящее время эта база содержит все официально санкционированные отмененные после 1993 года индексы. Каждая запись содержит административные данные с указанием даты и источника списания (например, номер «Дополнений и исправлений к УДК», в которых публикуются аннулирования).

 

UMRF – распределенная версия MRF, которая состоит из записей, экспортируемых из главных базы данных без административных областей. Каждый год, вскоре после публикации «Дополнений и исправлений к УДК» и обновления MRF, версии UMRF «замораживается» и распространяется среди подписчиков. Эти «замороженные» версии существуют за каждый год с 1993 года.

 

Master Reference File

 

Master Reference File сохраняется в штаб-квартире Консорциума УДК в Королевской библиотеке в Гааге. Он обновляется один раз в год в декабре/январе, включая изменения и поправки, опубликованные в «Дополнениях и исправлениях к УДК», как правило, опубликованных в ноябре прошлого года в печатном виде (и в электронной форме, начиная с 2002 года). В дополнение к обновленной базе данных MRF каждому пользователю предоставляются отдельные файлы (как текстовые, так и ИСО), содержащие новые индексы, изменения и замены, которые уже включены в текущую версию на этот год. Инструкции по редактированию и управлению базой данных также включены. Руководство по применению Master Reference File, называемое «Руководство к MRF», является бесплатным для всех членов Консорциума и держателей лицензии.

База данных в своей последней модификации в 2007 году содержит 67770 индексов УДК и имеет размер около 15000 килобайт. Распределение записей в соответствии с разделом и предметными областями выглядит следующим образом (обновлено в июле 2008 года):

 

 

Индекс     Описание (сокращенное)                             Количество в УДК

 

Ia/к          Общие вспомогательные                                12993

в том числе:

Ic               Язык                                                                     1364

Id               Форма                                                                                362

Ie               Место                                                                          9384

If                Этнические                                                             33

Ig           Время                                                                                284

Ik               Свойства                                                               805

Ik               Материалы                                                           152

Ik         Процессы                                                               333

Ik               Лица                                                                       267

 

               Основная таблица                                         54777

в том числе:

0                Общий отдел ...                                                1800  

1                Философия. Психология                                 824

2                Религия                                                                  2419  

3                Общественные науки                                                     6813  

в том числе:

30/32       Общественные науки в целом. Статистика.

                   Социология. Демография. Политика                     962

33              Экономика                                                             2004  

34              Право                                                                                  1826  

35        Государственное управление…                              1010  

36              Общественное благосостояние                        581  

37              Образование                                                                234  

39              Фольклор. Этнографии                                       194  

5                Математика. Естественные науки                                11176

в том числе:

50        Науки об окружающей среде                                         49  

51        Математика                                                           1033  

52              Астрономия                                                           625  

53              Физика                                                                     1846  

54              Химия. Минералогические науки                                 3305  

55              Науки о Земле                                                                   1497  

56/59         Палеонтологии. Биологические науки                       2820

6                Прикладные науки. Медицина. Техника                       27486

в том числе:

61        Медицинские науки                                                          3170

62/621.2   Техника в целом. Тепловые двигатели.

                   Гидравлика                                                        1575

621.3              Электротехника                                                    1698

621.4/.6    Тепловые двигатели. Пневмоэнергетика.

                   Обработка жидкостей                                                         477

621.7/.9    Механическая техника                                          1486

622            Горное дело                                                             679

623            Военная техника                                                  618

624/627    Строительная техника                                                 1522

628            Санитарная техника                                                      628

629            Техника транспортных средств                      1779

63              Сельскохозяйственные науки                                     2273

64              Экономика                                                                  718

65              Управление и организация промышленности                           1387

66              Химические науки                                              4455

67/68              Различные отрасли промышленности и ремесел         4576

69              Строительство                                                               705

7                Искусство. Отдых. Развлечения. Спорт                          2596

8          Языки. Языкознание. Литература                               616

9          География. Биографии. История                                435 [56, 60, html]

 

       Всероссийский институт научной и технической информации Российской академии наук поддерживает электронную базу данных УДК на русском языке, основанную на полной печатной версии УДК на русском языке (4-е полное издание в 10-ти томах). Она создана Ассоциацией ЭБНИТ на основании договора с ВИНИТИ РАН.

 

Преимущества БД УДК.

 

       База данных УДК обладает несколькими явными преимуществами перед печатными таблицами:

       1. БД является полным электронным изданием таблиц УДК. Благодаря этому решилась проблема, связанная с приобретением печатных таблиц – в них отпала необходимость. БД ежегодно актуализируется. Кроме этого, опечатки и ошибки, которые встречаются в классификации, оперативно исправляются, чего не скажешь о печатных таблицах, в которых ошибки будут исправлены в последующих изданиях

       2. БД УДК – автономный продукт, который устанавливается на рабочий стол неограниченного количества компьютеров.

       3. Поскольку Международный Консорциум УДК старается поддерживать состав классификационных таблиц в актуальном состоянии, в УДК постоянно вносятся изменения и дополнения, отследить которые сложно. На сегодняшний день ВИНИТИ издано 9 томов основных таблиц и к ним уже 4 выпуска «Изменений и дополнений». База данных предлагает новое решение - поиск по всем исключенным индексам, где представлены не только год и причина исключения индекса, но и заменяющие индексы. Отсутствие указания причины означает «исключен как излишний». Этим обеспечивается существенное упрощение процессов реклассификации систематических каталогов и переиндексирования документов, отраженных в ЭК.

       4. БД снабжена удобными средствами отбора и построения конкретных индексов с последующим их переносом в библиографическое описание любой автоматизированной системы.

       5. И, наконец, использование БД УДК произвольно: ее можно выставить в подразделениях библиотеки, на кафедры, в пользовательскую зону. Одновременно с ней может работать неограниченное количество пользователей.

       База данных УДК представлена в поисковом интерфейсе Системы автоматизации библиотек ИРБИС. Поиск в базе данных может быть осуществлен как по графу на полную глубину с возможностью использования ссылочного аппарата, так и по индексам отдельных таблиц и по ключевым словам. Интерфейс снабжен удобными средствами отбора индексов и построения конкретных индексов с последующим их переносом в библиографическое описание, создаваемое при помощи любой автоматизированной библиотечно-информационной системы.

       Представляемая БД УДК в настоящее время соответствует Российскому эталону таблиц УДК по его состоянию на 2008г. (учтены «Изменения и дополнения», вып. 1-4):

 - переведены в состояние пассивных записи словарных статей (ЗСС) общих определителей .00 (как исключенных из таблиц), а также тех ЗСС, заглавные индексы которых включали .00;

 - ликвидированы соответствующие элементы справочно-ссылочного аппарата;

 - включены записи словарных статей новых общих определителей -02 Свойства, -04 Отношения, процессы и операции;

- дан в новой редакции раздел 2 Религия;

 - в значительной мере переработаны ЗСС разделов 0, 1, 3, 5, 61, 6/621, 622/629, 63/65, 66, 67/69, а также записи общих определителей.

       Следует обратить внимание, что в базе данных УДК представлены два типа записей словарных статей - активные (действующие) ЗСС и пассивные ЗСС, т.е. записи тех словарных статей, которые исключены из таблиц УДК и, следовательно, не подлежат применению при индексировании документов.

       Каждая пассивная словарная статья содержит свой заглавный индекс, год исключения и его причины (отсутствие указания причины означает "исключен как излишний"), заменяющие индексы (при их наличии), а также может содержать данные ее бывшего активного состояния.

 

Особенности поиска.

 

В настоящей редакции базы данных (в отличие от предыдущих редакций) объектами поиска могут быть не только активные записи словарных статей, но и пассивные ЗСС (этим обеспечивается существенное упрощение процессов реклассификации рабочих систематических каталогов и переиндексирования документов, отраженных в электронных каталогах).

       Активная ЗСС, кроме своих обязательных элементов данных - заглавного индекса и рубрики, может содержать:

 - расширение заглавной рубрики;

 - надрубрику (в случае десемантизированности заглавной рубрики);

 - ссылки (См. также), отсылки (См.), обратные отсылки (Отс. от), смежные области, области применения и методические указания.

       При индексировании документов и запросов предусмотрен поиск по базе данных УДК.

       Цель поиска - найти совокупность табличных индексов (заглавных индексов активных записей словарных статей), каждый из которых необходим, а все они вместе достаточны для составления на языке УДК полного и точного поискового образа данного сообщения.

       В случае документа итогом индексирования является поисковый образ документа (ПОД), в случае запроса - поисковое предписание (ПП).

       Так как в общем случае содержание сообщения является тематически сложно-составным, то для упрощения общей задачи индексирования рекомендуется предварительно разбить исходное политематическое сообщение на монотематические части.

       При работе с политематическим документом получается несколько тематических блоков, из которых затем формируется полный ПОД (как цепочка тематических блоков).

       При работе с политематическим запросом получается несколько монотематических поисковых предписаний. При этом поиск в документальной БД может быть произведен по каждому из этих ПП в отдельности либо по их логической сумме.

       Предусмотрены 2 стратегии поиска - стратегия «сверху-вниз» (на плоскости «Граф УДК») и стратегия «прямого доступа» («Плоскость поиска»).

       Первая основывается на представимости иерархических классификаций ориентированными (вниз от корневой вершины) графами типа «сеть», на возможности экранной индикации таких графов и на возможности перемещения от вершины к вершине по ориентированным ребрам (и обратно).

 

           

       Для реализации ссылочно-отсылочного аппарата пары соответствующих вершин сети связываются дополнительными ребрами:

 - обоюдонаправленными в случае ссылок (См. также) и

 - односторонне направленными в случае отсылок (См.) и обратных отсылок (Отс. от).

       Поисковое движение по такому графу начинается сверху, т.е. от корневой вершины и продолжается вниз (в соответствии с принятыми делениями классов и с результатами смысловой идентификации классов на очередных уровнях графа с рассматриваемой темой сообщения) с возможным переключением по ссылкам и отсылкам на другие ветви графа. Раскрытие того или иного раздела - на кнопке «Содержание записи»

       По мере достижения классов, которые достаточно полно и точно соответствуют данной теме, производится их отмечание с целью отбора индексов этих классов и построения по ним соответствующего поискового образа документов или поискового предписания (экранное окно "Конструктор").

 

           

Затем отобранный индекс копируется и вставляется в библиографическое описание документа в АРМе «Каталогизатор» САБ ИРБИС.

 

           

 

Т.е. интерфейс снабжен удобными средствами отбора и построения конкретных индексов с последующим их переносом в библиографическое описание, создаваемое при помощи любой автоматизированной системы.

       Подробная инструкция о структуре БД УДК и ее текущем состоянии размещена на кнопке «Общие сведения». Здесь же даны подробные методические указания по применению общих и специальных определителей, знаков УДК и примеры.

       Кнопка «Исходное» - возвращает нас в исходное положение на плоскости Граф УДК.

       Стратегия «прямого доступа» ориентирована главным образом на использование ключевых словоформ в качестве элементов логических формул поиска в БД требуемых записей словарных статей.

       На этой плоскости предоставляется возможность использования логических операторов, возможность проведения поиска с усечением и без него, возможность комбинирования отработанных и новых запросов.

       Здесь обеспечен ключевой режим поиска – по ключевым словам, по индексам основных и вспомогательных таблиц, по исключенным индексам.

       Словарь ключевых слов формируется из отдельных слов предметных рубрик УДК:

           

       1) словарь «Основные таблицы» – из индексов УДК основных таблиц;

           

       2) девять словарей общих определителей – из индексов УДК вспомогательных таблиц общих определителей;

           

       3) словарь «Исключенные индексы» представляет данные об исключенных индексах. Поиск пассивных записей словарных статей (данных об исключенных индексах) может производиться только по индексам, выбираемым из словаря.

 

           

2.2. Тезаурус по сельскому хозяйству и продовольствию.

 

     2.2.1. Назначение и структура тезауруса.

 

Слово «тезаурус» в переводе с греческого означает «сокровищница». Первые тезаурусы были разработаны в начале 60-х годов. Тезаурусы, используемые для информационного поиска, называют информационно-поисковыми (ИПТ).

Тезаурус является лексическим инструментом ИПС и представляет собой контролируемый, но изменяемый словарь терминов-дескрипторов и недескрипторов (аскрипторов), упорядоченных по систематическому и алфавитному принципам с указанием на смысловые связи между ними иерархического и неиерархического чипа (парадигматические отношения). Разработанный ИПТ должен исчерпывающим образом покрывать определенную область знаний, отражаемую входным потоком документов.

Сложность построения ИПТ общеизвестна. Несмотря на существование методических разработок отдельных его аспектов, каждый случай в целом требует особого решения. Это обусловлено разнообразием тематических областей и задачами поиска в конкретной БД.

БД ЛГРОС не является узкоспециализированной, она включает документальные массивы широкого тематического диапазона и ориентирована при этом на обслуживание достаточно детальных запросов пользователей. Это предопределяет состав и объем лексики ИПТ, его парадигматический аппарат, широту и глубину смыслового анализа и описания документов, т. е. методические принципы индексирования. В частности, использование в ИПС ЦНСХБ дескрипторного языка без грамматики требует достаточно высокой координации лексики. Отчасти это достигается включением в тезаурус значительного количества сложных терминов в виде словосочетаний. Однако, чтобы избежать ложной координации с другими терминами терминов типа КАЧЕСТВО, пришлось бы включить в тезаурус очень большое количество соответствующих словосочетаний (КАЧЕСТВО МЕДА, КАЧЕСТВО СКОРЛУПЫ, КАЧЕСТВО ТАБАКА и т. п.).

Принимая то или другое решение в отношении построения тезауруса и, следовательно, логики индексирования, следует учитывать все возможности поисковой системы, в том числе, поиск по текстовым полям и по ключевым словам. Термины, отвечающие задачам узкого детального поиска, индексатор может ввести в ПОД в качестве ключевых слов (КАЧЕСТВО ЯИЦ, КАЧЕСТВО МЕХА и т. п.), кроме того, они могут присутствовать в тексте заглавия, аннотации, реферата. В тезаурус же вводятся частотные термины-словосочетания - КАЧЕСТВО ПРОДУКТОВ ПИТАНИЯ; КАЧЕСТВО ЗЕРНА; КАЧЕСТВО СЕМЯН; КАЧЕСТВО С-Х ПРОДУКЦИИ и общий термин КАЧЕСТВО для индексирования других понятий.

Системный подход к построению ИНГ предъявляет определенные требования к составу и квалификации группы разработчиков тезауруса, действия которых должны быть четко координированными. В идеале, каждый разработчик должен быть не только специалистом в данной области, но и как создатель информационного языка специалистом по документальному поиску. Другими словами, разработчик тезауруса должен уметь не только отразить в ПОД содержание документа, но и сформулировать поисковое предписание, чтобы найти этот документ в БД.

ИПТ создается для повышения качества поиска в ИПС 11,11СХБ. В его функции входит:

- обеспечение индексирования документов и запросов средствами дескрипториого языка;

- отражение парадигматических отношений (отношения общности или противопоставления значений и использования), существующих между ЛЕ;

- контроль и нормализация лексики по сельскому хозяйству и продовольствию;

- обеспечение единого и формализованного представления информации в ИПС;

- функция терминологического справочного пособия в области сельского хозяйства и продовольствия;

- формально-логический контроль терминов индексирования;

- автоматизированное расширение ПОД (избыточное индексирование).

Разработка исходной версии ИПТ в соответствии с ГОСТ 7.25-80 складывается из следующих основных этапов:

-     определение тематического охвата ИПТ;

- сбор массива лексических единиц:

- формирование словника ИПТ;

- построение словарных статей:

- оформление ИПТ;

- экспертиза и регистрация ИПТ.

После создания исходной версии осуществляется развитие, ведение и отладка ИПТ.

 

 

Состав лексики ИПТ определяется тематическим диапазоном Рубрикатора но сельскому хозяйству и продовольствию, на основе рубрик которою осуществляется отбор и формирование основного входного потока документов БД АГРОС. Для более полного охвата каждой тематической области и описания фондов ЦНСХБ используются также рубрики Рубрикатора ГРНТИ.

 

Отбор лексики для тезауруса осуществляется в процессе индексирования документов. Термины, выделенные из текста документа, значимые для данной предметной области заносятся в картотеку терминов, предлагаемых для включения в тезаурус*. Основным поводом для включения термина в тезаурус является отсутствие в нем дескриптора, отражающего данное понятие, или возможности точно отразить его комбинацией дескрипторов. Чтобы убедиться в этом, индексатор должен ознакомиться со статьями дескрипторов, близкими но смыслу к предлагаемому. Окончательная экспертиза термина на предмет включения его в ИПТ проводится службой ведения тезауруса. До включения термина в состав тезауруса он имеет статус ключевого слова и по результатам ФЛК выделяется в поле КЛС. Критерии отбора ЛЕ:

- частота появления в индексируемых документах и запросах;

- полезность для поиска информации;

- наличие в авторитетных справочниках, терминологических стандартах и т. п.;

- наличие в тезаурусах международных систем по сельскому хозяйству и продовольствию.

При выборе лексической формы записи термина-кандидата в дескрипторы предпочтение следует отдавать форме, наиболее часто встречающейся в отечественной литературе и отвечающей требованиям краткости, точности, однозначности, удобству запоминания и записи. Другие лексические формы, отражающие данное понятие, следует использовать для формирования класса условной эквивалентности, т. е. предлагать для включения в тезаурус в качестве аскрипторов.

В качестве ЛЕ тезауруса используются одиночные слова (имена существительные), словосочетания, аббревиатуры и сокращения. Ввод в тезаурус одиночных прилагательных, причастий и т. п. не допускается.

ЛЕ могут быть представлены на кириллице, латинице, включать химические символы, цифры, отдельные знаки пунктуации. Знак «точка» не допускается.

Ввод ЛЕ, обозначающих общие понятия (вопросы, задачи, проблемы, описание, условия и т. п.), нежелателен вследствие их неинформативности.

Имена существительные приводятся в форме именительного падежа: исчисляемые существительные, предпочтительно, во множественном числе, неисчисляемые (процесс, действие, состояние) - в единственном.

Например:

Исчисляемые существительные:                                                                 Неисчисляемые существительные:

 

  телята

ткани растений

родентициды

 

 

устойчивость

вспашка

эрозия почвы

 

Для преодоления языковой неоднозначности (полисемия, омонимия) в тезаурусе используются релятор краткое уточнение термина, заключенное в круглые скобки. Дескриптор с релятором следует рассматривать и использовать как словосочетание. Реляторы могут быть у дескрипторов и аскрипторов.

Например:

1. бычки (рыбы)                               бычки

В1 рыбы                                             В1 телята

 

Кроме релятора, для устранения языковой неоднозначности используются разные формы грамматического числа и лексические примечания методического характера.

 

Лексическое примечание - это свободный текст, размещенный в словарной статье непосредственно под заглавным дескриптором или аскриптором и заключенный в круглые скобки. Основное назначение примечания - уточнение каким-либо способом понятия, отражаемого дескриптором, в целях облегчения правильного выбора индексатором термина индексирования в затруднительных случаях.

Лексическое примечание может содержать:

- определение понятия:

 

разнотравье

(Группа кормовых растений из разных бот. семейств, кроме злаковых, бобовых, осоковых)

- разграничение значений термина, который может использоваться для отражения разных понятий:

кофе (зерна)

(Кофе-продукт; для растения исп. кофейное дерево)

- определение области использования дескриптора:

баланс (В экономике)

- раскрытие аббревиатуры или иного сокращения:

фао

(Международная организация по сельскому хозяйству и продовольствию при ООН)

- другие уточнения, отсылки, характеристики:

Lolium hybridum (L.Perenne x L. multiflorum )

 

Словосочетания вводятся в тезаурус, если они отвечают следующим условиям:

- словосочетание является лексически нерасторжимым, при разбиении его на отдельные компоненты теряется первоначальный смысл:

запуск коров носовая раковина

- словосочетание является географическим названием:

восточная сибирь алтайский край

- в словосочетание входит имя собственное:

метод кьельдаля болезнь тиззера

- значение словосочетания не выводится из значения его компонентов:

альтернативные источники энергии зеленая революция

- словосочетание является устойчивым, часто встречается и необходимо для разграничения предметных категорий:

болезни растений болезни животных

- отдельные компоненты словосочетания имеют слишком широкий смысл:

нарушения обмена веществ

- словосочетание обозначает наименование химического вещества:

сульфат натрия

нафталанская нефть

- словосочетание является наименованием с.-х. культур, животных, пород т. п.:

технические культуры пьемонтская порода

- словосочетание является частотным для какой-либо области знаний или практики: выращивание молодняка трансплантация эмбрионов

 

В словосочетаниях используется естественный (прямой) порядок слов. Словосочетания, содержащие прилагательное, как правило, начинаются с прилагательного:

лекарственные растения

свеклоуборочные комбайны В названиях ботанических видов на первое место ставится существительное в форме именительного падежа, на второе место - прилагательное:

овсяница луговая

пырей ползучий Это правило не распространяется на устойчивые словосочетания:

конский каштан

водный гиацинт Использование аббревиатур[1] в качестве дескрипторов допускается:

- для наименований организаций и стран

РФ

юнеско

- для длинных и сложных названий методов, явлений, процессов и т.п.

пдрф

пдк

После отбора ЛЕ и формирования словника (в виде картотеки) осуществляется построение тезаурусных (словарных статей) посредством установления между терминами отношений синонимии (подчинения, условной эквивалентности), выбора дескрипторов из класса условной эквивалентности, установления иерархических ассоциативных отношений.

 

Тезаурус представляет собой сложную терминологическую систему, между элементами которой – Тезаурус представляет собой сложную терминологическую систему, между элементами которой - лексическими единицами - существуют различные виды связи - отношения. ЛЕ тезауруса разбиваются на два основные множества:

- дескрипторы - термины, используемые при индексировании;

- аскрипторы - термины, которые в данной ИПС запрещены для использования при индексировании, хотя они встречаются в текстах документов, включены в какие-либо словари, справочники и т. п. Другие названия аскрипторов: синонимы, омонимы, недескрипторы, запрещенные термины.

 

Смысловые (парадигматические отношения) между дескрипторами и между дескрипторами и аскрипторами определяют структуру тезауруса. Основными методологическими принципами формирования парадигматической структуры дескрипториого тезауруса являются:

- категоризация лексического состава:

- построение классификационных схем основных понятий, соответствующих его тематическому диапазону.

В состав Тезауруса по сельскому хозяйству и продовольствию входит лексика разных отраслей и областей знаний. Вопросы категоризации ЛЕ в политематическом тезаурусе имеют определенные трудности, особенно если терминология специфических областей включается в его состав на заключительных этапах построения классификационных схем ИПТ.

Категоризация лексики - это разбиение ЛЕ на определенные тематические группы, представленные общими терминами этих групп. Основой категоризации лексики являются рубрики Рубрикатора по сельскому хозяйству и продовольствию. Важное условие категоризации -непересекаемость понятий, отнесенных к разным категориям. Например, для отрасли «Животноводство» выделены непересекающиеся категории, отражаемые общими терминами ЖИВОТНЫЕ (полезные, дикие животные и др.); РАЗВЕДЕНИЕ ЖИВОТНЫХ (методы и способы создания новых пород, их разведение и т. п.); КОРМЛЕНИЕ и др.. Кроме категорий, специфичных для каждой отрасли или области знаний. в тезаурусе выделены категории общезначимой лексики, например, ОБОРУДОВАНИЕ; СВОЙСТВА; ТЕХНОЛОГИЧЕСКИЕ ПРОЦЕССЫ и др. (учреждения; страны; науки и т. п.).

Построение классификационных схем это установление парадигматических, т. е. внеконтекстных логических связей для ЛЕ, относящихся преимущественно, но необязательно, к одной категории. Если ЛЕ имеет признаки нескольких категорий (многозначность или полисемия) необходимо либо заменять ее другими более специфичными терминами либо присоединять к ней особую помету - релятор. Так ЛЕ ГОРЧИЦА отнесена к тематической области «Растениеводство», а ГОРЧИЦА (ПРИПРАВА) как продукт питания - к области "Пищевая промышленность". Словарная (тезаурусная) статья дескриптора является наглядным изображением классификационной схемы понятия, отображаемого данной ЛЕ, и может содержать:

- лексическое примечание;

- аскрипторы;

- вышестоящие термины с указанием уровня иерархии;

- нижестоящие термины с указанием уровня иерархии;

- ассоциативные термины.

Словарная статья аскриптора включает только сам аскриптор и ссылку на дескриптор, который следует использовать вместо него.

Место каждой ЛЕ в структуре отношений тезауруса определяется специальными метками или ссылками. В разработанном и отлаженном ИПТ не должно быть одиночных терминов, не имеющих связей.

Общим правилом при построении тезауруса является строгая взаимность ссылок (контролируется программными средствами), определяющих вид парадигматических отношений.

В таблице 1 представлены метки, используемые в словарных статьях для обозначения парадигматических связей между терминами, и другие элементы структуры статей.

 

 

Значения меток в словарных статьях дескрипторов и аскрипторов

 

Метка

Значение метки

Статус заглавного термина словарной статьи

Вид связи

 
  В

вышестоящий термин

 

дескриптор

 

иерархическая

 
Н

нижестоящий термин

дескриптор

иерархическая

 
  а

ассоциативный термин

 

дескриптор

 

ассоциативная

 

см

отсылка к дескриптору

аскриптор-синоним

синонимия

с



2019-12-29 205 Обсуждений (0)
Машиночитаемый эталон УДК 0.00 из 5.00 0 оценок









Обсуждение в статье: Машиночитаемый эталон УДК

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы...
Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (205)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.012 сек.)