Виды информационно-поисковых систем
Для информационно-поисковых систем научно-технической информации разрабатывали различные классификации: по признаку “в и д ы д о к у м е н т а л ь н ы х И С” (собственно информационно-поисковые системы, информационно-логические системы, информационно-семантические системы); по в и д а м И П Я ( ИПЯ, а соответственно и ИПС без грамматики и с грамматикой, ИПЯ с различными видами парадигматических и синтагматическим отношениям и т. п.); по в и д а м с т р у к т у р ИПС (ИПС иерархической структуры, в которых все лексические единицы ИПЯ связаны сильными парадигматическими отношениями подчинения и соподчинения и образуют в совокупности иерархическую классификацию, имеющую вид древовидного графа или дерева понятий; ИПС фасетной структуры, в которых лексические единицы ИПЯ предварительно группируются в фасеты, а иерархические отношения устанавливаются внутри фасетов; ИПС неиерархической структуры, в которых лексические единицы ИПЯ упорядочивают по внешним признакам, например, в алфавитном порядке. В отличие от документальных, фактографических и документально-фактографических ИПС 1-го вида, которые могут по запросам выдавать только такую информацию, которая была ранее в них введена, информационно-логические системы представляют собой информационные системы более высокого класса: они должны выдавать не только ранее введенную в них информацию, но и производить, если необходимо, логическую переработку этой информации с целью получения новой информации, которая в явном виде не вводилась в ИС. Понятие о процедуре индексирования.Процедура перевода с естественного языка на ИПЯ называют индексированием. Результатом такого перевода является ПОД (при вводе документов в ИПС) или ПОЗ (при индексировании запроса пользователя). Процедура индексирования связана с большими затратами труда документалиста-индексатора, и при неалгоритмическом характере весьма трудоемка и ограничивает семантические возможности даже потенциально мощных ИПЯ. Поэтому, естественно, начиная с первых ИПС ведутся исследования возможности автоматизации этого процесса. Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени. Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ). Важность можно определить несколькими признаками: * статистически, т.е. на основе частоты использования термина в документе; * на основе высказываний автора (или его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе); * с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте; * по критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов. Система индексирования конкретной ИПС в основном определяется возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами. Однако есть и некоторые специфические правила и рекомендации, исследование которых позволило выявить некоторые разновидности систем индексирования. Типы систем индексирования.Существуют различные типы систем индексирования: 1. К первому типу относят системы свободного индексирования. При этом способе из индексируемого документа выписываются в ПОД слова или словосочетания, которые, отражают содержание индексируемого документа. Кроме этого, элементами ПОД могут быть слова, отсутствующие в этих элементах, но отражающие более точно смысл его текста с точки зрения целей создания ИПС. Выписанные элементы упорядочиваются в алфавитном порядке. Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования. Аналогично - из текста запроса пользователя формируется ПОЗ. Такой процесс индексирования является принципиально неалгоритмическим, т. е. неавтоматизируемым. 2. При втором методе, который условно называют методом полусвободного индексирования, из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании. Однако выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем - устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД (или ПОЗ). 3. Третий способ индексирования основан на статистическом подходе. Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. При этом предлагались различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительном массиве документов (т. е. в репрезентативной статистической выборке).
Популярное: Генезис конфликтологии как науки в древней Греции: Для уяснения предыстории конфликтологии существенное значение имеет обращение к античной... Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние... Почему двоичная система счисления так распространена?: Каждая цифра должна быть как-то представлена на физическом носителе... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (1380)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |