Виды информационно-поисковых систем

2015-11-10

1380

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 5 6 7 8 91011 12 13 14 Следующая ⇒

Для информационно-поисковых систем научно-технической информации разрабатывали различные классификации:

по признаку “в и д ы д о к у м е н т а л ь н ы х И С” (собственно информационно-поисковые системы, информационно-логические системы, информационно-семантические системы);

по в и д а м И П Я ( ИПЯ, а соответственно и ИПС без грамматики и с грамматикой, ИПЯ с различными видами парадигматических и синтагматическим отношениям и т. п.);

по в и д а м с т р у к т у р ИПС (ИПС иерархической структуры, в которых все лексические единицы ИПЯ связаны сильными парадигматическими отношениями подчинения и соподчинения и образуют в совокупности иерархическую классификацию, имеющую вид древовидного графа или дерева понятий; ИПС фасетной структуры, в которых лексические единицы ИПЯ предварительно группируются в фасеты, а иерархические отношения устанавливаются внутри фасетов; ИПС неиерархической структуры, в которых лексические единицы ИПЯ упорядочивают по внешним признакам, например, в алфавитном порядке.

В отличие от документальных, фактографических и документально-фактографических ИПС 1-го вида, которые могут по запросам выдавать только такую информацию, которая была ранее в них введена, информационно-логические системы представляют собой информационные системы более высокого класса: они должны выдавать не только ранее введенную в них информацию, но и производить, если необходимо, логическую переработку этой информации с целью получения новой информации, которая в явном виде не вводилась в ИС.

Понятие о процедуре индексирования.Процедура перевода с естественного языка на ИПЯ называют индексированием. Результатом такого перевода является ПОД (при вводе документов в ИПС) или ПОЗ (при индексировании запроса пользователя).

Процедура индексирования связана с большими затратами труда документалиста-индексатора, и при неалгоритмическом характере весьма трудоемка и ограничивает семантические возможности даже потенциально мощных ИПЯ. Поэтому, естественно, начиная с первых ИПС ведутся исследования возможности автоматизации этого процесса.

Проблема индексирования связана с семантическим анализом текстов документов. Сложность ее связана с тем, что индексирование документов, вводимых в поисковые массивы, и запросов пользователя разнесены во времени.

Для алгоритмизации и автоматизации индексирования необходимо решить проблему выбора для включения в ПОД или ПОЗ наиболее значимых ключевых слов, дескрипторов, фраз (в зависимости от лексических единиц ИПЯ).

Важность можно определить несколькими признаками:

* статистически, т.е. на основе частоты использования термина в документе;

* на основе высказываний автора (или его мнения, отраженного в заглавии документа или подзаголовках, выделяемых автором в документе);

* с помощью грамматики, позволяющей отразить взаимосвязи между лексическими единицами, содержащимися в контексте;

* по критериям важности, сформулированным пользователем, для чего при индексировании документов могут быть указаны весовые коэффициенты дескрипторов.

Система индексирования конкретной ИПС в основном определяется возможностями ИПЯ, имеющимися в нем лексическими и синтаксическими средствами. Однако есть и некоторые специфические правила и рекомендации, исследование которых позволило выявить некоторые разновидности систем индексирования.

Типы систем индексирования.Существуют различные типы систем индексирования:

1. К первому типу относят системы свободного индексирования.

При этом способе из индексируемого документа выписываются в ПОД слова или словосочетания, которые, отражают содержание индексируемого документа. Кроме этого, элементами ПОД могут быть слова, отсутствующие в этих элементах, но отражающие более точно смысл его текста с точки зрения целей создания ИПС. Выписанные элементы упорядочиваются в алфавитном порядке. Такой упорядоченный набор слов (словосочетаний) представляет собой ПОД при этом типе индексирования. Аналогично - из текста запроса пользователя формируется ПОЗ.

Такой процесс индексирования является принципиально неалгоритмическим, т. е. неавтоматизируемым.

2. При втором методе, который условно называют методом полусвободного индексирования, из документа выписывают слова и словосочетания вначале так же, как и при свободном индексировании.

Однако выписанные элементы сравнивают затем с фиксированным словарем, не найденные в нем - устраняют, а оставшиеся, упорядочиваемые в алфавитном порядке, представляют собой ПОД (или ПОЗ).

3. Третий способ индексирования основан на статистическом подходе.

Выбор слов (выражений) исходного текста, подлежащих включению в ПОД, производится на основе статистического анализа текста, при котором его слова рассматриваются как знаки, не имеющие семантических значений. При этом предлагались различные статистические критерии, основанные на сопоставлении относительной частоты употребления слова в документе и относительной частоты употребления слова в представительном массиве документов (т. е. в репрезентативной статистической выборке).

2015-11-10

1380

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 5 6 7 8 91011 12 13 14 Следующая ⇒

Обсуждение в статье: Виды информационно-поисковых систем

Обсуждений еще не было, будьте первым... ↓↓↓