Поиск информации в сети InterNet
Необходимость разработки справочно-поисковых систем в Сети вызвана следующими причинами
· Огромным объемом информации в Сети (еще на начало 2000 года - около 2 109 уникальных страниц с удвоением ежегодно, причем ежедневно число страниц увеличивается на 7 106). · Недостаточной (а в некоторых случаях, наоборот, чересчур подробной) структуризацией этой информации. · Широким тематическим профилем информационных массивов.
Существует две разновидности ресурсов для поиска. Это так называемые каталоги (directories) и поисковые машины (search engines). Сетевые каталоги организованы примерно так же, как и библиотечные. Они содержат различные разделы, подразделы и т.д., то есть имеют иерархическую структуру. Работают с этими каталогами так же, как и с библиотечными - ‘спускаясь’ вниз по иерархической лестнице. Наряду с каталогами используются поисковые машины. Суть этих механизмов заключается в том, что доступные в Сети страницы автоматически индексируются, т.е. создаются специальные базы данных, содержащие ключевые слова и связанные с ними адреса страниц, а уже в этих базах данных проводится поиск. Таким образом, поисковые машины состоят из программ, собирающих информацию для базы данных, собственно базы, и программ для поиска в этой базе данных. Индексируют информацию так называемые роботы (сrawlers, spiders и пр.) - специальные программы, которые ‘ползают’ по сети, просматривают файлы и создают индексы, причем весь процесс происходит автоматически (разработчик WEB-сайта может ограничивать деятельность роботов с помощью файла ROBOTS.TXT). Полнотекстовые поисковые машины индексируют каждое слово на WEB-странице (исключая лишь некоторые зарезервированные слова), абстрактные поисковые машины создают некий экстракт каждой страницы. Кроме этого, существуют и так называемые мета-системы, представляющие собой интерфейсы для одновременного поиска с помощью нескольких поисковых машин. Так же многие поисковые системы содержат не только интерфейс для работы с индексом, но и каталоги. К наиболее известным поисковым системам относятся AltaVista (разработка фирмы DEC, рис.7.13), Яndex (CompTek International), RAMBLER (Stack Ltd., ориентирована на русскоязычный InterNet, рис.7.14), каталог YAHOO, синтез каталога и поисковой машины Lycos и др. Всего в Сети имеется около 600 систем поиска (см. http://www.beaucoup.com/engines.html), доступ к некоторым наиболее известным поисковым системам возможен по адресу http://pilger.mgapi.ru/right_7.htm#lab_4). При просмотре сайтов как раз и происходит накопление ключевых слов. Многие поисковые системы учитывают информацию из тега <meta name=keywords content=...> (заполняемого разработчиком WEB-страницы) при создании массива ключевых слов. Поисковая машина RAMBLER, например, игнорирует содержимое этого тега и осуществляет сканирование HTML-текста в поисках ключевых слов с учетом расположения и частоты их встречаемости, разработчики RAMBLER’а считают, что такой подход повышает релевантность (уровень соответствия между текстом запроса и документа, к которому этот запрос направлен) при поиске по ключевым словам. Таким образом, поисковые системы постоянно накапливают информацию о ресурсах сети InterNet и используют ее при запросах на поиск. Применяются следующие модели индексирования и поиска - векторная модель информационного потока, основанная на теории нечетких множеств модель, вероятностная модель. Используются следующие типы информационно поисковых языков (ИПЯ) - традиционные ИПЯ, системы взвешивания терминов, ИПЯ типа ‘Like this’. В качестве способов коррекции результатов поиска применяются методы фильтрации, коррекции по релевантности, кластеризации. Используются следующие механизмы улучшения запроса - простой запрос, сложный запрос, нормализация лексики, ранжирование, коррекция по релевантности.
Каждая поисковая система имеет строку для ввода запроса на поиск, в которую пользователь вводит ключевые слова для поиска. В большинстве случаев пользователь имеет возможность вводить несколько ключевых слов (допускаются символы типа * для указания любого набора символов и др.), связывая их логическими отношениями типа OR, AND, NOT и др., например, возможна строка для поиска вида (в реальности указанные логические связки часто представляются иными символами)
((микросхемы OR чипы) AND память Некоторые поисковые системы (например, Яndex) содержат алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре.
Многие механизмы поиска предусматривают еще одну возможность - указание расстояния между терминами в документе. Таким образом, можно отбрасывать длинные файлы, в которых одно слово используется в разных контекстах. Например, с помощью оператора NEAR указывается, что второй термин должен находиться на расстоянии, не превышающем определенного числа слов. FOLLOWED BY используется для получения документов, в которых искомые термины встречаются в заданном порядке, а ADJ применяется для поиска смежных (следующих друг за другом) терминов. Одной из проблем при поиске информации в Сети является выдача слишком большого объема информации на введенный запрос (запрос слишком широк, т.е. неконкретен), в этом случае можно воспользоваться методом уточнения запроса (например, задав более жесткие условия поиска)
((микросхемы OR чипы) AND память AND постоянная) В настоящее время программное обеспечение поиска информации в Сети является, пожалуй, наиболее динамично развивающейся областью (как и теория информационно-поисковых систем).
Популярное: Почему люди поддаются рекламе?: Только не надо искать ответы в качестве или количестве рекламы... Почему стероиды повышают давление?: Основных причин три... Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние... ©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (572)
|
Почему 1285321 студент выбрали МегаОбучалку... Система поиска информации Мобильная версия сайта Удобная навигация Нет шокирующей рекламы |