Поиск информации в сети InterNet

2015-12-04

572

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 123 4 5 Следующая ⇒

Необходимость разработки справочно-поисковых систем в Сети вызвана следующими причинами

· Огромным объемом информации в Сети (еще на начало 2000 года - около 2 10⁹ уникальных страниц с удвоением ежегодно, причем ежедневно число страниц увеличивается на 7 10⁶).

· Недостаточной (а в некоторых случаях, наоборот, чересчур подробной) структуризацией этой информации.

· Широким тематическим профилем информационных массивов.

Существует две разновидности ресурсов для поиска. Это так называемые каталоги (directories) и поисковые машины (search engines).

Сетевые каталоги организованы примерно так же, как и библиотечные. Они содержат различные разделы, подразделы и т.д., то есть имеют иерархическую структуру. Работают с этими каталогами так же, как и с библиотечными - ‘спускаясь’ вниз по иерархической лестнице.
Каталоги создаются вручную, т.е. информация в них заносится людьми. Благодаря ‘человеческому фактору’ информация в каталогах организована достаточно четко, что позволяет в определенных случаях достичь требуемого результата быстрее, чем при помощи поисковых машин. С другой стороны, в каталоги попадают далеко не все существующие страницы, а лишь ‘лучшие’ (с субъективной точки зрения создающего каталог). По этой причине найти какую-то достаточно специфическую информацию в каталоге зачастую невозможно.

Наряду с каталогами используются поисковые машины. Суть этих механизмов заключается в том, что доступные в Сети страницы автоматически индексируются, т.е. создаются специальные базы данных, содержащие ключевые слова и связанные с ними адреса страниц, а уже в этих базах данных проводится поиск. Таким образом, поисковые машины состоят из программ, собирающих информацию для базы данных, собственно базы, и программ для поиска в этой базе данных.

Индексируют информацию так называемые роботы (сrawlers, spiders и пр.) - специальные программы, которые ‘ползают’ по сети, просматривают файлы и создают индексы, причем весь процесс происходит автоматически (разработчик WEB-сайта может ограничивать деятельность роботов с помощью файла ROBOTS.TXT). Полнотекстовые поисковые машины индексируют каждое слово на WEB-странице (исключая лишь некоторые зарезервированные слова), абстрактные поисковые машины создают некий экстракт каждой страницы.

Кроме этого, существуют и так называемые мета-системы, представляющие собой интерфейсы для одновременного поиска с помощью нескольких поисковых машин. Так же многие поисковые системы содержат не только интерфейс для работы с индексом, но и каталоги.

К наиболее известным поисковым системам относятся AltaVista (разработка фирмы DEC, рис.7.13), Яndex (CompTek International), RAMBLER (Stack Ltd., ориентирована на русскоязычный InterNet, рис.7.14), каталог YAHOO, синтез каталога и поисковой машины Lycos и др. Всего в Сети имеется около 600 систем поиска (см. http://www.beaucoup.com/engines.html), доступ к некоторым наиболее известным поисковым системам возможен по адресу http://pilger.mgapi.ru/right_7.htm#lab_4).

При просмотре сайтов как раз и происходит накопление ключевых слов. Многие поисковые системы учитывают информацию из тега <meta name=keywords content=...> (заполняемого разработчиком WEB-страницы) при создании массива ключевых слов. Поисковая машина RAMBLER, например, игнорирует содержимое этого тега и осуществляет сканирование HTML-текста в поисках ключевых слов с учетом расположения и частоты их встречаемости, разработчики RAMBLER’а считают, что такой подход повышает релевантность (уровень соответствия между текстом запроса и документа, к которому этот запрос направлен) при поиске по ключевым словам.

Таким образом, поисковые системы постоянно накапливают информацию о ресурсах сети InterNet и используют ее при запросах на поиск.

Применяются следующие модели индексирования и поиска - векторная модель информационного потока, основанная на теории нечетких множеств модель, вероятностная модель. Используются следующие типы информационно поисковых языков (ИПЯ) - традиционные ИПЯ, системы взвешивания терминов, ИПЯ типа ‘Like this’. В качестве способов коррекции результатов поиска применяются методы фильтрации, коррекции по релевантности, кластеризации. Используются следующие механизмы улучшения запроса - простой запрос, сложный запрос, нормализация лексики, ранжирование, коррекция по релевантности.

Рисунок 7.13 — Главное окно поисковой системы AltaVista.

Каждая поисковая система имеет строку для ввода запроса на поиск, в которую пользователь вводит ключевые слова для поиска. В большинстве случаев пользователь имеет возможность вводить несколько ключевых слов (допускаются символы типа * для указания любого набора символов и др.), связывая их логическими отношениями типа OR, AND, NOT и др., например, возможна строка для поиска вида (в реальности указанные логические связки часто представляются иными символами)

((микросхемы OR чипы) AND память

Некоторые поисковые системы (например, Яndex) содержат алгоритмы морфологического анализа и синтеза, основанные на базовом словаре, умеют нормализовать слова, то есть находить их начальную форму, а также строить гипотезы для слов, не содержащихся в базовом словаре.

Рисунок 7.14 — Главное окно поисковой системы RAMBLER.

Многие механизмы поиска предусматривают еще одну возможность - указание расстояния между терминами в документе. Таким образом, можно отбрасывать длинные файлы, в которых одно слово используется в разных контекстах. Например, с помощью оператора NEAR указывается, что второй термин должен находиться на расстоянии, не превышающем определенного числа слов. FOLLOWED BY используется для получения документов, в которых искомые термины встречаются в заданном порядке, а ADJ применяется для поиска смежных (следующих друг за другом) терминов.

Одной из проблем при поиске информации в Сети является выдача слишком большого объема информации на введенный запрос (запрос слишком широк, т.е. неконкретен), в этом случае можно воспользоваться методом уточнения запроса (например, задав более жесткие условия поиска)

((микросхемы OR чипы) AND память AND постоянная)

В настоящее время программное обеспечение поиска информации в Сети является, пожалуй, наиболее динамично развивающейся областью (как и теория информационно-поисковых систем).

2015-12-04

572

Обсуждений (0)

0.00 из 5.00 0 оценок

⇐ Предыдущая 123 4 5 Следующая ⇒

Обсуждение в статье: Поиск информации в сети InterNet

Обсуждений еще не было, будьте первым... ↓↓↓