Мегаобучалка Главная | О нас | Обратная связь


Принцип работы и обзор поисковых систем и языка запросов



2015-11-27 514 Обсуждений (0)
Принцип работы и обзор поисковых систем и языка запросов 0.00 из 5.00 0 оценок




Состав и принципы работы поисковой системы

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Поисковых систем в мире насчитывается достаточно много, однако среди них выделяется 3 гиганта — Google, Yahoo и MSN Search, каждый из которых имеет свою базу данных и свои собственные алгоритмы поиска. В русском Интернете это – «Яндекс», «Рамблер», «Апорт».

Все остальные поисковики в той или иной мере используют их данные и их наработки в своей деятельности. Среди указанных поисковиков первое место занимает Google. Нам он интересен еще и потому, что занимает видное место в поиске среди русскоязычных сайтов (Рунете). Кроме того, Google регулярно рассказывает о своих подходах к индексации сайтов и вебмастера имеют возможность строить свою работу, основываясь на данных из первоисточника.

Структура поисковых систем

Итак, любая поисковая система, как бы она ни называлась, имеет общие с другими поисковиками черты. У них у всех есть (в той или иной степени развитости) следующие системы:

§ программы, которые скачивают к себе в базу вебстраницы, их часто называют Spider (паук);

§ программы, которые с этих обнаруженных страниц переходят по ссылкам на другие Интернет-ресурсы (Crawler или «путешествующий» паук);

§ программы, которые анализируют скачанные страницы (Indexer или индексатор);

§ программа, которая выдает по запросу нужные результаты (Search engine results engine — система выдачи результатов).

Модуль индексирования состоит из трех вспомогательных программ (роботов): Spider, Crawler, Indexer.

Spider (паук) – программа, предназначенная для скачивания веб-страниц. Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

-URL страницы

-дата, когда страница была скачана

-http-заголовок ответа сервера

-тело страницы (html-код)

Теперь подытожим все вышесказанное.

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.

Основные характеристики поисковых систем:

§ Полнота

§ Точность

§ Актуальность

§ Скорость поиска

§ Наглядность

Применение языка запросов

 

Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют.
Например, запросу 'самолет' удовлетворяют все документы, в которых хотя бы раз встретилось слово 'самолет' в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций языка запросов.

Расширенный поиск

Форма расширенного поиска дает возможность:

  • задавать дополнительные параметры поиска;
  • редактировать параметры поиска и поля, заданные по умолчанию;
  • выбирать наиболее удобную форму показа результатов поиска.

Поиск по тексту ...

  • всего документа - поиск осуществляется по всему документу, включая его название и заголовки; включено по умолчанию;
  • названия - учитываются только названия документов (тег <title>);
  • заголовков - учитываются только заголовки документов (теги <h1>, <h2>, <h3>, <h4>)

Искать слова запроса ...

  • все ("и") - документ находится только в том случае, если в нем присутствуют все слова запроса; включено по умолчанию;
  • хотя бы одно ("или") - документ находится, если в нем встретилось хотя бы одно слово из запроса;
  • точную фразу - документ находится, если в нем встретились все слова запроса, причем в том же порядке и в тех же формах, что и в запросе; выбор этой опции равнозначен заключению поискового запроса в двойные кавычки.

Расстояние между словами запроса ...

  • ограничивать - расстояние между словами из запроса в тексте документа не должно быть слишком большим; включено по умолчанию, поскольку повышает точность поиска;
  • не ограничивать - расстояние между словами не играет роли; будут найдены все документы, содержащие слова запроса, вне зависимости от того, на каком расстоянии друг от друга они находятся.

Исключить документы, содержащие следующие слова ...

Из списка найденного исключаются те документы, в которых есть слова, перечисленные в этом поле.

Язык документа ...

  • любой - находятся любые документы, независимо от языка; включено по умолчанию;
  • русский - поиск только по "русскоязычным" (кириллическим) документам;
  • английский - поиск только по "англоязычным" документам (набранным латиницей).

Дата документа ...

Позволяет отбирать только те документы, дата создания которых укладывается в заданный диапазон. В частности, можно ограничить выдачу только "новыми" (начиная с указанной даты) или "старыми" документами (до указанной даты). Все даты задаются в формате день/месяц/год, например, 29/02/2000. По умолчанию находятся любые документы, вне зависимости от даты. Внимание: если сервер не возвращает даты документа, то в качестве таковой проставляется дата индексирования (день, когда документ был считан "пауком" Рамблера).



2015-11-27 514 Обсуждений (0)
Принцип работы и обзор поисковых систем и языка запросов 0.00 из 5.00 0 оценок









Обсуждение в статье: Принцип работы и обзор поисковых систем и языка запросов

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Организация как механизм и форма жизни коллектива: Организация не сможет достичь поставленных целей без соответствующей внутренней...
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (514)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.006 сек.)