Немного из истории российских поисковых систем / the same /

2019-12-29

207

Обсуждений (0)

0.00 из 5.00 0 оценок

123 4 5

История компании "Яндекс" восходит к 1990 году, но настоящая поисковая система, которую мы видим сейчас, появилась только в 1997 году.

Яндекс продолжает являться безусловным лидером, так как месячный охват аудитории Яндекса по оценкам ведущих исследователей составляет около половины регулярной аудитории российского Интернета, что намного превосходит потенциальную аудиторию Рамблера и Апорта. Не так давно появился мощный поиск Go Mail крупной электронной почтовой службы, но в данном случае компания использует алгоритм Яндекса и поэтому поиск со страниц системы Mail можно отнести к Яндекс поиску.

В своем поиске Яндекс учитывает заголовки и обязательное нахождение слова в теле документа. Особенно предпочтение отдается словам, если это словосочетание расположено ближе друг к другу и находящится в одном абзаце. Еще одна отличительная особенность Яндекса, это поиск с учетом морфологии русского языка, то есть при запросе «фото природы» или «фото природа» будут выдаваться и те и другие документы встречающие эти слова.

Первый поисковый сервис Рунета Рамблер был открыт осенью 1997 года группой ученых из НИИ Микробиологии г. Пущино Московской области.

Поиск Рамблера построен на индексации особо значимых слов на странице, особенно если они часто появляются в заголовка (тегах h1) и выделены особым жирным шрифтом (тегами b и strong). При этом Рамблер в отличие от Яндекса игнорирует теги keyword, благодаря чему называет себя чистым поиском, хотя и это не может обеспечить должной чистоты поиска. Собственно это остается проблемой и в других поисковых системах.

Поисковая машина "Апорт" была впервые продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба", тогда она еще не была масштабным поисковиком по всему интернету. В отличие от других поисковиков Апорт ищет заданные ключевые слова не только в keywords , но также и в описании (description) и в подписях к картинкам (alt).

Сейчас поисковые системы всячески продолжают улучшать свои технологии поиска. Как бы они высоко развитыми не были, к сожалению, совершенным поиском похвастаться ни одна из них не может. По сей день к основным недостаткам автоматических систем поиска относятся слаборазвитые системы обобщения запроса, тотальная зависимость от выбора источников информации. И если недостаточную информативность еще можно как-то компенсировать обилием выбора результатов поиска, то объяснить машине простым языком что хочет найти человек пока удается не легко. Поэтому энциклопедией вряд ли сможет назвать себя хоть одна поисковая система, но уже не секрет, что будущее именно за информативным поиском, ориентированным на обработку человеческих понятий.

Принцип работы поисковой системы

Многие пользуются поисковыми системами, такими как Google, Яндекс, Yahoo и др., однако, все ли понимают, как работает механизм поисковика? (это для кого написано???) Несмотря на то, что каждый из поисковиков имеет свои особенности в алгоритмах поиска и ранжирования результатов, принципы работы всех поисковых систем общие.

Если рассматривать процесс поиска информации в сети, его можно разбить на следующие этапы: сбор информации со страниц сайтов в сети Интернет, индексация сайтов, поиск по запросу и ранжирование результатов. Рассмотрим каждый из этапов отдельно.

Сбор данных

Как только вы запустили свой сайт и дали роботу какой-нибудь поисковой системы понять, что появился новый ресурс (с помощью внешних ссылок на ваш сайт, добавления его в адурилку[1] или используя другие методы), робот приходит к вам, начинает ходить по страницам и собирать с них данные (это могут быть текстовый контент, картинки, видео и др. файлы). Этот процесс называется сбором данных (англ. crawling) и он может происходить не только при запуске сайта. Робот составляет для сайта расписание, когда он должен на него зайти в следующий раз, проверить старую инфомрацию и добавить новые страницы, если таковые имеются.

Важно, чтобы общение вашего сайта с ботом было приятным для обеих сторон. В ваших интересах, чтобы бот долго не задерживался на сайте, чтобы не грузить лишний раз сервер, и в то же время необходимо, чтобы он правильно собрал все данные со всех нужных страниц. В интересах робота также сделать сбор быстрым, чтобы приступить к обработке следующего сайта в таблице расписаний. Для этого вам необходимо убедиться, что сайт доступен, что нет проблем с навигацией по сайту (flash и javascript меню роботы ещё плохо распознают), что отсутствуют битые страницы (отдающие 404 ошибку), не заставлять бота ходить по страницам, которые доступны только зарегистрированным пользователям и так далее. Также следует помнить, что для web-пауков существует ограничение на глубину проникновения (уровень вложенности) и максимальный размер сканируемого текста (обычно 256кб).

Управлять доступом на разные ресурсы (своего сайта?) для поискового робота можно с помощью файла robots.txt. Карта сайта sitemap.xml также может помочь роботу, если по каким-либо причинам навигация по сайту ему затруднена.

Индексация

Робот может ходить по вашему сайту долгое время, однако это не значит, что он сразу появится в поисковой выдаче. Страницам сайта необходимо пройти такой этап, как индексация – составление для каждой страницы обратного (инвертированного) файла индекса. Индекс служит для того, чтобы быстро по нему производить поиск и состоит обычно из списка слов из текста и информации о них (позиции в тексте, вес и др.).

После того, как прошла индексация сайта или отдельных страниц, они появляются в основной выдаче поисковика и их можно найти по ключевым словам, присутствующим в тексте. Процесс индексации обычно происходит довольно быстро после того, как робот стянет информацию с вашего сайта.

Поиск информации

При поиске, первым делом, анализируется запрос, введенный пользователем (происходит препроцессинг запроса), в результате которого вычисляются веса для каждого из слов.

Далее, поиск производится по инвертированным индексам, находятся все документы в коллекции (базе данных поисковой системы), которые наиболее подходят под данный запрос. Другими словами, вычисляется схожесть документа запросу примерно по следующей формуле:

similatiry(Q,D) = SUM(W_qk*W_dk),

где similatiry(Q,D) — схожесть запроса Q документу D;

W_qk — вес k-го слова в запросе;

W_dk — вес k-го слова в документе.

Документы, наиболее схожие с запросом, попадают в результаты поиска.

Ранжирование

После того, как наиболее схожие документы были отобраны из основной коллекции, они должны ранжироваться, чтобы в верхних результатах отражались наиболее полезные для пользователя ресурсы. Для этого используется специальная формула ранжирования, которая для разных поисковиков имеет разный вид, однако для всех из них основными факторами ранжирования являются:

· вес страницы

· авторитетность домена;

· релевантность текста запросу;

· релевантность текстов внешних ссылок запросу;

· а также множество других факторов ранжирования.

Существует упрощенная формула ранжирования, которую можно найти в некоторых статьях оптимизаторов:

R а (x)=(m*T а (x)+p*L а (x))* F(PRa),

где:

Rа(x) – итоговое соответствие документа а запросу x,

Tа(x) – релевантность текста (кода) документа а запросу x,

Lа(x) – релевантность текста ссылок с других документов на документ а запросу x,

PRа – показатель авторитетности страницы а, константа относительно х,

F(PRa) – монотонно неубывающая функция, причем F(0)=1, можно допустить, что F(PRa) = (1+q*PRа),

m, p, q – некие коэффициенты.

То есть, мы должны знать, что при ранжировании документов используются, как внутренние факторы, так и внешние. А также можно их разделить на зависимые от запроса факторы (релевантность текста документа или ссылок) и независимые от запроса. Конечно же, эта формула даёт очень общее представление об алгоритмах ранжирования документов в результатах поиска.

/приведенный материал считаю интересным, хотя и не очень конкретным, но не затронут вопрос построения базы поисковика по найденным материалам. И – еще более важный вопрос – слежение за интересами того, кто запрашивал, его идентификация (!) и построение IP-портрета интересов. И здесь даже необязателен поисковик – даже книгомагазинные сайты уже это отслеживают.../

2019-12-29

207

Обсуждений (0)

0.00 из 5.00 0 оценок

123 4 5

Обсуждение в статье: Немного из истории российских поисковых систем / the same /

Обсуждений еще не было, будьте первым... ↓↓↓