Мегаобучалка Главная | О нас | Обратная связь


Информационно-поисковые системы



2020-03-17 218 Обсуждений (0)
Информационно-поисковые системы 0.00 из 5.00 0 оценок




02.11.00

Поисковые системы в интернете на сегодняшний день являются единственным способом доступа пользователя к информации, расположенной в сети. Я имею в виду самый широкий смысл понятия "информация". При этом как инструмент, поисковые системы не могут удовлетворить запросы пользователей, но за отсутствием альтернатив...

Вообще говоря, информационно-поисковая система (сокращенно, ИПС) это такая "штука", которая получает на входе набор документов (база поиска) и еще один документ в качестве искомого, и выдает в результате оценки релевантности каждого из документов искомому. После этого можно отсортировать документы из базы поиска в соответствии с релевантностью. Вообще говоря, понятие релевантности в ИПС --- ключевое: насколько точно она будет рассчитываться, настолько качественной будет ИПС. Все остальные параметры (размер используемых индексов, скорость работы и прочее) в принципе, не особенно важны.

Я об этом имею некоторое представление, потому что сам написал поисковую систему для интернет-сайтов... только, как водится, на тот момент, когда я ее начал писать, о важности понятия "релевантности" я и не догадывался, поэтому ИПС получилась "как у всех", так как я отталкивался от алгоритмов поиска, а не от оценки релевантности. Собственно, это можно приводить в качестве примера подхода к задаче "от сохи".

Теоретически, релевантность можно оценивать многими способами; лучше всего, если программа будет считать ее исходя из соответствия смысла двух документов. Другое дело, что выделение смысла... хм... само по себе задача не простая (мягко говоря) и в общем еще не решенная. Частности же таковы, что все сводится к поиску слов в рубрикаторах, для которых этот смысл известен, или построению графов с информацией о языковой структуре предложения.

Современные ИПС, применяемые в интернете, для обеспечения приемлемой скорости поиска, накладывают ограничения на формат искомого документа и на оценку релевантности. Документ обычно задается в виде логического выражения, а релевантность строится исходя из контекста. То есть, можно поискать документы, в которых находятся одновременно слова "Вася" и "Петя", но нельзя искать документы, по смыслу соответствующие фразе "Вася дружит с сестрой Пети".

Под "документами, соответствующими по смыслу", я подразумеваю, например, следующие тексты:

· Вася дружит с девушкой. У мамы этой девушки есть сын по имени Петя.

· У сестры Пети есть много поклонников. Один из них --- Вася.

Если искать по ключевым словам "Вася", "Петя" и "сестра", то, например, первый документ из вышеприведенных найден не будет, а вот что-то в духе "У Пети нет сестры, поэтому Васе приходится дружить с сестрой Коли" --- найдется. Работы в направлении "поиска по смыслу", конечно же, ведутся, но пока что чего-либо, приспособленного для интернета, нет.

Поисковыми системами пользуются множество людей. При этом достаточно велика вероятность того, что приход человека по ссылке из поисковой системы будет "в жилу" сайту, т.е. целевой для него (сами понимаете, что "целевой хит" много полезнее, чем простое посещение "на три клика"). Соответственно, в качестве поиска заинтересованы и владельцы сайтов, и пользователи поисковых систем.

Свойством современных ИПС в интернете является то, что пользователь должен уметь сформулировать свой запрос в виде набора ключевых слов. То есть, если он ищет какую-то информацию по интересующей его тематике, то пользователь должен быть способен выделить ключевые слова, по которым надо будет производить контекстный поиск. Если он этого сделать не сможет, то вряд ли кто-нибудь сможет ему в чем-то помочь... из-за этого, кстати, как мне кажется, новопоявившийся сервис InternetHelp.com, который предоставляет услуги по поиску в интернете посредством своих операторов (в смысле, людей), не особенно удачен: все равно оператор может найти что-либо только в том случае, когда пользователь (или, быть может будет вернее, клиент) сможет внятно сформулировать, что же он хочет найти. А если человек сможет это сделать, то ему прямая дорога к использованию традиционных поисковых систем.

В качестве примера, могу привести несколько запросов к поисковым системам, в результате которых люди попадали ко мне на страницу. Есть, к примеру, строка запроса "фотографию медведя"... Запрос "какой язык программирования использует Microsoft" просто вывел меня из себя минут на 15. Был запрос "Курск инопланетяне"... Особенно мне больно за тех, кто попадает ко мне на страничку с запросом "как установить TeX" ;-) Они точно попадают туда, где я сообщаю о том, что не буду рассказывать о процессе инсталяции TeX'а. Заранее извиняюсь перед тем человеком, который попадет по аналогичному запросу сюда, я не хотел :-) Это я все к тому, что запрос надо уметь формулировать. Если этого не уметь, то никакая ИПС не поможет...

Кстати, как вы думаете, что чаще всего ищут? Ну да, правильно. Именно это и ищут. Опять же, к слову сказать, я видел страницу, на которой был только один баннер, счетчик TOP100, и 100КБ текста, состоящего из повторяющихся слов, которые люди употребляют при поиске порнографии. Только не надо ничего выдумывать: у меня эту страничку выкачал робот, когда обходил URL'ы из некоторого списка, в котором эта страничка уже была. А смешно то, что TOP100 показывал чуть-ли не миллион посещений... куда уж тут мне с "фотографией медведя". Вы хоть представьте себе: миллион (!) людей, которых ждало разочарование на этой странице! Прямо скажем, жестоко.

Недавно Дмитрий Завалишин (dz) написал о том, что Интернет --- это несколько корневых DNS-серверов. Красивое выражение... как и не особенно правильное. Все дело в том, что популярными ресурсами можно управлять и так при помощи некоторого "рубильника" (при этом необязательно, что бы "рубильник" был, как в случае DNS, "виртуальным"; существует множество иных способов "реального" давления). А вот управлять множеством "непопулярных" ресурсов, на которых находится просто дикое количество самой разной информации, как "угодной", так и "неугодной" тем самым высшим силам, которые могут убрать DNS-сервера, не представляется возможным.

И что будет, если пропадут крупные поисковые системы? Или просто "очистятся" поисковые базы? Тогда "ой". Это я к тому, что поисковые системы --- одна из самых важных компонент интернета. Так сказать, пользовательский интерфейс.

Резюме

Поисковыми системами надо уметь пользоваться. Если этого умения нет, то искать можно долго... очень долго. Или ждать интеллектуальных систем поиска. Использование же людей для улучшения качества поиска не сильно поможет общему горю, потому что оператор вообще, скорее всего, не знает предметной области поиска, что скажется на его результативности в худшую сторону.

Ссылки по теме

http://www.google.com Поисковая система Google. Рекомендую.
http://cooler.irk.ru/cl140800. Статья про поисковые системы у Cooler'а.
http://cooler.irk.ru/cl190800. Продолжение статьи "про поиск".
http://www.sai.msu.su:7000/sem Краткое описание ИПС с семантическим поиском "Excalibur".
http://www.searchtools.com Сайт, посвященный описанию различных поисковых систем.

 

 

Типа ИПЯ: определение особенности назначение



2020-03-17 218 Обсуждений (0)
Информационно-поисковые системы 0.00 из 5.00 0 оценок









Обсуждение в статье: Информационно-поисковые системы

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы...
Как выбрать специалиста по управлению гостиницей: Понятно, что управление гостиницей невозможно без специальных знаний. Соответственно, важна квалификация...
Почему двоичная система счисления так распространена?: Каждая цифра должна быть как-то представлена на физическом носителе...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (218)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.02 сек.)