Мегаобучалка Главная | О нас | Обратная связь


Информационно-поисковая система Яндекс.



2019-12-29 153 Обсуждений (0)
Информационно-поисковая система Яндекс. 0.00 из 5.00 0 оценок




КУРСОВАЯ РАБОТА

 

                    Предмет: Информационные системы

Тема: Языки информационного поиска

 

Работу выполнила

студентка 4-го курса

факультета МиСИТ

группы И-40

Бассовой Дарина

 

 

Москва 2005г.

СОДЕРЖАНИЕ

 

Введение………………………………………………………. стр.3

 

Информационно-поисковая система Яндекс……………….. стр.6

 

Информационно-поисковая система Яндекс. Подраздел

Каталог-Учеба-Науки…………….……………………….. стр.11

 

Информационно-поисковая система Рамблер……………… стр.12

Тема: Языки информационного поиска

Введение

Целью данной курсовой работы является оценка эффективности поисковых стратегий в таких ИПС, как:

    1. Яндекс (http://yandex.ru/). Т.е. общий поиск, озаглавленный в данной службе, как поиск "Везде".

    2. Яндекс-Каталог-Учеба-Науки

(http://yaca.yandex.ru/yca/cat/Science/Sciences/). Т.е. поиск в "индексах"

отсортированных Яндексом, как принадлежащих к конкретным направлениям науки.

    3. Рамблер (http://www.rambler.ru/). Общий поиск, озаглавленный в данной службе, как "Интернет".

 

    В настоящее время основным местом размещения информации является Internet «Всемирная паутина».

Для эффективного поиска информации в таком изменчивом пространстве как Internet необходимо научиться пользоваться специальными инструментами, цель которых – собирать данные об информационных ресурсах глобальной компьютерной сети и предоставлять пользователям услугу быстрого поиска.

Инструментом поиска информации в Internet является ИПС (информационно-поисковая система).

   

    1.1 ИПС (информационно-поисковая система) – это система, обеспечивающая поиск и отбор необходимых данных в специальной базе с описаниями источников информации (индексе) на основе информационно-поискового языка и соответствующих правил поиска.

       Главной задачей любой ИПС является поиск информации в соответствии с информационными потребностями пользователя, формируемыми в виде запроса. Очень важно в результате проведенного поиска ничего не потерять, то есть найти в индексе все документы, относящиеся к запросу (полнота поиска), и не найти ничего лишнего (точность поиска). Поэтому вводится качественная характеристика процедуры поиска – релевантность.

    Релевантность – это соответствие результатов поиска сформулированному запросу.

    Индексирование – описание источников информации и построение индекса.

    Индекс – специальная база данных для эффективного поиска описанных информационных ресурсов.

        

    В некоторых информационно-поисковых системах описание источников информации проводится персоналом ИПС, то есть людьми, которые составляют краткую аннотацию на каждый ресурс. Затем, как правило, проводится сортировка описанных ресурсов по темам (составление тематического каталога). Конечно, описание, составленное человеком, будет адекватно источнику. Правда, в этом случае процедура индексирования занимает значительный период времени, поэтому формируемый индекс имеет, как правило, ограниченный объем. Зато поиск в подобной системе можно будет проводить так же легко, как в тематических каталогах библиотек. Такого рода услугу мы можем наблюдать в Яндексе. В частности Яндекс-Каталог-Учеба-Науки. Задачей данной курсовой работы была, оценка эффективности поисковой стратегии именно в этой категории. К сожалению поиск по данной теме курсовой работы не увенчался успехом. В рубрике Яндекс-Каталог-Учеба-Науки в основном собрана информация о Российских учебных заведениях, библиотеках и научно-исследовательских учреждениях.

    В ИПС другого типа процедура описания информационных ресурсов автоматизирована. Для этого разрабатывается специальная программа-робот, которая по определенной технологии обходит ресурсы, описывает их (проводит индексирование) и анализирует ссылки с текущей страницы для расширения области поиска. Как может описать документ программа? Чаще всего просто составляется список слов, которые встречаются в тексте и других частях документа, при этом учитывается частота повторения и местоположение слова, то есть, слову приписывается своеобразный весовой коэффициент в зависимости от его значимости. Например, если слово находится в названии Web-страницы, робот присвоит ему более высокий коэффициент. Поскольку описание автоматизировано, затраты времени невелики, и индекс может оказаться очень большим по размеру. Таким образом, следующей задачей для ИПС второго типа является разработка робота-индексировщика.

Робот-индексировшик – программа, которая служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии.

Для поиска в системах данного типа пользователю необходимо научиться составлять запросы, в простейшем случае состоящие из нескольких слов. Тогда ИПС будет искать в своем индексе документы, в описаниях которых встречаются слова из запроса. Для проведения более качественного поиска необходимо разрабатывать специальный язык запросов для пользователя. В зависимости от особенностей построения модели индекса и поддерживаемого языка запросов разрабатываются механизм поиска и алгоритм сортировки результатов.

Поскольку индекс имеет значительный объем, количество найденных документов может оказаться достаточно большим. Следовательно, чрезвычайно важно, как поисковая машина проведет поиск и отсортирует его результаты.

Существенное значение имеет внешний вид поисковой системы, предстающий перед пользователем, поэтому одной из задач является разработка удобного и красивого интерфейса.

Наконец, исключительно важна форма представления результатов поиска, поскольку пользователю необходимо узнать как можно больше о найденном источнике информации, чтобы принять правильное решение о необходимости его посещения.

    1.2 Информационно-поисковый язык (ИПЯ) (Information retrieval language)

Информационно-поисковый язык - формализованный искусственный язык, предназначенный для индексирования документов, информационных запросов и описания фактов с целью последующего хранения и поиска. Информационно-поисковый язык, знаковая система, предназначенная для описания (путём индексирования) основного смыслового содержания текстов (документов) или их частей, а также для выражения смыслового содержания информационных запросов с целью реализации информационного поиска. Любой абстрактный ИПЯ состоит из алфавита (списка элементарных символов), правил образования и правил интерпретации. Правила образования устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации — как надлежит понимать эти слова и выражения.

    ИПЯ должен располагать лексико-грамматическими средствами, необходимыми для выражения основного смыслового содержания любого текста и смысла любого информационного запроса по данной отрасли или предмету, быть недвусмысленным (допускать одно истолкование каждой записи), удобным для алгоритмического сопоставления и отождествления (полного или частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного ИПЯ учитываются специфика отрасли или предмета, для которой этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно-поисковая система.

    В большинстве ИПЯ основной словарный состав (лексика) задаётся его перечислением и представляет собой фрагмент лексики того или иного естественного языка. Отобранные из естественного языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного ИПЯ. Правила образования в таких ИПЯ выполняют функцию синтаксиса. В некоторых ИПЯ основной словарный состав задаётся (полностью или частично) методом порождения, который заключается в том, что для таких ИПЯ правила образования устанавливают, как из данного алфавита строить слова ИПЯ, а из этих слов — выражения (фразы) и какие из них будут правильно построенными. ИПЯ отличается от информационного языка и от машинного языка.

 

Информационно-поисковая система Яндекс.



2019-12-29 153 Обсуждений (0)
Информационно-поисковая система Яндекс. 0.00 из 5.00 0 оценок









Обсуждение в статье: Информационно-поисковая система Яндекс.

Обсуждений еще не было, будьте первым... ↓↓↓

Отправить сообщение

Популярное:
Как вы ведете себя при стрессе?: Вы можете самостоятельно управлять стрессом! Каждый из нас имеет право и возможность уменьшить его воздействие на нас...
Почему человек чувствует себя несчастным?: Для начала определим, что такое несчастье. Несчастьем мы будем считать психологическое состояние...
Модели организации как закрытой, открытой, частично открытой системы: Закрытая система имеет жесткие фиксированные границы, ее действия относительно независимы...



©2015-2024 megaobuchalka.ru Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав. (153)

Почему 1285321 студент выбрали МегаОбучалку...

Система поиска информации

Мобильная версия сайта

Удобная навигация

Нет шокирующей рекламы



(0.008 сек.)