Автор работы: Пользователь скрыл имя, 12 Октября 2013 в 21:55, доклад
Internet — глобальная компьютерная сеть, охватывающая весь мир. Сегодня Internet имеет около 300 миллионов абонентов в более чем 180 странах мира. Ежемесячно размер сети увеличивается на 5—7%. Internet образует как бы ядро, обеспечивающее связь различных информационных сетей, принадлежащих различным учреждениям во всем мире, одна с другой.
В сети существуют
различные способы поиска информации.
Конечно же, если имеется справочник,
в котором можно найти
Существенно полезными возможностями у них является наличие системы поиска, которая строится по принципу: от общего — к конкретному. Задавая общее понятие (в виде ключевого слова, нескольких слов или фразы, — в зависимости от сервисных услуг конкретной системы), а затем, с каждым новым поиском все более и более конкретизируя его, можно получить интересующий результат. Поэтому далее будут рассмотрены несколько основных поисковых систем, использование которых весьма эффективно.4
Исторически сложилось, что первой такой поисковой системой являлась Alta Vista, поэтому с нее и начнем рассмотрение.
AltaVista. Наиболее интересная возможность AltaVista — это расширенный поиск. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.
Lycos. Как и большинство систем, Lycos дает возможность применять простой запрос и более изощренный метод поиска. В простом запросе в качестве поискового критерия вводится предложение на естественном языке, после чего Lycos производит нормализацию запроса, удаляя из него так называемые stop-слова, и только после этого приступает к его выполнению. Почти сразу вьщается информация о количестве документов на каждое слово, а позже и список ссылок на формально релевантные документы. В списке против каждого документа указывается его мера близости запросу, количество слов из запроса, попавших в документ, и оценочная мера близости, которая может быть больше или меньше формально вычисленной.
Пока нельзя вводить логические операторы в строке вместе с терминами, но использовать логику через систему меню Lycos позволяет. Такая возможность применяется для построения расширенной формы запроса предназначенной для искушенных пользователей, уже научившихся работать с этим механизмом.
Yahoo. Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой «and» либо «or».
При выдаче не указывается степень
Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.
Open Text. Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа.
Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.
lnfoseek. Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков «+» — термин обязан быть в документе, и «—» — термин должен отсутствовать в документе.
Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что, используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке.
Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.
WAIS. WAIS является одной из наиболее изощренных поисковых систем Internet. В ней не реализованы лишь поиск по нечетким множествам и вероятностный поиск. В отличие от многих поисковых систем, система позволяет строить не только вложенные булевы запросы, считать формальную релевантность по различным мерам близости, взвешивать термины запроса и документа, но и осуществлять коррекцию запроса по релевантности. Система также позволяет использовать усечения терминов, разбиение документов на поля и ведение распределенных индексов.
Rambler. Поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ.
Rambler обрабатывает ежесуточно не менее 500 тысяч поисковых запросов (в среднем — 5 запросов в секунду), сканируя 48 тысяч Web-серверов и используя несколько одновременно работающих программ-роботов.
Запрос может состоять из одного или нескольких слов, разделенных пробелами. Могут быть использованы как русские, так и английские слова и словосочетания. По умолчанию находятся только те документы, в которых встретились все введенные вами слова.
Чтобы найти документы, содержащие хотя бы одно слово из запроса, используется логическая связка «or» или выбирается на странице детального запроса: «Слова запроса: любое». Чтобы исключить документы, содержащие те или иные слова, надо указать на странице детального запроса: «Исключить документы, содержащие следующие слова...».
Все равно, с какой буквы написаны слова запроса: с большой или с маленькой. И при построении индекса, и при поиске по запросу все заглавные (большие) буквы «понижаются».
Слова запроса могут быть соединены логическими связками «and», «or». Вместо связок (или в сочетании с ними) могут использоваться также символы «&», «|».
Части запроса могут быть сгруппированы с помощью круглых скобок. Возможна многократная вложенность скобок в сочетании с логическими операторами.
Rambler умеет искать слова во всех формах (например, аминокислота, аминокислоты, аминокислотой и т.д.). Чтобы слово находилось во всех формах, перед ним надо поставить служебный символ «#». В меню детального запроса такой режим может быть включен для всех слов: «Расширение запроса: все формы слов». Служебный символ «@» перед словом позволяет находить не только само это слово, но и однокоренные слова. В меню детального запроса символу «@» соответствует режим «Расширение запроса: все однокоренные».
По умолчанию наша система ищет слова запроса так, как Вы их ввели, чтобы уменьшить «шум» в найденных документах. Если Вы не помните, как пишется слово, или хотите расширить запрос, можно использовать метасимволы «*» и «?» для обозначения произвольной части слова и произвольного символа.
Ограничить поиск частями документов, такими как название документа, его заголовок, URL и т.п., можно через меню детального запроса «Искать в...».
Можно ограничить поиск документами только на русском или только на английском языке. Для этого надо выбрать соответствующий режим в меню детального запроса «Язык документа...». По умолчанию поиск выполняется по документам на всех языках.
По умолчанию найденные документы сортируются по релевантности (соответствию запросу). Однако вы можете потребовать, чтобы вместо этого в начало списка были помещены самые свежие (или, наоборот, самые старые документы). Для этого надо выбрать соответствующую установку в меню «Сортировать по...» на странице детального запроса.
Вы можете также ограничить поиск документами, созданными в определенный период времени: для этого необходимо на странице детального запроса указать «От даты ... до даты ...».
Можно потребовать, чтобы Rambler возвращал только те документы, где слова из запроса находятся на минимальном расстоянии друг от друга.
Режим «Ограничить расстояние между словами» может быть включен в детальном запросе. Все перечисленные выше правила могут быть использованы совместно друг с другом в необходимой вам последовательности.
По умолчанию результаты поиска выдаются порциями по 15 документов. Меню «Выдавать по...» на странице детального запроса позволяет увеличить это число до 30 или 50. Меню «Форма вывода...» позволяет получать описания документов с увеличенной или уменьшенной подробностью.