Содержание
Введение..................................................................................................................3
1.Понятие информационных поисковых
систем.................................................4
2.Краткая история развития
поисковых систем...................................................6
3.Особенности поисковых систем.........................................................................7
4. Состав и принципы работы поисковой
системы.............................................8
5.Структура работы поисковых
систем................................................................9
6.Интерфейсы поисковых систем в России........................................................11
Заключение............................................................................................................15
Список литературы...............................................................................................16
Введение
Современный этап развития
цивилизации характеризуется переходом
наиболее развитой части человечества
от индустриального общества к информационному.
Одним из наиболее ярких явлений этого
процесса является возникновение и развития
глобальной информационной компьютерной
сети.
Проблема поиска и сбора информации
- одна из важнейших проблем информационно
поисковых систем. Конечно, нельзя сравнивать
в этом отношении, скажем, средние века,
когда поиск информации был проблемой
потому, что этой информации было мало,
и требовались усилия только для того,
чтобы найти хоть что-то по более или менее
значительному интересующему вопросу.
Так, сначала появилась возможность пойти
в библиотеку и, потратив там время на
выбор нужной книги по каталогу, найти
необходимую информацию. Но каталоги не
решают полностью проблем поиска информации
даже в рамках одной библиотеки, так как
в каталожную запись входит относительно
мало информации: заголовок, автор, место
издания. Проблема поиска информации приобрела
новый характер в 20-м столетии, с началом
развития века информационных технологий.
Теперь она заключается не в том, что информации
мало и поэтому ее трудно найти, а в том,
что ее теперь наоборот становится все
больше и больше, и от этого найти ответ
на интересующий вопрос может оказаться
тоже довольно сложной задачей. Проблема
поиска информации значительно усложняется
при использовании виртуальных источников.
Здесь используется технология онлайновых
каталогов, в результате применения которой
пользователь имеет возможность выполнять
поиск в каталогах сразу нескольких библиотек,
чем, на самом деле, еще больше усложняет
себе задачу, но, с другой стороны, увеличивает
шансы решить ее.
На современном этапе все информационное
пространство, в котором мы живем, все
больше погружается в Internet. Internet становится
основной формой существования информации,
не отменив традиционных, такие как журналы,
радио, телевидение, телефон, всевозможные
справочные службы.
Задачей в данной работе рассматриваются
теоретические основы автоматизированного
информационного поиска, классификация
и разновидности информационно поисковых
систем. Также анализируется материал
по применяемым в настоящее время информационно
- поисковым каталогам полнотекстовых
и гипертекстовых поисковых систем.
При появлении сети Internet проблема
поиска становилась более актуальной.
Internet - всемирная компьютерная сеть, представляющая
собой единую информационную среду и позволяющая
получить информацию в любое время. Но
с другой стороны в Интернете хранится
очень много полезной информации, но для
поиска её требуется затрачивать много
времени. Эта проблема послужила поводом
к появлению поисковых систем.
1. Понятие информационных
поисковых систем
Поиск информации - задача, которую
человечество решает уже многие столетия.
По мере роста объема информационных ресурсов,
потенциально доступных одному человеку
(например, посетителю библиотеки), были
выработаны все более изощренные и совершенные
поисковые средства и приемы, позволяющие
найти необходимый документ.
Поисковые системы уже давно
стали неотъемлемой частью российского
Интернета. Поисковые системы сейчас –
это огромные и сложные механизмы, представляющие
собой не только инструмент поиска информации,
но и заманчивые сферы для бизнеса.
Поисковая система - это программно-аппаратный
комплекс, предназначенный для осуществления
поиска в сети Интернет и реагирующий
на запрос пользователя, задаваемый в
виде текстовой фразы (поискового запроса),
выдачей списка ссылок на источники информации,
в порядке релевантности (в соответствии
запросу). Наиболее крупные международные
поисковые системы: «Google», «Yahoo», «MSN». В
русском Интернете это – «Яндекс», «Рамблер»,
«Апорт».
Рассмотрим подробнее понятие
поискового запроса на примере поисковой
системы «Яндекс». Поисковый запрос должен
быть сформулирован пользователем в соответствии
с тем, что он хочет найти, максимально
кратко и просто. Допустим, мы хотим найти
информацию в «Яндексе» о том, как выбрать
автомобиль. Для этого, открываем главную
страницу «Яндекса», и вводим текст поискового
запроса «как выбрать автомобиль». Далее,
наша задача сводится к тому, чтобы открыть
предоставленные по нашему запросу ссылки
на источники информации в Интернет. Однако,
вполне можно и не найти нужную нам информацию.
Если таковое произошло, то либо нужно
перефразировать свой запрос, либо в базе
поисковой системе действительно нет
никакой актуальной информации по нашему
запросу (такое может быть при задании
очень «узких» запросов, как, например
«как выбрать автомобиль в Архангельске.)
Первоочередная задача любой
поисковой системы – доставлять людям
именно ту информацию, которую они ищут.
А научить пользователей делать «правильные»
запросы к системе, т.е. запросы, соответствующие
принципам работы поисковых систем, невозможно.
Поэтому разработчики создают такие алгоритмы
и принципы работы поисковых систем, которые
бы позволяли находить пользователям
искомую ими информацию.
Это означает, поисковая система
должна «думать» так же, как думает пользователь
при поиске информации. Когда пользователь
обращается с запросом к поисковой машине,
он хочет найти то, что ему нужно, максимально
быстро и просто. Получая результат, он
оценивает работу системы, руководствуясь
несколькими основными параметрами.
Информационно-поисковая
система - это система, обеспечивающая
поиск и отбор необходимых данных в специальной
базе с описаниями источников информации
(индексе) на основе информационно-поискового
языка и соответствующих правил поиска
Информационно-поисковая система выполняет
следующие функции:
- хранения больших объемов информации;
- быстрого поиска требуемой
информации;
- добавления, удаления и изменения
хранимой информации;
- вывода информации в удобном
для человека интерфейсе.
Опишем основные характеристики
поисковых систем:
• Полнота
Полнота - одна из основных характеристик
поисковой системы, представляющая собой
отношение количества найденных по запросу
документов к общему числу документов
в сети Интернет, удовлетворяющих данному
запросу. К примеру, если в Интернете имеется
100 страниц, содержащих словосочетание
«как выбрать автомобиль», а по соответствующему
запросу было найдено всего 60 из них, то
полнота поиска будет 0,6. Очевидно, что
чем полнее поиск, тем меньше вероятность
того, что пользователь не найдет нужный
ему документ, при условии, что он вообще
существует в Интернете.
• Точность
Точность - еще одна основная
характеристика поисковой машины, которая
определяется степенью соответствия найденных
документов запросу пользователя. Например,
если по запросу «как выбрать автомобиль»
находится 100 документов, в 50 из них содержится
словосочетание «как выбрать автомобиль»,
а в остальных просто наличествуют эти
слова («как правильно выбрать магнитолу
и установить в автомобиль»), то точность
поиска считается равной 50/100 (=0,5). Чем точнее
поиск, тем быстрее пользователь найдет
нужные ему документы, тем меньше различного
рода «мусора» среди них будет встречаться,
тем реже найденные документы не будут
соответствовать запросу.
• Актуальность
Актуальность - не менее важная
составляющая поиска, которая характеризуется
временем, проходящим с момента публикации
документов в сети Интернет, до занесения
их в индексную базу поисковой системы.
Например, на следующий день после появления
интересной новости, большое количество
пользователей обратились к поисковым
системам с соответствующими запросами.
Объективно с момента публикации новостной
информации на эту тему прошло меньше
суток, однако основные документы уже
были проиндексированы и доступны для
поиска, благодаря существованию у крупных
поисковых систем так называемой «быстрой
базы», которая обновляется несколько
раз в день.
• Скорость поиска
Скорость поиска тесно связана
с его устойчивостью к нагрузкам. Например,
по данным ООО «Рамблер Интернет Холдинг»,
на сегодняшний день в рабочие часы к поисковой
машине Рамблер приходит около 60 запросов
в секунду. Такая загруженность требует
сокращения времени обработки отдельного
запроса. Здесь интересы пользователя
и поисковой системы совпадают: посетитель
желает получить результаты как можно
быстрее, а поисковая машина должна отрабатывать
запрос максимально оперативно, чтобы
не тормозить вычисление следующих запросов.
• Наглядность
Наглядность представления
результатов является важным компонентом
удобного поиска. По большинству запросов
поисковая машина находит сотни, а то и
тысячи документов. Вследствие нечеткости
составления запросов или неточности
поиска, даже первые страницы выдачи не
всегда содержат только нужную информацию.
Создание и использование информационно-поисковой
системы началось в конце 1950-х - начале
1960-х годов. Информационно-поисковая система
опирается на базу данных, в которой осуществляет
поиск нужных документов по заявкам пользователей.
Частным случаем информационно-поисковой
системы является информационно-справочная
система, которая в ответ на запросы выдает
сведения, в явной форме отсутствующие
в базе данных. Широко информационно-поисковые
системы используются и в базах знаний.
2.Краткая история
развития поисковых систем
В начальный период развития Интернет,
число его пользователей было невелико,
а объем доступной информации сравнительно
небольшим. В большинстве своем, доступ
к сети Интернет имели лишь сотрудники
научно-исследовательской сферы. В это
время задача поиска информации в Интернете
не была столь актуальной, как в настоящее
время.
Одним из первых способов организации
доступа к информационным ресурсам сети
стало создание открытых каталогов сайтов,
ссылки на ресурсы в которых группировались
согласно тематике. Первым таким проектом
стал сайт Yahoo.com, открывшийся весной 1994
года. После того, как количество сайтов
в каталоге Yahoo значительно увеличилось,
была добавлена возможность поиска нужной
информации по каталогу. В полном смысле
это еще не было поисковой системой, так
как поисковая область была ограничена
только ресурсами, присутствующими в каталоге,
а не всеми Интернет ресурсами.
Каталоги ссылок широко использовались
ранее, однако практически полностью утратили
свою популярность в настоящее время.
Так как даже современные, огромные по
своему объему каталоги, содержат информацию
лишь о ничтожно малой части сети Интернет.
Самый большой каталог сети DMOZ (его еще
называют Open Directory Project) содержит информацию
о 5 миллионах ресурсов, тогда как база
поисковой системы Google состоит из более
чем 8 миллиардов документов.
Первой полноценной поисковой
системой стал проект WebCrawler, вышедший
в свет в 1994 году.
В 1995 году появились поисковые
системы Lycos и AltaVista. Последняя долгие годы
была лидером в области поиска информации
в сети Интернет.
В 1997 году Сергей Брин и Ларри
Пейдж создали поисковую машину Google в
рамках исследовательского проекта в
Стэндфордском университете. В настоящий
момент Google - самая популярная поисковая
система в мире!
В сентябре 1997 года была официально
анонсирована поисковая система Yandex, являющаяся
самой популярной в русскоязычном Интернете.
В настоящее время существуют
три основные международные поисковые
системы – Google, Yahoo и MSN, имеющих собственные
базы и алгоритмы поиска. Большинство
остальных поисковых систем (коих насчитывается
большое количество) использует в том
или ином виде результаты трех перечисленных.
Например, поиск AOL (search.aol.com) использует
базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
В России основной поисковой
системой является «Яндекс», далее - Rambler.ru,
Google.ru, Aport.ru, Mail.ru. Причем, на данный момент,
Mail.ru использует механизм и базу поиска
«Яндекса».
3. Особенности поисковых
систем
В работе поисковый процесс
представлен четырьмя стадиями: формулировка
(происходит до начала поиска); действие
(начинающийся поиск); обзор результатов
(результат, который пользователь интерфейсит
после поиска); и усовершенствование (после
обзора результатов и перед возвращением
к поиску с иной формулировкой той же потребности).
Более удобная нелинейная схема поиска
информации состоит из следующих этапов:
1. Фиксация информационной
потребности на естественном
языке;
2. Выбор поисковых сервисов
сети и формализация записи
информационной потребности на
конкретных информационно-поисковых
языках;
3. Выполнение созданных
запросов;
4. Предварительная обработка
полученных списков ссылок на
документы;
5. Обращение по выбранным
адресам за искомыми документами;
6. Предварительный просмотр
содержимого найденных документов;
7. Сохранение подходящих
документов для последующего
изучения;
8. Извлечение из релевантных
документов ссылок для расширения
запроса;
9. Изучение всего массива
сохраненных документов;
10. Если информационная
потребность не полностью удовлетворена,
то возврат к первому этапу.
Процесс поиска имеет чрезвычайно
глубокий дидактический аспект - так, установлено
что применение диалоговых информационных
систем приводит к формированию у рядовых
пользователей такого стиля информационно-поисковой
деятельности, который обычно свойственен
наиболее выдающимся ученым.
Для уменьшения объема рассматриваемых
материалов следует также осуществить
фильтрацию результатов поиска по типу
источников. Так очеинтерфейсно, что документы,
расположенные на научных сайтах, на коммерческих,
или на серверах СМИ будут существенно
различаться по своему характеру.
4.Состав
и принципы работы поисковой системы
Практически все крупные
поисковые системы имеют свою собственную
структуру, отличную от других. Однако
можно выделить общие для всех поисковых
машин основные компоненты. Различия в
структуре могут быть лишь в виде реализации
механизмов взаимодействия этих компонентов.
Модуль индексирования
Модуль индексирования
состоит из трех вспомогательных программ
(роботов):
Spider (паук) – программа,
предназначенная для скачивания веб-страниц.
«Паук» обеспечивает скачивание страницы
и извлекает все внутренние ссылки с этой
страницы. Скачивается html-код каждой страницы.
Для скачивания страниц роботы используют
протоколы HTTP. Работает «паук» следующим
образом. Робот на сервер передает запрос
“get/path/document” и некоторые другие команды
HTTP-запроса. В ответ робот получает текстовый
поток, содержащий служебную информацию
и непосредственно сам документ.
Ссылки извлекаются
из тэгов a, area, base, frame, frameset, и др. Наряду
со ссылками, многими роботами обрабатываются
редиректы (перенаправления). Каждая скачанная
страница сохраняется в следующем формате:
• URL страницы
• дата, когда страница
была скачана
• http-заголовок ответа
сервера
• тело страницы (html-код)
Crawler («путешествующий»
паук) – программа, которая автоматически
проходит по всем ссылкам, найденным на
странице. Выделяет все ссылки, присутствующие
на странице. Его задача - определить, куда
дальше должен идти паук, основываясь
на ссылках или исходя из заранее заданного
списка адресов. Crawler, следуя по найденным
ссылкам, осуществляет поиск новых документов,
еще неизвестных поисковой системе.
Indexer (робот- индексатор)
- программа, которая анализирует веб-страницы,
скаченные пауками. Индексатор разбирает
страницу на составные части и анализирует
их, применяя собственные лексические
и морфологические алгоритмы. Анализу
подвергаются различные элементы страницы,
такие как текст, заголовки, ссылки структурные
и стилевые особенности, специальные служебные
html-теги и.т.д
Таким образом, модуль
индексирования позволяет обходить по
ссылкам заданное множество ресурсов,
скачивать встречающиеся страницы, извлекать
ссылки на новые страницы из получаемых
документов и производить полный анализ
этих документов.
База данных
База данных, или индекс
поисковой системы – это система хранения данных, информационный
массив, в котором хранятся специальным
образом преобразованные параметры всех
скачанных и обработанных модулем индексирования
документов.
Поисковый сервер
Поисковый сервер является
важнейшим элементом всей системы, так
как от алгоритмов, которые лежат в основе
ее функционирования, напрямую зависит
качество и скорость поиска.