Поисковые системы

Автор работы: Пользователь скрыл имя, 25 Января 2013 в 17:19, реферат

Краткое описание

В своей работе я рассмотрю основы, разновидности и классификацию поисковых систем. С появлением сети Internet стала актуальной проблема поиска. В Internet`е хранится большое количество полезной информации, но для её поиска требуется затрачивать не мало времени. Эта проблема стала поводом для создания поисковых систем.

Прикрепленные файлы: 1 файл

реферат 3 поисковые системы окончательная версия.doc

— 195.50 Кб (Скачать документ)

Введение.

В своей работе я рассмотрю  основы, разновидности и классификацию  поисковых систем. С появлением сети Internet стала актуальной проблема поиска. В Internet`е хранится большое количество полезной информации, но для её поиска требуется затрачивать не мало времени. Эта проблема стала поводом для создания поисковых систем.

 

Что такое поисковая  система?

Поисковая система (поисковик) – это сайт, обратившись к которому пользователь может найти интересующую его информацию по заданному ключевому  запросу. На сегодняшний день поисковые системы самый лучший инструмент для поиска информации в Интернете.  
 
Рассмотрим принцип работы поисковика, который довольно прост. Пользователю, пришедшему на сайт системы необходимо ввести в форму, располагающуюся на сайте ключевую фразу, по которой он ищет информацию, и послать запрос, нажав кнопку поиск. После чего он получит результат в виде списка текстовых ссылок на сайты соответствующие данному запросу. Это принцип работы поисковика со стороны пользователя. Ниже рассмотрим процесс работы (который не заметен пользователю) и внутреннее устройство.

 

Немного из истории.

В начальный период развития Интернета, число его пользователей  было невелико, а объем доступной  информации сравнительно небольшим. В  большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время. 
 
Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами. 
 
Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов. 
 
Первой полноценной поисковой системой стал проект «WebCrawler», вышедший в свет в 1994 году. Основным отличием поисковой системы от своих предшественников является предоставление возможности пользователям осуществлять поиск по любым ключевым словам на любой веб-странице. Сегодня эта технология является стандартом поиска любой поисковой системы. Поисковая система «WebCrawler» стала первой системой, о которой было известно широкому кругу пользователей. 
 
В 1995 году появились поисковые системы Lycos и AltaVista. В 1996 году AltaVista запустила морфологическое расширение для русского языка и стала первой поисковой системой, которая была доступна русскоязычным пользователям Интернета. В этом же году были запущены первые отечественные поисковые системы – «Rambler.ru» и «Aport.ru». Появление первых отечественных поисковых систем ознаменовало новый этап развития Рунета, позволяя русскоязычным пользователям осуществлять запрос на родном языке, а также оперативно реагировать на изменения, происходящие внутри Сети. 
 
С запуском в 1997 году поисковой системы «Яндекс» отечественные поисковые машины начали конкурировать между собой, улучшая систему поиска и индексации сайтов, выдачи результатов, а также предлагая новые сервисы и услуги. 
 
В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире, которая дала пользователям возможность осуществлять качественный поиск с учетом морфологии, ошибок при написании слов, а также повысить релевантность в результатах выдачи запросов. Сегодня компания Google обрабатывает более 40 миллиардов запросов в месяц, что соответствует 62,4 % всех поисковых запросов в мире.

 

Особенности поисковых  систем

Поисковой процесс представляет собой четыре этапа: формулировка(до начала поиска), действие (идет поиск), обзор результатов (выводится на экран), и усовершенствование(возвращаемся к поиску с той же потребностью, но уже иной формулировкой). Более удобная схема поиска состоит из след. Этапов:

  •  
    Задание информационной потребности на естественном языке,
  •  
    Выбор поисковых сервисов и точная запись информационной потребности,
  •  
    Выполнение созданных запросов,
  •  
    Предварительная обработка полученных ссылок на документы,
  •  
    Обращение за искомыми документами,
  •  
    Предварительный просмотр найденных документов,
  •  
    Сохранение подходящих документов для изучения,
  •  
    Извлечение из подходящих документов ссылок для расширения запроса,
  •  
    Изучение всех сохраненных документов,

 
Если искомая информация не найдена, то возвращаемся к первому пункту.

 

Архитектура поисковой системы

Рассмотрим архитектуру, которая чаще всего используется на корпоративных сайтах и информационных порталах. Эта архитектура изображена на рисунке 1 
 
 
 
 
Рисунок 1 Архитектура поисковых систем 
 
 
Детально разберем то, что изображено на рисунке 1. Есть клиентская машина, находящаяся под управлением Windows и Веб – сервер, находящийся под управлением UNIX. Со стороны клиента запущен обычный браузер (Netscape). Со стороны сервера запущен веб сервер, который принемает запросы от браузера, далее он передает запросы презентационному слою, понимающему CGI. Презентационный слой отправляет запросы к поисковому механизму в случае вызова услуги поиска, либо отображает наполнение сайта (content). При работе администратора презентационный слой также может отправлять запросы на инициализацию механизма индексации нового контента, который еще не индексирован. Это необходимо потому что пока текст не индексирован, поиск в нем с помощью поисковой системы невозможен.  
 
Идея заключается в следующем. Существует много текстовой информации (мегабайты), и поиск документов, содержащие задание ключевые слова, отнимает большое количество процессорного времени. Предположим, в 5 Мб текста, ключевое слово будет находится 5 секунд. И вот заходит посетитель на сайт, задает ключевое слово, вызывает услугу поиска и ждет 5 секунд, пока сервер не выдаст результат. Но если одновременно запросило поиск 5 человек – естественно, время ответа увеличится в 5 раз. Получается, что в среднем по 25 секунд пользователь будет ждать ответа от сервера. Это не приемлимо, особенно если у вас много информации. Необходимо использовать другой метод при поиске слов в текстовой информации – время ответа нужно сократить до миллисекунд.

 

Задачи поисковых систем.

Все поисковые системы  объединяют несколько основных задач. Это поиск новых сайтов, оценка сайта и максимально точный ответ пользователю на запрос. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики должны создавать такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.  
 
Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Для того, чтобы удовлетворить пользователя, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

 

^ Состав и принципы работы поисковой системы.

Поисковая машина – это  аппаратно-программный комплекс, осуществляющий быстрый поиск необходимой информации внутри сервера или Интернет-ресурса. Основа поисковой машины у всех поисковых  систем примерна одинаковая. Как правило, это поисковый бот, необходимый для индексации и поиска сайта, программное обеспечение, отвечающее за составление каталога запроса и ранжирование результатов по релевантности поискового запроса. Но многие крупные поисковые системы держат в секрете содержание своей поисковой машины. Ключевым отличием является база проиндексированных сайтов, релевантность и учет морфологии языка запроса. Все это в совокупности и определяет критерий качества работы поисковых машин. 
 
Классифицируется поисковая машина по области поиска информации: 
 
1. Локальный поиск. Предназначен для осуществления поиска информации по какой-либо части всемирной сети, например, по одному или нескольким сайтам, либо по локальной сети. Примером служит поисковый скрипт на сайте или внутренние серверы крупных компаний. 
 
2. Глобальный поиск. Предназначен для поиска информации по сети Интернет, либо по региональной части, группе сайтов и т.д. Глобальный поиск используют крупные поисковые системы Яндекс, Google, Yahoo и т.д. 
 
Поисковые машины осуществляют различный поиск информации по сети Интернет. Например, картинки, музыка, географическое положение, личная информация и т.д. Файлы, с которыми работает поисковая машина, могут быть разных форматов (например .html,.htm,.txt,.doc,.rtf, …), графического (.gif, .png, .svg,) или мультимедийного (видео, звука и другой информации). Но наиболее распространенным является поиск по текстовым документам (web-страницы, документы в формате doc, rtf, txt и др.). Поиск по изображениям, видео, звукам более сложен с технологической точки зрения, поэтому массово не реализован. Такие системы, как, например, Яндекс.Картинки искали не по самим изображениям, а по альтернативным текстам, соответствующим этим изображениям. А каталог поиска картинок в компании Google составляется вручную, что увеличивает релевантность запроса, но тормозит обновление баз изображений. 
 
Модуль индексирования: 
 
Модуль индексирования состоит из трех вспомогательных программ (роботов): 
 
Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ. 
 
Ссылки извлекаются из тэгов a, area, base, frame, frameset, и др. Наряду со ссылками, многими роботами обрабатываются редиректы (перенаправления). Каждая скачанная страница сохраняется в следующем формате:

  •  
    URL страницы
  •  
    дата, когда страница была скачана
  •  
    http-заголовок ответа сервера
  •  
    тело страницы (html-код)

 
Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе. 
 
Indexer (робот - индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д. 
 
Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов. 
 
База данных: 
 
База данных или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов. 
 
Поисковый сервер: 
 
Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе его функционирования, напрямую зависит качество и скорость поиска. 
 
Поисковый сервер работает следующим образом:

  •  
    Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде сниппета, то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
  •  
    Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
  •  
    В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
  •  
    Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
  •  
    Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

 
Как видно, все эти компоненты тесно  связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

 

^ Поисковые системы в настоящее время.

Наиболее известные  международные поисковые системы: Google, Yahoo, Baidu(лидер среди китайских  поисковых систем), Bing, AOL, Lycos, Ask. 
 
Русскоязычные — большинство «русскоязычных» поисковых систем индексируют и ищут тексты на многих языках — украинском, белорусском, английском, татарском и др. Отличаются же они от «всеязычных» систем, индексирующих все документы подряд, тем, что в основном индексируют ресурсы, расположенные в доменных зонах, где доминирует русский язык или другими способами ограничивают своих роботов русскоязычными сайтами. 
 
В России основной поисковой системой является «Яндекс», далее - Rambler, Aport, Mail.ru, Нигма. 
 
А теперь более подробно об этих поисковых системах. 
 
Google. 
 
G oogle — поисковая система, принадлежащая корпорации Google Inc. 
 
Первая по популярности (84,65 %), обрабатывает 41 млрд 345 млн запросов в месяц (доля рынка 62,4 %), индексирует более 8 миллиардов веб-страниц, может находить информацию на 191 языке (c 15 октября 2009). 
 
Поддерживает поиск в документах форматов PDF, RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint и других. 
 
В качестве учебного проекта двое студентов Стендфорского университета, Лари Пейдж и Сергей Брин, предложили новую поисковую систему, которая на сегодняшний день стала одной из самых влиятельных компания во всемирной сети Интернет – Google. 
 
Своё название система и соответствующая компания получили от математической величины "гугол" (googol), которая равна 10100. Создатели посчитали, что такое название лучше всего передаст основную идею их системы – организовать миллиарды байтов информации, содержащейся в Интернете. 
 
Поисковая система Google представляет собой мощный механизм. Без таких поисковых систем найти информацию в глобальной сети Интернет было бы практически невозможно. Подобно всем поисковым серверам Google использует специальный поисковый алгоритм для получения результатов поиска. Некоторые основные характеристики алгоритма компания не скрывает, особенность же алгоритма является строгой тайной компании. Именно благодаря этому Google сохраняет свое лидерство в сети Интернет и не позволяет никому взломать ее систему. 
 
Как и большинство поисковых серверов, Google использует программный поисковый механизм, называемый «паук» или «ползунок», для автоматического выбора всех документов, на которые есть ссылки в первом выбранном документе. Ключевые слова вписываются в специальную строку ввода, после чего начинается поиск. Особенность Google заключается в том, как и по какому критерию эта поисковая система классифицирует результаты поиска на своей странице. Используемый алгоритм PageRank сортирует все веб-страницы по критерию смыслового соответствия. 
 
Алгоритм PageRank зависит от нескольких факторов:

Информация о работе Поисковые системы