Поисковые системы в интернете

Автор работы: Пользователь скрыл имя, 14 Декабря 2013 в 10:54, реферат

Краткое описание

Большинство пользователей Интернет сообщества начинают свой рабочий день с поисковых систем, где пытаются найти столь необходимую им информацию и решить свои проблемы. К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты "далекие" от решаемого вопроса. При этом ресурсы представляющие реальную пользу оказываются "за бортом" поиска.

Содержание

Введение
Общая информация о поисковых системах
Немного из истории...
Поисковая система
Yandex
Поисковая система Rambler
Поисковая система Aport
Поисковая система Google

Прикрепленные файлы: 1 файл

Поисковые системы в Интернет.docx

— 49.05 Кб (Скачать документ)

Управление индексированием  в поисковой системе Рамблер

Ограничить индексирование страниц  ресурсов поисковой системой Rambler можно через robots.txt или META-тег "Robots".Робот поисковика Рамблер называется "StackRambler". Именно он скачивает документы, выставленные в Интернет, находит в них ссылки на другие документы, скачивает вновь и т.д. Робот StackRambler анализирует файл robots.txt и ограничивает сканирование ресурса, согласно его указаний. Через robots.txt можно запретить доступ к определенным каталогам и/или файлам.  
 
Ограничить сканирование страниц ресурса роботом поисковой системы Рамблер так же можно через META-тег "Robots". Тег управляет индексацией конкретной web-страницы. При этом роботам можно запретить не только индексацию самого документа, но и проход по имеющимся в нем ссылкам.

Добавление страниц в  поисковой системе Рамблер

Робот Рамблера обходит Сеть по ссылкам  и таким образом находит новые  ресурсы. Можно заполнить регистрационную  анкету. Робот Рамблера самостоятельно посещает только сайты, расположенные  в национальных доменах .ru, .su, .ua, .by, .kz, .kg, .uz, .ge. Если сайт расположен в одной из других доменных зон (например, в .com, .net или .org, либо в других национальных доменах), по умолчанию роботы Рамблера не будут посещать страницы таких ресурсов. Для добавления таких ресурсов, представляющих интерес для русскоязычных пользователей, в число сканируемых необходимо обратиться к администратору поисковой системы Рамблер.  
 
Робот Рамблера обходит Сеть по ссылкам и таким образом находит новые ресурсы для индексирования. Также можно заполнить регистрационную анкету в поисковой системе Rambler. Поля этой анкеты - "Название сайта" и "Описание" не используются для поиска. Они предназначены только для прочтения редакторами и используются во внутренних базах данных Rambler.  
 
Робот сканирует страницы сайта в течение суток с момента регистрации (или нахождения ресурса). При этом он сразу же обходит сайт на некоторую глубину (сканирует страницы, на которые ссылается зарегистрированная страница). Скачанные роботом страницы появляются в поисковой базе с некоторой задержкой. Переиндексация полученных документов производится с интервалом приблизительно в две недели.

Индексация в поисковой  системе Рамблер

При индексации поисковой системой Рамблер учитывается лишь та информация, которую пользователь может увидеть  на странице. Базовые понятия и  ключевые для сайта слова целесообразно  включать в следующие HTML-теги (в порядке  значимости): title h1...h4 b, strong, u Чем чаще слово встречается в этих полях, тем более вероятно, что поисковая система Rambler выдаст ссылку на этот документ ближе к началу списка результатов поиска.  
 
Максимальный размер документа для роботов Рамблера составляет 200 килобайт. Документы большего размера усекаются до указанной величины.  
 
Программа индексирования обрабатывает переадресацию (редиректы), но только в том случае, если перенаправление выполняется в домен .ru или в домены некоторых стран СНГ.  
 
Рамблер обрабатывает все "динамические" страницы с именами вида *.asp*, *.php*, *.pl*, */cgi-bin/* и т. п. для посещаемых сайтов (по данным top100), а также сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается только часть таких страниц.  
 
Фрагменты HTML, размеченные тегами , Рамблером не индексируются.  
 
Поисковая машина Рамблер умеет извлекать ссылки из объектов flash и потому может обрабатывать сайты, построенные на флэш-технологии. Однако сами тексты flash-объектов пока не индексируются.  
 
При индексации учитывается лишь та информация, которую пользователь может увидеть на странице.  
 
Скрытые поля и все другие поля , кроме , при индексировании сайтов игнорируются. То же самое относится к комментариям в HTML-коде сайта. Не следует также использовать невидимый текст, в котором цвет шрифта совпадает с цветом фона.  
 
Поиск учитывает данные Top100. Специальный робот Рамблера два раза в день добавляет в базу поисковой машины новые страницы со всех сайтов, которые участвуют в рейтинге Top100 и разместили счетчик на своих страницах. После изменения информации в рейтинге Top100 ее обновление в поисковой системе происходит в течение одного-двух дней. Если сайт зарегистрирован в Top100, он будет находиться по некоторым запросам, даже если информация была удалена из индексной базы.  
 
При поиске учитывается информация, полученная из рейтинга Rambler's Top100, если сайт в нем зарегистрирован. Число показывает, когда была получена эта информация. Информация по Top100 обновляется практически каждый день.

 

Поисковая система Aport

 

История поисковой системы  Апорт

Официальная презентация "Апорт" состоялась 11 ноября 1997 года. К тому времени в его базе был проиндексирован  первый миллион документов, расположенных  на 10 тысячах серверов. Создателем поисковой  системы Апорт является компания "Агама" - разработчик программного обеспечения для платформ Windows. Надо отметить, что Апорт создавался и продолжает работать под управлением ОС Windows (в отличие от большинства поисковых систем). Лингвистические разработки "Агамы" использовались при создании поисковой машины Апорт, в которой на момент ее создания, учитывалась морфология слов и по желанию клиента выполнялась проверка орфографии запроса.  
 
Впервые поисковая система "Апорт" была продемонстрирована в феврале 1996 года на пресс-конференции "Агамы" по поводу открытия "Русского клуба". Первоначально поисковая система Апорт выполняла поиск только по сайту russia.agama.com.  
 
Официальная презентация поисковой системы "Апорт" состоялась только 11 ноября 1997 года. К тому времени в базе Апорт был проиндексирован первый миллион документов, расположенных на 10 тысячах серверов.  
 
Важнейшими особенностями первой версии "Апорта" являлся перевод запроса и результатов поиска на английский язык и обратно, а также реконструкция всех проидексированных страниц из собственной базы.  
 
В ноябре 1998 года поисковая система "Апорт" была приобретена гражданином Израиля Джозефом Авчуком (с сохранением торговых марок "Апорт" и "Агама"). Реальная сумма сделки составила 55 тысяч долларов.  
 
В октябре 1999 года на компьютерных выставках по обе стороны океана была представлена принципиально новая поисковая система "Апорт 2000", полностью интегрированная с AtRus (ныне "Каталог-Апорт").  
 
"Апорт 2000" стал первым русским поисковиком, построенным на основе выдачи результатов по отдельно взятым сайтам. Для разделения ресурсов на сайты используется информация, которую "Апорту" предоставляет каталог AtRus или сведения, введенные в "Апорт" владельцами ресурсов.  
 
"Апорт 2000" стал первой российской поисковой системой, реализовавший две базовых технологии американской поисковой машины Google. Учет "ранга страницы" (Page Rank), который характеризует ее популярность. Значение ранга вычисляется по количеству ссылок на ресурс из внешнего Интернета. Вес ссылки с популярного сайта выше, чем вес ссылки с менее популярного; ссылки, включающие слова запроса, имеют больший вес, чем, скажем, слово "здесь". Обработка запроса с анализом HTML тегов страниц. Например, текст между тегами h2 имеет больший приоритет, чем между тегами h6.  
 
В "Апорт 2000" также учитывалось вхождение слов запроса в URL. Среди недокументированных особенностей - больший приоритет сайтам, получившим высшую и элитную лигу в каталоге AtRus.  
 
И, наконец, еще одно первенство "Апорт" - использование платной нулевой строки в выдаче (кстати, "Апорт" первым среди наших поисковиков начал покупать такой сервис у AltaVista, которая за небольшую плату выдавала его ссылку первой при запросе "Russian Search"). Однако в "Апорте" нельзя купить не нулевое, а просто более высокое место для своего сайта в результатах поиска.  
 
Организация масштабируемости в архитектуре "Апорт 2000" такова, что можно дробить поисковую базу "Апорта" на несколько отдельных баз, каждый маленький "Апорт" работает на своем компьютере. "Апорт 2000" считает, что весь Интернет поделен на фрагменты. После проведения поиска по этим фрагментам, пользователю интегрируется и выдается общий ответ. Добавлять новые маленькие "апортики" можно путем не очень сложной процедуры. В случаях аварий отдельных машин выдаются несколько отличные от штатных интегральные результаты, что можно время от времени наблюдать.  
 
31 июля 2000 года Golden Telecom купил семейство интернет-проектов "Агама", включающее "Апорт" и AtRus, для включения в "Россию-он-лайн" и околоконтентные проекты.  
 
В мае 2001 года окончательно завершилась сделка по смене хозяина "Апорт" самого "Golden Telecom", новым владельцем стал "Альфа-Банк". NASDAQ к тому времени переживал бурный спад и шансов перепродать Интернет проекты за приемлемую сумму не было. Это обусловило решение новых хозяев "Golden Telecom" минимизировать расходы на поддержку дорогостоящих Интернет проектов.

Управление индексированием  в поисковой системе Апорт

При просмотре содержимого сервера  для индексирования Апорт проверяет  файл robots.txt и поддерживает мета-теги Robots. При просмотре содержимого сервера для индексирования Апорт проверяет файл robots.txt. Таким образом, можно ограничить "деятельность" Апорта на сервере. Поисковый робот Апорт имеет имя Aport. Именно это имя может быть использовано для ограничения индексирования через robots.txt.  
 
Также поисковая система Апорт поддерживаются мета-теги Robots, позволяющие, установить правила поведения робота на индивидуальной странице сайта и в случае, если нет возможности изменять файл robots.txt на сервере.

Добавление страниц в  поисковой системе Апорт

Регистрация сайта в Апорте производится со страницы Добавить URL. Добавлять следует только корень сайта. Регистрация сайта в Апорте производится со страницы http://catalog.aport.ru/rus/reg/add.ple. Эта страница доступна по ссылке Добавить URL почти с любой страницы Апорта. Добавлять следует только корень сайта, остальные страницы будут найдены Апортом по ссылкам.  
 
Апорт является поисковой системой по российскому Интернету, поэтому добавлять в нее можно русскоязычные сайты, а также сайты имеющие непосредственное отношение к российскому Интернету. В случае отказа в автоматическом добавлении сайта (например, если поисковый робот не найдет на его корневой странице русскоязычного текста) можно обратиться с просьбой о добавлении сайта по e-mail: addurl@rol.ru

Индексация ресурсов поисковой  системой Апорт

Апорт - полнотекстовая поисковая  система. Это означает, что она  индексирует все слова, которые  бы увидел на экране человек, просматривая конкретную страницу сервера. Апорт  периодически проверяет имеющиеся  в его базе сайты и приводит свою базу в соответствие с произошедшими  там изменениями. Период проверки в  значительной степени зависит от конкретного сайта (учитывается  его популярность, динамичность обновления по данным собранным апортом при  предыдущих заходах на сайт и ряд  других факторов).  
 
С момента добавления сайта в поисковую систему Апорт до момента его появления в поисковой базе проходит от двух-трех дней до двух недель. В отдельных случаях, (например, в случае нестабильной связи с добавленным сайтом), это время может оказаться несколько больше.  
 
Апорт индексирует все статические документы (в Url которых не встречается символ "?"), найденные его поисковым роботом по ссылкам на сайте. Это правило может не соблюдаться для больших по объему сайтов, а также для сайтов, замеченных в применения поискового спама.  
 
Документы, содержащие в Url символ "?", индексируются поисковой системой Апорт выборочно. При этом используется квотирование количества таких документов для каждого сайта. Размер квоты вычисляется автоматически в зависимости от ряда условий, в частности от индекса цитируемости сайта, и может, в частности, быть для некоторых сайтов нулевым.  
 
Необходимо учитывать, что полная индексация сайта может происходить постепенно, а также то что содержание базы является прерогативой поисковой системы и каких-либо гарантий по индексации (а также сохранению в индексе уже проиндексированных документов) Апорт не дает.  
 
Апорт - полнотекстовая поисковая система. Это означает, что она индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу сервера. В результате любое слово из текста документов может служить критерием последующего поиска.  
 
Для документов HTML кроме основного текста документа индексируются также: заголовок документа (TITLE), ключевые слова (META KEYWORDS), описания страниц (META DESCRIPTION) и подписи к картинкам (ALT). Кроме того, Апорт индексирует как принадлежащие документу, тексты гиперссылок на этот документ с других страниц, находящихся, как внутри сайта, так и за его пределами, а также составленные (или проверенные) редакторами описания сайтов из каталога Апорт.

 

Поисковая система Google

Данная поисковая система со временем становится все лучше и  популярнее, но она уступает вышеперечисленным  поисковым системам. По данным опросов, данным Google обеспечивает около 10% всех поисковых запросов Рунета. На регистрацию Google принимает сайты любого домена, то есть он не ограничивается только зоной ru. Это, безусловно, очень большое преимущество перед конкурентами (в России). Но Google больше не имеет никаких преимуществ и даже не может выдавать в результатах поиска слова, которые являются синонимами запроса. То есть, если мы задаем в Google поисковый запрос "анекдот", то Google будет искать на сайтах именно это слово, в то время как Яндекс, Рамблер и Апорт помимо этого слова будут учитывать на сайтах и слова-синонимы, например, "анекдоты", а Google этого сделать не может.

 


Информация о работе Поисковые системы в интернете