Автор работы: Пользователь скрыл имя, 14 Декабря 2013 в 10:54, реферат
Большинство пользователей Интернет сообщества начинают свой рабочий день с поисковых систем, где пытаются найти столь необходимую им информацию и решить свои проблемы. К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты "далекие" от решаемого вопроса. При этом ресурсы представляющие реальную пользу оказываются "за бортом" поиска.
Введение
Общая информация о поисковых системах
Немного из истории...
Поисковая система
Yandex
Поисковая система Rambler
Поисковая система Aport
Поисковая система Google
Поисковые системы в Интернет
Введение
Общая информация о поисковых системах
Немного из истории...
Поисковая система
Yandex
Поисковая система Rambler
Поисковая система Aport
Поисковая система Google
Введение
Большинство пользователей Интернет
сообщества начинают свой рабочий день
с поисковых систем, где пытаются
найти столь необходимую им информацию
и решить свои проблемы. К сожалению,
поисковые системы часто не способны
точно и справедливо
Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. При этом надо понимать, что главная проблема заключается в отсутствии четких правил, доступных и открытых для всех желающих. Чем больше неопределенности в алгоритмах формирования поисковых индексов (некий черный ящик), тем меньше поисковые системы отражают процесс формирования реальной информации. И соответственно, тем меньше будет уровень доверия к результатам поиска поисковых систем.
Как это
не парадоксально, но это вина не поисковых
систем, поскольку они обязаны скрывать
правила построения поисковых индексов.
Это вина самой технологии при организации
поиска. По своей сути технология поисковых
систем направлена на пассивного пользователя.
Необходимо зарегистрировать только сайт,
дальше все сделает поисковый робот. Он
просканирует ресурс страницу за страницей,
пытаясь проанализировать содержание
каждой из них. Трудоемкость пользователя
минимальна, что позволяет использовать
разные методики по "обману" поисковых
роботов при низких затратах сил и средств.
В такой схеме работы поисковым системам
необходимо изменять алгоритмы и правила
индексирования ресурсов и построения
поискового индекса.
Конечно, большинство пользователей пользовались,
пользуются, и будут пользоваться классическими
поисковиками. Это просто, удобно и распространено.
Это, как привычка, пользоваться поисковиками.
Общая информация о поисковых системах
Поисковая система - это программное
обеспечение, предоставляющее доступ
к коллекции слабоструктурированной информации.
Ориентация на слабоструктурированные
данные, т.е. данные, которые нельзя представить
в виде реляционной таблицы, отличает
поисковую систему от СУБД.
В данном определении поисковой системы
подразумевается информация различного
рода, т.е. текст, аудио, видео, изображения
и т.п. Однако следует отметить, что именно
текстовые данные идеально подходят для
описания полной функциональности поисковой
системы, т.к. алгоритмы поиска мультимедийной
информации, прежде всего, основываются
на алгоритмах поиска текста.
Основная задача поисковой системы - минимизировать
время, затрачиваемое пользователем на
поиск релевантной запросу информации.
Релевантность - одно из самых субъективных
и запутанных понятий в науке информационного
поиска. Наиболее часто говорят о релевантности
с точки зрения пользователя, и тогда ``релевантная
запросу информация'' и ``нужная пользователю
информация'' - одно и то же. Именно о такой
релевантности мы говорим в данном разделе.
Вопрос заключается в том, какую информацию
пользователь посчитает нужной? В некоторых
обстоятельствах релевантную информацию
можно определить как всю информацию из
базы, имеющую отношение к запросу. Так,
например, если пользователю нужно узнать
все о конкретной фирме, то он заинтересован
в нахождении всех документов, в которых
упоминается об этой фирме. В других обстоятельствах
релевантная информация - это только та
информация, которая достаточна для выполнения
определенной задачи пользователя, например,
поиска ответа на конкретный вопрос. Если
в последнем случае в результатах поиска
будет много избыточных данных, т.е. данных,
которые имеют отношение к запросу, но
не нужны для выполнения данной задачи,
то выборка нужной/релевантной информации
займет у пользователя дополнительное
время.
Таким образом, традиционно к поисковой
системе применяют две основные характеристики: точность и полнота, а точнее, их зависимость. Каждый раз,
когда пользователь задает системе запрос,
тем самым инициализируя поиск, все документы
в коллекции поисковой системы делятся
на четыре части. Точность определяет
один аспект поиска, а именно, насколько
хорошо поисковая система способна минимизировать
время, затрачиваемое пользователем на
поиск релевантной данному запросу информации.
В то время как полнота определяет другой
аспект - насколько хорошо система способна
найти релевантную данному запросу информацию.
Можно подобрать оптимальный запрос(ы),
когда каждый найденный документ будет
релевантным, и каждый релевантный документ
будет найден.
Поисковые системы при использовании
Интернет играют очень важную роль. В Интернете
сосредоточено такое количество информации,
что ее поиск уже превращается в отдельную
задачу и отнимает очень много времени.
Поисковые серверы выдают на запрос тысячи
ссылок вместо нескольких страниц, где
действительно имеется нужная информация.
Пользователи всемирной сети Интернет,
осознав преимущества, предоставляемые
возможностью анализа пространственных
данных, нуждаются в инструменте, позволяющем
осуществлять быстрый и удобный поиск
и доступ к цифровым снимкам местности
и другой пространственной информации,
сосредоточенной во многих правительственных,
коммерческих и академических организациях.
Немного из истории…
Поисковая система (поисковый
сервер, поисковая машина) – особый web-сайт, на котором пользователь
по заданному запросу может получить ссылки
на сайты, соответствующие этому запросу.
Работа поисковой машины, как правило,
состоит из двух этапов. Первый - особая
программа (поисковый робот) или человек
собирает информацию с веб-страниц и индексирует
их. Когда пользователь задает запрос,
поиск идет по предварительно построенному
индексу. Результатом поиска является
так называемая поисковая выдача - список
ссылок на документы (веб-страницы), соответствующие
запросу.
Большая часть поисковых систем ищут информацию
на сайтах Интернета, но также существуют
поисковые машины, способные искать файлы
на ftp-серверах, документы, а также информацию
во внутренних сетях и прочая. В последнее
время появился новый тип поисковых движков,
основанных на технологии RSS.
Работа поисковой системы основана на
работе «поискового движка». Основными
критериями качества работы поисковой
машины являются релевантность, полнота
базы, учёт морфологии языка.
Наиболее популярными поисковыми машинами
в России на сегодняшний день считаются
Google, Yandex, и Rambler.
Первой поисковой машиной стал «Wandex»,
уже не существующий web-сайт, который создал
Мэтью Грэйем из Массачусетского технологического
института в 1993. чуть позднее появляется
поисковая система «Aliweb», существующая
до сих пор. Первой полнотекстовой поисковой
системой стала «WebCrawler», запущенная в
1994. В отличие от своих предшественников,
она позволяла пользователям искать по
любым ключевым словам на любой веб-странице,
с тех пор это стало стандартом во всех
основных поисковых системах. Кроме того,
это был первый поисковик, о котором было
известно в широких кругах. В 1994 был запущен
«Lycos», разработанный в университете Карнеги
Мелона.
Развитие русских поисковых машин началось
в 1996 году с появлением морфологического
расширения к поисковику Altavista, и запуском
оригинальных российских поисковых машин
Rambler и Aport. Вскоре, в 1997 году была открыта
поисковая машина Яндекс.
Сегодня в мире работает несколько сотен
разнообразных поисковых машин, отличающихся
специализацией, возможностями и методиками
поиска.
Поисковая система Yandex
История поисковой системы Яндекс
История компании "Яндекс" началась
в 1990 году с разработки поискового программного
обеспечения в компании "Аркадия".
В 1993 году "Аркадия" стала подразделением
компании CompTek. В 1993-1994 годы программные
технологии были существенно усовершенствованы
благодаря сотрудничеству с лабораторией
Ю. Д. Апресяна (Институт Проблем Передачи
Информации РАН).
Летом 1996 года руководство CompTek и разработчики
поисковой системы пришли к выводу, что
развитие самой технологии важнее и интереснее,
чем создание прикладных продуктов на
базе поиска. Исследования рынка показали
своевременность и большие перспективы
поисковых технологий.
Слово "Яndex" придумал за несколько
лет до этого один из основных и старейших
разработчиков поискового механизма.
"Яndex" означает "Языковой index",
или, если по-английски, "Yandex" - "Yet
Another indexer".
Официально поисковая машина Yandex.Ru была
анонсирована 23 сентября 1997 года на выставке
Softool. Основными отличительными чертами
Yandex.Ru на тот момент были проверка уникальности
документов (исключение копий в разных
кодировках), а также ключевые свойства
поискового ядра Яndex, а именно: учет морфологии
русского языка (в том числе и поиск по
точной словоформе), поиск с учетом расстояния
(в том числе в пределах абзаца, точное
словосочетание), и тщательно разработанный
алгоритм оценки релевантности (соответствия
ответа запросу), учитывающий не только
количество слов запроса, найденных в
тексте, но и "контрастность" слова
(его относительную частоту для данного
документа), расстояние между словами,
и положение слова в документе.
В ноябре 1997 года, был реализован естественно-языковый
запрос. Отныне к Yandex.Ru можно обращаться
просто "по-русски", задавать длинные
запросы, например: "где купить компьютер",
"генетически модифицированные продукты"
или "коды международной телефонной
связи" и получать точные ответы. Средняя
длина запроса в Yandex.Ru сейчас - 2,7 слова.
В 1997 году она составляла 1,2 слова, тогда
пользователи поисковых машин были приучены
к телеграфному стилю.
В 1998 году на Yandex.Ru появилась возможность
"найти похожий документ", список
найденных серверов, поиск в заданном
диапазоне дат и сортировка результатов
поиска по времени последнего изменения.
За 1999 год Yandex выпустил новый поисковый
робот, который позволил оптимизировать
и ускорить обход сайтов Рунета. Новый
робот позволил предоставить пользователям
новые возможности - поиск по разным зонам
текста (заголовкам, ссылкам, аннотациям,
адресам, подписям к картинкам), ограничение
поиска на группу сайтов, поиск по ссылкам
и изображениям, а также выделять документы
на русском языке. Появился поиск в категориях
каталога и впервые в Рунете было введено
понятие "индекс цитирования".
В 2000 году образовалась компания "Яндекс".
"Яндекс" был учрежден акционерами
CompTek - компании, создавшей и в течение
долгого времени развивавшей проект Яndex.
Компания ru-Net Holdings инвестировала 5 миллионов
280 тысяч долларов и получила в новой компании
долю в 35,72%. В число акционеров входят
также менеджмент и ведущие разработчики
поисковой системы. Генеральным директором
стал Аркадий Волож.
В новообразованную компанию перешли
все права на торговую марку Яndex и сайт
www.yandex.ru, а также на поисковую технологию
Яndex и семейство одноименных программных
продуктов. Кроме того, в "Яндекс"
был передан недавно стартовавший проект
www.narod.ru.
Управление индексированием в поисковой системе Яндекс
Разрешения и запрещения на индексацию
берутся из файла robots.txt. Яндекс поддерживает
META тег robots, тег NOINDEX и нестандартное
расширение robots.txt - директиву Host. Разрешения
и запрещения на индексацию берутся всеми
поисковыми системами из файла robots.txt,
находящегося в корневом каталоге сервера.
Запрет на индексацию ряда страниц может
появиться, например, из желания не индексировать
одинаковые документы в разных кодировках.
Чем меньше сервер, тем быстрее робот его
обойдет. Поэтому желательно запретить
в файле robots.txt все документы, которые не
имеет смысла индексировать.
Поисковая система Яндекс поддерживает
нестандартное расширение robots.txt - директиву
Host. Аргументом директивы Host является
доменное имя (одно корректное имя хоста,
не являющееся IP-адресом) с номером порта
(80 по умолчанию), отделенным двоеточием.
Если какой-либо сайт не указан в качестве
аргумента для Host, для него подразумевается
наличие директивы Disallow: /, т.е. полный запрет
индексации (при наличии в группе хотя
бы одной корректной директивы Host).
Это нестандартное расширение позволяет
помочь поисковой системе выбрать правильное
зеркало для индексирования. Фактически,
в директиве Host указывается основное зеркало
для сайта, при этом индексация всех других
зеркал запрещена.
В целях совместимости с роботами, которые
не полностью следуют стандарту robots.txt,
директиву Host необходимо добавлять в группе,
начинающейся с записи User-Agent, непосредственно
после записей Disallow.
Поисковая система Яндекс анализирует
и следует указанию META тег robots. Для запрета
индексации определенных частей текста
им можно пометить тегами .
Добавление страниц в поисковой системе Яндекс
Яндекс ежедневно
Яндекс индексирует российскую сеть, поэтому
в поисковую машину вносятся сервера в
доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные
сервера вносятся, только если на них найден
текст на русском языке, или если владельцы
ресурсов убедят администрацию поисковой
машины в том, что их сервер интересен
пользователям русскоязычного Интернета
(это обычно делается письмом на addurl@yandex.ru).
Обычно страницы появляются в поисковой
базе в течение недели после их появления
или изменения. Новые страницы, внесенные
в базу с помощью AddURL, появятся быстрее
(если они находятся в русскоязычной части
сети и не требуют ручной проверки).
Поисковая система Яндекс - полнотекстовая,
то есть в ее индекс попадают (и становятся
доступными для поиска) только те слова,
которые написаны на страницах сайтов.
В списке результатов поиска после адреса
страницы выводится текст, который состоит
из заголовка (тэг title), описания (тэг meta
name="Description" content="") или начала
документа (если этого тэга нет) и контекстов
- фрагментов текста старницы, содержащих
слова запроса.
Индексация в поисковой системе Яндекс
Когда Яндекс обнаруживает новую или
измененную страницу, он ее индексирует.
В процессе этого страница разбивается
на элементы, содержание которых заносится
в индекс. Когда Яндекс обнаруживает
новую или измененную страницу, он
ее индексирует. В процессе этого
страница разбивается на элементы (текст,
заголовки, подписи к картинкам,
ссылки и так далее), содержание которых
заносится в индекс. При этом учитываются
позиции слов, то есть их положение
в документе или его элементе.
Сам документ в базе не хранится.
Яндекс индексирует страницы по их истинным
адресам. Это значит, что, если на странице
стоит redirect, робот воспримет его как ссылку
на новый адрес и внесет ее в очередь на
индексирование.
Как требует стандарт протокола HTTP, Яндекс,
получив в заголовке ответа информацию,
что данный URL является редиректом (коды
3хх), добавит в список адресов для обхода
URL, на который ведет редирект. Если редирект
был постоянный (код 301), либо на странице
встретилась директива meta-refresh, то старый
URL будет исключен из списка обхода.
Робот Яндекс хранит дату последнего обхода
каждой страницы, дату ее изменения (присланную
Web-сервером) и дату внесения последних
изменений в базу поиска (дату индексации).
Он оптимизирует обход Сети таким образом,
чтобы чаще посещать наиболее изменяемые
сервера. Робот Яндекс работает автоматически
и обычно переиндексация происходит раз
в две-три недели.
Изменения уже проиндексированных страниц
робот Яндекс отслеживает самостоятельно
при следующем заходе на сайт. У робота
свой график работы и изменить его невозможно.
Яндекс индексирует документ полностью:
текст, заголовок, подписи к картинкам,
описание (description), ключевые слова и некоторую
другую информацию.
Робот Яндекса обходит "динамические"
страницы и относится к ним в точности
так же, как и к "статическим". Поисковый
робот Яндекс кроме стандартного HTML, индексирует:
PDF, DOC, RTF и Flash форматы файлов.
Дубликат - это один и тот же текст, под десятком
разных адресов, зависящих, например, от
способа навигации по сайту. Сайты с большим
числом дубликатов время от времени подвергаются
безжалостной чистке.
Зеркала сайтов
Зеркало - частичная или полная копия сайта. Наличие
дубликатов ресурса бывает необходимо
владельцам высокопосещаемых сайтов для
повышения надежности и доступности их
сервиса.
Большое количество зеркал засоряет базы
данных поисковых систем и приводит к
появлению дубликатов в результатах поиска.
Поэтому, когда робот Яндекса обнаруживает
несколько зеркал сайта, он выбирает одно
из них в качестве основного, остальные
из индекса удаляются. По умолчанию, робот
выбирает в основное зеркало исходя из
собственных соображений. И обычно не
то, какое хотел бы видеть владелец ресурса.
Можно принять ряд мер, позволяющих выбрать
необходимый сайт в качестве основного
зеркала.
Во-первых, можно удалить неосновные зеркала
сайта.
Во-вторых, на всех зеркалах, кроме того,
которое надо выбрать основным, разместить
файл robots.txt, полностью запрещающий индексацию
сайта. Либо выложить на зеркалах robots.txt
с директивой Host.
В-третьих, разместить на главных страницах
неосновных зеркал тег , запрещающий их
индексацию и обход по ссылкам.
В-четвертых, изменить код главных страниц
на неосновных зеркалах так, чтобы все
(или почти все) ссылки с них вглубь сайта
были абсолютными и вели на основное зеркало.
В случае реализации одного из вышеперечисленных
советов основное зеркало будет автоматически
изменено по мере обхода поискового робота
Яндекс.
Методики работы поисковой системы Яндекс
Поисковая система Яндекс содержит
в своем индексе о каждом слове
текста номер документа,предложения,
слова в предложении и вес каждого слова.
Поисковый робот Яндекс индексирует страницы
и на основании информации на них формирует
поисковый индекс.
Вся эта информация используется при поиске.
При каждом запросе ищутся (и получают
более высокий ранг) фразы, точно совпадающие
с запросом, затем предложения, содержащие
все слова запроса, и т.д. Важную роль играет
относительное положение слов. Так, например,
если запрос из четырех слов не имеет точного
ответа в базе данных, будут отранжированы
выше предложения, содержащие три слова
из запроса, в которых слова стоят точно
в той же последовательности, что и в запросе.
Это дает возможность решать типичную
поисковую задачу - искать документ по
"неточному цитированию".
Поисковая система Rambler
История поисковой системы Рамблер
История поисковика "Рамблер" начинается
в 1991 году в городке Пущино Московской
области. Именно там группой единомышленников
была создана компания "Стек".
Возглавил компанию "Стек" Сергей
Лысаков. Занималась компания локальными
сетями и подключением к Интернету.
Уже в 1996 году, Сергей Лысаков и программист
Дмитрий Крюков приняли решение разработать
первую русскую поисковую систему для
Интернета. Дмитрий Крюков придумал название
проекту - Rambler. В переводе Rambler означает
"скиталец, странник, бродяга", что
созвучно с принципом работы робота поисковика.
26 сентября 2006 года было зарегистрирован
домен rambler.ru и уже 8 октября компания "Стек"
активизировала систему. Весной 1997 года
появляется "Rambler's Top100" - рейтинг-классификатор,
оценивающий на основе объективных данных
популярность российских ресурсов.
В июне 2003 года компания запустила новую
версию поисковой машины, которая отличается
от предыдущей по двум основным параметрам:
значительно увеличилась скорость поиска
благодаря новой архитектуре системы
обновление поискового индекса происходит
несколько раз в день.
Для тех, кто точно знает, что ищет, и не
хочет тратить лишнее время, была открыта
специальная лаконичная версию поиска
"Рамблер" по адресу r0.ru, (или, как
говорят, Арнольд).
Механизм ассоциаций от Rambler
Когда кто-либо делает ряд последовательных
запросов в поисковике Рамблер, эти
слова и фразы становятся связанными
между собой - Rambler ассоциациями. Пользователям
поисковой системы Rambler доступен механизм
ассоциаций Rambler. Ассоциации Rambler - это тематически
(ассоциативно) связанные запросы с исходным
запросом пользователя. Когда кто-либо
делает ряд последовательных запросов
в поисковике Рамблер, эти слова и фразы
становятся связанными между собой. И
такая последовательность создает ассоциации
Rambler. Фактически, это понятие "У нас
также ищут".
С одной стороны, с помощью механизма ассоциаций
Rambler пользователь может быстро уточнить
или расширить свой запрос. С другой стороны,
цепочка типичных ассоциаций выявляет
недостатки исходного запроса, его неоднозначность,
"размытость". В результате посетитель
поисковика Rambler учится правильно спрашивать,
не тратя впустую время, то есть, по сути,
прибегает к помощи "коллективного
разума".
Механизм ассоциаций "У нас также ищут"
интересен любому, кто хочет посмотреть,
о чем думают тысячи и тысячи посетителей
сети. Это инструмент для поиска, равно
как и источник ценной информации для
лингвистов и web-мастеров.