Происхождение слова «Яндекс»

Автор работы: Пользователь скрыл имя, 13 Июня 2013 в 10:06, курсовая работа

Краткое описание

Причина такого положения проста и кроется в технологии получения и представления результатов поисковыми системами. При этом надо понимать, что главная проблема заключается в отсутствии четких правил, доступных и открытых для всех желающих. Чем больше неопределенности в алгоритмах формирования поисковых индексов (некий черный ящик), тем меньше поисковые системы отражают процесс формирования реальной информации. И соответственно, тем меньше будет уровень доверия к результатам поиска поисковых систем.

Содержание

Введение 2
Происхождение слова «Яндекс» 4
Индексирование интернета 6
Подготовка к ответам 6
Архитектура ответа на вопрос 10
Обработка запроса 12
Определение языка запроса 12
Морфологический разбор и снятие омонимии 13
Расширение запроса 13
Работа над ошибками 15
Машинное обучение 16
Матрикснет 17
Формирование результатов поиска 23
Оформление результатов поиска 25
Дополнительная информация в сниппете 25
Заключение 27
Список литературы 28

Прикрепленные файлы: 1 файл

яндекс.docx

— 754.31 Кб (Скачать документ)

Введение 2

Происхождение слова «Яндекс» 4

Индексирование интернета 6

Подготовка к ответам 6

Архитектура ответа на вопрос 10

Обработка запроса 12

Определение языка запроса 12

Морфологический разбор и снятие омонимии 13

Расширение запроса 13

Работа над ошибками 15

Машинное обучение 16

Матрикснет 17

Формирование результатов поиска 23

Оформление результатов поиска 25

Дополнительная информация в сниппете 25

Заключение 27

Список литературы 28

 

Введение

Большинство пользователей Интернет сообщества начинают свой рабочий день с поисковых систем, где пытаются найти столь необходимую им информацию и решить свои проблемы. К сожалению, поисковые системы часто не способны точно и справедливо интерпретировать ресурсы. Как результат, на первых позициях поиска зачастую оказываются сайты "далекие" от решаемого вопроса. При этом ресурсы представляющие реальную пользу оказываются "за бортом" поиска.

Причина такого положения проста и  кроется в технологии получения  и представления результатов  поисковыми системами. При этом надо понимать, что главная проблема заключается  в отсутствии четких правил, доступных  и открытых для всех желающих. Чем  больше неопределенности в алгоритмах формирования поисковых индексов (некий  черный ящик), тем меньше поисковые  системы отражают процесс формирования реальной информации. И соответственно, тем меньше будет уровень доверия  к результатам поиска поисковых  систем.

Как это не парадоксально, но это вина не поисковых систем, поскольку они обязаны скрывать правила построения поисковых индексов. Это вина самой технологии при организации поиска. По своей сути технология поисковых систем направлена на пассивного пользователя. Необходимо зарегистрировать только сайт, дальше все сделает поисковый робот. Он просканирует ресурс страницу за страницей, пытаясь проанализировать содержание каждой из них. Трудоемкость пользователя минимальна, что позволяет использовать разные методики по "обману" поисковых роботов при низких затратах сил и средств. В такой схеме работы поисковым системам необходимо изменять алгоритмы и правила индексирования ресурсов и построения поискового индекса.  
 
Конечно, большинство пользователей пользовались, пользуются, и будут пользоваться классическими поисковиками. Это просто, удобно и распространено. Это, как привычка, пользоваться поисковиками.

 

Происхождение слова «Яндекс»

 

Сегодня «Яндекс» — слово из повседневного обихода пользователя интернета. В Сети часто встречается «А что, Яндекс уже отменили?», «Одиночество — это когда с днем рождения первым поздравляет Яндекс», «Все вопросы к Яндексу». Многим уже кажется, что так было всегда. В некотором роде это правда — Яндекс действительно появился одновременно с массовым интернетом, когда доступ в сеть перестал быть уделом избранных технических специалистов. Но само слово «Яндекс» — искусственное, имеет своих авторов и свою историю.

В 1993 году Аркадий Волож, будущий генеральный директор будущей компании «Яндекс», и Илья Сегалович, будущий директор по технологиям компании, разрабатывали, как потом выяснилось, главную технологию — поиск неструктурированной информации с учетом русского языка.

Разработку надо было как-то назвать. Илья помнит, как выписывал  столбиком разные производные от слов, описывающих смысл технологии. Довольно быстро стало понятно, что  search («поиск») по-русски звучит слишком неблагозвучно и удачной комбинации на его основе не сделаешь. Слово index подходило больше. Так в списке названий появился yandex — yet another indexer («еще один индексатор» или Языковой иНдекс). Вариант понравился и Илье, и Аркадию — легко произносится, легко пишется. Кроме этого, Аркадий предложил букву «Я» в названии — специфически русскую — русской и оставить, для наглядности. Так было изобретено слово «Яndex». А файл программы, соответственно, назывался yandex.exe.

В 1996 году, когда впервые  широкой публике был предложен  поиск как технология, а не как  часть контентного продукта (до этого были Международный классификатор изобретений и Библейский компьютерный справочник), линейку программ назвали Яndex и объясняли это название как Языковый iNDEX. Первыми программами в линейке стали Яndex.Site (поиск по одному собственному сайту — этот продукт сейчас называется Яndex.Server) и Яndex.Dict (морфологическая приставка к AltaVista, единственной поисковой системе, которая в то время умела хоть как-то работать с кириллицей).

 

 

Индексирование  интернета

 

Поисковая машина Яндекса отвечает на вопросы пользователей, находя нужные документы в интернете. А размеры современного интернета исчисляются в экзабайтах, то есть в миллиардах миллиардов байтов. Конечно же, Яндекс не обходит весь интернет каждый раз, когда ему задают вопрос. Поисковая система, так сказать, делает домашнее задание.

Яндекс ищет по поисковому индексу — базе данных, где для всех слов, которые есть на известных поиску сайтах, указано их местонахождение — адрес страницы и место на ней. Индекс можно сравнить с предметным указателем в книге или адресным справочником. В отличие от обычного предметного указателя, индекс содержит не только термины, а вообще все слова. А в отличие от адресного справочника, у каждого слова-адресата есть не одно, а очень много «мест прописки».

   Поиск в интернете состоит из двух частей. Первая — поисковик обходит интернет, создавая его слепок на своих серверах. Вторая — пользователь задаёт запрос и получает ответ с серверов поисковика.

Подготовка к  ответам

Подготовка данных, по которым  ищет поисковая машина, называется индексированием. Специальная компьютерная система — поисковый робот  — регулярно обходит интернет, выкачивает документы и обрабатывает их. Создается своего рода слепок интернета, который хранится на серверах поисковика и обновляется при каждом новом  обходе.

У Яндекса два поисковых робота — основной и быстрый (он называется Orange). Основной робот индексирует интернет в целом, а Orange отвечает за то, чтобы в поиске можно было найти самые свежие документы, которые появились минуты или даже секунды назад. У каждого робота есть список адресов документов, которые нужно проиндексировать.  

 Когда при обходе  робот видит на уже известных  сайтах новые ссылки, он добавляет  их в свой список, увеличивая  количество индексируемых страниц. Впрочем, владелец сайта сам может помочь основному роботу Яндекса найти свой ресурс и подсказать, например, как часто обновляются его страницы — через сервис Яндекс.Вебмастер.  

Сначала программа-планировщик выстраивает маршрут — очередность обхода документов. При этом планировщик учитывает важные для поисковой системы характеристики сайтов, такие как, например, цитируемость или частота обновления документов. После создания маршрута планировщик отдаёт его другой части поискового робота — «пауку». Паук регулярно обходит документы по заданному маршруту. Если сайт на месте, то есть работает и доступен, паук выкачивает запланированные в маршруте документы. Он определяет тип скачанного документа (html, pdf, swf и т.п.), кодировку и язык, а затем отправляет данные в хранилище.  

Там программа разбирает  документ по кирпичику: очищает от html-разметки, оставляя чистый текст, выделяет данные о местоположении каждого слова  и добавляет их в индекс. Сам  документ в исходном виде также остается в хранилище до следующего обхода. Благодаря этому пользователи могут  найти в Яндексе и посмотреть документы, даже если сайт временно недоступен. Если сайт закрылся или документ был удалён или обновлён, Яндекс удалит копию со своих серверов или заменит её на новую.  

Поисковый индекс, данные о  типе документов, кодировке, языке и  сохраненные копии документов вместе составляют поисковую базу. Она обновляется  постоянно, но, чтобы это обновление стало доступно пользователям, её нужно  перенести на «базовый поиск». Базовый поиск — сервера, которые отвечают пользователям на запросы. Туда переносится не вся поисковая база, а только её полезная часть — без спама, дубликатов сайтов (зеркал) и других ненужных документов.

Обновление поисковой  базы из хранилища основного робота попадает в поиск «пакетами» —  раз в несколько дней. Этот процесс  создаёт дополнительную нагрузку на сервера, поэтому производится ночью, когда к Яндексу обращаются на порядок меньше пользователей. Сначала новые части базы помещаются рядом с такими же частями из прошлого обхода. Затем они проверяются по целому ряду факторов, чтобы обновление не ухудшило качество поиска. Если проверка прошла успешно, новая часть базы заменяет собой старую.

Робот Orange предназначен для поиска в реальном времени. Его планировщик и паук настроены так, чтобы находить новые документы и выбирать из огромного их количества все, хоть сколько-нибудь интересные. Каждый такой документ Orange сразу обрабатывает и выкладывает на базовый поиск. Срочных документов не очень много по сравнению с общим объемом интернета, поэтому обновление базы в реальном времени можно делать и при дневных нагрузках на сервера. 

Можно сказать, что поиск  в интернете состоит из двух больших  частей. Первая — когда Яндекс ищет различные документы в интернете и составляет поисковый индекс. Вторая — когда система ищет ответ на конкретный запрос пользователя в уже подготовленной поисковой базе

 

Архитектура ответа на вопрос

Каждый день пользователи задают Яндексу десятки миллионов запросов, и поисковая система должна не только точно отвечать, но и быстро обрабатывать весь этот поток. Для этого Яндекс использует заранее подготовленные данные — индекс. Безусловно, поиск с помощью индекса ускоряет процесс ответа пользователю, как, например, предметный указатель в книге помогает быстрее найти нужное слово. Но размеры самого «предметного указателя» в поиске — огромны. Чтобы обрабатывать такие объемы данных и делать это быстро, Яндекс использует тысячи серверов. Сервера объединены в кластеры и даже в кластеры кластеров.

Все пользовательские запросы  сначала попадают в компьютерную систему «метапоиск». Метапоиск обрабатывает каждый запрос в реальном времени — выясняет все необходимые данные про запрос (из какого региона он был задан, к какому классу относится и т.п.), проводит лингвистическую обработку. Затем метапоиск проверяет, формировались ли в последнее время результаты поиска для этого запроса. Результаты поиска по часто задаваемым запросам некоторое время хранятся в памяти метапоиска, а не формируются каждый раз заново. И если вновь пришедший запрос оказался популярным, метапоиск покажет пользователю заранее сохраненные результаты. 

Если же ответа в памяти нет, то метапоиск передаёт запрос на сервера другой компьютерной системы — «базового поиска». На базовом поиске хранится слепок интернета, по которому ищет Яндекс, — поисковая база. Она разбита на части, которые хранятся на разных серверах — искать ответ одновременно по нескольким частям базы данных быстрее, чем по всей базе целиком. Кроме того, у каждого сервера есть несколько копий. Это позволяет распределять нагрузку и не терять данные — если один из серверов не сможет своевременно ответить, информация всё равно найдется на дублирующих серверах. Из тысяч серверов базового поиска метапоиск выбирает наименее загруженные – таким образом, чтобы вместе они содержали целую поисковую базу. 

Каждый из серверов отдаёт список документов, в которых есть слова из запроса, обратно в метапоиск. Там они объединяются, ранжируются с помощью технологии Матрикснет1 и

попадают на страницу результатов  поиска2.

Благодаря такой организации  поиск Яндекса может отвечать пользователю за доли секунды.

 

 

 

 

Обработка запроса

 

Чтобы вникнуть в суть вопроса, человеку нужно подумать, а поисковой  системе — провести лингвистический  анализ запроса. Только потом можно  приступать к поиску. Именно при  анализе запроса система решает, по каким словам и словоформам  нужно искать. Например, по запросу  «гостиницы в иркутске» недостаточно найти документы с таким сочетанием слов. Хорошие ответы могут оказаться в документах со словами «отели в иркутске», «иркутские гостиницы», «иркутск гостиница» и т.д. Анализируя вопрос пользователя, система определяет язык запроса, проводит морфологический разбор каждого слова, выбирает нужные для поиска словоформы и отсекает лишние.

Определение языка  запроса

Анализ запроса начинается с определения языка. Например, слово «дружина» в русском языке означает «военная рать», а в украинском — и «военная рать», и «жена». Чтобы понять, что имеет в виду пользователь, нужно выяснить, на каком языке он общается с поисковой системой. Для этого Яндекс смотрит, какой алфавит использует человек, какие в запросе есть характерные сочетания букв и слова. Так, по запросу [дружина князя игоря] Яндекс будет искать информацию о войске, а по запросу [дружина князя iгоря] — еще и о жене полководца, княгине Ольге.

Кроме того, при определении  языка поисковая система обращает внимание на регион пользователя и  язык интерфейса. Например, если человек  задает вопрос из Украины и использует интерфейс на украинском языке, это  будет дополнительным фактором, чтобы  посчитать запрос украиноязычным.

Морфологический разбор и  снятие омонимии

Определив язык запроса, Яндекс переходит к морфологии. Знание морфологии позволяет находить документы, содержащие разные формы одних и тех же слов. Например, по запросу [стали для ножей] Яндекс будет искать документы, в которых есть не только сочетание «стали для ножей», но и «сталь для ножа», «ножи сталь» и т.д. Анализируя запрос, Яндекс составляет список возможных словоформ для каждого слова.

 По словоформе, которая  есть в запросе, не всегда  можно точно сказать, какое  слово имел в виду человек.  Например, в запросе [стали для  ножей] «стали» — это не  только существительное «сталь»,  но и глагол «стать». И в  одном случае ([стали для ножей]) нужно искать формы существительного, а в другом ([стали выпадать  волосы что делать]) – формы  глагола. В такой ситуации нужно  избавиться от неоднозначности,  то есть снять омонимию. Омонимия  — это совпадение слов (словоформ)  с разным лексическим значением. 

Информация о работе Происхождение слова «Яндекс»