Информационно-поисковые системы

Автор работы: Пользователь скрыл имя, 27 Июля 2013 в 05:24, реферат

Краткое описание

Цель работы – описать и дать характеристику информационно-поисковым системам.
Данная цель решается с помощью раскрытия следующих основных задач:
1) описать принципы работы поисковых машин;
2) дать характеристику глобальным поисковым системам;
3) описать стратегию и методику профессионального поиска информации.

Содержание

Введение
1. Сущность поисковых машин
2. Глобальные поисковые системы
2.1. Поисковая система Google
2.2. Поисковая система AlltheWeb
2.3. Поисковая система Alta Vista
3. Информационно-поисковая система по законодательству - Garant
4. Стратегия и методика профессионального информационного поиска
Заключение
Список использованной литературы

Скачать полностью (47.33 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

Реферат Информационно-поисковые системы ФРАГМЕНТЫ.docx

— 49.52 Кб (Скачать документ)

Однако метатег Description иногда участвует в наполнении сниппетов сайтов (или описаний в результатах поиска у найденных сайтов), но если этот метатег соответствует содержимому самой страницы и поисковому запросу.

Присутстувет возможность управления гибкой индексацией содержимого страницы (для этого служит тег метатег Robots), а также переходом по ссылкам на странице. Например, можно запретить передачу поискового веса ссылки (её значимости) при помощи параметра rel=”nofollow”, который присваивается тегу .

Релевантность выдачи в этой поисковой системе также иногда определяется названием домена или документа, при этом количество слешей в адресе сайта не учитывается.

Как правило, для Рунета можно увеличить релевантность поисковых запросов, набранных латинскими символами.

Если ваш сайт есть в каталоге DMOZ, то Google будет выводить сниппет, оставленный для вашего сайта в этом каталоге, конечно, если этот сниппет (описание) будет релевантен поисковому запросу.

Действует принцип внутренней ссылочной силы. Внутренними страницами можно продвинуть по некоторым поисковым запросам главную или другие страницы сайта.

Для того чтобы избежать возможных разногласий или вы просто не хотите видеть описание, составленное одним из редакторов, выводилось в сниппете для вашего сайта, то просто запретите это при помощи метатега.

Также присутствуют «хронические» для любой поисковой системы проблемы с индексацией динамических страниц, содержащих большое количество параметров и документов на фреймовой основе.

Разработчики советуют проверить наличие у сервера http-параметра If-Modified-Since, чтобы избежать дополнительных нагрузок на сервер со стороны этой поисковой системы.

3.3. Классификация роботов Google:

Googlebot - основной индексирующий робот поисковой системы Google, работающий на платформе Linux и написанный на языке программирования C++.

При обращении к серверу имеет http-заголовок: Googlebot/2.X (http://www.Googlebot.com/bot.html).

Также есть ещё несколько поисковых роботов-«пауков» у этой поисковой системы.

Например, Googlebot-Image индексирует только текст в параметре alt тега изображений и окружающий изображения текст или Mediapartners-Google, который индексирует страницы на предмет наличия на них рекламы Adsense.

Googlebot-Mobile предназначен для поиска страниц, адаптированных для мобильных устройств (телефоны, смартфоны, коммуникаторы). Это страницы на языках WML, HTML. Для этих устройств формируется отдельный поиск по мобильным сайтам.

Поисковые роботы выполняют всю основную работу по просеиванию сквозь себя содержимого Сети. Каждый из них берет один адрес из базы данных URL-сервера, скачивает и передает содержимое странички на сервер хранения документов поисковой системы Google. Необходимо отметить, что все содержимое сервера хранится в заархивированном виде для увеличения его вместимости.

Другая программа - индексатор - занимается тем, что разлагает текст документа на составляющие его слова, запоминая при этом местонахождение, шрифтовой вес, а также написано ли слово заглавными или строчными буквами и принадлежит ли оно к категории «особенных» (названия документов, метатеги, URL'ы и тексты ссылок). Вся эта информация складывается в набор контейнеров, именуемых прямым индексом.

Идентификаторы слов берутся из словаря, который постоянно пополняется в поисковой системе Google. Одновременно с этим индексатор просматривает содержимое тегов и проверяет корректность всех ссылок в службе разрешения имен DNS (domain name service). Если ему встретился URL, которого нет в базе данных поисковой системы Google по doc_id, он пополняет не только ее, но и коллекцию ссылок. В дальнейшем этот Интернет-адрес попадает в URL-сервер и круг замыкается. Система поиска Google новых документов, при условии, что на них хоть кто-нибудь ссылается, становится самодостаточной - она сама себя подпитывает.

Для разрешения этой проблемы обновления разработчики предусмотрели ручную форму регистрации ресурсов в поисковой системы Google. Введенные в нее адреса после проверки на корректность также попадают в URL-сервер.

Описанная выше структура прямого индекса не очень удобна при поиске документов на основании встречающихся в них слов. Чтобы решить эту проблему, был введен так называемый инверсный, или обратный, индекс. В нем любому слову из словаря соответствует набор doc_id-документов, в которых это слово встречается. Работой по постоянному формированию инверсного индекса занимаются сортировщики. Так как, во-первых, всегда появляются новые документы и, во-вторых, обновляются старые, индекс приходится постоянно перестраивать.

Качество поисковой системы Google, как уже было отмечено, зависит не только от количества проиндексированных документов, правил их отбора в итоговый список, но и от того, как часто Интернет-роботы заново проверяют содержимое ранее обработанных сайтов. Google распараллеливает работу между несколькими роботами, причем каждый из них при скачивании может «отвлекаться» на другие дела.

4. Поисковая система Yandex (Яндекс)

4.1. История создания и принципы работы Yandex (Яндекс)

История компании Яндекс восходит к 1990 году, когда в компании «Аркадия», возглавляемой Аркадием Борковским и Аркадием Воложем, начались разработки поискового программного обеспечения. Сайт Яндекс появился в Интернете в 1996 году, после того как руководством CompTek и разработчиками системы было принято решение о дальнейшем развитии поисковых технологий, ориентированных на широкую аудиторию пользователей Интернета.

За два года работ были созданы две информационно-поисковые системы - Международная Классификация Изобретений, 4 и 5 редакция, а также Классификатор Товаров и Услуг. И до сих пор, особенно по весне, в CompTek обращаются изобретатели-одиночки в надежде на появление новых редакций. Обе системы работали под DOS и позволяли проводить поиск, выбирая слова из заданного словаря Яндекс, с использованием стандартных логических операторов.

В 1993 году «Аркадия» стала подразделением CompTek. 1993-1994 годы в результате его сотрудничества с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН) программные технологии были существенно усовершенствованы. В частности, словарь Яндекс, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

На основе новой технологии в 1994 году был создан «Библейский компьютерный справочник» (информационно-поисковая система, обеспечивающая работу с Синодальным переводом Ветхого и Нового Заветов).

В 1995 году стартовал проект «Академическое издание классиков на CD ROM», разрабатываемый совместно с НТЦ «Информрегистр» и ИМЛИ им. М.Горького РАН при поддержке Роскоминформа. Для этого проекта была создана универсальная технология «Аргонавт», которая включала как средства разметки и отображения текстов, так и средства навигации, а так же различные поиски - и текстовые, и атрибутные. На основе этой технологии вышло 3 издания - справочник стандартов «Информ - Норматив», электронное научное издание «А.С. Грибоедов» и «Пушкин. Электронный фонд русской классической литературы». Также был создан словарь языка Грибоедова.

В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения.

Летом 1996 года руководство CompTek и разработчики поисковой системы Яндекс пришли к выводу, что развитие самой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. Исследования рынка показали своевременность и большие перспективы поисковых технологий. Тогда в Интернете и появилась поисковая система Яндекс.

Слово «Яndex» придумал за несколько лет до этого один из основных и старейших разработчиков поискового механизма. «Яndex» означает «Языковой index», или, если по-английски, «Yandex» - «Yet Another indexer». За 4 года публичного существования Яndex возникли и другие толкования. Например, если в слове «Index» перевести с английского первую букву («I» - «Я»), получится «Яndex».

На выставке Netcom'96, 18 октября 1996 года, CompTek анонсировал первые продукты серии Яndex (Яndex.Site, Яndex.Dict). Яndex.Site - поиск по своему сайту - сейчас установлен на сотнях серверов Рунета. Яndex.Dict, морфологическое расширение запроса, используется до сих пор для, например, передачи запроса на AltaVista, хотя сегодня это уже не так актуально - AltaVista индексирует русский Интернет гораздо хуже, чем русские поисковые машины.

Через полгода появился Яndex.CD - поиск документов на CD ROM, а затем Яndex.Lib - полнофункциональная библиотека Яndex для встраивания в различные приложения и базы данных.

Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru. Необходимость поддерживать работу Yandex.Ru в условиях больших объемов (200 Гб текстов) и больших нагрузок (несколько запросов в секунду) ведет к оптимизации алгоритмов, которые потом используются и в других продуктах Яndex.

Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

В 1998 году на Yandex.Ru появилась возможность «найти похожий документ», список найденных серверов, поиск в заданном диапазоне дат и сортировка результатов поиска по времени последнего изменения. За этот год «объем» Русского Интернета удвоился, что привело к необходимости оптимизации поисковых механизмов. И тогда, и сейчас (при объеме в 200 Гб) скорость поиска на Yandex.Ru - доли секунды.

За 1999 год Рунет вырос на порядок, как в объемах текстов, так и в количестве пользователей. Это был год бурного развития и для Yandex.Ru. Новый поисковый робот позволил оптимизировать и ускорить обход сайтов Рунета.

Новый робот позволил предоставить пользователям новые возможности - поиск по разным зонам текста (заголовкам, ссылкам, аннотациям, адресам, подписям к картинкам), ограничение поиска на группу сайтов, поиск по ссылкам и изображениям, а также выделять документы на русском языке. Появился поиск в категориях каталога и впервые в Рунете было введено понятие «индекс цитирования» - количество ресурсов, ссылающихся на данный.

В течение всего года продолжалась работа по количественному и качественному анализу Рунета. Был открыт НИНИ-индекс (индекс «Непостоянства Интересов Населения Интернет»), показывающий динамику изменения интересов пользователей Интернета. Открылся поисковый Форум и новый сервис - подписка на запрос, то есть можно оставить свой запрос на Yandex.Ru и регулярно получать по электронной почте информацию о появлении новых и/или измененных документов, соответствующих этому запросу. К началу учебного года был открыт «Семейный Яndex», фильтрация результатов поиска от мата и порнографии.

С начала 2006 года поиск «Яндекса» установлен на портале Mail.ru.

Охват форматов Помимо веб-страниц в формате HTML, Яндекс индексирует документы в форматах PDF (Adobe Acrobat), RTF (Rich Text Format), DOC (Microsoft Word), XLS (Microsoft Excel), PPT (Microsoft Power Point), SWF (Macromedia Flash), RSS (блоги и форумы).

Язык поисковых запросов Отличительная особенность Яндекса - возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов. Так, например, для операции исключения можно указать область действия: запрос A ~~ B найдет документы (страницы), в которых присутствует А, но не присутствует В, а запрос А ~ Б -документы, где слово Б не присутствует со словом А в одном предложении. Аналогично, оператор & ищет сочетания ключевых слов в предложении, а && - во всем документе. Оператор ! позволяет отключить морфологию для конкретного слова, а !! позволяет указать нормальную форму, что позволяет обойти некоторые проблемы связанные с омонимией. Например запрос !!Иванов будет находить Иванова и Ивановых, но не Ивана.

Результаты поиска по умолчанию Яндекс выводит по 10 ссылок на каждой странице выдачи результатов, в настройках результатов поиска можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличатся, т.к. обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено очень много ссылок, страница результатов предлагает ограничить диапазон поиска - по региону (по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуации). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Качество поиска Время от времени алгоритмы Яндекса, отвечающие за релевантность выдачи, меняются, что приводит к изменениям в результатах поисковых запросов. Последние официально объявленные изменения произошли в марте 2004 г., апреле 2005 г. и январе 2007г. ; по неофициальным сведениям, их значительно больше.

В частности, эти изменения направлены против поискового спама, приводящего к нерелевантным результатам по некоторым запросам (реже - по целым семействам запросов). Против поискового спама, не отсеиваемого автоматически, применяется полуавтоматическая и ручная модерация выдачи (при помощи так называемых "белых оптимизаторов"), а также прямой отказ от индексации «злонамеренных» сайтов.

Главная страница Yandex.

Рекламные кампании «Яндекса» отличаются необычностью и простотой. Первым масштабным лозунгом, запущенным «Яндексом», является фраза «Найдётся всё!» и после паузы следовало добавление: «Со временем». Директор по рекламе «Яндекса» Светлана Кондрашова вспоминает: «Как и всё хорошее в этой жизни, данный слоган придумали сразу несколько человек - сотрудников компании, собравшихся в начале весны 2000 года для обсуждения своего телеролика». Само выражение быстро стало крылатым. Вторая часть слогана, «со временем» выдаётся поисковиком Яндекса, когда по запросу ничего не находится.

Информация о работе Информационно-поисковые системы