Автор работы: Пользователь скрыл имя, 23 Апреля 2014 в 20:34, реферат
Задачей в данной работе рассматриваются теоретические основы автоматизированного информационного поиска, классификация и разновидности информационно поисковых систем. Также анализируется материал по применяемым в настоящее время информационно - поисковым каталогам полнотекстовых и гипертекстовых поисковых систем.
При появлении сети Internet проблема поиска становилась более актуальной. Internet - всемирная компьютерная сеть, представляющая собой единую информационную среду и позволяющая получить информацию в любое время. Но с другой стороны в Интернете хранится очень много полезной информации, но для поиска её требуется затрачивать много времени. Эта проблема послужила поводом к появлению поисковых систем.
Введение..................................................................................................................3
1.Понятие информационных поисковых систем.................................................4
2.Краткая история развития поисковых систем...................................................6
3.Особенности поисковых систем.........................................................................7
4. Состав и принципы работы поисковой системы.............................................8
5.Структура работы поисковых систем................................................................9
6.Интерфейсы поисковых систем в России........................................................11
Заключение............................................................................................................15
Список литературы...............................................................................................16
Работа поискового указателя происходит в три этапа, из которых два первых являются подготовительными и незаметны для пользователя. Сначала поисковый указатель собирает информацию из World Wide Web. Для этого используют специальные программы, аналогичные браузеры. Они способны скопировать заданную Web-страницу на сервер поискового указателя, просмотреть ее, найти все гиперссылки, которые на ней имеют те ресурсы, найденные там, снова разыскать имеющиеся в них гиперссылки. Подобные программы называют червяками, пауками, гусеницами, краулерами, спайдерами и другими подобными именами. Каждый поисковый указатель эксплуатирует для этой цели свою уникальную программу, которую нередко сам и разрабатывает. Многие современные поисковые системы родились из экспериментальных проектов, связанных с разработкой и внедрением автоматических программ, занимающихся мониторингом Сети. Теоретически, при удачном входе спайдер способен прочесать все Web-пространство за одно погружение, но на это надо очень много времени, а ему еще необходимо периодически возвращаться к ранее посещенным ресурсам, чтобы контролировать происходящие там изменения и выявлять «мертвые» ссылки, т. е. потерявшие актуальность.
После копирования разысканных Web-ресурсов на сервер поисковой системы начинается второй этап работы - индексация. В ходе индексации создаются специальные базы данных, с помощью которых можно установить, где и когда в Интернете встречалось, то или иное слово. Считайте, что индексированная база данных - это своего рода словарь. Она необходима для того, чтобы поисковая система могла очень быстро отвечать на запросы пользователей. Современные системы способны выдавать ответы за доли секунды, но если не подготовить индексы заранее, то обработка одного запроса будет продолжаться часами.
На третьем этапе происходит обработка запроса клиента и выдача ему результатов поиска в интерфейсе списка гиперссылок. Допустим, клиент хочет узнать, где в Интернете имеются Web-страницы, на которых упоминается известный голландский механик, оптик и математик Христиан Гюйгенс. Он вводит слово Гюйгенс в поле набора ключевых слов и нажимает кнопку «Найти» (Search). По своим базам указателей поисковая система в доли секунды разыскивает подходящие Web-ресурсы и формирует страницу результатов поиска, на которой рекомендации представлены в интерфейсе гиперссылок. Далее клиент может пользоваться этими ссылками для перехода к интересующим его ресурсам.
Все это выглядит достаточно просто, но на самом деле здесь есть проблемы. Основная проблема современного Интернета связана с изобилием Web-страниц. Достаточно ввести в поле поиска такое простое слово, как, например, футбол, и российская поисковая система выдаст несколько тысяч ссылок, сгруппировав их по 10-20 штук на отображаемой странице.
Впрочем, для рядового потребителя совершенно все равно, выдадут ему тысячу результатов поиска или миллион. Как правило, клиенты просматривают не более 50 ссылок, стоящих первыми, и что там делается дальше, мало кого беспокоит. Однако клиентов очень и очень беспокоит качество самых первых ссылок. Клиенты не любят, когда в первом десятке встречаются ссылки, утратившие актуальность, их раздражает, когда подряд идут ссылки на соседние файлы одного и того же сервера. Самый же плохой вариант - когда подряд идут несколько ссылок, ведущих к одному и тому же ресурсу, но находящемуся на разных серверах.
Клиент вправе ожидать, что самыми первыми будут стоять наиболее полезные ссылки. Вот здесь и возникает проблема. Человек легко отличает полезный ресурс от бесполезного, но как объяснить это программе? Поэтому лучшие поисковые системы проявляют чудеса искусственного интеллекта в попытке отсортировать найденные ссылки по качественности их ресурсов. И делать это они должны быстро - клиент не любит ждать.
Все поисковые системы черпают исходную информацию из одного и того же Web-пространства, поэтому исходные базы данных у них могут быть относительно похожи. И лишь на третьем этапе, при выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индиинтерфейсуальные черты. Операция сортировки полученных результатов называется ранжированием. Каждой найденной Web-странице система присваивает какой-то рейтинг, который должен отражать качество материала. Но качество - понятие субъективное, а программе нужны объективные критерии, которые можно выразить числами, пригодными для сравнения.
Высокие рейтинги получают Web-страницы, у которых ключевое слово, использованное в, запросе, входит в заголовок. Уровень рейтинга повышается, если это слово встречается на Web-странице несколько раз, но не слишком часто. Благоприятно влияет на рейтинг вхождение нужного слова в первые 5-6 абзацев текста - они считаются самыми важными при индексации. По этой причине опытные Web-мастера избегают давать в начале своих страниц таблицы. Для поисковой системы каждая ячейка таблицы выглядит, как абзац, и потому содержательный основной текст как бы далеко отодвигается назад (хотя на экране это и не заметно) и перестает играть решающую роль для поисковой системы.
Очень хорошо, если ключевые слова, использованные в запросе, входят в альтернативный текст, сопровождающий иллюстрации. Для поисковой системы это верный признак того, что данная страница точно соответствует запросу. Еще одним признаком качества Web-страницы является тот факт, что на нее есть ссылки с каких-то других Web-страниц. Чем их больше, тем лучше. Значит, эта Web-страница популярна и обладает высоким показателем цитирования. Самые совершенные поисковые системы следят за уровнем цитирования зарегистрированных ими Web-страниц и учитывают его при ранжировании.
Из поисковых указателей в России сегодня действуют три «кита». Это «Рамблер» (www.rambler.ru), «Яндекс» (www.yandex.ru) и «Мэйл» (www.mail.ru).
История развития и становления поисковой системы «Рамблер» берет начало в подмосковном городе Пущино. В 1991 году там появилась группа единомышленников вдохновленных идей только зарождающегося интернета. Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов - это имена создателей Поисковой системы, которая в дальнейшем получит название Rambler. Один из основателей Сергей Лысаков при помощи своей компании "Стек" занялся локальными сетями и подключением к Интернету. Они сами создали внутри города сеть и подключили ее к Москве, а уже через Москву к мировому Интернету, присоединившись так же к сети Курчатовского института атомной энергии. И уже на следующий 1992 год компания запустила свои собственные ftp и mail серверы, а двумя годами позже в 1994, свой первый www сервер. Самый продуктивный и "ключевой" год для российского Рунета 1996 год ознаменовался для основателей тем, что было принято решение по разработке первой русской поисковой системы для Интернета. Придумав название Rambler, к осени 1996 года был создан окончательный вариант поисковика, а 26 сентября зарегистрирован домен с названием rambler.ru. В начале 1997 года стартовал Ramblers Top100-рейтинг классификатор, который в некоторой степени явился переломным моментом в истории Рунета. С возникновением такого универсального рейтинга и счетчика, каждый вебмастер старался занять как можно более высокую позицию в рейтинге, что в свою очередь позволило Rambler-у окрепнуть и укорениться в сознании пользователей и вебмастеров. В середине 2003 года компания запустила обновленную версию Поисковой системы, которая отличалась от предыдущей по нескольким параметрам в частности поисковый индекс стал обновляться по нескольку раз в день, появилась возможность находить самые свежие документы в том числе и последние новости. Появился механизм ассоциаций, позволивший точнее формулировать свой запрос пользователям. Изменения так же коснулись и почтового сервиса и защиты данных. 2004 год ознаменовался тем, что был запущен проект Rambler Vision -это интерактивный мультимедийный портал в Рунете. В этом же году Rambler стал обладателем ряда наград, премий и дипломов. Следующий 2005 год стал для Rambler-а удачным в плане сотрудничества с новыми компаниями. Появилась Rambler ICQ. В 2006 году компания Rambler получает титул "супербренда" и одной из самых узнаваемых торговых марок России. В этом же году празднуется юбилей десятилетия компании Rambler.2007 год для компании стал годом совершенствования и ростом серьезных партнерских отношений с другими компаниями, благодаря чему были существенно развиты сервисы и материалы портала. В этом же году компания Rambler становится основным акционером сервиса контекстной рекламы "Бегун". К 2008 году компания Rambler продолжает четко следовать выбранному направлению, развивая при этом выбранные приоритетные направления, которые обозначены как: "Поиск, коммуникации, медиа и развлечения".
Одна из самых крупнейших на сегодняшний день поисковых систем интернета Яндекс берет начало еще в 1990 года, когда была разработана программа поискового обеспечения в компании "Аркадия". За более чем два года работы были созданы две Поисковые системы "Международная классификация изобретений" и "Классификатор товаров и услуг". Каждая из систем работала локально под DOS, что позволяло производить поиск из заданного словаря со стандартными логическими операторами. 1993 г. Компания "Аркадия" преобразовалась в подразделение компании CompTek. В период с 93-94 годов технологии программного обеспечения были значительно улучшены благодаря сотрудничеству с лабораторией Ю.Д. Апресяна (Институт проблем передачи информации РАН). Словарь, предоставляющий базу для поиска с учетом морфологии языка стал занимать всего 300 Кб, и мог полностью загружаться в оперативную память, что в свою очередь существенно ускоряло его работу. А это благоприятно сказывалось на пользователях, которые получили возможность задавать любые формы слов. 1996 г. Разработан алгоритм "построения гипотез". Это позволило морфологическому разбору дистанцироваться от словаря, что дало возможность производить поиск по наиболее похожим словам и словосочетаниям и строить свою модель словоизменения. В том же году стало достаточно понятно, что компания CompTek способна создать свою глобальную Поисковую систему Интернета. А так как Интернет только зарождался, то объем информации по Рунету составлял всего несколько Гигабайт. Так осенью 1997 г. появилась компания. Поисковая система Yandex.ru. Представление Яндекса было на выставке Softool. Что же отличало эту поисковую систему от других? Прежде всего, это использование морфологии русского языка в ядре поисковой системы, а также проверка документа или страницы на уникальность. В данное время Поисковая система Яндекс это одна из крупнейших поисковых систем Рунета и можно сказать это лидер в области Поисковых запросов и предоставляемых сервисов. Сейчас поиск производится на более чем 4 млрд. страницах. Достаточно высокая релевантность поисковой выдачи, а так же расширенные возможности поиска информации дают возможность на дальнейшее развитие и процветание этой поисковой системы.
Mail.ru представляет собой прекрасно
организованный и
Поиск, с применением поисковых машин, является самым распространенным и эффективным методом поиска чего-то конкретного в сети Интернет.
Считается, что идеальная поисковая машина должна отвечать следующим требованиям:
1. простота в использовании
2. чётко организованный и
3. быстрый поиск в базе данных и быстрое реагирование.
4. надёжность и точность
Масштабы информационных ресурсов и их количество постоянно расширяется. Становится ясно, что база данных не является совершенной. Интеллектуальные агенты - новое направление, лежащее в основе нового поколения поисковых машин, которые могут фильтровать информацию и получать более точный результат. Internet продолжает развиваться с неослабевающей интенсивностью, по сути дела стирая ограничение на распространение и получение информации в мире. Однако в этом информационном океане бывает не очень легко найти необходимый документ следует также иметь в интерфейсу, что в сети наряду с давно действующими серверами возникают новые. Поисковые системы Интернета, пожалуй, один из способов двигаться вперед по направлению развития и совершенствования. Развиваясь, сами Поисковые системы, развивают все остальное вокруг себя выгодно принуждая совершенствовать качество самого Интернета, а так же технологий связанных с этим. Как и во всех других отраслях, в Интернете существуют свои лидеры, которые прошли испытание временем и добились каких либо значимых результатов, что в свою очередь позволило занять определенные ниши и позиции в мировой паутине. Поисковые системы Интернета, словно огромные столпы на которых держится весь процесс движения. Конечно, много может быть несовершенно как в поиске, так и в технологиях, и в наши дни, несмотря на то, что уже достаточная доля Интернет трафика имеет свои предпочтения все же в Интернете появляются новые поисковые системы, которые, к сожалению так и остаются неизвестными.
Имеется ли альтернатива для Поисковых систем Интернета? На этот вопрос однозначно ответить, пожалуй, не получится, так же как не получится ответить на вопрос имеется ли альтернатива автотранспорту. Возможно, и есть и в случае приложения, каких либо умственных усилий в поисках альтернативного направления Поисковым системам можно создать нечто новое, однако стоит ли изобретать колесо повторно... Конечно, в том интерфейсе, в котором существуют Поисковые системы сейчас в Интернете долго продержаться не смогут, так как подгоняемый технологическим процессом Интернет заставляет считаться с нововведениями и отставание от этого может пагубно отразиться на Поисковых системах, поэтому происходит постоянное совершенствование и развитие, как самих Поисковых систем так и всех остальных участников Интернета.