Информационно-поисковые системы

Автор работы: Пользователь скрыл имя, 29 Сентября 2013 в 17:43, контрольная работа

Краткое описание

Современный этап развития цивилизации характеризуется переходом наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений этого процесса является возникновение и развитие глобальной информационной компьютерной сети. Интернет - это большое количество полезной информации, для поиска которой необходимо затратить много времени.

Содержание

Введение…………………………………………………………….3

Каталог……………………………………...……………...5

Поисковая машина……………………...………………..7

Метапоисковая машина…...…………………………...10

Поиск источников информации……………………….13

Заключение………………………………………………………..16

Список используемой литературы…………………………….17

Прикрепленные файлы: 1 файл

контрольная.doc

— 97.00 Кб (Скачать документ)


           Содержание

 

Введение…………………………………………………………….3

 

  1. Каталог……………………………………...……………...5

 

  1. Поисковая машина……………………...………………..7

 

  1. Метапоисковая машина…...…………………………...10

 

  1. Поиск источников информации……………………….13

 

Заключение………………………………………………………..16

 

Список используемой литературы…………………………….17

 

 

 

 

 

 

 

 

 

 

 

 

      Введение

 

Современный этап развития цивилизации характеризуется переходом  наиболее развитой части человечества от индустриального общества к информационному. Одним из наиболее ярких явлений  этого процесса является возникновение и развитие глобальной информационной компьютерной сети. Интернет - это большое количество полезной информации, для поиска которой необходимо затратить много времени.

Информационный поиск - это поиск документов, сведений о них или фактов, соответствующих информационному запросу.

Поисковая система –  программно-аппаратный комплекс с Web-интерфейсом, предоставляющий возможность поиска информации в Интернете.

Не только Интернет стал толчком для создания Информационно-поисковых  систем. Предприятия, заводы, на которых существуют огромные базы данных, так же нуждаются в информационно-поисковых системах, но всё же в большей степени ИПС связаны с сетями.

Информационно-поисковая  система – совокупность средств для хранения, поиска и выдачи по запросу нужной информации. Поиск (размещение) информации в информационно-поисковой системе осуществляется вручную или с помощью ЭВМ в соответствии с принятым информационным языком по определенным правилам (алгоритму). Пример простейшей информационно-поисковой системы - библиотечный каталог; автоматизированные информационно-поисковые системы применяют в автоматизированных системах управления.

Большинство первых приложений, включая FTP и электронную почту, были разработаны исключительно для  обмена данными между хост-компьютерами Internet. Другие приложения, такие как Telnet, создавались для того, чтобы пользователь получил возможность доступа не только к информации, но и к рабочим ресурсам удаленной системы. По мере развития Internet (увеличения пользователей и хост-компьютеров) прежние методы обмена данными перестали отвечать возросшим потребностям пользователей. Возникла необходимость разработки новых способов поиска сетевых ресурсов и доступа к ним, которые позволяли бы использовать информацию независимо от ее формата и расположения.

Все поисковые системы  черпают исходную информацию из одного и того же Web-пространства, поэтому  исходные базы данных у них могут  быть относительно похожи. И лишь при  выдаче результатов поиска, каждая поисковая система начинает проявлять свои лучшие (или худшие) индивидуальные черты. 

  • Необходимо избегать прямолинейности поиска по одному слову. Давать поисковой системе группу ключевых слов, а еще лучше – фразу.
  • Для поиска по группе слов или по ключевой фразе использовать не какую попало поисковую систему, а ту, к которой наиболее привыкли. В разных системах используются разные правила для записи группы слов, и эти правила надо знать.
  • При использовании поиска по одному слову, лучше применять как можно больше разных поисковых систем. То, что они используют разные алгоритмы рейтингования, идет на пользу – это даст шанс не пропустить какой-то значимый ресурс.

 

 

 

 

 

 

 

 

 

 

 

 

    1. Каталог

 

Каталог – поисковая  система с классифицированным по темам списком аннотаций со ссылками на Web – ресурсы. Классификация, как правило, проводится людьми.

Поиск в каталоге очень удобен и  проводится посредством последовательного  уточнения тем. Тем не менее, каталоги поддерживают возможность быстрого поиска определенной категории или  страницы по ключевым словам с помощью локальной поисковой машины. База данных ссылок (индекс) каталога обычно имеет ограниченный объем, заполняется вручную персоналом каталога. Некоторые каталоги используют автоматическое обновление индекса.

Результат поиска в каталоге представляется в виде списка, состоящего из краткого описания (аннотации)  документов с гипертекстовой ссылкой на первоисточник.

При каталогизации ресурса опытный  редактор внимательно просматривает  его, определяет, к какой области  знаний относится данный ресурс, устанавливает его категорию в этой отрасли и вносит ресурс каталог.

Самый крупный каталог интернета  – Yahoo (www.yahoo.com). В нем работают более 150 квалифицированных редакторов. Это большая организация, но и ее усилий хватает лишь на то, чтобы поддерживать каталог на уровне примерно 1 миллиона ресурсов. Дальнейшее расширение сдерживается необходимостью поддерживать уровень актуальности. Сегодня редакторы Yahoo заняты не столько наполнением каталога новыми ресурсами, сколько проверкой актуальности ресурсов, каталогизированных ранее.

В российской части интернета тоже есть несколько каталогов. В недавнем прошлом лучшим считался каталог  @Rus (www.artrus.ru), но в последний год он заметно коммерциализировался, поменял направленность и сейчас представляет не столько каталог, сколько группу тематических Web-порталов, собранных под одним доменным именем и посвященных обществу, музыке, спорту, здоровью и т.д.

Лишь в категории  «Интернет» @Rus продолжает оставаться полноценным каталогом с базой данных среднего размера (порядка 10 тыс. классифицированных ссылок). Ведущим же каталогом России в настоящее время стал ресурс List.Ru (www.list.ru). Его активы – примерно 100 тыс. ссылок, классифицированных по 18 категориям (Автомобили, Вокруг света, отдых, Образование и наука и т.д.). С большим отставанием за ним следуют еще два каталога: «Созвездие Интернет» (www.stars.ru) и «Russia on the Net» (www.ru). Их активы примерно равнозначны и составляют 35-40 тыс. ссылок, но активы «Созвездия» выглядят более актуальными.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

    1. Поисковая машина

 

Интернет представляет собой постоянно растущий огромными темпами массив информации. Для того, чтобы каким-то образом упорядочить этот непрерывный поток данных и, самое главное, иметь возможность находить в этом потоке необходимую информацию, были созданы поисковые машины. Каждый такой поисковик имеет свой индекс, который несет служебную информацию о содержимом проиндексированных страниц и документов.

Поисковая машина (поисковый движок) – комплекс программ, обеспечивающий функциональность поисковой системы и являющийся коммерческой тайной компании – разработчика поисковой системы.

Поисковые машины представляют собой функциональные устройства в  работе, которых применяется следующий  алгоритм работы: по вводимым ключевым словам пользователя они проводят сбор информации зарегистрированных ресурсов (индексацию) выводя окончательный результат в виде списка, построенных с учетом посещаемости ресурса. Так, чем выше посещаемость, тем выше он по списку обнаруженных страниц. Различия заключаются лишь в том, каждый поисковик применяет свой способ индексирования и подсчета посещаемости.

Технологии, применяемые  в машинах поиска, меняются постоянно  в силу технологического прогресса  и других немаловажных обстоятельств, в частности азартный соблазн  обхитрить «робота» разработчиками Web-сайтов. Зная особенности той или  иной поисковой системы можно внести свои особенности в код страницы. Чтобы поспеть за изменениями следует регулярно обновлять свои познания в этой области, и в том числе, с помощью подписки на информационные бюллетени о состоянии дел в индустрии поисковых машин.

Поисковые машины (ПМ) осуществляют поиск только в пределах собственной базы данных ПМ (индекса). И конечно, объем, и новизна сведений определяется тем, как часто обновляется база данных.

Крупные ПМ индексируют информацию подобно каталогу в библиотеке. Храня  большой объем информации, они должны уметь быстро находить требуемые документы по заданным ключевым словам или фразам. Но самих Web-страниц еще больше, чем непосредственно данных о них. Интернет в целом не имеет никакой четкой структуры, и объединяет множество весьма разнообразных по содержанию и авторскому оформлению сайтов. Это делает почти невозможным для поисковой машины применение стандартных методов, используемых в управлении базой данных и в обычном информационном поиске.

Популярный поисковик Google – самая крупная поисковая машина в мире (с базой данных из нескольких миллиардов файлов) – охватывает лишь малую долю данных, содержащихся во всей мировой Web – сети. Не следует забывать, что Web растет быстрыми темпами. Исследования, выполненное в 2000г. (Lyman, Varian и др.), обнаружило приблизительно 7,5 млн страниц, добавляемых каждый день. Таким образом невозможно представить, что какая-либо поисковая машина будет когда-нибудь иметь ежедневно обновляемые данные обо всех сайтах сети.

Кроме того, существует так называемая «невидимая сеть», представляющая собой более 550 млрд. документов (Lyman, Varian и др. – 2000г.), с которыми поисковые машины или не знакомы (не связаны с другими сайтами), или не могут получить к ним доступ (некоторые участники защищены паролем), или их технология просто не позволяет им «захватить» эти страницы (например, со сложными типами файлов: визуальными, аудиофайлами, мультипликацией, сжатыми файлами и т.д.). Поддержка базы данных ПМ требует инвестиций для обеспечения работы, обновления технических ресурсов и продолжения научных исследований.

Базы данных поисковых машин  постоянно изменяются. Google может иметь больше страниц, внесенных в свой  индекс, чем, скажем, Yandex (www.yandex.ru). Однако, например, если Yandex обновил свои данные быстрее, чем Google, то даже при его относительно небольшом числе страниц это может дать пользователю более свежие и разносторонние результаты. Кроме чисто технических факторов, здесь нужно принимать во внимание много других.

Поскольку поисковые машины часто  возвращают результаты несоответствующие  текущим запросам, актуальной остается проблема своевременного обновления информации в базах данных ПМ. Кроме новых  страниц, которые каждый день появляются в сети, непрерывно обновляются и старые. Когда Web-мастер загружает страницу на сервер, а затем делает ее доступной для поиска через «Submit URL» в поисковой машине или когда страница обнаружена поисковой машиной через ссылку с другого сайта, именно на этот момент ее содержание будет проиндексировано поисковой машиной.

Технические ресурсы обычно рассчитаны на то, что поисковая машина обновляет  информацию каждые 4-6 недель, а то и реже. Представители Google, например, утверждают, что обновляют десятки миллионов страниц ежедневно, но все это – лишь ничтожная часть имеющейся в сети информации.

Так, если даже внешне поисковые машины кажутся вам похожими, то, что  вы видите в их результатах по вашим  запросам, зависит от сайтов, которые  они индексируют, от новизны их баз  данных и того, как они сортируют и преподносят результаты пользователю.

Не всегда понятно, как определять сам термин «поисковая машина», потому что даже спайдеры каталогов иногда ищут информацию и возвращают результаты. Так, например, Google ищет информацию и  выдает результаты из Open Directory (www.dmoz.org), а Yandex имеет собственный каталог поиска. Однако для каталогов эти результаты вторичны, поскольку так происходит, если определенная информация отсутствует в их собственных списках (это так называемые «выпадающие» или «проваливающиеся» результаты). Работа поисковых машин и каталогов, несмотря на некоторое сходство, имеет много различий. Правильнее говорить о том, что большинство поисковых сервисов стоит рассматривать как гибриды.

    1. Метапоисковая машина

 

Каждый традиционный поисковик имеет только свой собственный ограни-ченный своими ресурсами перечень (индекс) документов, которые доступны для поиска. Ни одна из подобных систем не может охватить всех ресурсов, которые существуют в Интернет. Поэтому, может возникнут ситуация, когда пользователя не удовлетворяют результаты поисковой выдачи. Обычно, в этом случае, пользователь переходит на другой поисковик и пытается найти то, что ему нужно, там. Логичным решением, в таком случае, является поиск не одним, а несколькими поисковиками, для получения более релевантного результата. Именно такую возможность предлагают метапоисковые системы.

Метапоисковые системы (поисковые  службы) – системы, способные послать  запросы пользователя одновременно нескольким поисковым серверам, затем объединить полученные результаты и представить их пользователю в виде документа со ссылками.

Метапоисковые машины не имеют собственных  поисковых баз данных (исключение – nigma.ru), не содержат никаких индексов и для поиска используют базы данных других поисковых систем. Принцип работы метапоисковика заключается в следующем: запрос пользователя преобразуется в запросы, отформатированные синтаксически и логически конструкции оптимальные для каждого отдельного, «традиционного» поисковика, т.е. из одного запроса метапоисковый механизм делает ряд запросов, которые адресуются нескольким «обычным» поискам.

Т.о., метапоисковые системы объединяют для достижения результатов индексы  поисковых серверов различных специализаций. В рамках одной метапоисковой системы можно осуществлять поиск информаций различного типа. Метапоисковые системы не предназначены для индексирования данных, их назначение – чистый поиск и обработка результатов поиска. Все метапоисковые системы сортируют результаты поиска таким образом, чтобы избежать дублей и одинаковых страниц в выдаче, найденных различными поисковыми системами.

Vivisimo представляет собой метапоисковую систему, которая собирает данные, используя индексы нескольких поисковых машин одновременно. Vivisimo обладает набором уникальных, нигде больше не встречающихся функций. Большинство метапоисковых систем отсылают запрос пользователя в несколько поисковиков одновременно, а затем результаты, попавшие в начало списков, выводят в качестве ответа на запрос. Vivisimo работает таким же обра-зом, но кроме этого, сортирует результаты поиска по группам со схожим смыс-лом. Это бывает полезно, когда существуют разные варианты вводимых ключе-вых слов. Результаты поиска объединяются в список все более узких подразде- лов, что делает возможным обходиться без дополнительных поисковых запросов.

Информация о работе Информационно-поисковые системы