Информационно-поисковые системы

Автор работы: Пользователь скрыл имя, 27 Июля 2013 в 05:24, реферат

Краткое описание

Цель работы – описать и дать характеристику информационно-поисковым системам.
Данная цель решается с помощью раскрытия следующих основных задач:
1) описать принципы работы поисковых машин;
2) дать характеристику глобальным поисковым системам;
3) описать стратегию и методику профессионального поиска информации.

Содержание

Введение
1. Сущность поисковых машин
2. Глобальные поисковые системы
2.1. Поисковая система Google
2.2. Поисковая система AlltheWeb
2.3. Поисковая система Alta Vista
3. Информационно-поисковая система по законодательству - Garant
4. Стратегия и методика профессионального информационного поиска
Заключение
Список использованной литературы

Прикрепленные файлы: 1 файл

Реферат Информационно-поисковые системы ФРАГМЕНТЫ.docx

— 49.52 Кб (Скачать документ)

Обычно же поисковые cистемы состоят из трех компонент:

1. Агент (паук или кроулер), который перемещается по Сети и собирает информацию.

2. База данных, которая содержит всю информацию, собираемую пауками.

3. Поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.

Информационные системы, в которых  хранение и обработка информации осуществляются с помощью вычислительной техники, называют автоматизированными.

Работа многих поисковых машин  считается вполне успешной. Однако все современные поисковые системы  страдают некоторыми серьёзными недостатками:

1. Поиск по ключевым словам даёт слишком много ссылок и многие из них бесполезны.

2. Огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.

3. Методы индексирования баз данных, как правило, не связаны с информационным содержанием.

 

Информационный поиск - процесс  отыскания в некотором множестве  текстов (документов) всех таких, которые  посвящены указанной в запросе  теме (предмету) или содержат нужные потребителю факты, сведения. Информационный поиск осуществляется посредством  информационно-поисковой системы  и выполняется вручную либо с  использованием средств механизации  или автоматизации. Непременным  участником информационного поиска является человек. В зависимости от характера информации, которая содержится в выдаваемых информационно - поисковой системой текстах, информационный поиск может быть документальным, в том числе библиографическим, и фактографическим. Информационный поиск нужно отличать от логической переработки информации, без которой невозможна непосредственная выдача человеку ответов на задаваемые им вопросы. При информационном поиске отыскиваются -  и могут быть найдены - такие и только такие факты или сведения, которые были введены в информационно-поисковую систему. Перед вводом в информационно-поисковую систему текста (документа) определяется его основное смысловое содержание (тема или предмет), которое затем переводится и записывается на одном из информационно-поисковых языков. Эта запись называется поисковым образом текста. Поступивший запрос также переводится на информационно-поисковый язык, образуя поисковое предписание. Поскольку поисковые образы текстов и поисковые предписания записаны на одном и том же языке, выражения на котором допускают только одно истолкование, то, возможно сравнивать их формально, не вникая в смысл. Для этого задаются определённые правила (критерии соответствия), устанавливающие, при какой степени формального совпадения поискового образа с поисковым предписанием текст следует считать отвечающим на информационный запрос и подлежащим выдаче. 

Техническая эффективность информационного  поиска характеризуется двумя относительными показателями - коэффициентом точности (отношением числа текстов, отвечающих на информационный запрос, к общему числу текстов в данной выдаче) и коэффициентом полноты (отношением числа текстов, отвечающих на информационный запрос, к общему числу таких текстов, содержащихся в данной информационно-поисковой  системе). Необходимые значения этих показателей зависят от специфики  информационных потребностей. Например, при поиске патентных описаний с  целью проведения экспертизы патентной  заявки на новизну необходима 100%-ная  полнота выдачи; при поиске, ориентированном  на обычного исследователя или инженера, очень хорошей считается точность выдачи около 80% , полнота - около 50%.

 

Рис.1 Процесс поиска

ИП может быть двух типов - избирательное (или адресное) распространение информации и ретроспективный поиск. При  избирательном распространении  информации ИП производится по постоянным запросам некоторого числа потребителей (абонентов), осуществляется периодически (обычно один раз в неделю или  в две недели) и выполняется  лишь в массиве текстов, поступивших  в информационно-поисковую систему  за этот период времени. Между поисковой  системой и потребителями (абонентами) устанавливается эффективно действующая  обратная связь (абонент сообщает, в  какой степени этот текст соответствует  запросу и нужна ли ему копия  полного текста, о степени соответствия этого текста его информационной потребности), которая позволяет  уточнять потребности абонентов, своевременно реагировать на изменения этих потребностей и оптимизировать работу системы. При  ретроспективном поиске поисковая  система отыскивает содержащие требуемую  информацию тексты во всём накопленном  массиве текстов по разовым запросам.

Информационно-поисковый язык - знаковая система, предназначенная для описания (путём индексирования) основного  смыслового содержания текстов (документов) или их частей, а также для выражения  смыслового содержания информационных запросов с целью реализации информационного  поиска. Любой абстрактный информационно-поисковый  язык состоит из алфавита (списка элементарных символов), правил образования и  правил интерпретации. Правила образования  устанавливают, какие комбинации элементарных символов допускаются при построении слов и выражений, а правила интерпретации - как надлежит понимать эти слова  и выражения.

Поисковый язык должен располагать  лексико-грамматическими средствами, необходимыми для выражения основного  смыслового содержания любого текста и смысла любого информационного  запроса по данной отрасли или  предмету, быть недвусмысленным (допускать  одно истолкование каждой записи), удобным  для алгоритмического сопоставления  и отождествления (полного или  частичного) записей основного смыслового содержания текстов и смыслового содержания информационных запросов. При разработке конкретного поискового языка учитываются специфика  отрасли или предмета, для которой  этот язык создаётся, особенности текстов, образующих поисковый массив, характер информационных потребностей, для удовлетворения которых создается данная информационно - поисковая система.

В большинстве поисковых языков основной словарный состав (лексика) задаётся его перечислением и  представляет собой фрагмент лексики  того или иного естественного  языка. Отобранные из естественного  языка слова и словосочетания, в совокупности образующие основной словарный состав, служат как бы алфавитом данного поискового языка. Правила образования в таких  поисковых языках выполняют функцию  синтаксиса. В некоторых поисковых  языках основной словарный состав задаётся (полностью или частично) методом  порождения, который заключается  в том, что для таких языков правила образования устанавливают, как из данного алфавита строить  слова, а из этих слов - выражения (фразы) и какие из них будут правильно  построенными. В середине 20 в. В качестве поисковых языков широко применяются классификации библиотечно-библиографические и языки дескрипторного типа.

Рассмотрим типовую схему поисковой  системы:

 

Рис.1 Структура ИПС для Internet

На этой схеме обозначены:

client - это программа просмотра конкретного информационного ресурса. В настоящее время наиболее популярны мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов World Wide Web, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.

user interface - интерфейс пользователя - это не просто программа просмотра. В случае информационно-поисковой системы под этим словосочетанием понимают и способ общения пользователя с поисковым аппаратом системы, т.е. с системой формирования запросов и просмотров результатов поиска. Просмотр результатов поиска и информационных ресурсов сети - это совершенно разные вещи, на которых остановимся чуть позже.

search engine - поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.

index database - индекс - это основной массив данных информационно-поисковой системы. Он служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.

queries - запросы пользователя сохраняются в его личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы.

index robot - робот-индексировщик служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.

www sites - это весь Internet. А если говорить более точно, то это те информационные ресурсы, просмотр которых обеспечивается программами просмотра.

 

3. Поисковая система Google

3.1. История создания и принципы  работы Google

Поисковая система Google была создана  в качестве учебного проекта студентов  Стэнфордского университета Ларри Пейджа и Сергея Брина. Они в 1996 году работали над поисковой системой BackRub, а в 1998 году на её основе создали поисковую систему Google.

Название Google произошло от неправильного  написания слова Гугол (Googol) Сергеем Брином, которое означает десять в сотой степени - 10100.

Google использует алгоритм расчёта  авторитетности PageRank. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. PageRank не единственный, но очень важный способ определения положения сайта в результатах поиска Google. Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска. Если рассматриваемая страница действительно такая важная, что ее стоит прочитать, скорее всего, на нее уже ссылаются другие источники. Верно и обратное: если на документ никто не ссылается - кому он тогда нужен?! Причем PageRank - это не просто общая сумма ссылок, это нормализованное отношение количества ссылок, приводящих на данную страницу, к количеству исходящих c нее.

Кроме расчетов PageRank и запоминания текста ссылок, Google хранит шрифтовой размер и смещение каждого слова относительно начала документа. Благодаря тому что система знает конкретное место каждого слова в документе, становится возможен так называемый поиск по наиболее близкому расположению слов друг относительно друга. Например, по запросу ИПС найдет много документов у себя в базе данных, но в отчет в первых строках пойдут только те, в которых находится максимально близко слева от .

Интерфейс Google содержит довольно сложный  язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.

Для некоторых результатов поиска Google ранее предоставлял повторное  поле для поиска, которое позволяет  пользователю найти то, что он ищет внутри конкретного веб-сайта.

22 сентября 2010 года компания запустила  голосовой поиск в России. Чтобы  осуществить поиск, необходимо  нажать в телефоне кнопку рядом  со строкой поиска и произнести  свой запрос, телефон отправит  ваш голос на сервер и браузер  выдаст строку с распознанным вашим запросом и результатами поиска по нему.

По случаю праздника или круглой  даты какой-нибудь широко известной  личности, стандартный логотип Google у региональных доменов может  меняться на праздничный, имеющий определённую тематику, смысл.

 

Главная страница Google

Особенности Google:

- Google полностью поддерживает фреймы

- Google индексирует следующие типы файлов - PDF, CGI, ASP, JSP, CFM, PHP.

- Google поддерживает метатэги - самый важный тэг - title.

- Google обновляет свои базы - раз в 60 дней.

- Среднее время индексации в Google - от 48 часов до 2 недель.

- В Google нет быстрой индексации.

- Google предоставляет данные для - Topclick.com, Yahoo, Netscape, EarthLink.net

- Ключевые слова должны упоминаться в первой трети документа. Необходимо использование синонимов и слов по выбранной теме по всему сайту.

- Для поисковой системы Google рекомендуемая частота ключевых слов - от 0 до 12%.

- При отсутствии внешних ссылок Google не будет индексировать документ (Для Google оптимальное число внешних ссылок на сайт - не менее 50).

 

3.2. Основные отличительные черты  Google:

- Одним из главных достоинств  является то, что Google не отворачивается  от творцов сайтов или веб-мастеров, предлагая хорошо продуманный интерфейс, благодаря которому они могут эффективно взаимодействовать с этой поисковой системой, имея в своём составе помимо справочной информации различные инструменты для оценки позиционирования сайтов в этой поисковой системе, причём, совершенно бесплатно.

- Еще одна важная черта поисковой  системы Google заключается в том,  что в Google хранятся описания  ссылок на проиндексированные  страницы. Эта особенность позволяет более адекватно проводить поиск в накопленной базе данных. Скажем, автор странички забыл указать ее название между тегами . Любая поисковая система при выдаче результатов поиска ставит высокий приоритет словам, указанным именно в названии. В этом случае Google будет ориентироваться по текстам ссылок на эту страничку, справедливо основываясь на предположении, что если кто-то ставит ссылку на что-то, то уж, по крайней мере, он эту страничку изучил и постарался наиболее емко отобразить ее содержание в тексте ссылки. Именно поэтому во всех наставлениях по правильному оформлению содержимого документов имеется следующий совет.

- Поисковая система не умеет  читать текст на изображениях, поэтому нужно тщательно прописывать  параметры alt в тегах изображения (Один из факторов работы робота-сканера изображений Googlebot-Image).

- Google умеет индексировать текст  внутри документов Shockwave Flash. Помимо этого индексируются документы: PDF, RTF, DOC, XLS (документы Excel), PPT (презентации PowerPoint).

- Роботы поисковой системы ходят  только по ссылкам в параметрах HREF и SRC.

Следует отметить, что есть возможность  управлять поведением поисковой  системы через метатеги страницы, однако не все из них поддерживаются. Например, фактически нет смысла использовать метатег keywords, так как релевантное соотношение ключевых слов в любом случае формируется исходя из ключевой плотности контента страницы.

Информация о работе Информационно-поисковые системы