Автор работы: Пользователь скрыл имя, 27 Июля 2013 в 05:24, реферат
Цель работы – описать и дать характеристику информационно-поисковым системам.
Данная цель решается с помощью раскрытия следующих основных задач:
1) описать принципы работы поисковых машин;
2) дать характеристику глобальным поисковым системам;
3) описать стратегию и методику профессионального поиска информации.
Введение
1. Сущность поисковых машин
2. Глобальные поисковые системы
2.1. Поисковая система Google
2.2. Поисковая система AlltheWeb
2.3. Поисковая система Alta Vista
3. Информационно-поисковая система по законодательству - Garant
4. Стратегия и методика профессионального информационного поиска
Заключение
Список использованной литературы
Обычно же поисковые cистемы состоят из трех компонент:
1. Агент (паук или кроулер), который перемещается по Сети и собирает информацию.
2. База данных, которая содержит всю информацию, собираемую пауками.
3. Поисковый механизм, который люди используют как интерфейс для взаимодействия с базой данных.
Информационные системы, в которых хранение и обработка информации осуществляются с помощью вычислительной техники, называют автоматизированными.
Работа многих поисковых машин
считается вполне успешной. Однако
все современные поисковые
1. Поиск по ключевым словам даёт слишком много ссылок и многие из них бесполезны.
2. Огромное количество поисковых машин с разными пользовательскими интерфейсами порождает проблему когнитивной перегрузки.
3. Методы индексирования баз данных, как правило, не связаны с информационным содержанием.
Информационный поиск - процесс
отыскания в некотором
Техническая эффективность информационного
поиска характеризуется двумя
Рис.1 Процесс поиска
ИП может быть двух типов - избирательное
(или адресное) распространение информации
и ретроспективный поиск. При
избирательном распространении
информации ИП производится по постоянным
запросам некоторого числа потребителей
(абонентов), осуществляется периодически
(обычно один раз в неделю или
в две недели) и выполняется
лишь в массиве текстов, поступивших
в информационно-поисковую
Информационно-поисковый язык - знаковая
система, предназначенная для описания
(путём индексирования) основного
смыслового содержания текстов (документов)
или их частей, а также для выражения
смыслового содержания информационных
запросов с целью реализации информационного
поиска. Любой абстрактный
Поисковый язык должен располагать
лексико-грамматическими
В большинстве поисковых языков
основной словарный состав (лексика)
задаётся его перечислением и
представляет собой фрагмент лексики
того или иного естественного
языка. Отобранные из естественного
языка слова и словосочетания,
в совокупности образующие основной
словарный состав, служат как бы
алфавитом данного поискового языка.
Правила образования в таких
поисковых языках выполняют функцию
синтаксиса. В некоторых поисковых
языках основной словарный состав задаётся
(полностью или частично) методом
порождения, который заключается
в том, что для таких языков
правила образования
Рассмотрим типовую схему
Рис.1 Структура ИПС для Internet
На этой схеме обозначены:
client - это программа просмотра конкретного информационного ресурса. В настоящее время наиболее популярны мультипротокольные программы типа Netscape Navigator. Такая программа обеспечивает просмотр документов World Wide Web, Gopher, Wais, FTP-архивов, почтовых списков рассылки и групп новостей Usenet. В свою очередь все эти информационные ресурсы являются объектом поиска информационно-поисковой системы.
user interface - интерфейс пользователя - это не просто программа просмотра. В случае информационно-поисковой системы под этим словосочетанием понимают и способ общения пользователя с поисковым аппаратом системы, т.е. с системой формирования запросов и просмотров результатов поиска. Просмотр результатов поиска и информационных ресурсов сети - это совершенно разные вещи, на которых остановимся чуть позже.
search engine - поисковая машина служит для трансляции запроса пользователя, который подготавливается на информационно-поисковом языке (ИПЯ), в формальный запрос системы, поиска ссылок на информационные ресурсы Сети и выдачи результатов этого поиска пользователю.
index database - индекс - это основной массив данных информационно-поисковой системы. Он служит для поиска адреса информационного ресурса. Архитектура индекса устроена таким образом, чтобы поиск происходил максимально быстро и при этом можно было бы оценить ценность каждого из найденных информационных ресурсов сети.
queries - запросы пользователя сохраняются в его личной базе данных. На отладку каждого запроса уходит достаточно много времени, и поэтому чрезвычайно важно хранить запросы, на которые система дает хорошие ответы.
index robot - робот-индексировщик служит для сканирования Internet и поддержки базы данных индекса в актуальном состоянии. Эта программа является основным источником информации о состоянии информационных ресурсов сети.
www sites - это весь Internet. А если говорить более точно, то это те информационные ресурсы, просмотр которых обеспечивается программами просмотра.
3. Поисковая система Google
3.1. История создания и принципы работы Google
Поисковая система Google была создана в качестве учебного проекта студентов Стэнфордского университета Ларри Пейджа и Сергея Брина. Они в 1996 году работали над поисковой системой BackRub, а в 1998 году на её основе создали поисковую систему Google.
Название Google произошло от неправильного написания слова Гугол (Googol) Сергеем Брином, которое означает десять в сотой степени - 10100.
Google использует алгоритм расчёта авторитетности PageRank. PageRank является одним из вспомогательных факторов при ранжировании сайтов в результатах поиска. PageRank не единственный, но очень важный способ определения положения сайта в результатах поиска Google. Google использует показатель PageRank найденных по запросу страниц, чтобы определить порядок выдачи этих страниц посетителю в результатах поиска. Если рассматриваемая страница действительно такая важная, что ее стоит прочитать, скорее всего, на нее уже ссылаются другие источники. Верно и обратное: если на документ никто не ссылается - кому он тогда нужен?! Причем PageRank - это не просто общая сумма ссылок, это нормализованное отношение количества ссылок, приводящих на данную страницу, к количеству исходящих c нее.
Кроме расчетов PageRank и запоминания текста ссылок, Google хранит шрифтовой размер и смещение каждого слова относительно начала документа. Благодаря тому что система знает конкретное место каждого слова в документе, становится возможен так называемый поиск по наиболее близкому расположению слов друг относительно друга. Например, по запросу ИПС найдет много документов у себя в базе данных, но в отчет в первых строках пойдут только те, в которых находится максимально близко слева от .
Интерфейс Google содержит довольно сложный язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.
Для некоторых результатов поиска Google ранее предоставлял повторное поле для поиска, которое позволяет пользователю найти то, что он ищет внутри конкретного веб-сайта.
22 сентября 2010 года компания запустила
голосовой поиск в России. Чтобы
осуществить поиск, необходимо
нажать в телефоне кнопку
По случаю праздника или круглой даты какой-нибудь широко известной личности, стандартный логотип Google у региональных доменов может меняться на праздничный, имеющий определённую тематику, смысл.
Главная страница Google
Особенности Google:
- Google полностью поддерживает фреймы
- Google индексирует следующие типы файлов - PDF, CGI, ASP, JSP, CFM, PHP.
- Google поддерживает метатэги - самый важный тэг - title.
- Google обновляет свои базы - раз в 60 дней.
- Среднее время индексации в Google - от 48 часов до 2 недель.
- В Google нет быстрой индексации.
- Google предоставляет данные для - Topclick.com, Yahoo, Netscape, EarthLink.net
- Ключевые слова должны упоминаться в первой трети документа. Необходимо использование синонимов и слов по выбранной теме по всему сайту.
- Для поисковой системы Google рекомендуемая частота ключевых слов - от 0 до 12%.
- При отсутствии внешних ссылок Google не будет индексировать документ (Для Google оптимальное число внешних ссылок на сайт - не менее 50).
3.2. Основные отличительные черты Google:
- Одним из главных достоинств
является то, что Google не отворачивается
от творцов сайтов или веб-
- Еще одна важная черта
- Поисковая система не умеет
читать текст на изображениях,
поэтому нужно тщательно
- Google умеет индексировать текст внутри документов Shockwave Flash. Помимо этого индексируются документы: PDF, RTF, DOC, XLS (документы Excel), PPT (презентации PowerPoint).
- Роботы поисковой системы
Следует отметить, что есть возможность управлять поведением поисковой системы через метатеги страницы, однако не все из них поддерживаются. Например, фактически нет смысла использовать метатег keywords, так как релевантное соотношение ключевых слов в любом случае формируется исходя из ключевой плотности контента страницы.