Автор работы: Пользователь скрыл имя, 12 Мая 2013 в 18:19, реферат
Поиск информации — непростая задача. По состоянию на начало 2000 г. ресурсы Web оцениваются более чем в 850 миллионов Web-страниц.
Разумеется, рост Web-пространства в геометрической прогрессии не будет продолжаться вечно. Когда-то наступит момент насыщения. Можно пред¬положить, что темпы развития WWW замедлятся на рубеже 3-4 млрд. Web-страниц. Одной из причин замедления, в частности, станет ограниченность поля IP адресов. Впрочем, к тому времени, наверное, уже заработает Интернет-2, и все будет по-другому.
Введение 3
Задачи и стратегии поиска 4
Средства поиска информациии в глобальной сети 5
Способы представления информации 9
Как работаю поисковые системы 11
Поисковые каталоги (системы) 14
Язык поисковых запросов. Приминение языка заппросов 16
Заключение 21
Способы представления информации
По способу представления информации источники можно разделить на следующие основные категории:
Web-страницы являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Этот ресурс представляет собой страницы так называемого гипертекста, то есть текста, который может содержать в себе ссылки. Взаимосвязанная логически и посредством ссылок совокупность гипертекстовых страниц, расположенная в одном месте, представляет собой единицу, называемую сайтом (site).
В процессе просмотра гипертекстовой страницы с помощью специальной программы - браузера - пользователь может осуществить переход на другую страницу, расположенную, возможно, совсем в другом месте. Таким образом, все Web-страницы в Интернете оказываются связаны между собой достаточно произвольным образом. Такой способ представления информации получил название Всемирной паутины (World Wide Web, или WWW).
Следует отметить, что, помимо собственно текста и ссылок, Web-страница может содержать информацию, представленную в произвольной форме: графической, звуковой, видео и т.д.
Стандартом на представление данных в Интернете является язык HTML - Hyper Text Markup Language, который распознается броузером. Такие формы представления информации, как аудио- и видеоинформация в режиме реального времени, также доступны с WWW-страниц, но требуют применения дополнительных программных средств.
Базы данных также могут иметь интерфейс в Интернете, иными словами, могут быть доступны через Сеть. Базы данных могут содержать произвольную информацию: публикации, табулированные данные и т.д.
В настоящий момент не существует какого-либо стандартного способа доступа к базам данных по сети Интернет. Наиболее прогрессивным способом является доступ к базам данных с помощью все тех же стандартных броузеров, так как этот способ обеспечивает максимальную потенциальную аудиторию потребителей информации.
Хотя, с точки зрения занимаемых ресурсов и времени доступа, хранение информации в базах данных осуществляется гораздо более эффективно, чем в формате HTML, для организации такого доступа со стороны базы данных необходимо использование специального программного обеспечения, осуществляющего преобразование данных к формату HTML "на лету", то есть в процессе исполнения конкретного пользовательского запроса.
Высокая ценность и большой объем информации, обычно размещаемой в базах данных, а также затраты на организацию доступа к данным со стороны Сети обусловливают в большинстве случаев платность доступа к базам данных в сети Интернет.
Файловые серверы являются традиционным способом хранения данных в Интернете и представляют собой компьютеры, часть дискового пространства которых доступна по Сети. Доступ к данным на таком сервере осуществляется с помощью специальных программ, поддерживающих протокол передачи файлов (FTP - File Transfer Protocol). Данный протокол в общем случае требует авторизации, то есть идентификации пользователя, запросившего доступ к данным. Для осуществления доступа к файлам со стороны произвольного пользователя Сети обычно используется так называемый анонимный вход (anonymous). Этот протокол обычно поддерживается стандартными броузерами.
Телеконференции также могут являться источником необходимой информации, как правило, носящей неофициальный характер. Телеконференции представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации. Все телеконференции разбиты по тематическому признаку на рубрики, иначе называемые группами новостей (news groups). Информация, помещенная в телеконференцию, становится на определенное время доступна всем желающим.
За распространение информации в такой форме отвечают специальные серверы. Каждый может разместить в группе свое сообщение (статью) или послать свой ответ на чужое. Таким образом, возможно получение немедленной обратной связи от множества лиц и детальное обсуждение какой-либо проблемы территориально разобщенными людьми. Благодаря последнему обстоятельству телеконференции наиболее популярны в научной среде и в частной жизни.
Телеконференции делятся на модерируемые (управляемые), то есть такие, размещение статей в которых производится специальным человеком - модератором, осуществляющим в основном цензурные функции, и немодерируемые, размещение статей в которых производится автоматически по запросу любого пользователя Сети. В Сети существуют архивы наиболее интересных телеконференций, которые также могут быть использованы для получения информации.
Как работают поисковые системы
Работа поисковой системы происходит в три этапа. На первом этапе она сканирует мировые ресурсы Web и собирает на свой сервер образы всех страниц, которые ей доведется посетить, - образуется первичный массив «неорганизованной» информации. На втором этапе этот массив приводится в порядок – преобразуется так, чтобы в нем очень быстро можно было найти то, что нужно клиенту. Этот этап называется индексацией. После этого система готова для работы с клиентами. На третьем этапе система принимает запрос клиента, смотрит, какие ключевые слова использованы в запросе, разыскивает их в своем указателе и отбирает те Web-документы, которые соответствуют запросу. Обычна ситуация, когда таких документов оказывается очень много, - тогда система выполняет ранжирование, то есть сортирует документы так, чтобы первыми в списке шли те, которые, с точки зрения системы, наиболее полезны пользователю. Этап ранжирования очень важен. Например, если мы ищем, где в Сети можно достать программу ICQ, то нам нужна только одна ссылка на сервер ее производителя. Нас не интересует многие тысячи ссылок на страницы, где название этой программы лишь упоминается. Разумеется, нам желательно, чтобы «главная» ссылка была если не самой первой в списке, то хотя бы входила в первую десятку.
Сбор информации происходит двумя основными способами: автоматически и вручную. Ручной сбор характерен для поисковых каталогов. «Человеческий» фактор по сравнению с автоматическими системами дает большой выигрыш в качестве. Во-первых опытные специалисты могут на глаз отличить полезные и ценные ресурсы, а во-вторых они способны выполнить их каталогизацию (распределить по категориям, темам, разделам и т. д.). Благодаря этому образуется не просто указатель, а каталог, с которым пользователю работать очень удобно. Недостатком ручной каталогизации является огромная трудоемкость и, соответственно, очень большие затраты на классификацию каждого документа. Автоматические системы действуют по другому. Они запускают в сеть, начиная с некоего адреса, программу-червя, которая копирует документ, находящийся по этому адресу. Просматривая документ «червь» находит вставленные в него гиперссылки, переходит по ним к новым документам, и далее процесс повторяется. Программа как бы постепенно «вгрызается» в Сеть, с каждым циклом погружаясь в нее все глубже и глубже. Непрерывно днем и ночью тысячи таких программ путешествуют по Web-пространству, копируя все, что им удалось найти, на серверы своих хозяев. Кроме ручной и автоматической каталогизации и индексации в Сети действуют и традиционные методы . Так, например, каждый Web-мастер может лично представить созданную им страницу поисковым системам и попросить редактора или «червя» посетить ее. Для этого надо просто заполнить стандартную форму и отправить ее по электронной почте.
После того как поисковые роботы скопируют все доступные документы на сервер своего хозяина, там образуется архив – некий неполный образ WWW. Работать с ним по нельзя, так как по каждому запросу пришлось бы делать полный просмотр всего архива, а это очень долго. Поэтому на втором этапе происходит индексация собранных ресурсов. На основе исходного материала готовится индексный файл. Принципов подготовки индексного файла может быть очень много, и каждая поисковая система имеет свои особые технологии. Самый простой тип индексного файла называется обратным файлом. Он делается так. Сначала составляется словарь составляется словарь по всем словам, встреченным во всех принятых документах, а потом для каждого слова записываютсяURL-адреса документов, в которых оно было встречено. Если теперь клиенту захочется узнать, где есть информация о телевизорах, и он выдаст задание на поиск по слову телевизор, то в ответ получит тот самый, заранее подготовленный список. Благодаря предварительной индексации поиск происходит очень быстро.
На третьем этапе происходит ранжирование результатов поиска, чтобы клиент в первую очередь получил те результаты, которые наиболее хорошо соответствуют его запросу.
Подобрав в ответ на запрос клиента несколько тысяч потенциально приемлемых документов, поисковая система должна их упорядочить. Обратите внимание на то, что клиенту, строго говоря, совершенно все равно, как система собирает информацию и как она ее индексирует. Ему нужны не тысячи ссылок, а единицы, при чем самые-самые полезные. Поэтому с идеологической точки зрения третий этап – самый важный. От него зависит успех и популярность поисковой системы. Если мы видим, что в ответ на наш запрос система выдает в первых десятках результатов ссылки на неактуальные ресурсы или дублирующиеся ссылки, то мы не будем пользоваться ее услугами, независимо от того, сколько миллионов долларов ее создатели вложили в оборудование, кадры и программное обеспечение. Пользователи легко уходят к менее мощным, но к более дружественным системам. Выполняя ранжирование результатов, поисковая система учитывает множество факторов. За одни факторы она начисляет положительный рейтинг, за другие – отрицательные. При чем каждая система делает это по своему, руководствуясь своим представлением о потребности клиента. Обычно положительные рейтинг получают страницы в следующих условиях:
Поисковые каталоги (системы)
То, что не в состоянии сделать не один человек, может быть по силам профессиональному коллективу. Существуют обширные библиотеки гиперссылок, заранее отсортированные по тематическому признаку, - такие поисковые системы называются поисковыми каталогами. На главной странице поискового каталога располагается список основных тематических разделов (рубрик). Например: финансы и экономика, государство и право, наука и образование, компьютеры, политика и т.д. Каждое имя в этом списке является внутренней гиперссылкой поискового каталога. Щелчок мышкой по гиперсылке вызывает на экран список заголовков следующего подраздела и т.д.. Такая система подобно дереву. Перемещаясь по дереву внутренних гиперссылок, каталога, пользователь в конечном итоге получает список внешних ссылок на искомые Web-документы. Самый известный поисковой каталог мира– Yahoo! (www.yahoo.com).
Пользоваться поисковыми каталогами предельно просто надо выбрать нужную категорию, например автомобили, затем в ней выбрать подкатегорию, а там – свои категории и готовые ссылки. Кроме простоты поиска, достоинством каталогов относится высокая актуальность и релевантность гиперссылок. С другой стороны, естественным недостатком поисковых каталогов является слабое количественное отражение ими подлинных ресурсов WWW. В целом по миру уровень каталогизации Web-ресурсов составляет менее десятой доли процента, да и этот показатель неуклонно падает, так как новые страницы создаются гораздо быстрее, чем идет их каталогизация
Список поисковых серверов и каталогов
Адрес |
Описание |
www.excite.com |
Поисковый сервер с обзорами узлов и путеводителями |
www.alta-vista.com |
Поисковый сервер,
имеются возможности |
www.hotbot.com |
Поисковый сервер |
www.poland.net |
Региональные поисковые серверы Польши, Израиля |
www.ifoseek.com |
Поисковый сервер (простой в использовании) |
www.ipl.org |
Internet Publik library, публичная библиотека, функционирующая в рамках проекта "Всемирная деревня" |
www.wisewire.com |
WiseWire – организация
поиска с применением |
www.webcrawler.com |
WebCrawler– поисковый сервер, прост в обращении |
www.yahoo.com |
КаталогWeb и интерфейс для обращения к полнотекстовому поиску на сервере AltaVista |
www.aport.ru |
Апорт– русскоязычный поисковый сервер |
www.yandex.ru |
Яндекс– русскоязычный поисковый сервер |
www.rambler.ru |
Рамблер– русскоязычный поисков |
Справочные ресурсы Интернет | |
www.yellow.com |
Желтые страницы Интернет |
monk.newmail.ru |
Поисковые системы различного профиля |
www.top200.ru |
200 лучшихWeb-сайтов |
www.allru.net |
Каталог русских ресурсов Интернет |
www.ru |
Каталог русских ресурсов Интернет |
www.allru.net/z09.htm |
Образовательные ресурсы |
www.students.ru |
Сервер российского студенчества |
www.cdo.ru/index_new.asp |
Центр дистанционного обучения |
www.open.ac.uk |
Открытый университет Великобритании |
www.ntu.edu |
Национальный университет США |
www.translate.ru |
Электронный переводчик текстов |
www.pomorsu.ru/guide.library. |
Список ссылок на сетевые библиотеки |
www.elibrary.ru |
Научная электронная библиотека |
www.citforum.ru |
Электронная библиотека |
www.infamed.com/psy |
Психологические тесты |
www.pokoleniye.ru |
Web-сайт Федерации Интернет образования |
www.metod.narod.ru |
Образовательные ресурсы |
www.spb.osi.ru/ic/distant |
Дистанционное обучение в Интернет |
www.examen.ru |
Экзамены и тесты |
www.kbsu.ru/~book/ |
Учебник информатики |
Mega.km.ru |
Энциклопедии и словари |