Поиск информации в интернете

Автор работы: Пользователь скрыл имя, 12 Мая 2013 в 18:19, реферат

Краткое описание

Поиск информации — непростая задача. По состоянию на начало 2000 г. ресурсы Web оцениваются более чем в 850 миллионов Web-страниц.
Разумеется, рост Web-пространства в геометрической прогрессии не будет продолжаться вечно. Когда-то наступит момент насыщения. Можно пред¬положить, что темпы развития WWW замедлятся на рубеже 3-4 млрд. Web-страниц. Одной из причин замедления, в частности, станет ограниченность поля IP адресов. Впрочем, к тому времени, наверное, уже заработает Интернет-2, и все будет по-другому.

Содержание

Введение 3
Задачи и стратегии поиска 4
Средства поиска информациии в глобальной сети 5
Способы представления информации 9
Как работаю поисковые системы 11
Поисковые каталоги (системы) 14
Язык поисковых запросов. Приминение языка заппросов 16
Заключение 21

Прикрепленные файлы: 1 файл

поиск информации в интернете.doc

— 146.00 Кб (Скачать документ)

 

Способы представления информации

По способу  представления информации источники  можно разделить на следующие  основные категории:

Web-страницы являются сегодня основным и наиболее распространенным типом информационных ресурсов в Сети. Этот ресурс представляет собой страницы так называемого гипертекста, то есть текста, который может содержать в себе ссылки. Взаимосвязанная логически и посредством ссылок совокупность гипертекстовых страниц, расположенная в одном месте, представляет собой единицу, называемую сайтом (site).

В процессе просмотра  гипертекстовой страницы с помощью специальной программы - браузера - пользователь может осуществить переход на другую страницу, расположенную, возможно, совсем в другом месте. Таким образом, все Web-страницы в Интернете оказываются связаны между собой достаточно произвольным образом. Такой способ представления информации получил название Всемирной паутины (World Wide Web, или WWW).

Следует отметить, что, помимо собственно текста и ссылок, Web-страница может содержать информацию, представленную в произвольной форме: графической, звуковой, видео и т.д.

Стандартом  на представление данных в Интернете  является язык HTML - Hyper Text Markup Language, который распознается броузером. Такие формы представления информации, как аудио- и видеоинформация в режиме реального времени, также доступны с WWW-страниц, но требуют применения дополнительных программных средств.

Базы данных также могут иметь интерфейс в Интернете, иными словами, могут быть доступны через Сеть. Базы данных могут содержать произвольную информацию: публикации, табулированные данные и т.д.

В настоящий  момент не существует какого-либо стандартного способа доступа к базам данных по сети Интернет. Наиболее прогрессивным способом является доступ к базам данных с помощью все тех же стандартных броузеров, так как этот способ обеспечивает максимальную потенциальную аудиторию потребителей информации.

Хотя, с точки зрения занимаемых ресурсов и времени доступа, хранение информации в базах данных осуществляется гораздо более эффективно, чем в формате HTML, для организации такого доступа со стороны базы данных необходимо использование специального программного обеспечения, осуществляющего преобразование данных к формату HTML "на лету", то есть в процессе исполнения конкретного пользовательского запроса.

Высокая ценность и большой  объем информации, обычно размещаемой  в базах данных, а также затраты  на организацию доступа к данным со стороны Сети обусловливают в большинстве случаев платность доступа к базам данных в сети Интернет.

Файловые серверы являются традиционным способом хранения данных в Интернете и представляют собой компьютеры, часть дискового пространства которых доступна по Сети. Доступ к данным на таком сервере осуществляется с помощью специальных программ, поддерживающих протокол передачи файлов (FTP - File Transfer Protocol). Данный протокол в общем случае требует авторизации, то есть идентификации пользователя, запросившего доступ к данным. Для осуществления доступа к файлам со стороны произвольного пользователя Сети обычно используется так называемый анонимный вход (anonymous). Этот протокол обычно поддерживается стандартными броузерами.

Телеконференции также могут являться источником необходимой информации, как правило, носящей неофициальный характер. Телеконференции представляют собой способ общения людей, имеющих доступ в Сеть, и предназначены для обсуждения каких-либо вопросов или распространения информации. Все телеконференции разбиты по тематическому признаку на рубрики, иначе называемые группами новостей (news groups). Информация, помещенная в телеконференцию, становится на определенное время доступна всем желающим.

За распространение  информации в такой форме отвечают специальные серверы. Каждый может разместить в группе свое сообщение (статью) или послать свой ответ на чужое. Таким образом, возможно получение немедленной обратной связи от множества лиц и детальное обсуждение какой-либо проблемы территориально разобщенными людьми. Благодаря последнему обстоятельству телеконференции наиболее популярны в научной среде и в частной жизни.

Телеконференции делятся на модерируемые (управляемые), то есть такие, размещение статей в  которых производится специальным человеком - модератором, осуществляющим в основном цензурные функции, и немодерируемые, размещение статей в которых производится автоматически по запросу любого пользователя Сети. В Сети существуют архивы наиболее интересных телеконференций, которые также могут быть использованы для получения информации.

 

Как работают поисковые системы

Работа поисковой  системы происходит в три этапа. На первом этапе она сканирует  мировые ресурсы Web и собирает на свой сервер образы всех страниц, которые  ей доведется посетить, - образуется первичный массив «неорганизованной» информации. На втором этапе этот массив приводится в порядок – преобразуется так, чтобы в нем очень быстро можно было найти то, что нужно клиенту. Этот этап называется  индексацией. После этого система готова для работы с клиентами.  На третьем этапе система принимает запрос клиента, смотрит, какие ключевые слова использованы в запросе, разыскивает их в своем указателе и отбирает те Web-документы, которые соответствуют запросу. Обычна ситуация, когда таких документов оказывается очень много, - тогда система выполняет ранжирование, то есть сортирует документы так, чтобы первыми в списке шли те, которые, с точки зрения системы, наиболее полезны пользователю. Этап ранжирования очень важен.  Например, если мы ищем, где в Сети можно достать программу ICQ, то нам нужна только одна ссылка на сервер ее производителя. Нас не интересует многие тысячи ссылок на страницы, где название этой программы лишь упоминается. Разумеется, нам желательно, чтобы «главная» ссылка  была если не самой первой в списке, то хотя бы входила в первую десятку.

Сбор информации происходит двумя основными способами: автоматически и вручную. Ручной сбор характерен для поисковых каталогов. «Человеческий» фактор по сравнению  с автоматическими системами  дает большой выигрыш в качестве. Во-первых опытные специалисты могут  на глаз отличить полезные и ценные ресурсы, а во-вторых они способны выполнить их каталогизацию (распределить по категориям, темам, разделам и т. д.). Благодаря этому образуется не просто указатель, а каталог, с которым пользователю работать очень удобно. Недостатком ручной каталогизации является огромная трудоемкость и, соответственно, очень большие затраты на классификацию каждого документа.  Автоматические системы действуют по другому. Они запускают в сеть, начиная с некоего адреса, программу-червя, которая копирует документ, находящийся по этому адресу. Просматривая документ «червь» находит вставленные в него гиперссылки, переходит по ним к новым документам, и далее процесс повторяется. Программа как бы постепенно «вгрызается» в Сеть, с каждым циклом погружаясь в нее все глубже и глубже. Непрерывно днем и ночью тысячи таких программ путешествуют по Web-пространству, копируя все, что им удалось найти, на серверы своих хозяев.  Кроме ручной и автоматической каталогизации и индексации в Сети действуют и традиционные методы . Так, например,  каждый Web-мастер может лично представить созданную им страницу поисковым системам и попросить редактора или «червя» посетить ее. Для этого надо просто заполнить стандартную форму и отправить ее по электронной почте.

После того как  поисковые роботы скопируют все  доступные документы на сервер своего хозяина, там образуется архив – некий неполный образ WWW. Работать с ним по нельзя, так как по каждому запросу пришлось бы делать полный просмотр всего архива, а это очень долго. Поэтому на втором этапе происходит индексация собранных ресурсов. На основе исходного материала готовится индексный файл. Принципов подготовки индексного файла может быть очень много, и каждая поисковая система имеет свои особые технологии. Самый простой тип индексного файла называется обратным файлом. Он делается так. Сначала составляется словарь составляется словарь по всем словам, встреченным во всех принятых документах, а потом для каждого слова записываютсяURL-адреса документов, в которых оно было встречено. Если теперь клиенту захочется узнать,  где есть информация о телевизорах, и он выдаст задание на поиск по слову телевизор, то в ответ получит тот самый, заранее подготовленный список.  Благодаря предварительной индексации поиск происходит очень быстро.

На третьем  этапе происходит ранжирование результатов  поиска, чтобы клиент в первую очередь  получил те результаты, которые наиболее хорошо соответствуют его запросу.

Подобрав в  ответ на запрос клиента несколько  тысяч потенциально приемлемых документов, поисковая система должна их упорядочить. Обратите внимание на то, что клиенту, строго говоря, совершенно все равно, как система собирает информацию и как она ее индексирует. Ему нужны не тысячи ссылок, а единицы, при чем самые-самые полезные. Поэтому с идеологической точки зрения третий этап – самый важный. От него зависит успех и популярность поисковой системы. Если мы видим, что в ответ на наш запрос система выдает в первых десятках результатов ссылки на неактуальные ресурсы или дублирующиеся ссылки, то мы не будем пользоваться ее услугами, независимо от того, сколько миллионов долларов ее создатели вложили в оборудование, кадры и программное обеспечение. Пользователи легко уходят к менее мощным, но к более дружественным системам. Выполняя ранжирование результатов, поисковая система учитывает множество факторов. За одни факторы она начисляет положительный рейтинг, за другие – отрицательные. При чем каждая система делает это по своему, руководствуясь своим представлением о потребности клиента. Обычно положительные рейтинг получают страницы в следующих условиях:

  • если ключевые слова, использованные клиентом в запросе, встречаются в заголовке текста;
  • если ключевые слова встречаются в первых трех-четырех абзацах текста;
  • если на эту Web-страницу указывают ссылки, имеющиеся в других Web-страницах.

 

Поисковые каталоги (системы)

То, что не в  состоянии сделать не один человек, может быть по силам профессиональному коллективу. Существуют обширные библиотеки гиперссылок, заранее отсортированные по тематическому признаку,  -  такие поисковые системы называются поисковыми каталогами. На главной странице поискового каталога располагается список основных тематических разделов (рубрик). Например: финансы и экономика, государство и право, наука и образование, компьютеры, политика и т.д. Каждое имя в этом списке является внутренней гиперссылкой поискового каталога. Щелчок мышкой по гиперсылке вызывает на экран список заголовков следующего подраздела и т.д.. Такая система подобно дереву. Перемещаясь по дереву внутренних гиперссылок, каталога, пользователь в конечном итоге получает список внешних ссылок на искомые Web-документы. Самый известный поисковой каталог мира– Yahoo! (www.yahoo.com).

Пользоваться  поисковыми каталогами предельно просто надо выбрать нужную категорию, например автомобили, затем в ней выбрать  подкатегорию, а там – свои категории и готовые ссылки. Кроме простоты поиска, достоинством каталогов относится высокая актуальность и релевантность гиперссылок. С другой стороны, естественным недостатком поисковых каталогов является слабое количественное отражение ими подлинных ресурсов WWW. В целом по миру уровень каталогизации Web-ресурсов составляет менее десятой доли процента, да и этот показатель неуклонно падает, так как новые страницы создаются гораздо быстрее, чем идет их каталогизация

Список  поисковых серверов и каталогов

Адрес

Описание

www.excite.com

Поисковый сервер с обзорами узлов и путеводителями

www.alta-vista.com

Поисковый сервер, имеются возможности расширенного поиска

www.hotbot.com

Поисковый сервер

www.poland.net 
www.israil.net

Региональные  поисковые серверы Польши, Израиля

www.ifoseek.com

Поисковый сервер (простой в использовании)

www.ipl.org

Internet Publik library, публичная  библиотека, функционирующая в рамках  проекта "Всемирная деревня"

www.wisewire.com

WiseWire – организация  поиска с применением искусственного интеллекта

www.webcrawler.com

WebCrawler– поисковый сервер, прост в обращении

www.yahoo.com

КаталогWeb и  интерфейс для обращения к  полнотекстовому поиску на сервере AltaVista

www.aport.ru

Апорт– русскоязычный поисковый сервер

www.yandex.ru

Яндекс– русскоязычный поисковый сервер

www.rambler.ru

Рамблер– русскоязычный поисковый сервер

Справочные  ресурсы Интернет

www.yellow.com

Желтые страницы Интернет

monk.newmail.ru

Поисковые системы  различного профиля

www.top200.ru

200 лучшихWeb-сайтов

www.allru.net

Каталог русских  ресурсов Интернет

www.ru

Каталог русских  ресурсов Интернет

www.allru.net/z09.htm

Образовательные ресурсы

www.students.ru

Сервер российского  студенчества

www.cdo.ru/index_new.asp

Центр дистанционного обучения

www.open.ac.uk

Открытый университет Великобритании

www.ntu.edu

Национальный  университет США

www.translate.ru

Электронный переводчик текстов

www.pomorsu.ru/guide.library.html

Список ссылок на сетевые библиотеки

www.elibrary.ru

Научная электронная  библиотека

www.citforum.ru

Электронная библиотека

www.infamed.com/psy

Психологические тесты

www.pokoleniye.ru

Web-сайт Федерации Интернет образования

www.metod.narod.ru

Образовательные ресурсы

www.spb.osi.ru/ic/distant

Дистанционное обучение в Интернет

www.examen.ru

Экзамены и тесты

www.kbsu.ru/~book/

Учебник информатики

Mega.km.ru

Энциклопедии  и словари

Информация о работе Поиск информации в интернете