Автор работы: Пользователь скрыл имя, 12 Мая 2013 в 18:19, реферат
Поиск информации — непростая задача. По состоянию на начало 2000 г. ресурсы Web оцениваются более чем в 850 миллионов Web-страниц.
Разумеется, рост Web-пространства в геометрической прогрессии не будет продолжаться вечно. Когда-то наступит момент насыщения. Можно пред¬положить, что темпы развития WWW замедлятся на рубеже 3-4 млрд. Web-страниц. Одной из причин замедления, в частности, станет ограниченность поля IP адресов. Впрочем, к тому времени, наверное, уже заработает Интернет-2, и все будет по-другому.
Введение 3
Задачи и стратегии поиска 4
Средства поиска информациии в глобальной сети 5
Способы представления информации 9
Как работаю поисковые системы 11
Поисковые каталоги (системы) 14
Язык поисковых запросов. Приминение языка заппросов 16
Заключение 21
Федеральное агентство по образованию
Государственное образовательное учреждение
Высшего профессионального образования
Петрозаводский государственный университет
Строительный факультет
Специальность: ПГС
Реферат по предмету: «Информатика»
на тему:
«Поиск информации в интернете»
Выполнил:
студент I курса
строительного факультета
специальности ПГС
Марков Александр Викторович
Научный руководитель:
Петрозаводск
2010
Оглавление
Введение
Поиск информации — непростая задача. По состоянию на начало 2000 г. ресурсы Web оцениваются более чем в 850 миллионов Web-страниц.
Разумеется, рост Web-пространства в геометрической прогрессии не будет продолжаться вечно. Когда-то наступит момент насыщения. Можно предположить, что темпы развития WWW замедлятся на рубеже 3-4 млрд. Web-страниц. Одной из причин замедления, в частности, станет ограниченность поля IP адресов. Впрочем, к тому времени, наверное, уже заработает Интернет-2, и все будет по-другому.
Всемирная паутина достаточно бессистемна. Каждый день в WWW появляются сотни новых Web-страниц. Человека, впервые попавшего в Интернет, поначалу просто ошеломляет безграничность этого океана информации. Только со временем приходит понимание того, что нельзя сказать об Интернете, что там «есть все». В Интернете действительно есть все, но только из того, что кто-то пожелал там разместить. Среди документов в World Wide Web нет никакой внутренней структуры в отличии от книгохранилища библиотеки, где каждую новую книгу помещают в определенный раздел, ставят на определенную полку определенного стеллажа в зависимости от ее назначения, жанра, тематики. Единственной координатой Web-документа является его URL-адрес. Регулярно работая в World Wide Web, всякий пользователь накапливает некоторый список ресурсов, которые ему более нравятся, чаще им используются. Ссылки на такие ресурсы удобнее хранить всего в папке «Избранное». Такую подборку можно сравнить с личной домашней библиотекой: все книжки на виду, протяни руку и снимешь нужную книгу с полки. Также и через папку «Избранное» легко извлечь нужный документ. Браузер позволяет классифицировать содержимое папки «Избранное», создав внутренний каталог, разделив ссылки по темам, разложить их в разные папки. Однако представим, что нам нужно подобрать материал по заданной теме, которой нет в нашей папке «Избранное», и мы не знаем URL-адрес страницы на которой можно найти нужную информацию, в этом случае нам поможет поисковая служба Интернета. Поисковая служба заключается в услугах поисковых серверов. Существуют две разновидности поисковых серверов: поисковые каталоги и поисковые указатели. Также существуют частные коллекции гиперссылок.
Задачи и стратегии поиска
Прежде чем
начать поиск следует четко
Дать общий
рецепт эффективной стратегии поиска
информации в Интернет, пожалуй, невозможно.
Есть лишь некоторые принципы, позволяющие
тратить меньше времени. Вот некоторые
из них. Например, вам необходимо узнать,
где обитает трёхлапый ленивец, то вряд
ли вы пойдете в алфавитный каталог библиотеки.
Может быть, вы найдете нужную литературу
с помощью систематического каталога.
С несколько большей вероятностью - с помощью
предметного. Но, скорее всего, ни один
из библиотечных каталогов вам не поможет.
Но, зайдя в информационно-
Этот пример иллюстрирует еще один элемент стратегии: читайте найденные документы в поисках наиболее точных терминов и связей между терминами. Возможно, вы мыслите в совершенно не тех терминах, которые используют авторы искомых документов (ведь большую роль играют культурные различия!).
Третий элемент стратегии: используйте несколько ИПС. Если вы регулярно занимаетесь поиском информации по какой-то тематике, отметьте те ИПС. которые для вас наиболее эффективны.
Средства поиска информации в глобальной сети
По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.
Каталоги являются справочниками, содержащими списки адресов Интернет, сгруппированные по определенным признакам. Как правило, они объединяются по тематике (наука, искусство, новости и т.д.), где каждая тема разветвляется на несколько подуровней. Особенность этих средств поиска информации состоит в том, что создание структуры, базы данных и их постоянное обновление осуществляется "вручную", коллективом редакторов и программистов, и сам процесс поиска требует непосредственного участия пользователя, самостоятельно переходящего от ссылки к ссылке. Основное достоинство поисковых каталогов ресурсов в том, что накапливаемая в них информация тщательно отбирается, сортируется, разбивается на отдельные категории.
Все каталоги построены по единому принципу. Страницы каталогов содержат тематические классификаторы. На стартовой странице располагается тематический каталог высшего уровня. Под каждой категорией каталога могут быть развёрнуты подкатегории. Посредством щелчка на одной из тематических ссылок открывается страница с тематическими категориями более низкого уровня, которые, в свою очередь, тоже разбиваются на подкатегории. Все категории и подкатегории соответствующим образом выделяются.
Каталоги организованы по иерархическому принципу и устроены в виде тематического дерева, корнем которого служит начальная страница каталога, содержащая определённое количество тематических ветвей. Перемещаться по тематическому дереву вверх или вниз можно посредством щелчков на именах страниц. Страницы большинства каталогов содержат специальные элементы – индексы, на которых расположены ссылки на узлы, относящиеся к данной тематике. Если щёлкнуть на одной из ссылок, то появится окно, в котором продемонстрирована организация данной ветви тематического дерева. Это ускоряет просмотр тематических категорий и подкатегорий.
Одним из наиболее известных каталогов является Yahoo! Страницы этого каталога содержат множество тематических категорий, организованных по иерархическому принципу. Категории на всех уровнях разветвляются на подкатегории. Корнем служит начальная страница каталога, содержащая 14 тематических ветвей. Перемещаться по тематическому дереву вверх или вниз можно посредством щелчков на именах страниц. На страницы Yahoo! встроены индексы всех Web-ресурсов, относящихся к данной теме. Все каталоги и подкатегории выделены полужирным шрифтом, а гиперссылки на существующие Web-сайты выделены подчёркиванием. На каждую страницу Yahoo! Вмонтированы специальные символы:
Механизм поиска Yahoo! Можно активизировать на любой из страниц каталога. Для поиска в пределах всего каталога или одной из страниц используются специальные переключатели и поисковое окно. Поиск в Yahoo! Производится в соответствии с типом адресов, выбираемых с помощью опций меню (размещённого под поисковым окном). Кроме системы адресации, используемой тематическим каталогом, существует возможность обращения по адресам информационной службы Usenet, а также электронной почты. При выборе опций меню Yahoo! Поиск ведётся среди Web-узлов, включённых в каталог служб новостей, относящихся к данной тематике.
В Internet размещаются узлы и других каталогов, снабжённых поисковыми системами, подобными поисковым системам Yahoo!
Ниже перечислены некоторые поисковые каталоги:
Главный недостаток поисковых каталогов Web-ресурсов в том, что их поисковые системы извлекают огромное число документов, не соответствующих вводимому запросу. Как правило, документы, которые находятся в конце списка, содержат мало полезной информации. Ключевые слова могут быть истолкованы системой поиска совершенно в ином контексте либо отвечают нескольким толкованием.
Поисковые машины. Для детального поиска документов используются специализированные поисковые системы – поисковые машины. Действие поисковых машин заключается в постоянном последовательном исследовании всех узлов Интернет, доступных данной системе поиска, со всеми их связями и ответвлениями. В связи с постоянным обновлением информации машина поиска регулярно возвращается через определенный срок (порядка месяца) к уже изученным узлам, чтобы обнаружить и зарегистрировать изменения. Вся прочитанная информация индексируется, то есть создается специализированная база данных, в которой закодированы все исследованные системой страницы Интернет.
При поступлении
запроса от пользователя машина поиска
рассматривает всю
Несмотря на схожий принцип работы, машины поиска различаются по языкам запроса, зонам поиска, глубине поиска внутри документа, методам ранжирования и приоритетов, поэтому применение разных поисковых машин дает различные результаты.
В настоящее время в отечественных ресурсах действует довольно много поисковых машин. Есть фирменные и даже индивидуальные сайты, которые включают те или иные поисковые машины. Поисковые элементы существуют практически на всех Интернет-газетах и учебных порталах.
Наиболее распространённые из поисковых машин представлены ниже:
Существует некоторые причины, по которым документ не может быть обнаружен. Прежде всего, требуемое не будет обнаружено поисковой машиной, если на ней данные ресурсы не прописаны. Необходимо запомнить, что недостаточно разместить что-либо в Интернете, необходимо прописать это на соответствующих поисковых машинах. Можно расположить материал в Интернете, знать его адрес. Однако, пока он не «прописан» на одной из поисковых машин, найти его будет очень сложно, конечно, если ему не дан адрес. Через некоторое время и этот сайт будет обнаружен так называемыми «поисковыми роботами» или «пауками-поисковиками» и, только тогда, возможно, он начнёт посещаться.
Впрочем, есть возможность программно запретить регистрацию всего сайта, или отдельных элементов его, как всеми, так и определёнными поисковыми системами. Для подобных целей служат так называемые мета-теги или мета-определители. Однако это отдельный разговор, кем и с какой целью подобное запрещение делается.
Следующее- это специализация поисковых машин. Так, например, top100 относится к поисковым машинам специализированного типа и больше предназначена для поиска технических элементов компьютеров и справок по ним. Поисковые машины km.ru, yandex.ru, rambler.ru, относятся к группе общего назначения. Именно с них следует начинать поиск в Интернете. Причем, поисковая система «Кирилл и Мефодий» на km.ru все же чаще используется для розыска материалов в разного рода энциклопедиях и учебных пособиях, словарях, которые вышли после 1990 г. На AltaVista – пожалуй наиболее полно представлены материалы, связанные с коммерческой деятельностью, Google – более специализируется на оперативных новостях. На машинах Fast, Инфоарт, Русский интернет и Aпорт часто можно бывает найти информацию, связанную с куплей-продажей. Следует также учитывать, что полностью адрес поисковых машин обычно включает префикс и выглядит примерно так: http://www.dig.ru. Некоторые поисковые системы используют чужие поисковые системы. Так система поиска mail.ru на сегодняшний день использует поисковую машину rambler.ru, но выводит информацию в собственном интерфейсе.