Методы информационного эффективного поиска и обмена информацией

Автор работы: Пользователь скрыл имя, 30 Апреля 2013 в 23:28, дипломная работа

Краткое описание

Целью данной бакалаврской работы является рассмотрение практического поиска и обмена информации в сети Интернет.
Для этого необходимо решить следующие задачи:
- анализ возможностей сети Интернет, технология поиска и обмена информации в нем;
- рассмотреть приемы эффективного поиска и обмена информацией.
Предметом исследования в работе являются сеть Интернет и ее возможностей, служб, методов мониторинга и подходов оценки релевантности найденных документов.

Содержание

Введение……………………………………………………………
3
1 Возможности Интернет стратегии поиска и обмена информацией……………………………………………………………..

7
1.1 Анализ и классификация методов мониторинга при поиске информации..........................................................................................

7
1.2 Передача информации в Интерне…………………………..
10
1.3 Поисковые системы, понятие поисковые индексов и каталогов………………………………………………………………...

17
2 Методы информационного эффективного поиска и обмена информацией…………………………………………………………….

34
2.1 Поиск и оценка найденной информации…………………...
34
2.2 Проблемы поиска теоретической научной информации в Интернет………………………………………………………………….

38
2.3 Интеллектуальные системы и перспективы поиска информации……………………………………………………………...

43
Заключение………………………………………………………...
53
Глоссарий………………………………………………………….
57
Список использованных источников…………

Прикрепленные файлы: 1 файл

Диплом информатика (1).doc

— 1.05 Мб (Скачать документ)

Пятый тип, являющийся наиболее популярным в WWW в последние годы, основывается на ссылках на данный документ из других документов. В поисковый  образ заносится не только слова  непосредственно из документа выбранные одним из перечисленных способов, но и информация о ссылках на данный документ – количество ссылок, текст этих ссылок и сведения об источнике информации в котором они находятся.

Следующий процесс системного анализа информации – классификация.

Классификация – система соподчиненных понятий (классов объектов) какой-либо области знания или деятельности человека, часто представляемая в виде различных по форме схем (таблиц) и используемая как средство для установления связей между этими понятиями или классами объектов, а также для точной ориентировки в многообразии понятий или соответствующих объектов. Классификация должна фиксировать закономерные связи между классами объектов с целью определения места объекта в системе, которое указывает на его свойства.

Кластеризация – это  автоматическое выявление групп  семантически похожих документов среди  заданного фиксированного множества  документов. Группы формируются только на основе парной схожести описаний документов, характеристики этих групп заранее  не заданы. Таким образом, кластерный анализ документов позволяет повысить полноту ответа на запрос, поскольку пользователь, нашедший документ, отвечающий запросу, может запросить и все документы, принадлежащие тому же кластеру. Повышается и точность поиска, поскольку в ответ на запрос будут возвращаться только документы, принадлежащие одному кластеру, объединенные в него на основе своей взаимной близости.

Основными проблемами большинства  кластерных методов, которые необходимо преодолевать для успешного выполнения рассматриваемой задачи, являются:

  • большая размерность пространства;
  • большой объем анализируемых данных;
  • зависимость от вводимых параметров, определяющих результат анализа.

После завершения системного анализа информации ее необходимо представить  пользователю. Представление информационных ресурсов пользователю на современном этапе выполняется в виде упорядоченного (ранжированного) перечня результатов, по степени соответствия запросу, отображаемого в виде списка.

 

1.2 Передача информации в Интернете

 

Средства поиска и структурирования, иногда называемые поисковыми механизмами, используются для того, чтобы помочь людям найти информацию, в которой они нуждаются [11]. Средства поиска типа агентов, пауков, кроулеров и роботов используются для сбора информации о документах, находящихся в Сети Интернет. Это специальные программы, которые занимаются поиском страниц в Сети, извлекают гипертекстовые ссылки на этих страницах и автоматически индексируют информацию, которую они находят для построения базы данных. Каждый поисковый механизм имеет собственный набор правил, определяющих, как собирать документы. Некоторые следуют за каждой ссылкой на каждой найденной странице и затем, в свою очередь, исследуют каждую ссылку на каждой из новых страниц, и так далее. Некоторые игнорируют ссылки, которые ведут к графическим и звуковым файлам, файлам мультипликации; другие игнорируют ссылки к ресурсам типа баз данных WAIS; другие проинструктированы, что нужно просматривать, прежде всего, наиболее популярные страницы.

Агенты - самые «интеллектуальные» из поисковых средств. Они могут делать больше, чем просто искать: они могут выполнять даже транзакции от Вашего имени. Уже сейчас они могут искать cайты специфической тематики и возвращать списки cайтов, отсортированных по их посещаемости. Агенты могут обрабатывать содержание документов, находить и индексировать другие виды ресурсов, не только страницы. Они могут также быть запрограммированы для извлечения информации из уже существующих баз данных. Независимо от информации, которую агенты индексируют, они передают ее обратно базе данных поискового механизма.

Общий поиск информации в Сети осуществляют программы, известные  как пауки. Пауки сообщают о содержании найденного документа, индексируют  его и извлекают итоговую информацию. Также они просматривают заголовки, некоторые ссылки и посылают проиндексированную информацию базе данных поискового механизма.

Кроулеры просматривают  заголовки и возвращают только первую ссылку.

Роботы могут быть запрограммированы так, чтобы переходить по различным ссылкам различной глубины вложенности, выполнять индексацию и даже проверять ссылки в документе. Из-за их природы они могут застревать в циклах, поэтому, проходя по ссылкам, им нужны значительные ресурсы Сети. Однако, имеются методы, предназначенные для того, чтобы запретить роботам поиск по сайтам, владельцы которых не желают, чтобы они были проиндексированы.

В Интернете объединено множество компьютеров разных типов. Эти компьютеры могут использовать разные операционные системы, но все  они должны поддерживать принятый для обмена информацией в Интернете стандарт TCP/IP[17]. Аббревиатура TCP/IP означает Transmission Control Protocol /Internet Protocol (Протокол Управления Передачей /Протокол Интернета) и включает в себя два протокола.

Протокол IP используется для адресации компьютеров в сети. В каждом пакете информации, передаваемом по сети, указан IP-адрес компьютера, благодаря которому информация и попадает по назначению. IP-адрес состоит из четырех номеров, разделенных точками. Каждое число в этом адресе занимает длину, равную одному байту, поэтому может принимать значения от О до 255. Например, компьютер еженедельника "Аргументы и факты" имеет такой IP-адрес: 194.87.132.3.

Кроме числового IP-адреса, в Интернете существует более  удобная система адресов, в которой адрес указывается именем домена (domain name). Например, имя домена еженедельника "Аргументы и факты" www.aif.ru значительно легче запомнить, чем его адрес. Имя домена состоит из нескольких слов, разделенных точками. Самое правое слово называется идентификатором домена верхнего уровня. Обычно оно определяет тип учреждения или страну. Например, для России таким идентификатором является ru.

При передаче информации в Интернете могут использоваться только IP-адреса. Преобразование имени  домена в IP-адрес осуществляется автоматически при помощи специальных компьютеров, называемых серверами доменных имен (domain name server), и не требует вашего вмешательства.

Протокол TCP определяет, каким образом передаваемая в  сети информация разделяется на пакеты и распространяется в Интернете. Каждый пакет нумеруется и передается независимо, поэтому пройденные пакетами пути могут не совпадать и последовательность их доставки адресату может отличаться от исходной последовательности. На конечном пункте осуществляется обработка пакетов и восстанавливается исходная информация.

В сети Интернет имеются  специальные компьютеры, называемые узлами (routers), которые перемещают информацию по Интернету, используя для этого  протокол TCP/IP.

Чтобы пользоваться предоставляемыми Интернетом услугами, протокола TCP/IP недостаточно, для каждой услуги существует собственный протокол, посредством которого пользователь общается с ее поставщиком. В таблице 1 приведены протоколы основных услуг Интернета.

Таблица 1 – Протоколы  основных услуг Интернета

Услуга

Протокол

WWW

Hipertext Transfer Protocol (Протокол передачи  гипертекста)

FTP

File Transfer Protocol (Протокол передачи  файлов)

E-mail

Simple Mail Transfer Protocol (Протокол простой  почтовой передачи)


 

Для обмена данными в  Интернете используется технология клиент-сервер. Если вам нужен доступ к ресурсам Интернета, вы запускаете на вашем компьютере клиентскую программу, которая с помощью простого и удобного интерфейса формирует запрос в указанном протоколе и отображает результат обработки запроса. Серверная программа принимает от удаленных компьютеров запросы на выполнение определенных действий, обрабатывает поступивший запрос и отправляет клиенту результат его выполнения.

Для каждого типа сервера  требуется соответствующая клиентская программа. Например, для доступа к WWW вы можете использовать обозреватель Internet Explorer, а для передачи сообщений по электронной почте - Microsoft Outlook. Клиентские программы могут поддерживать более одного протокола. Например, Microsoft Outlook может использоваться как для доступа к электронной почте, так и к телеконференциям. Примером сервера является Microsoft Internet Information Server (IIS), который может предоставлять WWW- и FTP-услуги.

С момента возникновения  Интернета список предоставляемых  видов услуг постоянно растет. Если в начале в основном использовалась электронная почта, то сейчас наиболее популярной услугой является World Wide Web. Для доступа к услугам Интернета служат специальные программы, которые вы запускаете на вашем компьютере. Поэтому перечень услуг (см. Таблица 2), которыми вы можете воспользоваться, прежде всего, определяется имеющимся у вас программным обеспечением. Кроме этого, провайдер, предоставляющий вам доступ к Интернету, может поддерживать не все возможные услуги.

Таблица 2 - Основные услуги, предоставляемые в Интернете

Услуга

Назначение

Всемирная паутина (World Wide Web)

Наиболее популярный вид услуги, с помощью которой вы можете найти  и прочитать HTML-документ, расположенный  в любом месте Интернета

Электронная почта (E-mail)

Самый первый вид услуги, который  начал использоваться в Интернете. Скорость обмена сообщениями с помощью  электронной почты огромна и  мало зависит от расстояния между  абонентами

Списки рассылки (Mailing list)

Списки рассылки, основанные на электронной почте. Вы можете подписаться на любой из множества имеющихся списков рассылки

Телеконференции (News)

Телеконференции позволяют вести  дискуссии по интересующим вас темам. В отличие от электронной почты, все сообщения в телеконференции  сгруппированы по темам и посылаются не индивидуальным пользователям, а помещаются в группы новостей

Копирование файлов (FTP)

В Интернете имеются FTP-серверы, на которых содержится информация, предназначенная  для общего пользования. С помощью  клиентской FTP-программы вы можете обмениваться файлами с РТР-сервером

Поиск файлов (Archie, WAIS)

Специальные серверы в Интернете  хранят информацию о файлах, находящихся  на отдельных узлах Интернета. С  помощью программ поиска файла вы можете обращаться к этим серверам и найти требуемый вам файл

Разговоры в сети (Internet Relay Chat)

Позволяет общаться одновременно многим участникам разговора путем ввода  текста на клавиатуре


 

Доступ к WWW осуществляется с помощью обозревателя Internet Explorer. Для оправки и приема сообщений  по электронной почте, подписки на списки рассылок, участия в телеконференциях вы можете использовать Microsoft Outlook. Для ведения разговоров в сети предназначен Microsoft Chat. Все эти программы входят в состав Office XP и вам не понадобится тратить дополнительные деньги для доступа к перечисленным выше услугам. Для поиска и копирования файлов используются специальные программы, например, ws archie и ws_ftp32.

Как было отмечено для  передачи файлов с одного компьютера на другой используется протокол FTP - File Transfer Protocol, определяющий правила их передачи [16]. Для использования ftp, нужно подать команду ftp с указанием имени рабочей машины, на которой вы хотите провести сеанс. FTP так же позволяет производить поиск файла на удаленной машине, то есть переходить из директории в директорию, просматривать содержимое этих директорий, файлов. Позволяет пересылать как файлы, так и их группы, а также целиком директории, можно вместе со всеми вложенными на любую глубину поддиректориями. Позволяет пересылать данные в файлах либо как двоичную информацию, либо как ASCII (т.е. текст). ASCII-пересылка дает возможность автоматического перекодирования данных при пересылке текста на компьютер с другой кодировкой алфавита и т.д., что сохраняет прежний читаемый вид текста. Имеется возможность сжимать данные при пересылке и после их разжимать в прежний вид.

Имеется также возможность  использования ftp в пакетном режиме по e-mail на некоторых серверах, но отсутствие прямого диалога очень неудобно и сильно замедляет работу - за неимением лучшего это вполне сносно.

Получая письмо по электронной  почте, вы получите его не с ближайшего компьютера, а от того, который может находится на достаточно большом расстоянии. Путь прохождения пакетов называют трассировкой.

По этой причине бесполезно приводить структуру сети Интернет. Конкретная структура сети во многом зависит от региона, в котором живет пользователь, и даже от возможностей конкретных фирм, предоставляющих услуги Интернет. Без специальных средств путь ваших сообщений в Интернет проследить вообще невозможно. Используя e-mail, возможно так же пользоваться FTP в асинхронном режиме.

Существует три вида служб, предоставляющих возможность  получения файлов по электронной  почте: Специализированные «Internet-style» серверы, предоставляющие доступ к конкретному множеству файлов на этом же сервере; Специализированные listserv-серверы, предоставляющие доступ к конкретному набору файлов, расположенных на этом же сервере; Общие FTP-mail шлюзы (ftpmail). Эти серверы работают как исполнители командных файлов пользователей. Такой сервер организует сеанс работы на указанном анонимном FTP-сервере согласно описанию пользователя, а потом отсылает пользователю результаты этого сеанса.

Первые два типа серверов функционально эквивалентны, но в  силу исторических причин они работают по-разному. Серверы listserv происходят из Bitnet,- в Bitnet нет аналога FTP, передача файлов там организована через электронную почту. Третий тип серверов принципиально отличается от двух первых, которые способны работать только со своими файлами: ftpmail-сервер может взять и переслать пользователю любой публично доступный по анонимному ftp файл, где бы тот ни находился в Интернет.

Информация о работе Методы информационного эффективного поиска и обмена информацией