Методы информационного эффективного поиска и обмена информацией

Автор работы: Пользователь скрыл имя, 30 Апреля 2013 в 23:28, дипломная работа

Краткое описание

Целью данной бакалаврской работы является рассмотрение практического поиска и обмена информации в сети Интернет.
Для этого необходимо решить следующие задачи:
- анализ возможностей сети Интернет, технология поиска и обмена информации в нем;
- рассмотреть приемы эффективного поиска и обмена информацией.
Предметом исследования в работе являются сеть Интернет и ее возможностей, служб, методов мониторинга и подходов оценки релевантности найденных документов.

Содержание

Введение……………………………………………………………
3
1 Возможности Интернет стратегии поиска и обмена информацией……………………………………………………………..

7
1.1 Анализ и классификация методов мониторинга при поиске информации..........................................................................................

7
1.2 Передача информации в Интерне…………………………..
10
1.3 Поисковые системы, понятие поисковые индексов и каталогов………………………………………………………………...

17
2 Методы информационного эффективного поиска и обмена информацией…………………………………………………………….

34
2.1 Поиск и оценка найденной информации…………………...
34
2.2 Проблемы поиска теоретической научной информации в Интернет………………………………………………………………….

38
2.3 Интеллектуальные системы и перспективы поиска информации……………………………………………………………...

43
Заключение………………………………………………………...
53
Глоссарий………………………………………………………….
57
Список использованных источников…………

Скачать полностью (755.11 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

Диплом информатика (1).doc

— 1.05 Мб (Скачать документ)

Что же касается поисковой системы Yahoo!, то её доля в 2007 году составляла 0,5% трафика Рунета, сейчас же она меньше 0,1%.

Бывший MSN (ныне Bing) в 2007 году имел 0,3% общего трафика, сейчас 0,8%. Его доля заметно увеличилась, однако рост идет очень медленно, и Bing на данный момент трудно воспринимать как отдельного серьёзного игрока на поисковом поле Рунета.

WebAlta (на которую раньше возлагались большие надежды) так и не смогла оправдать ожиданий. Её доля в поисковом трафике Рунета изменилась незначительно. В 2007 году она составляла 0,2%, в 2011 году получилась 0,39%.

Среди лидеров идёт постоянная борьба за передел трафика. Трафик, который раньше приходился на третьих игроков рынка, теперь стал распределяться между 2 игроками – Google и «Яндексом». И в будущем борьба, вероятно, будет ещё ожесточённее.

Динамика роста популярности Google и «Яндекс» в российском трафике за последнее время.

Рисунок 4 – Динамика роста популярности «Google» и «Яндекс»

В ближайшем будущем следует ожидать ожесточённую борьбу между «Яндексом» и Google именно за российский трафик (тут у «Яндекса» пока первое место по общему трафику – по данным Alexa). В других же странах СНГ мы видим совсем иную картину (по статистическим данным Alexa):

На сегодняшний день всемирная сеть Интернет насчитывает огромное множество поисковых систем во всех странах мира, из них всех можно выделить несколько самых крупных и пользующихся наибольшей популярностью среди пользователей:

Google была разработана в 1998 выпускниками Стэндфордского университета Сергеем Брином и Лари Пейджем, которые применили для ранжирования документов технологию PageRank, где одним из ключевых моментов является определение релевантности конкретного документа на основе информации о документах, ссылающихся на него. Говоря общими словами, чем больше документов ссылается на данный документ, и чем они авторитетнее, тем более авторитетным данный документ становится. Количественное значение авторитетности документа (другими словами, взвешенное количество ссылок или PageRank) относится к так называемым статическим факторам (то есть независящим от конкретного запроса) и учитывается при определении релевантности документа конкретному запросу как весовой коэффициент. Наряду с этим Google применил для определения релевантности документа не только текст самого документа, но и текст ссылок на него. Эта технология позволила ему обеспечить выдачу довольно релевантных результатов на фоне других поисковиков. Довольно быстро Google стал лидировать в различных опросах по такому показателю, как удовлетворенность пользователей результатами поиска [15].

Google осуществляет поиск по документам на более чем 35 языках, в том числе русском. В настоящее время многие порталы и специализированные сайты предоставляют услуги поиска информации в Интернете на базе Google, что делает задачу успешного позиционирования сайтов в Google еще более важной. Google проводит переиндексацию своей поисковой базы примерно раз в четыре недели. Во время этого усовершенствования, неофициально называемого Google dance, происходит обновление базы на основе информации, собранной роботами за время, прошедшее с предыдущего усовершенствования, и перерасчет значений PageRank документов. Также существует определенное количество документов с достаточно большим значением PageRank, информация о которых в поисковой базе обновляется ежедневно, однако значение PageRank пересчитывается только во время Google dance. Нормированное значение PageRank для конкретного документа, загруженного в браузер, можно узнать, скачав и установив Google ToolBar - специальную панель инструментов для работы с этим поисковиком. Не смотря на то, что в поисковике имеется форма для бесплатного добавления страницы в базу, Google предпочитает сам находить новые документы по ссылкам с уже известных и не будет индексировать добавленную через форму страницу, если в его базе не найдется ни одной страницы, ссылающейся на нее.

Yahoo. Одна из самых первых Поисковых систем (создана Дэвидом Фило и Джерри Янгом в апреле 1994года) по сей день остается и самой популярной из них, традиционно сочетая поиск, как по ключевым словам, так и с помощью иерархического дерева разделов.

Нынешнее развитие Yahoo можно определить как движение в он-лайн, интерактивность. Yahoo быстро осваивает эту область Интернет-услуг, но возникает одна проблема: ядро Yahoo! не было на это рассчитано. Не была в 1994 году заложено в него "онлайновая" составляющая, ее "приклеил" Тим Кугл несколькими годами позже. Естественно возникает угроза хакерских атак через эту незащищенную область.

Одно из новшеств поисковой системы Yahoo - панель задач для браузера Firefox,. Этот инструмент помогает пользоваться поиском Yahoo, не заходя на официальный сайт, а лишь используя функциональные кнопки панели.

1 сентября 2005 года поисковик Yahoo, которому принадлежит более 200 миллионов адресов электронной почты по всему миру, анонсировал запуск новой системы поиска текстов, фотографий и других документов, содержащихся в письмах.

Необходимость такого нововведения возникла вслед за увеличением объёма хранимых данных, ведь некоторые пользователи создают целые почтовые архивы. Подгоняемый конкурентом Google и его почтовым сервисом Gmail, Yahoo для хранения почты предлагает отныне 1 гигабайт бесплатного места, или 2 гигабайта по годовому абонементу. «Как только вы получаете возможность хранить больше информации, вам необходимы и расширенные поисковые возможности», - объясняет Эрик Петерсон, аналитик компании Jupiter Research.

Пользователи поисковой системы Yahoo, в свою очередь, смогут теперь использовать возможности детализированного поиска слов в названии или непосредственно в тексте письма, а также в присоединенных документах, не открывая их. Результат поиска отражается в трёх строках с указанием всех атрибутов. На панели справа отображаются все похожие документы. Найденные фотографии выводятся на экран в уменьшенном виде, что значительно облегчает поиск. Система также учитывает орфографические ошибки, позволяя искать слова лишь по первым буквам.

Для начала Yahoo планирует предложить новую систему небольшому числу американских пользователей, а затем распространить её по всему миру. Со стороны клиентов это не потребует никаких дополнительных усилий. «Когда услуга станет, доступна, в левом верхнем углу страницы вашего почтового ящика появится соответствующий баннер», - обещает компания Yahoo.

По данным comScore Media Metrix на июль этого года, домену Yahoo принадлежит 219 миллионов адресов электронной почты, что составляет 31,5% мирового рынка, уступая лишь Microsoft с 221 миллионом пользователей сервиса Hotmail (35,5% рынка).

Основное отличие русскоязычных поисковых систем от иностранных одно - это то, что глобальные поисковые системы, поддерживающие поиск на русском языке, не поддерживают русскую морфологию. В русскоязычной части сети Интернет работают около двух десятков поисковых систем, но подавляющие большинство пользователей работает лишь с несколькими, подробно остановимся на самых крупных:

Yandex - На сегодня наиболее популярная поисковая система, ежемесячно к ней обращаются более 35 миллионов пользователей Русскоязычной части Интернета. Начала свою работу во второй половине 1997 года учитывая морфологию русского языка. В 1993-1994 годы программные технологии были существенно усовершенствованы благодаря сотрудничеству с лабораторией Ю. Д. Апресяна (Институт Проблем Передачи Информации РАН). В частности, словарь, обеспечивающий поиск с учетом морфологии русского языка, занимал всего 300Кб, то есть целиком грузился в оперативную память и работал очень быстро. С этого момента пользователь мог задавать в запросе любые формы слов.

В начале 1996 года был разработан алгоритм построения гипотез. Отныне морфологический разбор перестал быть привязан к словарю - если какого-либо слова в словаре нет, то находятся наиболее похожие на него словарные слова и по ним строится модель словоизменения. В это время Интернет в России только начинался. Еще через полгода стало очевидно, что ничто не отделяет CompTek от создания собственной глобальной поисковой машины. Объем Рунета составлял тогда всего несколько гигабайт. Осенью 1997 года был открыт Yandex.Ru.

Помимо поисковой системы, сегодня Yandex - огромный портал с целым набором широко используемых сервисов, такими как каталог, Yandex. деньги, и другие. Официально поисковая машина Yandex.Ru была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Yandex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе. Сегодня Yandex имеет внутри мощный поисковый робот, позволяющий производить поиск по самым различным критериям.

Rambler - Старейшая поисковая система российского Интернет, запущена в 1996 году, на сегодня - вторая по популярности с обращением более 25 миллионов посетителей в месяц. Помимо поисковой системы, сегодня Rambler - один из крупнейших порталов Русскоязычной части Интернета с большим набором широко известных сервисов, таких как каталог Rambler, Rambler-почта, Rambler-ICQ или Rambler-ТВ.

Nigma.ru — российская интеллектуальная метапоисковая система, первая кластеризующая поисковая система в Рунете. Проект создан при поддержке факультетов ВМиК и психологии МГУ, а также Стэнфордского университета. На момент появления Nigma.ru в проекте участвовало 3 человека. На начало 2009 года в проекте работает более 25 человек. Поисковая система Nigma была запущена в знаменательный день – 12 апреля 2005 года. Главная особенность Нигмы - это ее научно-прикладной характер: она является своего рода исследовательской лабораторией для студентов и аспирантов МГУ. На ее базе уже сейчас защищаются различные дипломы и диссертации. Главное направление в развитии системы – это построение эффективного поиска на основе новых поисковых алгоритмов: в частности, это метод, основанный на кластеризации документов.

Nigma использует индексную базу нескольких поисковых машин: Google, Yahoo, MSN, Yandex, Rambler, Altavista, Aport. Также имеется и собственная документальная база. При поисковом запросе пользователя формируется ряд документов, которые группируются в тематические классы, имеющие определенное описание. Таким образом, пользователь может уточнить условия поиска, убрав из него определенные кластеры (сняв галочки перед их названиями).

Основную аудиторию поисковой системы Nigma, по словам Виктора Лавренко, составляют студенты. А главной особенностью поисковика, которая привлекает все новых и новых пользователей, является кластеризация документов. Общая популярность Нигмы среди пользователей Рунета остается на достаточно низком уровне. Так, по данным статистики LiveInternet, за июль 2007 года доля переходов с Нигмы среди других поисковых машин составила 0,4%. Но это уже выше доли в 0,3% старейшего рунетовского поисковика – Апорта. Нельзя сказать, что руководство Нигмы не принимает никаких мер по увеличению популярности своей поисковой машины. Напротив, как и любая научная разработка, Nigma нуждается в испытателях, коими для нее являются обычные пользователи. С целью привлечения новых пользователей проводились и проводятся различные мероприятия. Так, с октября 2006 по апрель 2007 года Nigma рекламировалась в Yandex.Директе, что обеспечило ей более 1100 тыс. переходов. После чего руководство Yandexа сочло неразумным далее рекламировать своего конкурента. Также проводилась небольшая рекламная кампания на радио, которая дала новых посетителей [24].

Пользователи Нигмы имеют возможность пожаловаться на плохие результаты поиска прямо на странице поисковой выдачи, с помощью специальной формы. Кроме того, разработка новых сервисов и алгоритмов «согласуется» с рядовыми пользователями при помощи различных опросов. Так, одним из нововведений Нигмы стала система исправления ошибок в запросах, разработанная и введенная именно из-за частых жалоб со стороны пользователей. Причем, по эффективности и возможностям она превосходит разработки как наших, так и зарубежных поисковиков.

Индекс используется для поиска Web-страниц по ключевым словам, каталог - по разделам, систематизированным по иерархическим рубрикам.

Браузеры имеют встроенные средства поиска документов

И NetScape Navigator, и Microsoft Internet Explorer имеют встроенные средства, позволяющие быстро находить нужные страницы.

Появление индекса является результатом работы трех элементов программы индексирования. Именно к этой части программы индексирования обращается пользователь, задавая условие поиска в строке для ключевых слов. Поиск проходит в организованной программой базе данных. Совокупность найденных ссылок и адресов URL оформляется в виде Web-страницы результатов. Системы различаются своими возможностями. Некоторые из них поддерживают использование ключевых выражениях булевых операторов, позволяя существенно сузить область поиска. Другие, напротив, собирают всё, что содержит, по крайней мере, одно из заданных ключевых слов.

«Паук» (spider) (иногда называемый также «червем» (worm) или «гусеницей» (crawler)) должен выявить как можно больше Web-страниц. Для этого он «запоминает» все ссылки на открытые им документы. В обнаруженных таким образом новых страницах вновь отыскиваются и запоминаются ссылки. Эта процедура повторяется до тех пор, пока не будут исчерпаны все источники ссылок. Однако очевидно, что подобный метод не может гарантировать всеобъемлющих результатов: попадет ли тот или иной источник в число собран «пауком» страниц, целиком зависит от наличия ссылок на него в других документах Web.

Всякий раз, когда "паук" находит очередную Web-страницу, составитель индекса (indexer) изучает содержимое, занося слова, найденные в ссылках и тексте страниц, в гигантскую базу данных, уплотнить базу и очистить ее от повторяющихся элементов можно с помощью высокоэффективных алгоритмов строения баз данных, заложенных в составитель индекса. Это несложно, ведь в человеческой речи пока не используются уникальные слова. Составитель индекса должен в итоге создать базу, в которой URL адреса были бы соотнесены с наборами встречающихся в них слов.

Информация о работе Методы информационного эффективного поиска и обмена информацией