Методы информационного эффективного поиска и обмена информацией

Автор работы: Пользователь скрыл имя, 30 Апреля 2013 в 23:28, дипломная работа

Краткое описание

Целью данной бакалаврской работы является рассмотрение практического поиска и обмена информации в сети Интернет.
Для этого необходимо решить следующие задачи:
- анализ возможностей сети Интернет, технология поиска и обмена информации в нем;
- рассмотреть приемы эффективного поиска и обмена информацией.
Предметом исследования в работе являются сеть Интернет и ее возможностей, служб, методов мониторинга и подходов оценки релевантности найденных документов.

Содержание

Введение……………………………………………………………
3
1 Возможности Интернет стратегии поиска и обмена информацией……………………………………………………………..

7
1.1 Анализ и классификация методов мониторинга при поиске информации..........................................................................................

7
1.2 Передача информации в Интерне…………………………..
10
1.3 Поисковые системы, понятие поисковые индексов и каталогов………………………………………………………………...

17
2 Методы информационного эффективного поиска и обмена информацией…………………………………………………………….

34
2.1 Поиск и оценка найденной информации…………………...
34
2.2 Проблемы поиска теоретической научной информации в Интернет………………………………………………………………….

38
2.3 Интеллектуальные системы и перспективы поиска информации……………………………………………………………...

43
Заключение………………………………………………………...
53
Глоссарий………………………………………………………….
57
Список использованных источников…………

Прикрепленные файлы: 1 файл

Диплом информатика (1).doc

— 1.05 Мб (Скачать документ)

Тем не менее следует  отметить, что Интернет имеет ряд  крупных опорных узлов, объединенных высокоскоростными каналами связи - в основном свето-волоконными, кабельными и спутниковыми. Основа узлов - это компьютеры-серверы, модемные пулы и концентраторы. От них сеть разветвляется и охватывает многие тысячи всевозможных сетей в различных городах и учреждениях. От наиболее крупных узлов идут ответвления к многочисленным провайдерам (поставщикам услуг Интернет), а от последних - уже к отдельным организациям и пользователям. Все это весьма разветвленное и впрямь напоминающее паутину сетевое хозяйство функционирует как единое целое благодаря применению специальных протоколов (правил передачи информации).

Доски объявлений (USENET news).Это  так называемые сетевые новости  или дискуссионные клубы. Они  дают вам возможность читать и  посылать сообщения в общественные (открытые) дискуссионные группы. На самом деле, они представляют собой сетевой вариант досок объявлений (BBS: Bulletin Board System), изначально работавших на машинах с модемным доступом. «Новости» представляют собой сообщения, адресуемые широкой публике, а не конкретному адресату.

В настоящее время  получил распространение еще  один сервис Интернет - IP-телефонии  в частности Skype. В отличие от многих других программ IP-телефонии, для передачи данных Skype использует P2P-архитектуру. Каталог пользователей Skype распределён по компьютерам пользователей сети Skype, что позволяет сети легко масштабироваться до очень больших размеров (в данный момент более 100 миллионов пользователей, 15 - 25 миллионов онлайн) без дорогой инфраструктуры централизованных серверов.

Кроме того, Skype может  маршрутизировать звонки через компьютеры других пользователей. Это позволяет  соединяться друг с другом пользователям, находящимся за NAT (Network Address Translation - «преобразование сетевых адресов») или брандмауэром, однако создаёт дополнительную нагрузку на компьютеры и каналы пользователей, подключённых к Интернету напрямую.

Единственным центральным  элементом для Skype является сервер идентификации, на котором хранятся учётные записи пользователей и резервные копии  их списков контактов. Центральный сервер нужен только для установки связи. После того как связь установлена, компьютеры пересылают голосовые данные напрямую друг другу (если между ними есть прямая связь) или через Skype-посредник (суперузел - компьютер, у которого есть внешний IP-адрес и открыт TCP-порт для Skype).

 

1.3 Поисковые системы, понятие поисковые индексов и каталогов

 

Одним из первых способов организации доступа к информационным ресурсам сети стало создание каталогов  сайтов, в которых ссылки на ресурсы  группировались согласно тематике. Первым таким проектом стал сайт Yahoo, открывшийся  в апреле 1994 года. После того, как число сайтов в каталоге Yahoo значительно увеличилось, была добавлена возможность поиска информации по каталогу. Это, конечно же, не было поисковой системой в полном смысле, так как область поиска была ограничена только ресурсами, присутствующими в каталоге, а не всеми ресурсами сети Интернет. [9]

Каталоги ссылок широко использовались ранее, но практически  утратили свою популярность в настоящее  время. Причина этого очень проста – даже современные каталоги, содержащие огромное количество ресурсов, представляют информацию лишь об очень малой части сети Интернет. Самый большой каталог сети DMOZ (или Open Directory Project) содержит информацию о 5 миллионах ресурсов, в то время как база поисковой системы Google состоит из более чем 8 миллиардов документов.

В настоящее время наиболее распространенным средством поиска информации являются поисковые системы. Информационно-поисковая система (ИПС) – система, выполняющая функции: - хранения больших объемов информации; быстрого поиска требуемой информации; добавления, удаления и изменения хранимой информации; вывода информации в удобном для человека виде. Так первые системы поиска были созданы в шестидесятые годы: 1965 – 1970 - Dialog, MARK, STAIRS; 1990 – 1995- Z39.50, - GALILEO WAIS; с 1995 - RetrievalWare, - Autonomy, AltaVista, Яндекс, Google. Первой полноценной поисковой системой стал проект WebCrawler появившийся в 1994 году. В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет. В 1997 году Сергей Брин и Лари Пейдж создали Google самую популярную на сегодняшний момент поисковую систему в мире. 23 сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет. В настоящее время существует 3 основные международные поисковые системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих можно насчитать очень много) использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo. В России основной поисковой системой является Yandex, за ним идут Rambler, Google.ru, Aport, Mail.ru и КМ.ru. Для характеристики и оценки поисковых систем существуют различные оценки: - скорость обработки запросов, полнота охвата ресурсов, вероятность получения ответа от системы, нахождение документов, подобных найденным, возможность уточнения запросов, возможность применения разных критериев ранжирования выдачи, возможность подключения переводчиков и др.

http://fevt.ru/news/rejting_ps_internet/2010-04-22-140

Исследовательская компания comScore провела в начале 2010 года измерение  популярности поисковых систем среди  европейских интернет-пользователей: На первом месте с большим отрывом от преследователей оказался американский Google с 77,1% всех запросов европейцев. На втором - также американский поисковик eBay, собравший 4,1% запросов. Третье - российский сайт Yandex, который с 3,2% запросов занял третье место. Четвертое место заняла поисковая система Yahoo - это касательно Европы.

При этом следует отметить, что различные исследовательские центры и компании проводя свои рейтинги, дают различные оценки популярности поисковых систем. Это обусловлено достаточно динамичным развитием поисковиков и охватом опрашиваемых респондентов (см. Приложение А).

Так исследовательский центр портала Superjob.ru провел опрос среди российских интернет-пользователей и составил свой рейтинг самых популярных поисковых систем в России. В исследовании, проведенном в феврале десятого года, приняли участие 10 000 интернет-пользователей со всех округов РФ.иYandex — безусловный лидер поисковых систем в России. Его отметили 78% респондентов, ответивших на вопрос «Какими поисковыми интренет-системами Вы пользуетесь?». Среди плюсов системы Yandex участники опроса чаще всего называли дизайн, удобство в использовании и умеренное количество рекламы.

На втором месте поисковая  система Rambler, его отметили 47% опрошенных. На вопрос о достоинствах Rambler участники опроса отвечали следующее: «Быстро, просто и много полезного». Согласно опросу, Google использую 37% респондентов. По их мнению, кроме Google серьезных поисковых систем в Интернете не наблюдается. Среди плюсов поисковой системы участники опроса чаще всего отмечали возможность перевода содержания иностранных сайтов на русский язык. В числе других поисковых систем респонденты (11%) называли Mail.ru, а также Yahoo, Nigma, Aport и KM.ru.

В отношении Nigma.ru, можно  добавить, что сначала её появления (12 апреля 2005), система сумела завоевать немалую часть пользователей. Её преимущество перед другими «поисковиками», по мнению создателей и респондентов, заключается в систематизации поиска. Интеллектуальная поисковая система Nigma.ru - это первая кластеризующая поисковая система в Рунете. Ежедневно пользователи поисковой машины Nigma.ru делают более 1 миллиона переходов на сайты, ежемесячная аудитория сайта Nigma.ru составляет более 3 000 000 уникальных посетителей. В рамках проекта команда программистов работает над созданием системы, построенной на основе разработок в области искусственного интеллекта. Конечная цель проекта - создание программного обеспечения, позволяющего анализировать проиндексированные документы и выдавать конкретную информацию на запрос пользователя, а не ссылки на другие сайты. Разработчиками были созданы такие сервисы, как Nigma-математика, Nigma-химия и Nigma-музыка.

Как показали исследования компании Dilibrium, основанные на показателях статистики более чем 100 сайтов, рейтинг поисковых систем России в марте 2011 года выглядит так*:

1. Первое место на  протяжении последних лет удерживает  Яндекс с 62% всех поисковых  запросов по России, по сравнению  с прошлым годом потеряв более  чем 7% поискового трафика, что  связано, в первую очередь, с выходом Mail.ru на свою поисковую платформу.

2. Второе место, уже  традиционно, занимает Google с немногим  более чем 26% всех поисковых  запросов РФ, таким образом, увеличив свою долю поискового трафика практически на 3%.

3. Третье место занял поиск Mail.ru с 6% всех поисковых запросов России и тенденция роста, у данного поисковика, сохраняется каждый месяц.

4. Поисковая система  Рамблер выпала из тройки лидеров  и ещё более сократила свое  присутствие в доле поискового  трафика России, в данный момент у него чуть более 2,5% всех поисковых запросов России.

5. Nigma не смотря на  большое количество нововведений, изменения в дизайне и алгоритмах  так и не смогла перейти  1% рубеж.

Возросло количество пользователей мобильных версий поиска, и тем самым доля поискового трафика распространилась и на них, однако лидерство, абсолютно заслужено, за Яндексом: Мобильный Яндекс - 1% и Мобильный Google 0,5% всех поисковых запросов России.

И последний один процент  от общей массы поисковых запросов делят между собой поиск Qip (0,4%), Bing (0,3%), Yahoo (0,2%) и последнее место в рейтинге поисковиков занял Aport, потеряв в этом году практически весь поисковый трафик (0,1%).

Так исследования статистика Рунета за март 2011 года, изменения тенденций рынка за 4 года показали ряд изменений [20].

В качестве источника  данных для анализа использовались известные и самые популярные сегодня аналитические системы  трафика в Рунете – Оpenstat (бывший SpyLOG) и LiveInternet, а именно статистика поисковых  переходов на сайты, где установлены соответствующие системы учёта этих сервисов. Сравнение данных от двух источников трафика дают наиболее полную и достоверную картину поискового трафика Рунета.

Кроме этого, оценивалась доля общего поискового влияния в Рунете, а также процент трафика, который приходится на различные системы контекстной рекламы в результатах поиска поисковых систем.

Данные системы Openstat. Необходимо отметить, что общее количество переходов на сайты здесь с поисковых систем за март 2011 года составляет (не учитывая совсем незначительные поисковые системы) 800 134 117 штук, что меньше данных от LiveInternet – у них этот показатель составляет 4 881 108 771, однако это несильно повлияло на общую картину трафика.

Рисунок 1 – Количество периходов на сайты поисковых систем

По отчёту Openstat видно, что наибольшее количество переходов  на сайты принадлежит поисковой  системе «Яндекс» и составляет 436 605 911 – это 54,57% общего трафика. Второе место за Google с его 286 455 941, что составляет, соответственно, 35,8% от общей доли. Третье место занимает поиск от Mail.ru (52 506 676 - 6,56%). Остальные поисковые механизмы в доле поискового трафика по версии Openstat занимают менее 2% каждая. Наивысший показатель у поисковика Rambler (11 789 511 – 1,47%).

Однако известно, что поисковые алгоритмы крупных поисковых систем в том или ином процентном соотношении участвуют в формировании поисковой выдачи и в других, более мелких системах поиска. Такая консолидация понятна: порталы хотят иметь современный качественный поиск в совокупности с теми сервисами, которые они предоставляют. Как правило, поисковая выдача на таких порталах мало отличается от того, что видят пользователи в основной выдаче тех поисковых систем, с которыми сотрудничают порталы. Поиск на портале Mail.ru имеет в своей основе выдачу от Google, а Nigma.ru и QIP.ru обрабатывают поисковую выдачу «Яндекса» и т. д.

Следующая диаграмма показывает долю влияния крупных поисковых систем на трафик, учитывая сотрудничество некоторых из них с популярными порталами Рунета по данным от Openstat.

Рисунок 2 – Влияние поисковых систем на трафик сотрудничества с популярными порталами Рунета

Как мы видим, первое место  занимает «Яндекс» с его 442 038 675 переходами за март 2011 года, что составляет 55,25%. Второе место за Google (338 962 617 - 42,36%), остальные поисковые системы занимают небольшую долю в генерации трафика Рунета. «Рамблер» находится на 3 месте (11 789 511 – 1,47%), замыкают список Bing (6 457 242 – 0,81%) и Yahoo! (886 072 – 0,11%).

В соответствии с информацией от LiveInternet тоже лидирует «Яндекс». С него было совершено 2 713 626 562 перехода на сайт с результатов поиска в марте 2011 года, что составляет 55,59% общего поискового трафика Рунета. Второе место за Google с его 1 684 613 536 переходами, и это 34,51%. Поиск Mail.ru имеет 6,49% трафика и 316 611 032 переходов, соответственно. Остальные поисковые системы получили менее 5% трафика каждая. Четвёртое место занимает Rambler (60 988 884 - 1,25%). Далее в списке идут Bing (42 270 944 - 0,87%), QIP.ru (27 941 466 - 0,57%), Webalta (19 253 934 - 0,39%), Nigma (11 624 399 - 0,24%), Yahoo! (4 178 014 - 0,09%).

Доля поискового влияния  по версии LiveInternet:

Рисунок 3 – Доля поискового влияния

Первое место стабильно  за «Яндексом» (2 753 192 427 переходов с поисковой системы в месяц - 56,41%), второе за Google (2 001 224 568 - 41%), далее идут Rambler (60 988 884 - 1,25%), Bing (42 270 944 - 0,87%), Webalta (19253934 - 0,39%), Yahoo! (4 178 014 - 0,09%).

Лидером в формировании поискового трафика является поисковая система  «Яндекс» с её партнёрами. На её долю приходится больше половины запросов Рунета. По сравнению с данными на 2007 год (48%), имеется стабильный рост популярности поисковой системы, однако такой же рост есть и у поисковой системы Google (24,7% трафика в 2007 году и более 35% трафика в 2011). Для других же представителей поискового рынка ситуация не очень радужная. Большинство поисковых машин за это время стабильно теряло трафик. Наиболее сильные потери у Rambler (в 2007 году на долю этой поисковой системы приходилось примерно 15% трафика Рунета, сейчас же она составляет даже меньше 2%). Поисковая система «Апорт» потеряла почти всю свою аудиторию, её доля настолько незначительна в общем поиске, что даже включать её в эту статью можно только ради дани истории.

Информация о работе Методы информационного эффективного поиска и обмена информацией