Автор работы: Пользователь скрыл имя, 12 Декабря 2012 в 17:03, лабораторная работа
Цель лабораторной работы:
- ознакомиться со способами подключения к сети Интернет;
- научиться использовать стандартный браузер Internet Explorer;
- научиться производить поиск информации в сети Интернет.
Введение 4
Виды подключения к сети Интернет 5
Организация сети Интернет 18
Браузер Internet Explorer. 21
Принципы работы поисковых систем. 26
Российские поисковые системы 29
Использование языка запросов поисковых систем. 30
Задания к лабораторной работе. 35
Контрольные вопросы. 39
Список рекомендованной литературы. 40
Третья закладка определяет доступ пользователя к сетевым документам. Основным полем данной закладки является раздел «Ограничение доступа», который определяет, какие сайты разрешены к показу, а какие запрещены («Разрешенные узла»), определяет, какие части сайта запрещается просматривать пользователю («Оценки»), устанавливается пароль на изменение закладки «Ограничение доступа» («Общие»), а также существует возможность изменения подменю «Оценки», посредством загрузки дополнительных моделей («Дополнительно»). В поле «Личные данные» существует подменю «Автозаполнение», которое определяет применение опции автозаполнения при работе с интернет-документами. Данная опция удобна, например, при частой регистрации на Web-сайтах, где требуется указывать свои личные данные в предлагаемых формах. В данном случае, при включенной опции автозаполнения в формах IE будет предлагать вариант для ввода, соответствующий значениям, введенным в предыдущий раз.
Закладка «Подключение» используется, если требуется настроить подключение к сети Интернет через модем, а также если загрузка документов осуществляется через прокси-сервер.
Закладка «Программы»
Закладка «Дополнительно»
Одним из замечательных свойств Интернет является то, что существуют сотни миллионов web-ресурсов, ожидающих и готовых быть представленными нам. Но плохо то, что есть те же миллионы страниц, которые, даже будучи нам нужны, не предстанут перед нами, т.к. просто неизвестны нам. Как узнать, что и где можно найти в Интернет? Обычно для этого мы обращаемся к помощи поисковых машин.
Поисковые машины представляют собой специальные сайты в глобальной сети, которые сделаны так, чтобы помочь людям отыскать во всемирной паутине нужную им информацию. Есть различия в способах, которыми поисковые машины выполняют свои функции, но в целом есть 3 основных и одинаковых функции:
- все они "обыскивают" Интернет (или какой то сектор Интернет) на основе заданных ключевых слов;
- все поисковики индексируют слова, которые они ищут и места, где они их находят;
- все поисковики позволяют
Самые первые поисковики индексировали до нескольких сотен тысяч страниц и получали 1000-2000 запросов в день. Сегодня популярные поисковики проиндексировали и индексируют в непрерывном режиме сотни миллионов страниц, обрабатывают десятки миллионов запросов в день. Как же работают поисковики, каким образом они складывают все кусочки найденной информации так, чтобы суметь ответить на любой интересующий нас вопрос?
Перед тем, как ответить пользователю, где найти нужный документ или файл, поисковая система должна была уже когда-то их найти. Чтобы найти информацию о сотнях миллионах существующих web-страниц, поисковая машина применяет специальную программу-робот, которую еще называют спайдером или пауком. Эта программа служит для построения списка слов, найденных на страницах.
Как же начинает любой паук свое путешествие по сети? Обычно стартовой точкой являются наиболее крупные мировые сервера и очень популярные web-страницы. Паук начинает свой путь с такого сайта, индексирует все найденные слова и продолжает свое движение далее, по ссылкам на другие сайты. Таким образом, робот-паук начинает охватывать все большие "куски" web-пространства. Например, поисковая система Google.com обычно начинает поиск с использованием 3-х пауков. Каждый паук поддерживает до 300 одновременно открытых соединений с web-страницами. При пиковой загрузке, с использованием 4-х пауков, система Google способна обрабатывать 100 страниц в секунду, генерируя трафик около 600 килобайт/сек.
Чтобы обеспечить пауков необходимыми для обработки данными, раньше Google располагал сервером, который занимался только тем, что "подбрасывал" паукам все новые и новые URL. Чтобы не зависеть от Интернет-провайдеров в части серверов доменных имен (DNS), Google обзавелся собственным сервером DNS, сведя все временные затраты на индексацию страниц до минимума.
Когда Google робот посещает HTML страницу, он принимает во внимание слова на странице и место их расположения.
Слова, расположенные в служебных разделах, помечались как особо важные для пользовательских поисковых запросов. Google-паук был построен так, чтобы индексировать каждое подобное слово на странице, за исключением служебных слов типа "a" "an" и "the.". Другие поисковики имеют несколько другой подход к индексации.
Все подходы и алгоритмы
После того, как пауки закончили свою работу по нахождению новых web-страниц, поисковые машины должны разместить всю найденную информацию так, чтобы было удобно в дальнейшем ею пользоваться. Здесь имеют значение два ключевых компонента:
- информация, сохраненная вместе с данными;
- метод, которым эта информация проиндексирована.
В простейшем случае, поисковик мог бы просто разместить слово и URL адрес, где оно находится. Но это сделало бы поисковик совсем примитивным инструментом, так как нет никакой информации о том, в какой части документа находится это слово, используется ли это слово один раз или многократно и содержится ли оно в ссылке на другой важный и близкий по теме ресурс. Другими словами, такой способ не позволит ранжировать сайты, не обеспечит представление пользователям релевантных результатов и т.д.
Чтобы предоставить нам полезные данные, поисковики сохраняют не только информацию из слова и его URL адрес. Поисковик может сохранить данные о количестве (частоте) упоминаний слова на странице, присвоить слову "вес", что далее поможет выдавать поисковые результаты на основе весового ранжирования по данному слову, с учетом его местонахождения. У каждого коммерческого поисковика есть своя формула для вычисления "веса" ключевых слов при индексации. Это одна из причин, почему по одному и тому же поисковому запросу поисковики выдают совсем разные результаты.
Следующий важный момент при обработке найденной информации - её кодирование с целью уменьшения объема дискового пространства для её сохранения. Например, в системе Google для хранения весовых данных слов используется 2 байта (по 8 бит каждый). При этом учитывается вид слова (большими или прописными буквами), размер самих букв (Font-Size) и другая информация, которая помогает ранжировать сайт. Каждый такой "кусочек" информации требует 2-3 бита данных в полном 2-байтном наборе. В результате громадный объем информации удается сохранять в очень компактном виде. После того, как информация "сжата", пора приступать к индексации.
Цель индексация одна: обеспечить максимально быстрый поиск нужной информации. Существуют несколько путей для построения индексов, но самый эффективный - это построение хеш-таблиц (hash table). При хешировании используется определенная формула, с помощью которой каждому слову присваивается некое численное значение.
В любом языке существуют буквы, с которых начинается гораздо больше слов, чем с остальных букв алфавита. К примеру, слов на букв "П" в русском языке значительно больше, чем на букву "Ф". Это означает, что поиск слова, начинающегося с популярной буквы, потребует больше времени, чем любое другое слово. Хешинг уравнивает эту разницу и уменьшает среднее время поиска, а также разделяет сам индекс от реальных данных. Хеш-таблица содержит хеш-значения вместе с указателем на данные, соответствующие этому значению. Эффективная индексация + эффективное размещение вместе обеспечивают высокую скорость поиска, даже если пользователь задаст очень сложный поисковый запрос.
К сожалению, сейчас поисковые системы часто заваливают пользователя огромным количеством информации, не имеющей отношения к введенному запросу. И это не недостаток используемых алгоритмов, а отражение сложности и неоднозначности естественного языка.
«Плата», например, может означать «деньги, отдаваемые в обмен на услугу или товар», а может означать «часть радиоэлектронной аппаратуры». Если вас интересует только одно значение слова, то вам, очевидно, будут не нужны данные по его второму значению. Можно, конечно, построить буквальный запрос, который позволит исключить вывод данных по ненужному значению слова, но было бы неплохо, если бы поисковик смог сам помочь вам.
Одна из областей исследований в области алгоритмов будущих поисковых машин - это концептуальный поиск информации. Это алгоритмы, использующие для нахождения релевантных данных статистический анализ страниц, содержащих данное поисковое ключевое слово или фразу. Ясно, что такой «концептуальной поисковой машине» потребуется гораздо больший объем для хранения данных о каждой странице и больше времени для обработки каждого запроса. В настоящее время многие исследователи работают над этой сложнейшей проблемой.
Не менее интенсивно ведутся работы и в области разработки поисковых алгоритмов на основе запросов естественного языка (Natural-Language query).
Идея естественных запросов состоит в том, что вы можете написать запрос так, как если бы спросили об этом коллегу, сидящего напротив вас. Не надо беспокоиться о булевских операторах или напрягаться для составления сложного запроса. Самый популярный на сегодня поисковый сайт на основе языка естественных запросов - это AskJeeves.com. Он преобразует запрос в ключевые слова, которые затем и использует при индексировании сайтов. Этот подход работает только в случае простых запросов. Однако прогресс не стоит на месте, возможно, что совсем скоро мы будем разговаривать с поисковыми машинами на своем человеческом языке.
Основные мировые поисковые системы при работе с русским сегментом Интернета часто недостаточно эффективны. Они не рассчитаны на семантику русского языка, не имеют представления о формах русских слов, русских предлогах и многом другом. Все это ограничивает применение этих систем только самыми простыми запросами.
Российские поисковые системы изначально имеют информацию об особенностях Рунета, что делает их работу более качественной. Самые известные российские поисковые машины – Яндекс (www.yandex.ru) и Рамблер (www.rambler.ru). Правила поиска этих систем весьма похожи, поэтому мы рассмотрим только общие принципы. Конкретные правила построения запросов и ключевые слова каждого поисковика легко найти на сайтах.
Основная задача, которую решает пользователь, обращающийся к поисковой машине, это построение поискового запроса.
Поисковый запрос может состоять из одного или нескольких слов, в нем могут присутствовать знаки препинания. Составлять простые запросы можно, не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга). В общем случае, регистр написания поисковых слов и операторов значения не имеет, то есть «дом» и «ДОМ», «Not» и «nOt» воспринимаются одинаково. И лишь иногда, в целях повышения качества поиска, регистр слов поискового запроса принимается во внимание.
В случае применения простых запросов пользователю придется самостоятельно обрабатывать тысячи ссылок, для того чтобы получить необходимую информацию. Простые запросы дают результат с низкой релевантностью – много найденных ссылок фактически не соответствуют запросу пользователя.
Для получения более точного результата имеет смысл воспользоваться расширенным поиском с помощью языка запросов.
Сложный запрос, состоящий из нескольких слов, может содержать операторы. Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки.
Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу «собака AND кошка» найдутся только те документы, которые содержат и слово «собака», и слово «кошка».
Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу «собака OR кошка» найдутся документы, в которых есть хотя бы одно из слов «собака» или «кошка» (либо оба эти слова вместе).
Оператор NOT (логическое И-НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу «собака NOT кошка» будут все документы, в которых есть слово «собака» и нет слова «кошка».