Поисковая система

Автор работы: Пользователь скрыл имя, 21 Мая 2013 в 00:54, курсовая работа

Краткое описание

Цель данного проекта – помочь качественно находить и подбирать информацию.
Для достижения поставленной цели необходимо реализовать следующие задачи:
рассмотреть основные поисковые системы;
— проанализировать основные языки запросов;
— структурировать простые, базовые и сложные возможности операторов;
— выявить принципиальные различия, достоинства и недостатки;
— разработать алгоритм поиска информации в интернете;

Прикрепленные файлы: 1 файл

проект.doc

— 576.00 Кб (Скачать документ)


 

Мы тонем в информации

  и задыхаемся от нехватки знаний.

Дж. Нейзбитт

 

ВВЕДЕНИЕ

Актуальность. Предоставление необходимой информации – важнейшая задача сети Интернет. Для миллионов людей разных профессий Интернет стал необходимым инструментом в работе. Сеть растет очень быстрыми темпами, и найти нужную информацию среди миллиардов Web-страниц и файлов становится все сложнее, поэтому без высокоэффективных средств поиска просто не обойтись. Наиболее острым этот вопрос является для студентов, так как успех в учебе во многом зависит от умения находить интересующую информацию в короткие сроки. Если совсем недавно проблема заключалась в нахождении самой информации, то сейчас сложность в другом – выбрать среди большого объёма наиболее точные, качественные и оперативные данные. В связи с этим возникает потребность в программных средствах, эффективно решающих проблемы поиска необходимой пользователю сети Интернет информации.

Для поиска информации используются специальные поисковые системы (поисковые машины), которые содержат более или менее полную и постоянно обновляемую информацию о Web-страницах, файлах и других документах, хранящихся на десятках миллионов серверов Интернета. Благодаря разнообразию поисковых систем, специально разработанных для рядового пользователя, каждый может без труда отсечь заведомо ненужный поток информации, лишь правильно сформулировав запрос в и выбрав ответ.

Язык, на котором формулируются  запросы к поисковым системам, называется языком поисковых запросов (информационно-поисковым языком). Обычные пользователи не утруждают себя изучением языка запросов. В результате в поисковую выдачу попадает много лишних ссылок. Язык запросов – своеобразный «ключ» к миру информации, который дает возможность решать самые сложные поисковые задачи, среди которых: обеспечение релевантности поиска; узкотематичского поиска; уникальности выдаваемых результатов (главным образом текста). Для освоения языка запросов не требуется никаких специальных знаний в области информационных технологий, достаточно освоить небольшой объем теоретических знаний. Язык запросов позволяет сделать наш поиск менее трудоемким и более эффективным.

Цель данного проекта – помочь качественно находить и подбирать информацию.

Для достижения поставленной цели необходимо реализовать следующие задачи:

  рассмотреть основные поисковые  системы;

—  проанализировать основные языки  запросов;

—  структурировать простые, базовые и сложные возможности операторов;

—  выявить принципиальные различия, достоинства и недостатки;

—  разработать алгоритм поиска информации в интернете;

Объект – поиск информации по социально-психологическим проблемам.

Предмет – язык запросов базовых поисковых систем.

 

 

 

 

 

 

 

1. ОБЗОР ОСНОВНЫХ ПОИСКОВЫХ  СИСТЕМ

Поисковая система — программно-аппаратный комплекс с веб-интерфейсом, предоставляющий возможность поиска информации в Интернете. Под поисковой системой обычно подразумевается сайт, на котором размещён интерфейс (фронт-энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и обычно являющийся коммерческой тайной компании-разработчика поисковой системы.

По данным компании Liveinternet.ru за 2010 год использование поисковых  систем  в России распределялось следующим образом:

Яндекс – 51,5% (пользователей)

Google – 33, 0 %

Search.Mail.ru – 7,7 %

Rambler – 2,6 %.

Исходя из этих статистических данных остановим наше внимание на самых популярных поисковых машинах  – «Яндекс» и «Google».

Yandex (Яндекс) — российская ИТ-компания, владеющая одноимённой системой поиска в Сети и интернет-порталом. Поисковая система «Яндекс» является седьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов (2,413 млрд, статистика за ноябрь 2010 года). Поисковая система Yandex.ru была официально анонсирована 23 сентября 1997 года, и первое время развивалась в рамках компании CompTek International. Как отдельная компания «Яндекс» образовался в 2000 году. Основным и приоритетным направлением компании является разработка поискового механизма, но за годы работы Яндекс стал мультипорталом.

Поиск Яндекса позволяет  искать документы на русском, татарском, украинском, белорусском, казахском, английском, немецком и французском языках с учётом морфологии этих языков и близости слов в предложении.

Отличительная особенность Яндекса — возможность точной настройки поискового запроса. Это реализовано за счёт гибкого языка запросов.

По умолчанию Яндекс выводит  по 10 ссылок на каждой странице выдачи результатов, в настройках результатов  поиск можно увеличить размер страницы до 20, 30 или 50 найденных документов. Иногда порядок сайтов на этих страницах может отличаться, так как обновление баз для этих результатов происходит не одновременно.

Если по запросу найдено  очень много ссылок, страница результатов  предлагает ограничить диапазон поиска — по региону (то есть по диапазону IP) или по дате. Если по какому-либо слову или словам ничего не найдено, предлагается заменить его/их на похожие (поскольку предлагаемые варианты зависят от частоты нахождения похожих слов, иногда возникают забавные ситуаци). Также, предлагается исправить слова, набранные не в той раскладке клавиатуры.

Google (Гугл) — поисковая система, принадлежащая корпорации Google Inc. Первая по популярности поисковая система в мире (84,65 %), обрабатывает 41 млрд 345 млн запросов в месяц, индексирует более 8 миллиардов веб-страниц, может находить информацию на 191 языке (c 15 октября 2009). Поддерживает поиск в документах форматов PDF, RTF, PostScript, Microsoft Word, Microsoft Excel, Microsoft PowerPoint и других.

Интерфейс Google содержит довольно сложный  язык запросов, позволяющий ограничить область поиска отдельными доменами, языками, типами файлов и т. д.

 

 

2. ЯЗЫК ЗАПРОСОВ

Язык запросов — это искусственный язык, на котором делаются запросы к базам данных и другим информационным системам, особенно к информационно-поисковым системам. Язык, на котором формулируются запросы к поисковым системам, называется языком поисковых запросов или информационно-поисковым языком.

В различных поисковых системах язык запросов может различаться, однако обычно он является некоторым подобием языка регулярных выражений с дополнениями, связанными со спецификой работы той или иной поисковой системы. Знание и правильное применение языка запросов конкретной поисковой машины улучшает и упрощает пользователю процесс поиска информации.

Язык поисковых запросов состоит  из логических операторов, префиксов обязательности, возможности учета расстояния между словами, морфологии языка, регистра слов, расширенных операторов, возможностей расширенного поиска, уточнения поиска.

Практически все поисковые машины обладают функцией расширенного поиска информации. Термин «расширенный» применяется среди специалистов и разработчиков программ в Интернете в связи с тем, что такой поиск имеет возможность задать более широкие критерии в своем запросе. При расширенном поиске появляется возможность использовать так называемые логические операторы «не», «и», «или». Также практикуется ввод полноценной цитаты, которая обычно заключается в кавычки, в поисковый расширенный запрос. 
            Языком запросов как раз и называется набор метасимволов и правил, в соответствии с которыми осуществляется запрос к поисковой машине. Язык поисковых запросов состоит из расширенных операторов, логических операторов, возможности учета расстояния между словами, морфологии языка, префиксов обязательности, регистра слов, уточнения поиска - возможности расширенного поиска. Язык запросов может сильно отличаться в различных поисковых системах.

Однако, несмотря на то, что возможности  поискового запроса весьма богаты и  эффективны, им практически никто  не пользуются (исключение составляют один-два процента грамотных и опытных пользователя). Поэтому, каким бы ни был язык запросов в поисковой системе Яндекс или Google, вряд ли он как-то повлияет на посещаемость сайта – это необходимо помнить специалистам, занимающимся раскруткой сайта. 
Кроме того, согласно статистике, предоставляемой поисковыми системами, подавляющее большинство пользователей Интернета стремтся не к овладению непростым языком запросов каждой поисковой системы, а к естественному использованию языка – то есть стремление к более длинным фразам и словосочетаниям в поисковом запросе. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. ХАРАКТЕРИСТИКА ОБЩИХ  ВОЗМОЖНОСТЕЙ ОСНОВНЫХ ПОИСКОВЫХ  СИСТЕМ

Поисковый запрос может состоять из одного или нескольких слов, в нем  могут присутствовать знаки препинания. Составлять простые запросы можно и не вдаваясь в тонкости языка запросов. Так, если ввести в поисковую строку несколько слов без знаков препинания и логических операторов, будут найдены документы, содержащие все эти слова (причем на ограниченном расстоянии друг от друга).

Однако знание и правильное применение языка запросов поисковой машины поможет сделать Ваш поиск  быстрым и эффективным.

Запрос, состоящий из нескольких слов, может содержать операторы (операторы Биля). Поиск операторов в документе не производится, они служат лишь инструкцией поисковой машине. Все операторы поисковой машины бинарные, то есть имеют левую и правую часть, каждая из которых также является запросом (по умолчанию состоящим из одного слова). Для изменения сферы действия операторов (группировки нескольких слов запроса в аргумент оператора) применяются скобки и кавычки. У разных поисковых машин существует собственный язык запросов, для которых характерно использование различных операторов.

Универсальными, то есть, подходящими для работы с любыми поисковыми системами, считаются следующие операторы:

 

 

Оператор

Сокращенное обозначение

AND

& , +

NOT

~ , -

OR

|


 

 

1. AND или  «+» , «&». Значение – логическое «и».

Данный оператор означает, что в  документе обязательно должны содержаться  все слова, указанные в запросе. При этом не важно, стоят они рядом  или находятся в разных частях документа. Как правило, логическому И в запросе соответствует простой пробел между словами: при наборе нескольких ключевых слов через пробел «Яндекс» и «Google»

будут искать документы, в которых  эти слова будут встречаться  в пределах одной фразы.

            Однако использование + помогает  ещё более ужесточить критерии запроса: при использовании этого знака поисковики будут выводить ссылки только на те документы, в которых ОБЯЗАТЕЛЬНО присутствуют отмеченные «плюсом» слова.

            Два запроса, соединенные оператором AND (логическое И) образуют сложный запрос, которому удовлетворяют только те документы, которые одновременно удовлетворяют обоим этим запросам. Иными словами, по запросу 'собака AND кошка' найдутся только те документы, которые содержат и слово 'собака', и слово 'кошка'.

Это функциональная возможность помогает  в случае со стоп-словами и «нестрогими соответствиями».

В «Яндексе»:

 

 

 

В «Google»:

 

 

2. NOT или «-», «~». Значение – «без».

Данный оператор используется для поиска страниц, содержащих первое из указанных слов и не содержащее второго. Этот оператор необходим для сужения поиска.

В «Яндексе»:

 

При использовании данного оператора  «Яндекс» напоминает нам, что при  поиске были исключены слова.

Особенность. Яндекс предлагает в использовать знак «-» вместо «~», но это влияет на ранжирование результатов, достаточно сравнить простые примеры.

Оператор NOT (логическое НЕ) образует запрос, которому отвечают документы, удовлетворяющие левой части запроса и не удовлетворяющие правой. Так, результатом поиска по запросу 'собака NOT кошка' будут все документы, в которых есть слово 'собака' и нет слова 'кошка'.

В «Google»:

3. «|» или OR. Значение – логическое «или».

Применяется для того, чтобы в  результатах поиска оказалось одно слово из нескольких. Сложному запросу, состоящему из двух запросов, соединенных оператором OR (логическое ИЛИ) удовлетворяют все документы, удовлетворяющие хотя бы одному из этих двух запросов. По запросу 'метод воспитания OR способ воспитания' найдутся документы, в которых есть хотя бы одно из словосочетаний 'способ воспитания' или 'метод воспитания' (либо оба эти словосочетания вместе).

 

В «Яндекс»:

 

 

 

 

В «Google»:

 

 

Условия, обозначенные этими  операторами, действуют только в  пределах абзаца.

Если Вы хотите, чтобы данные условия  относились ко всему тексту документу, операторы нужно удвоить. В этом случае операторы будут использоваться в следующих формах:

&&, || или ~~.

 

Если оператор явно не указан, используется оператор по умолчанию AND: находятся  только документы, содержащие все слова  запроса. Так, запрос 'структура процесса обучения' будет истолкован как 'структура AND процесса AND обучения'.

На странице Расширенного поиска оператор по умолчанию можно заменить на OR.

Запрос из нескольких слов, перемежающихся операторами, будет истолкован в  соответствии с их приоритетом. Операторы AND и NOT традиционно имеют более высокий приоритет, поэтому запрос из нескольких слов при обработке сначала группируется по операторам AND и NOT, и лишь потом по операторам OR. Изменить порядок группировки можно использованием скобок.

Информация о работе Поисковая система