Автор работы: Пользователь скрыл имя, 21 Мая 2013 в 00:54, курсовая работа
Цель данного проекта – помочь качественно находить и подбирать информацию.
Для достижения поставленной цели необходимо реализовать следующие задачи:
рассмотреть основные поисковые системы;
— проанализировать основные языки запросов;
— структурировать простые, базовые и сложные возможности операторов;
— выявить принципиальные различия, достоинства и недостатки;
— разработать алгоритм поиска информации в интернете;
4. « » - кавычки.
Кавычки используются для поиска страниц с указанными и неразрывными словосочетаниями, часто используется для поиска цитат и выражений.
При поиске цитаты, её автора, необходимо просто заключить её в кавычки. Например, высказывание А.С. Макаренко «Воспитание происходит всегда, даже тогда, когда вас нет дома».
В «Яндекс»:
Без кавычек – 3 млн. ответов.
С кавычками – только 843 ответа, то есть почти в 3500 раз меньше.
В «Google»:
5. Скобки
При построении запросов иногда возникает необходимость объединения слов запроса в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Часть запроса, заключенная в скобки, сама является запросом, и на нее распространяются правила языка построения запросов. Использование скобок позволяет строить вложенные запросы и передавать их операторам в качестве аргументов, а также перекрывать приоритеты операторов, принятые по умолчанию.
Если запрос без скобок 'структура закономерности | педагогический процесс' эквивалентен запросу 'структура AND закономерности OR педагогический процесс' и, в соответствии с приоритетами операторов, означает "найти документы, содержащие либо слова 'стукрура' и 'закономерности', либо словосочетание педагогический процесс, то запрос со скобками 'структура (закономерности | педагогический процесс)' равносилен запросу 'структура AND (закономерности OR педагогический процесс)', что означает "найти документы, содержащие слово 'закономерности' и одно из слов 'закономерности' или 'педагогический процесс'.
3.1 ПОИСКОВАЯ СИСТЕМА «ЯНДЕКС» И ЕЁ ЯЗЫК ЗАПРОСОВ
Поисковая система «Яндекс» является седьмой среди крупнейших поисковых сайтов мира по количеству обработанных поисковых запросов и крупнейшей в России.
Любая поисковая система
Поисковые возможности «Яндекс» условно делятся на базовые, простые и сложные.
Базовые возможности
Достаточно ввести свой вопрос, чтобы получить сотни и даже тысячи ссылок на страницы интересующей тематики. Например, «методы педагогических исследований» Результат: нашлось 4 млн. ответов.
Это пример самого простого запроса
в системе. Прежде чем перейти
непосредственно к языку
1) Во-первых, в целях эффективного поиска необходимо отказать от стоп-слов. К ним «Яндекс» относит предлоги, местоимения, частицы, знаки препинания.
Например: я, они, который, или, для
и т.д. При использовании их в
запросе они будут
2) Во-вторых, одна из серьёзных особенностей «Яндекса» - учет морфологии слов.
1. Словоформы. Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка. Например, вводя в тестовое поле слово «почта», «Яндекс» будет искать его другие формы: почты, почте, почту, почтой.
2. Кавычки. О них было сказано ранее.
Простые возможности
Операторы, используемые только в «Яндексе»:
1. «( )» - скобки.
Как и в математике, скобки необходимо использовать при составлении сложных поисковых формул – в них можно заключать целые предложения.
Пример:
2. «!» - оператор «точной формы».
Зачастую многие сталкиваются с омонимами, особенно часто это происходит в случае поиска фамилии или населенного пункта. Обычно пользователи пишут такой запрос с большой буквы, но это не помогает, поскольку «Яндекс» посчитает их формами одного слова. В помощь был создан оператор точной формы, который обозначается «!».
Например, «Клин» и «!Клин», «Сомов» и «!Сомов».
3. «!!» - оператор «формы слова».
Найдет все формы слова.
Более сложные возможности
Введем понятие «расстояние между словами». Если пронумеровать все слова в документе, то разница между номерами двух выбранных слов и будет расстоянием между ними. Таким образом, расстояние между соседними словами равно 1. Расстояние может быть как положительным, так и отрицательным в зависимости от относительного расположения выбранных слов в документе.
При формировании списка результатов поисковая система сортирует их исходя из множества различных показателей, характеризующих степень соответствия документа запросу, совокупность которых называется релевантностью. Чем выше релевантность документа, тем ближе к началу будет его позиция в списке результатов.
Язык запросов «Яндекса»
также предоставляет некоторые возможности
по изменению релевантности найденных
документов. Не следует забывать, что при
этом в результатах поиска содержатся
те же самые документы, а изменяется только
их порядок.
1. левый_операнд << правый_операнд
Неранжирующее «И». Оператор очень похож на &&, с той лишь разницей, что правый_операнд влияет на возможность документов попасть в результаты поиска, но не влияет на ранжирование.
Сравните результаты поиска по запросам: релевантность && РОМИП и запросу релевантность<<РОМИП.
2. $title (запрос)
Поиск текста в заголовке страниц
(title). Макаренко << $title (биография)
3. url=www.url.ru/cat/*
Поиск ограничивается группой страниц, с заданным URL. Если в конце адреса стоит *, то учитываются страницы, адрес которых начинается с заданного URL.
"Зигмунд Фрейн << url="www.exler.ru*"
4. host=www.host.ru
Поиск ограничивается страницами, которые ссылаются на заданный адрес, учитывает все зеркала сайта.
host="www.yandex.ru"
5. rhost="ru.url.*" или rhost="ru.url.www"
Оператор аналогичен host, но имя хоста записывается в обратном порядке — вначале домен верхнего уровня, затем второго и т.д. Если в конце указано .*, то поиск идет по всем поддоменам заданного домена (но не включая домен ru.url!).
rhost="ru.yandex.*"
6. mime="тип_файла". Позволяет ограничить поиск определенным типом файла:
HTML, PDF (Adobe Portable Document Format), DOC (Microsoft Word), PPT (Microsoft PowerPoint), XLS (Microsoft Excel), RTF (Rich Text Format), SWF (Macromedia Flash)
Пример:
(учебник && дидактика) << (mime="pdf" | mime="pdf")
7. lang="язык".
Отбирает для поиска страницы, написанные на определенном языке: русском (ru), украинском (uk), белорусском (be), английском (en), французском (fr), немецком (de).
Пример:
Psychological researches<< lang="en"
8. like="url.ru/file.html"
Отбирает для поиска страницы, похожие на заданный URL.
like="www.yandex.ru"
9. domain="домен"
Производит поиск по страницам, которые расположены в заданном домене.
domain="yandex" /+1 domain="ru"
10. date="ГГГГ{*|ММ{*|ДД}}"
Поиск производится только по страницам, дата которых удовлетворяет заданному условию.
date="200310*"
11. cat=(ID региона) или cat=(ID темы)
Поиск включает только страницы сайтов, зарегистрированных в Яндекс.Каталоге, тематическая рубрика или регион которых совпадают с заданным. Идентификатор региона можно получить, прибавив к коду региона смещение 11000000. Идентификатор тематической рубрики получается прибавлением к коду темы смещения 9000000.
зяблик << cat=(11000051)
12. Оператор /N.
Позволяет задать максимально допустимое
расстояние между словами. Допустим, нам
необходимо найти упоминание о налоговых
инспекторах, которые могут упоминаться
и как инспекторы по налогам. Запрос «(налоги
| налоговый) /2 инспектор» возвратит и
«налоговый инспектор», и «инспектор по
налогам», и «инспектор отдела налогов»
- то есть все документы, где расстояние
между словами "налоги" и "инспектор"
составляет не более 2 слов.…………………………………………………………………
13. Операторы /+N и /-N.
Позволяют указать точное расстояние
между словами. Например, запрос «инспектор
/+2 налог» вернет только те ссылки, где
словоформа от «налог» расположена точно
через слово после словоформы от «инспектор».
Такой запрос аналогичен запросу «налог
/-2 инспектор». В качестве упрощенного
написания оператора /+1 можно использовать
кавычки, например запрос ««ремонт видеотехники»»
аналогичен запросу «ремонт /+1 видеотехники».
Полная форма оператора поиска с расстоянием:
/(-N +N) - в этом случае указываются расстояния
для обоих вариантов взаиморасположения
запрашиваемых слов.…………………………………………………………………
По умолчанию все операторы поиска с расстоянием работают на уровне слов, т.к. в запросе вида «налоговый /+1 инспектор» подразумевается наличие оператора &, то есть «налоговый & /+1 инспектор». Если заменить оператор & на &&, то расстояние будет измеряться в предложениях. Допустим, мы ищем упоминание о банках в связи с ипотекой. Запрос «банк ипотека» слишком ограничен, запрос «банк && ипотека» слишком свободен, а запрос «банк && /2 ипотека» будет в самый раз.
14. Оператор веса :N.
Позволяет повысить релевантность
документов, содержащих заданное выражение.
Например, запрос "физика:1 | химия:1000
| литература:1" возвращает ссылки на
документы, где встречается любой
из этих предметов, но документы с
упоминанием химии будут расположены
ближе к началу. Чтобы получить заметный
эффект, необходимо указывать достаточно
высокие значения N (порядка тысяч и десятков
тысяч).
При помощи оператора уточнения <- можно
повысить релевантность тех документов,
в которых встречается уточняющее выражение.
Например, по запросу "(физика | химия)
<- библиотека" система возвратит все
документы с упоминанием физики или химии,
а первыми в списке результатов будут
расположены документы с упоминанием
библиотек.
Поиск в элементах позволяет искать изображения, ссылки, а также ограничивать область поиска заданными веб-сайтами. Поскольку поиск в элементах полностью реализован в форме расширенного поиска, то в данной статье он не рассматривается.
При формировании списка результатов поисковая система сортирует их исходя из множества различных показателей, характеризующих степень соответствия документа запросу, совокупность которых называется релевантностью. Чем выше релевантность документа, тем ближе к началу будет его позиция в списке результатов. Факторы, влияющие на релевантность, обычно сохраняются в строгом секрете, чтобы нечистые на руку веб-мастера не оптимизировали свои веб-сайты специально для повышения их релевантности.
Обычный запрос вида "слово1 слово2
слово3" возвращает только те документы,
в которых все три слова встречаются в
одном предложении. Иногда бывает необходимо
получить все документы, где встречается
хотя бы одно из слов, причем более релевантными
должны быть те из них, в которых встречаются
все три слова, затем по два, и наконец
по одному.……………………………………………………………
Можно
решить эту проблему запросом "слово1
| слово2 | слово3", так как очевидно, что
наиболее высокую релевантность будут
иметь документы, в которых есть все три
слова. Однако если по какой-либо причине
результат такого запроса вас не устраивает,
можно воспользоваться оператором мягкого
поиска //N. N измеряется в процентах от
0 до 100. Запрос "(слово1 слово2 слово3)
//0" возвращает только документы, содержащие
все три слова (как и при отсутствии данного
оператора). В результаты запроса "(слово1
слово2 слово3) //100" будут включены все
документы, в которых встречается хотя
бы одно из запрошенных слов. Варьируя
значение N, можно изменять количество
найденных документов.
3.1 ПОИСКОВАЯ СИСТЕМА «GOOGLE» И ЕЁ ЯЗЫК ЗАПРОСОВ
«Google» - первая по популярности поисковая система в мире, принадлежащая корпорации Google Inc. Эта поисковая машина обрабатывает 41 млрд. 345 млн. запросов в месяц и может находить информацию на 191 языке (c 15 октября 2009).
Любая поисковая система ориентирована на неискушенного пользователя, которому нужно без особых усилий найти необходимые сведения. Интерфейс поисковой машины «Google» представляет собой текстовое поле:
Рассматривая поисковую систему «Google», мы обратимся к её русскоязычному варианту - www.google.ru.
Ниже окна текстового поля расположены две так называемые «кнопки». Использование кнопки «Поиск в Google» говорит сам за себя – «кликая» по ней, Вы обращаетесь к поисковой системе и ко всем её ресурсам в целях поиска интересующей информации. Оригинальной особенностью интерфейса «Google» является наличие второй «кнопки», которая называется «Мне повезет!». После ввода условий поиска можно нажать на кнопку "Мне повезет!", которая сразу откроет самый релевантный сайт по Вашему запросу (всего один).