Автор работы: Пользователь скрыл имя, 04 Апреля 2014 в 19:27, реферат
Целью реферата является мы рассмотрение в теории и на практике использование информационно-поисковых языков в различных поисковых системах сети.
Объектом изучения будет являться интернет как единая информационная среда.
Предметом исследования являются информационно-поисковые языки Интернет.
Для того, чтобы достигнуть поставленную цель, необходимо решить следующие задачи:
провести анализ теоретической и научно-метадической литературы по данной теме;
описать основные типы информационно-поисковых языков;
§2. Типы информационно-поисковых языков.
Булевый поиск.
Наиболее распространенным информационно-поисковым языком является язык, который позволяет составить логические выражения из набора терминов, где при этом используются булевые операторы AND, OR, NOT. Запрос при этом выглядит так: ((информационная and система) or ИПС) not СУБД. Это означает, что необходимо найти все документы, которые содержат одновременно слова «информационная» и «система», либо слово «ИПС», но не содержат слова «СУБД».
Данный запрос можно рассмотреть как и реальный документ из базы данных, ведь фактически, мы имеем дело с двумя запросами: информационная and система not СУБД и ИПС not СУБД, где каждый из которых подразумевает два действия: сначала необходимо найти все документы, которые содержат необходимые пользователю термины, а потом отсеять те, которые содержат термин «СУБД».
На удивление, такая схема достаточно проста, и поэтому именно она наиболее широко применяется в современных информационно-поисковых системах. Но в ней так же, как и в любой другой схеме, есть недостатки. Булевый поиск плохо масштабирует выдачу, то есть оператор AND может заметно сильно сократить число документов, которые выдаются в запросе, и при этом, данное количество документов будет сильно зависеть от того, насколько типичными для базы данных окажутся поисковые термины. Оператор OR напротив может привести к широкому запросу, в котором нужный документ может затеряться за информационным мусором. Для того, чтобы успешно применить данный вид информационно-поискового языка, необходимо хорошо знать лексику системы и ее тематическую направленность. Для этого, как правило, создаются специальные документально лексические базы данных со специфическими словарями, и в которых содержится информация o связи терминов словаря друг с другом.
Модификацией булевого поиска является взвешенный булевый поиск, идея которого тоже достаточно проста. Термин описывает содержание документа с определенной точностью, которую можно выразить в конкретном весе самого термина. При этом взвешивать можно не только термины документа, но и термины запроса. Запрос может быть сформулирован на ИПЯ, но выдача самого документа будет распределяться в зависимости от степени близости запроса и документа. И при этом, измерение близости строится таким образом, чтобы получилось так, что обычный булевый поиск становился частным случаем взвешенного булевого поиска.
Язык типа» «Like this».
Если внимательно рассмотреть взвешенный поиск, то может закрасться огромное желание вообще не использовать логические коннекторы и измерять близость документа и запроса по какими-нибудь другим критериям. Самой
простой моделью такого типа является модель индексирования и поиска, где близость документа и запроса рассматривается как угол между ними. В данном виде модели рассчитывается синус угла, который получают при скалярном произведение двух векторов. В зависимости от значений мер близости происходит распределение документов в то время, когда пользователю выдаются ссылки на эти документы. Но можно сделать замечание, что скалярное произведение не очень подходит для информационно-поисковых систем Интернет. Это связано с тем, что, как правило, длина запроса невелика. Раньше это было возможно, так как в традиционных системах существовали специальные службы, которые отлаживали длинные запросы, а в Интернет такие службы только появляются, поэтому на деле применяются совсем другие меры близости, но тем не менее, принцип остается тот же: сначала вычисляется мера, а потом происходит ранжирование.
Данный подход не гарантирует высоких показателей релевантности, если будет выбрана неудачна лексика, но в то же время, дает возможность более мягкого расширения и уточнения запросов.
Поиск в нечетких множествах.
В данном виде поиска все документы описываются как набор нечетких множеств терминов. Каждый из этих терминов определяет определенную монотонную функцию принадлежности данного документа к общему документальному массиву. Когда запрашивается AND, то это означает как минимум две функции, которые соответствую терминам запроса, OR — как максимум, NOT - как 1-<значение функции>. Как и в случае с поиском по мерам близости, в соответствии с полученными значениям, результат поиска так же распределяется.
Стоит отметить, что этот метод поиска крайне ограничен, так как его использую в основном только в исследовательских системах.
Пороговые модели.
По последним несколько описанным типам поиска можно было заметить, что на конечном этапе поиска, выборка найденных документов ранжируется и при этом, ранжирование происходит всего массива документов в базе данных. В наши дни информационно-поисковые системы Интернет имеют базы данных только индексов, которые весят терабайты. И из этого можно сделать вывод, что ранжировать целиком такие массивы просто нереально. Для этого как раз и предназначены пороговые модели, которые задают пороговые значения для документов, которые выдаются пользователю.
Кластерская модель и вероятностная модель информационного поиска.
В данном виде модели используются два подхода к поиску документов. Первый заключается в том, что массив заранее разбивается на множество документов, а затем, когда производится поиск нужного документа, высчитывается близость запроса по некоторому подмножеству. Во втором
подходе кластер (объединение нескольких однородных элементов, которое может рассматриваться как самостоятельная единица, обладающая определенными свойствами) накручивается вокруг запроса и ближайших к нему терминов. Чаще всего эта модель применяется в системах, которые уточняют запрос по релевантности найденных документов.
При вероятностной модели вычисляется вероятность принадлежности документа классу релевантных запросу документов, где используется вероятность принадлежности терминов запроса каждому из документов базы данных.
Коррекция запроса по релевантности.
Многие системы применяют данный механизм, и это означает, что процедура поиска носит интерактивный и итеративный характеры. Пользователь после проведения первичного поиска отмечает для себя, из всего списка найденных документов, значимые. На следующем этапе система расширяет, уточняет запрос пользователя терминами из выбранных документов и снова выполняет поиск. Этот процесс будет продолжаться до тех пор, пока пользователь не сочтет, что лучшего результата чем тот, что н уже имеет, не добиться. Коррекция запроса по релевантности — один из наиболее популярных способов уточнения информации.
Глава II. Применение ИПЯ в различных поисковых системах.§1. Анализ популярных поисковых систем сети Интернет.
В начале работы, при описании и классификации ИПС ставилась задача проанализировать наиболее популярные и наиболее типичные системы, которыми пользуются в Сети.
Lycos.
Большинство систем дает возможность использовать изощренный метод поиска и более простой запрос. Одной из таких систем является и Lycos. В запросе в качестве поискового критерия вводится предложение на естественном языке. Данная система производит нормализацию запроса, удаляет из него stop-слова, а затем приступает к выполнению самого запроса. Сразу выдается информация o количестве документов на каждое слово из запроса, и только потом список ссылок на интересующие пользователя документы. Напротив каждого документа указывается мера близости к запросу, число слов, которые попали в документ и которые совпадают со словами самого запроса. В апреле 1996 г. в Lycos не был реализован булевый поиск такие планы были анонсирован. Это означает, что эти операторы нельзя вводит в строке вместе с терминами, но в то же время, можно использовать логику через систему меню Lycos (расширенная форма запроса).
Не трудно догадаться, что данная поисковая система относится к системе с языком запросов типа «Like this», но так же используется расширение и на другие способы организации поисковых предписаний.
AltaVista.
С точки зрения ИПЯ в данной системе, есть большой плюс: возможность расширенного поиска. Важным нововведением AltaVista было включение поиска естественного языка. Пользователи могли напечатать запрос и получить на него интеллектуальный ответ. AltaVista разрешает поиск по ключевым фразам и имеет большой словарь таких фраз. В отличии от многих других систем, AltaVista поддерживает одноместный оператор NOT, а так же имеет оператор NEAR, регулирующий возможность контекстного поиска в то время, когда термины должны располагаться рядом в тексте документа. Кроме всего этого, при поиске в данной системе можно задать имя поля, в котором должно встретиться слово: это может быть как гипертекстовая ссылка, так и название образа. Что касается ранжирования, то оно применяется как при простом поиске, так и при расширенном запросе.
AltaVista моно отнести к системе с расширенным булевым поиском.
Yahoo.
Данная система появилась в сети одной из первых, и в настоящее время
сотрудничает со многими производителями средств информационного поиска, и поэтому на данный момент, на различных ее серверах используется различное программное обеспечение. Информационно-поисковой язык Yahoo прост: все слова запроса нужно вводить через пробел, а соединяться они должны либо AND, либо OR. При выдаче ответа на запрос не выдается степень соответствия документа запросу, но при этом подчеркиваются слова из самого запроса, которые встретились в документе. Нормализация лексики и анализ на общие слова не производится. Минус в том, что отличным результат поиска будет только тогда, когда пользователь будет уверен, что интересующая его информация в базе данных Yahoo точно есть. Ранжирование производится по числу терминов запроса в документе.
Yahoo относится к простым традиционным системам с ограниченными возможностями поиска.
OpenText.
Информационная система OpenText представляет из себя самый коммерциализированный информационный продукт в сети. Система позволяет произвести поиск с использованием логических коннекторов, но при этом размер запроса ограничен тремя фразами или терминами. OpenText использует расширенный поиск. При выдаче результатов поиска показывается степень соответствия документа самому запросу и размер документа, но эти результаты можно улучшить при помощи традиционного булевого поиска, что в принципе и позволяет система.
OpenText сложно отнести к какому-либо виду поисковых систем, т. к. данная система имеет схожие черты с традиционными информационно-поисковыми системами, но при этому она имеет систему ранжирования.
InfoSeek.
Она обладает развитым ИПЯ, который позволяет не только указывать термины, которые должны встретиться в документах, но и взвешивать их. Чтобы произвести данное действие необходимо использовать специальные знаки: «+» - термин обязан быть в документе, «-» - термин обязан отсутствовать в документе. InfoSeek позволяет использовать контекстный поиск. Контекстый поиск — поиск, при котором используется специальная форма запроса, которая выдает последовательную совместную встречаемость слов, а т. ж.можно указать слова, которые должны встречать в отдельном параграфе или заголовке того или иного документа. Есть возможность указания ключевых фраз. Разница от ключевого слова и последовательной встречаемости заключается в том, что фраза всегда ищется как единое целое, а при последовательной встречаемости слова могут стоять как рядом, так и в хаотичном порядке. Ранжирование осуществляется по числу терминов запроса в документе, но из этого чила вычитаются общие слова.
InfoSeek относится к традиционным системам с элементом взвешивания терминов при поиске.
WAIS.
WAIS – одна из наиболее изощренных поисковых систем Интернет. ИПЯ данной системы позволяет осуществлять коррекцию запроса по релевантности, помимо строения важных булевых запросов, счета формальной релевантности и взвешивания терминов запроса документа. Эта система позволяет разбивать документы на поля, вводить распределенные индексы и использовать усечение терминов.
WAIS
была выбрана в качестве
Применение языков на практике.
Для того, чтобы сравнить данные поисковые машины на практике, мы рассмотрим небольшой сравнительный пример. В качестве запроса используем фразу: «Best on the Web». Эта фраза всего лишь набор слов, но при этом подразумевалось, что необходимо найти документы, которые связаны с конкурсами на тему: «Лучший в Сети». И вот описание этих результатов, которые выдали каждая из вышеперечисленных поисковых машин.
AltaVista — система произвела нормализацию лексики, после которой осталось только Best. Естественно, при таком условии, качество поиска получило неудовлетворительным. Но когда был произведен поиска фразы как по единому целому, требуемый документ был поставлен на первое место в списке найденных.
Lycos — необходимый документ был указан только в конце списка, т. к. была отсеяна часть фразы «on the». Поиск по фразе улучшенных результатов не дал.
InfoSeek – при использовании расширенного поиска, нужный документ был найден третьим в списке из десяти документов. Уточнение поиска привело к понижению позиций необходимого документа вглубь списка.
OpenText – необходимы документ занял пятую строчку в списке из десяти документов. Уточнение запросов результатов не дало.
Yahoo – документ попал в список найденных и занял третье место. Место хранения этого документа - база данных Yahoo, т. е.запрос точно совпал с тематикой базы данных.
В завершении хотелось бы отметить, что при выборе информационно-поисковой системы нужно обращать еще на один аспект — профиль ее базы данных. Да, можно сказать, что все системы индексируют один и тот же массив документов, но хочу заметить, что делают они это по-разному. Этот аспект очень важен. Определенным ориентиром здесь могут служить виртуальные библиотеки.
Заключение.
Опираясь на теоретическое исследование можно отметить достоинства и недостатки различных информационно-поисковых систем, которые базируются на том или ином информационно-поисковом языке.
Информационный поиск на базе информационно-поисковых систем — достаточно сложный процесс, ведь он представляет из себя познавательно-практическую деятельность, которая требует от поисковых субъектов высокой подготовки. Сложность поиска еще заключается и в том, что каждая поисковая система представляет различные возможности поиска.
Информация о работе Информационно-поисковые языки в сети Интернет