Автор работы: Пользователь скрыл имя, 30 Апреля 2013 в 23:28, дипломная работа
Целью данной бакалаврской работы является рассмотрение практического поиска и обмена информации в сети Интернет.
Для этого необходимо решить следующие задачи:
- анализ возможностей сети Интернет, технология поиска и обмена информации в нем;
- рассмотреть приемы эффективного поиска и обмена информацией.
Предметом исследования в работе являются сеть Интернет и ее возможностей, служб, методов мониторинга и подходов оценки релевантности найденных документов.
Введение……………………………………………………………
3
1 Возможности Интернет стратегии поиска и обмена информацией……………………………………………………………..
7
1.1 Анализ и классификация методов мониторинга при поиске информации..........................................................................................
7
1.2 Передача информации в Интерне…………………………..
10
1.3 Поисковые системы, понятие поисковые индексов и каталогов………………………………………………………………...
17
2 Методы информационного эффективного поиска и обмена информацией…………………………………………………………….
34
2.1 Поиск и оценка найденной информации…………………...
34
2.2 Проблемы поиска теоретической научной информации в Интернет………………………………………………………………….
38
2.3 Интеллектуальные системы и перспективы поиска информации……………………………………………………………...
43
Заключение………………………………………………………...
53
Глоссарий………………………………………………………….
57
Список использованных источников…………
Если какую-либо Web-страницу не удается найти, это еще не значит, что такой страницы не существует. Многие поисковые системы генерируют списки, в которых родственные темы собраны в разделы, организованные по принципу каталогов (такой принцип заложен, например, в Yahoo!). Если вам не удается найти нужные материалы - скажем, об уходе за йоркширским терьером (grooming Yorkshire Terrier), попробуйте отыскать их по индексу. Вполне возможно, искомая тема обнаружится среди его ссылок.
Чтобы повысить эффективность поиска по индексу, сделайте условие поиска более общим и добавьте ключевое слово «index». Так, условие Grooming AND (Yorkie OR «Yorkshire Terrier») следует изменить на Index AND (Yorkie OR Yorkshire). He исключено, что менее конкретное условие Index AND Terrier даст еще лучшие результаты. Если условие выбрано удачно, поисковая система возвратит один или несколько индексов, ссылающихся на страницы о йоркширской породе и терьерах.
На первый взгляд отличить программы индексирования от составителей каталогов трудно. Материя для поиска для обоих инструментов служит содержимое Web-страниц.
Однако, в отличие от программ индексирования, составители каталогов не разыскивают все Web - страницы Internet. Объектом поиска для них являются адреса URL, которые включаются в систематизированный каталог. Поиск по каталогу можно проводить как с помощью браузера, так и вручную, щелкая на названиях разделов и знакомясь с их содержимым.
Тем не менее, несмотря на принципиальные различия в механизмах работы, грань между граммами индексирования и составления каталогов постепенно стирается. Все чаще можно встретить индекс, снабженный средствами построения каталога. Нередко сами Web-страницы в верхней части имеют некое подобие содержания со ссылками на отдельные разделы [22].
2 Методы информационного поиска и обмена информацией
2.1 Поиск и оценка найденной информации
Поиск информации – нахождение соответствующих запросу ссылок на информационные ресурсы данных. Процесс поиска информации состоит из пяти этапов. Эти этапы для документов, имеющих текстовое описание подразумевают следующее.
Первый этап процесса – анализ запроса пользователя. Первый шаг этого этапа – исключение из запроса общеупотребляемых слов. Далее запрос преобразуется с естественного языка на информационно-поисковый и записывается по правилу «обратной польской нотации».
Например, запрос пользователя «система управления базами данных» преобразуется в «система & управления & базами & данных» и записывается по правилу «обратной» нотации как «система управления & базами & данных &», что означает примерно следующее: «найти документы, в которых в одном абзаце присутствуют слова «система управления», «базами» и «данных». Использование польской нотации обусловлено ее удобством при вычислении выражения на ЭВМ. Слова, входящие в запрос нормализуются, а также происходит выделение основ слов. Для увеличения полноты поиска на этом этапе возможно расширение слов запроса словами-синонимами.
Поиск документов соответствующих
запросу – второй этап процесса
поиска документов. Сущность его сводится
к нахождению в базе знаний ссылок
на соответствующие запросу
Третьим этапом данного процесса является вычисление меры соответствия (сходства) документов запросу. Мера соответствия документа запросу отражает, на сколько слова входящие в запрос соответствуют содержимому документа. Эта мера позволяет выявить какой из двух документов соответствует запросу больше. Значение меры сходства определяется по формуле:
где Q – сделанный системе запрос;
nq – количество слов в запросе Q;
qi – i-ое слово запроса (qi Q ; i = 1, … nq);
– поисковый образ текстового документа, соответствующего запросу Q (mr = 1, …, Mr; Mr – количество релевантных запросу текстовых документов в безе документов);
– коэффициент значимости слова qi запроса
Q. Значения этого коэффициента задаются
пользователем при вводе
– вес слова qi в документе . Значение веса слова в документе вычисляются по формуле (1) в процессе индексирования документа (см. выше);
– мера сходства запроса Q и документа .
Кроме вычисления меры соответствия каждого документа запросу на этом этапе происходит дополнительная оценка документа. При этом учитываются следующие аспекты: все слова запроса входят в документ в том же порядке, в котором они указаны в запросе, все слова запроса входят в документ, но порядок их сохранен не меньше чем у половины слов запроса, не меньше половины слов запроса входят в документ и порядок их в точности совпадает со словами запроса, число слов запроса входящих в документ и число порядок их не меньше половины от возможного.
Четвертый этап процесса поиска – ранжирование результатов поиска – служит для упорядочивания найденных документов. Все отобранные на предыдущих этапах документы сортируются по величине присвоенной им оценки в порядке ее уменьшения. Документы, имеющие одинаковую оценку сортируются по вычисленной для каждого документа величине .
Завершающий этап процесса поиска – формирование и выдача результатов пользователю. Информация о сформированном запросе и найденных на него документах сохраняется в системе и может быть импортирована по желанию пользователя в файл или, например, распечатан.
Разные методики поиска, приводят к различным результатам. Последние, к примеру, зависят от того, какой булев оператор использован в ключевом выражении. Ниже приведено несколько основных правил подбора ключевых слов.
• Чем конкретнее понятие, обозначаемое ключевым словом, тем лучше. Это сужает область поиска и делает его более предметным.
• Избегайте общеупотребительных слов. В качестве ключевых бесполезно использовать такие слова, как "that", "the", "program", "internet". Они настолько распространены, что поиск по ним даст многие тысячи страниц.
• Пробуйте разные формы одного и того же ключевого слова.
• Не забывайте о синонимах. Так, кроме "running" (бег), можно использовать также "jog" (бег трусцой). В выражениях с булевыми операторами не забывайте разделять синонимы оператором OR.
• Пробуйте разные варианты. Если найденных страниц оказалось слишком много, попробуйте сузить условие поиска. Напротив, если результат слишком скуден, используемое ключевое слово следует заменить более общим понятием. Первый выбор далеко не всегда оптимален.
• Не забывайте добавлять
кавычки. Они обязательны, если ключевое
слово или выражение
• Учитывайте регистр символов. Результат поиска нередко зависит от того, в каком регистре записано ключевое слово. Так, если оно записано строчными буквами, программа возвращает страницы, где это выражение записано как строчными, так и прописными. Однако если в строку для поиска ввести прописные символы, регистр будет строго соблюден: программа найдет только те страницы, где это выражение целиком записано прописными.
• Обращайте внимание
на специфику используемого
Если начальная страница службы поиска содержит перечень разделов (topic map), их рекомендуется использовать, так как они помогают в выборе ключевых слов. Перечень разделов содержит список дополнительных ключевых слов (основанный на словах, вводимых пользователем), которые программа рекомендует использовать в поиске, и перечень найденных источников.
Использование в ключевых выражениях булевых операторов (AND, OR, NOT) в ключевых выражениях помогает уточнить область и предмет поиска. Хотя наличие заданных ключевых слов поисковая служба проверяет во всех без исключения документах Internet, условия поиска можно изменять, задавая способ комбинации нескольких ключевых слов. Например, условием поиска может быть «golf» (гольф) в сочетании с «equipment» (снаряжение), «clubs» (клубы), «bags» (сумки), «balls» (мячи) - с одним из этих слов или со всеми одновременно в любых комбинациях.
Булевы операторы, которые можно использовать для составления ключевых выражений. Оператор AND между двумя ключевыми словами задает поиск страниц, содержащих одновременно оба слова. По оператору OR будут найдены все страницы, содержащие по крайней мере одно из двух ключевых слов. Если перед ключевым словом стоит оператор NOT, служба поиска найдет страницы, в которых это ключевое слово отсутствует.
Булевыми операторами можно объединять несколько слов или выражений, взятых в кавычки.
Некоторые средства поиска позволяют однозначно указывать системе, должны ли искомые страницы содержать то или иное ключевое слово. Для этого служат знаки «+» и «-«, например +word, -word. 3i «+» показывает, что искомые страницы должны содержать данное ключевое слово, знак «-« задает noi страниц, в которых такое слово отсутствует. Многие системы обеспечивают также возможность расширенного поиска.
Рисунок 5 – Расширенный поиск в ИПС Яндекс
2.2 Проблемы поиска теоретической научной информации в Интернет
В настоящее время объем информационных ресурсов лавинообразно возрастает, наблюдается значительный рост количества занимаемых доменных имен. При этом также можно отметить, что возрастает интерес к сети Интернет и у коммерческих организаций, как к дополнительному источнику прибыли. Практически каждое предприятие, организация стремится иметь свое представительство в сети. В связи, с чем возникают тенденции к использованию сети в коммерческих целях. Большинство российских предприятий осознают тот факт, что Интернет в первую очередь, является дешевым средством рекламы и воспринимают сеть, прежде всего как рекламное печатное издание, в котором они могут разместить информацию. Только особо крупные предприятия с большим опытом работы в сети расширяют свои сайты до больших порталов предоставляющих средства обратной связи и общения с клиентами, ведут разъяснительную работу по поводу предоставляемых ими услуг, дают информацию помогающую выбрать необходимую услугу или товар клиенту. Также увеличивается рост количества Интернет-магазинов и других подобных служб чисто коммерческого назначения. В связи с этими явлениями доля теоретической научной информации в общем количестве информации резко уменьшается.
Таким образом, поиск
научной и теоретической
В настоящее время мониторинг и некоторые аспекты системного анализа информации в сети Интернет выполняются с использованием систем информационного поиска: разделяемые на каталоги (directories), информационно-поисковые системы (search engines) и метапоисковые системы (metasearch engines).
Поисковые системы следует применять, если требуется найти информацию по специфичным вопросам или для обеспечения полноты охвата ресурсов. Многие поисковые системы используют совместно систему поиска и каталог.
На данный момент основным
средством поиска информации в сети
Интернет являются поисковые системы.
Если обобщенно рассмотреть
Процесс индексирования содержимого Интернет включает: сканирование содержимого Интернет, определение рейтинга индексированной страницы (на основании цитируемости, рейтингов сайтов в которых встретились цитаты).
Процесс анализа пользовательского запроса предусматривает: проведение морфологического разбора запроса, синтаксический анализ. (Следует заметить, что для синтаксического анализа каждая система предлагает свой язык. При этом, как правило, не учитываются синтаксические конструкции того естественного языка, на котором написан запрос. В искусственном языке запросов пробелы, встречающиеся в запросе, попросту означают логическое «и», а все другие знаки пунктуации просто игнорируются. Несмотря на данные особенности, подавляющее количество пользователей поисковых систем пишет запросы на естественном языке, а многие из них даже не знают о том, что имеется встроенный язык поисковой системы. То есть большинство пользователей строят запросы с использованием только логического «и» между морфологическими основами слов.)
Анализ алгоритма работы поисковых систем, показывает, что не на одном из этапов не производится анализ соответствия метаданных с информационным наполнением страницы. Также следует упомянуть о том, что ряд поисковых систем основываются также и на анализе форматирования страницы и содержащейся информации в заголовках страницы, разделов и других структурных единиц языка гипертекстовой разметки. Однако данные методы определения реального содержания страницы хорошо известны и могут быть легко использованы для обмана поисковых роботов, что в значительной мере используется разработчиками мелких коммерческих проектов, засоряющих результаты поиска.
Также в большинстве поисковых систем не используется кластеризация содержимого на тематические блоки и направления либо кластеризация производится иерархически и с небольшой глубиной. При этом методы, используемые при кластеризации содержимого, основываются в основном на метаданных о странице и заголовочной информации.
Для определения цитирования информации применяются алгоритмы, которые не способны отследить перефразированные цитаты и прямое частичное зеркалирование. Большинство из применяемых алгоритмов, могут определить только полные зеркала сайтов. И как следствие большинство существующих поисковых систем в слабой мере агрегируют результаты поиска. Это является особо актуальной проблемой, так как реальное содержимое сети Интернет многократно дублируется. Содержимое страниц может повторяться как частично, так и полностью с незначительными изменениями.
Информация о работе Методы информационного эффективного поиска и обмена информацией