Автор работы: Пользователь скрыл имя, 30 Апреля 2013 в 23:28, дипломная работа
Целью данной бакалаврской работы является рассмотрение практического поиска и обмена информации в сети Интернет.
Для этого необходимо решить следующие задачи:
- анализ возможностей сети Интернет, технология поиска и обмена информации в нем;
- рассмотреть приемы эффективного поиска и обмена информацией.
Предметом исследования в работе являются сеть Интернет и ее возможностей, служб, методов мониторинга и подходов оценки релевантности найденных документов.
Введение……………………………………………………………
3
1 Возможности Интернет стратегии поиска и обмена информацией……………………………………………………………..
7
1.1 Анализ и классификация методов мониторинга при поиске информации..........................................................................................
7
1.2 Передача информации в Интерне…………………………..
10
1.3 Поисковые системы, понятие поисковые индексов и каталогов………………………………………………………………...
17
2 Методы информационного эффективного поиска и обмена информацией…………………………………………………………….
34
2.1 Поиск и оценка найденной информации…………………...
34
2.2 Проблемы поиска теоретической научной информации в Интернет………………………………………………………………….
38
2.3 Интеллектуальные системы и перспективы поиска информации……………………………………………………………...
43
Заключение………………………………………………………...
53
Глоссарий………………………………………………………….
57
Список использованных источников…………
Для поиска текстовой информации в базах проиндексированных документов по запросу пользователя на естественном языке разработан алгоритм Stocona Search. При этом:
Технология информационного поиска Stocona Search представляет собой совокупность методических и алгоритмических решений, обеспечивающих возможность реализации широкого класса поисковых систем (локальных и глобальных). Все базовые и прикладные технологические решения по Stocona Search основываются на единой методической платформе – совокупном использовании методов лингвистического анализа и искусственного интеллекта. Именно глубина лингвистического разбора текстов, осуществляемая с использованием интегрированной базы знаний о лексико-грамматическом строе языка, корректное определение отношений между членами предложения и автоматическая верификация соответствующих гипотез относительно их синтактико-семантических ролей создают необходимые предпосылки для реализации точного поиска в локальных базах. Достаточные же для этого условия создаются за счет соответствующих архитектурно-системных решений, обеспечивающих механизмы реализации интеллектуальных поисковых алгоритмов с приемлемыми потребительскими и эксплуатационными качествами. Ввиду существенной сложности и объемности задач интеллектуализации поисковых систем их развитие, естественно, осуществляется поэтапно путем последовательного наращивания их функциональности.
Для сохранения возможностей традиционных видов поиска, а также для реализации некоторых специальных видов поиска в составе технологии Stocona Search интегриророваны также некоторые вероятностно-статистические алгоритмы. Это создает возможность применения этой технологии в соответствующих вариациях как для локального, так и для глобального поиска (в том числе для глобального метапоиска). При этом по мере развития алгоритмов точного локального поиска предусматривается использование полученных достижений для параллельного повышения эффективности глобального поиска.
Следует особо подчеркнуть, что технология Stocona Search изначально нацелена на точный поиск в локальных базах данных. Для этого в ней предусматриваются и развиваются соответствующие механизмы точного поиска. Точность же при поиске в глобальной сети является лишь естественным следствием или свойством данной технологии.
Таким образом, технология поиска Stocona Search позволяет создать линейку продуктов, которые могут использоваться для точного поиска в персональных, корпоративных, сайтовых базах, а также в глобальной сети, чего другие системы обеспечить не в состоянии в силу их методических и технологических ограничений.
Общее описание поисковых систем Stocona Search.
Поисковые системы Stocona Search предназначены для поиска информации в локальных и глобальных базах данных. Системы предоставляют как традиционный поиск по ключевым словам, который обеспечивают все известные поисковые системы, так и новый вид поиска – поиск семантически связанной информации.
Особенность поиска по ключевым словам состоит в том, что поиск осуществляется с учетом всех форм слов, включая сокращения, и по всем вариантам написания числительных (римские и арабские числа, слова).
При поиске семантически связанной информации запрос пользователя представляет собой вопрос на естественном языке, а найденная в результате поиска информация является ответом на вопрос пользователя.
Точность поиска семантически связанной информации основывается на точности анализа запроса, с одной стороны, и на точности анализа текста, с другой.
Основные принципы работы поисковой системы.
Система предназначена для осуществления быстрого поиска на больших объемах информации. Работа системы начинается с подготовки текстов для поиска (индексация). В процессе индексации структура и содержание текста описываются при помощи формальных характеристик, которые используются далее при поиске. Один файл соответствует в системе одному индексируемому тексту. Прежде всего, учитывается информация, относящаяся к файлу (документу) в целом, – название, дата создания, автор. Также описывается его внутренняя структура – название, заголовки разных уровней.
Далее текст, содержащийся в файле, проходит все уровни анализа – лексический, синтаксический и семантический. Лексический анализ предполагает деление текста на параграфы, предложения и слова. Для обеспечения точности анализа учитывается также информация о сложных лексических единицах, иначе говоря, комбинациях, которые содержатся в тексте.
Поскольку синтаксические
зависимости в предложении
Слова, связанные определенной синтаксической зависимостью, описывают объекты внешнего мира, которые имеют определенные свойства, иначе говоря, слова обладают определенной семантикой. Так, некоторые единицы текста указывают на дату, причем одна и та же дата может быть выражена в языке разными способами (23/01/2004 или 23 января 2004 года). Иногда разные объекты могут обозначаться одним и тем же словом – слово Америка может обозначать два разных объекта - «страна Америка» и «континент Америка». В системе разработан набор из 77 семантических категорий, который является достаточным для описания семантики текста при поиске ответа на вопрос. Описание семантики текста при помощи семантических категорий является результатом семантического анализа.
После того как документы проиндексированы, в них может проводиться поиск. Введенный пользователем запрос проходит весь цикл анализа – лексический, синтаксический и семантический.
При поиске по ключевым словам
для определения наиболее релевантных
результатов учитываются
При поиске ответа на вопрос найденные ответы ранжируются в соответствии с тем, насколько точно они отвечают на поставленный вопрос.
Реализуемые алгоритмы поиска
Поисковые системы Stocona Search реализуют два основных класса алгоритма поиска:
Обобщенный алгоритм поиска включает в себя оба вышеперечисленных этапа. Данные этапы выполняются автоматически в процессе анализа запроса пользователя и установленных в поисковой системе параметров поиска.
Этап поиска информационных ресурсов автоматически проводится поисковой системой Stocona Search для предварительного отбора текстов, в которых затем проводится поиск по ключевым словам или поиск ответа на вопрос пользователя. На этапе поиска информационных ресурсов определяется также база, содержащая соответствующие ресурсы. Данный подход является достаточно общим и актуален и при реализации поиска по тематическим рубрикам, новостным категориям и т.п. При поиске в локальных базах этап поиска информационных ресурсов может быть реализован на основе выбора пользователем определенной базы для поиска, а также на основе автоматического отбора текстов, содержащих ключевые слова из запроса пользователя.
Это позволяет существенно сократить область точного поиска за счет предварительного отбрасывания заведомо нерелевантных ресурсов, в которых не может содержаться интересующая пользователя информация.
Этап полнотекстового поиска информации внутри текстового ресурса позволяет найти блоки текстовой информации, наиболее соответствующие запросу пользователя.
Виды поиска, предоставляемые пользователю:
При полнотекстовом поиске пользователь может дополнительно выбрать способы расширения или сужения области поиска.
Виды расширения области поиска:
Для сужения области поиска может использоваться поиск только среди заголовков документа и комбинированный поиск.
Во всех видах поиска дополнительно обеспечиваются:
Благодаря повсеместному развитию и применению компьютерных технологий в настоящее время в той или иной электронной форме находится информация всех областей человеческой деятельности: наука, производство, коммерция, литература, развлечения и т.д. Сеть Интернет имеет совместимость с различными электронными сетями и базами данных и позволяет получить удобный доступ практически к любому виду информации. Современные тенденции в области развития информационных систем показывают, что, наряду с традиционными информационными ресурсами (справочники, базы данных, нормативные документы и др.), все большее значение для успешной деятельности организаций приобретают результаты обработки Интернет-ресурсов.
Информационные ресурсы,
доступные через Интернет, огромны.
Это десятки миллионов документ
По принципу организации и использования средства поиска можно разделить на каталоги (справочники, директории) и поисковые машины.
В настоящее время поиск информации в сети Интернет выполняются с использованием систем информационного поиска: разделяемые на каталоги (directories), информационно-поисковые системы (search engines) и метапоисковые системы (metasearch engines).
Поисковые системы следует применять, если требуется найти информацию по специфичным вопросам или для обеспечения полноты охвата ресурсов. Многие поисковые системы используют совместно систему поиска и каталог.
На данный момент основным
средством поиска информации в сети
Интернет являются поисковые системы.
Если обобщенно рассмотреть
Анализ алгоритма работы поисковых систем показывает, что используемые ИПС не могут пока в полной мере обеспечить достаточно качественный поиск информации. Пертинентность найденных документов достаточно низкая, большой объем информационного шума. Методы определения реального содержания страницы хорошо известны и могут быть легко использованы для обмана поисковых роботов, что в значительной мере используется разработчиками мелких коммерческих проектов, засоряющих результаты поиска.
Одним из решений данных проблем является внедрение формата RSS, RDF для представления и определения метаданных, описывающих ресурсы WEB.
Главное отличие семантического web’а от среды WWW заключается в том, что в нем страницы содержат информацию на двух языках: обычном, понятном человеку и показываемом браузером, и специальном (описываемом онтологиями), информация на котором скрыта от людей, содержит семантическую составляющую и предназначена для различных программ, агентов и роботов [22].
В основе концепции Semantic Web лежат три ключевые технологии: спецификация HTML, позволяющая определить синтаксис и структуру; онтологическая система, позволяющая связывать термины и отношения между ними; система определения ресурсов (Resource Definition Framework - RDF), обеспечивающая модель кодирования для значений, определенных в онтологии.
Одним из перспективных направлений является развитие систем и модулей, основанных на принципах искусственного интеллекта. Такие системы обеспечивают повышении эффективности поиска и релевантности найденных WEB- ресурсов (документов).
Информация о работе Методы информационного эффективного поиска и обмена информацией