Методы информационного эффективного поиска и обмена информацией

Автор работы: Пользователь скрыл имя, 30 Апреля 2013 в 23:28, дипломная работа

Краткое описание

Целью данной бакалаврской работы является рассмотрение практического поиска и обмена информации в сети Интернет.
Для этого необходимо решить следующие задачи:
- анализ возможностей сети Интернет, технология поиска и обмена информации в нем;
- рассмотреть приемы эффективного поиска и обмена информацией.
Предметом исследования в работе являются сеть Интернет и ее возможностей, служб, методов мониторинга и подходов оценки релевантности найденных документов.

Содержание

Введение……………………………………………………………
3
1 Возможности Интернет стратегии поиска и обмена информацией……………………………………………………………..

7
1.1 Анализ и классификация методов мониторинга при поиске информации..........................................................................................

7
1.2 Передача информации в Интерне…………………………..
10
1.3 Поисковые системы, понятие поисковые индексов и каталогов………………………………………………………………...

17
2 Методы информационного эффективного поиска и обмена информацией…………………………………………………………….

34
2.1 Поиск и оценка найденной информации…………………...
34
2.2 Проблемы поиска теоретической научной информации в Интернет………………………………………………………………….

38
2.3 Интеллектуальные системы и перспективы поиска информации……………………………………………………………...

43
Заключение………………………………………………………...
53
Глоссарий………………………………………………………….
57
Список использованных источников…………

Прикрепленные файлы: 1 файл

Диплом информатика (1).doc

— 1.05 Мб (Скачать документ)

Обобщая данные недостатки, можно отметить, что рейтинги, получаемые при анализе страниц, слабо зависят  от реального содержимого страницы, и в основном зависят от метаданных и описания страниц, созданных самими разработчиками.

Еще один недостаток при  подобном подходе к определению  рейтинга заключается в том, что  система оценки рейтингов зацикливается  и приводит поисковую систему  к статичному состоянию, что очевидно приводит к ее недееспособности. Если более подробно рассмотреть этот процесс, то из алгоритма определения рейтингов видно, что сайт, однажды получивший высокий рейтинг «тяжело» теряет его и наоборот вновь появившийся сайт, не имеющий целенаправленной маркетинговой политики и не продвигаемый целенаправленно на повышение рейтинга, никогда не будет найден. Происходит данное явление вследствие того, что высокий рейтинг сайта вызывает большой приток посетителей переходящих по первым ссылкам результатов и тем самым еще сильнее увеличивают рейтинг сайтов с высоким рейтингом. А цитирование сайта еще сильнее поднимает рейтинг данного ресурса. Как следствие вновь разработанный ресурс, не имеющий высокого рейтинга, никогда не попадет в первые строчки поиска, не смотря на его содержание. Более того, некоторые популярные издания при оценке поисковых систем приводили огромное количество случаев, когда общий рейтинг превышал рейтинг соответствия. Вследствие чего сайт, имеющий полное соответствие запросу, но имеющий низкий рейтинг, оказывался ниже в результатах запросов, чем сайты абсолютно не имеющие отношения к тематике запроса, но с более высоким рейтингом. Таким образом, результаты поиска становятся статичными и не способны реагировать на изменяющуюся окружающую среду Интернет.

Для увеличения рейтинга ресурса и тем самым обеспечения  появления ссылки на первых страницах  результатов поиска, используется ряд  приемов позволяющих «обмануть» роботов индексирующих страницы.

На первом этапе разработчики стремятся расширить количество запросов, которым может соответствовать их ресурс. В частности для того, чтобы повысить рейтинг в известной поисковой системе, разработчики информационного ресурса могут вводить в метаданные расширенную информацию, которая может вовсе не относиться к тематике их сайта и будет лишь отражением заведомо популярных тем в Интернет, такие как скачивание музыки, популярных программ и т.п.. А также введением ключевых слов паразитов, таких как бесплатно, скачать и др.

Как уже отмечено некоторые  поисковые системы используют анализ текста на основании структурных единиц гипертекстовой разметки (связь). Данные алгоритмы легко обходить, введением заголовков с расширенной информацией и стилистического оформление подобных заголовков таким образом, чтобы они были не видны пользователю при посещении страницы, тем самым они становятся видны роботу, но не видны пользователю. Другой вариант состоит в том, что в статическом описании страницы используются расширенные заголовки, а при загрузке страницы, они динамически изменяются на заголовки, касающиеся только тематики сайта. Не одна из поисковых систем не отслеживает алгоритмы работы скриптовых языков работающих на стороне пользователя.

Еще один прием, используемый при разработки Web-ресурсов, направлен  на увеличение общего рейтинга страницы. Многие разработчики ресурсов могут рассылать ссылки в форумы авторитетных изданий, давать не верные ссылки читателям блогов, форумов и гостевых книг, создавать сайты близнецы, указывающие друг на друга и приводящие цитаты с сайтов своих близнецов. Производить целенаправленный обмен ссылками между «раскручиваемыми» сайтами. Все эти приемы объединяет одна цель увеличить цитируемость, и как следствие общий рейтинг сайта в поисковой системе.

С помощью подобных приемов  можно увеличить цитируемость сайта и значимость его с точки зрения системы оценки рейтинга, а также частоту попадания в запросы пользователей и как следствие случайных переходов пользователей на страницы своего сайта. Подобных приемов существует достаточно много и они не просто часто применяются в среде Интернет, а стали уже стандартом сопровождения сайтов малого и среднего бизнеса.

Одним из решений данных проблем является внедрение формата RSS, RDF для представления и определения  методанных, описывающих ресурсы WEB.

Главное отличие семантического web’а от среды WWW заключается в том, что в нем страницы содержат информацию на двух языках: обычном, понятном человеку и показываемом браузером, и специальном (описываемом онтологиями), информация на котором скрыта от людей, содержит семантическую составляющую и предназначена для различных программ, агентов и роботов [20].

В основе концепции Semantic Web лежат три ключевые технологии:

  • спецификация XML, позволяющая определить синтаксис и структуру;
  • онтологическая система, позволяющая определять термины и отношения между ними;
  • система определения ресурсов (Resource Definition Framework - RDF), обеспечивающая модель кодирования для значений, определенных в онтологии.

Однако пока большинство  создаваемых сайтов и порталов пока не используют технологии семантического web’а.

 

2.3 Интеллектуальные системы и перспективы поиска информации

 

Как было отмечено все  большее применение находят системы  и модули, основанные на принципах  искусственного интеллекта. Такие системы  обеспечивают повышении эффективности поиска и релевантности найденных WEB- ресурсов (документов). Результатом подобных разработок является интеллектуальная поисковая система Nigma. При ее создании использованы оригинальные алгоритмы ранжирования результатов, полученных от набора поисковых систем, с поддержкой русской морфологии и двухуровневой кластеризации. Морфология реализована через отсылку в поисковые системы дублирующих запросов, в которых приведены распространенные морфологические формы запрашиваемых слов. При этом, в отличие от имеющихся реализаций русской морфологии для поисковых систем, предлагаемый алгоритм не сокращает, а увеличивает количество найденных документов, т.к. морфологически измененный запрос объединяется с исходным. Релевантность также увеличивается, т.к. используются специальные алгоритмы объединения результатов.

При этом на подавляющее  большинство поисковых запросов Nigma.ru выдает на порядок больше найденных  сайтов, чем, например, при простом  поиске на сайте Google.ru. Для того чтобы  пользователь не запутался в этих результатах, они группируются в так называемые кластеры. Каждый кластер - это группа сайтов, относящихся, по «мнению» поисковой системы, к общей тематике. Разработчики решили использовать частотную кластеризацию по ключевым словам, поэтому названия кластеров - это тоже ключевые слова, которые пользователь может применять для расширения своего запроса. В свою очередь, т.к. количество найденных кластеров также часто очень велико, интеллектуальный алгоритм объединяет кластеры в иерархию (пока - двухуровневую), которая позволяет представить их в более компактном виде.

Процесс поиска текстовой  информации включает в себя следующие  этапы:

  • формализация пользователем поискового запроса;
  • предварительный отбор тестовых документов, содержащих формальные признаки наличия интересующей информации;
  • анализ отобранных документов (лексический, морфологический, синтаксический, семантический);
  • оценка соответствия смыслового содержания найденной информации требованиям поискового запроса.

Лексический анализ заключатся в разборе текстовой информации на отдельные абзацы, предложения, слова, определении национального языка изложения, типа предложения, выявлении типа лексических выражений (бранных, жаргонных слов) и т.д. Он не представляет существенной сложности для реализации.

Морфологический анализ сводится к автоматическому распознаванию  частей речи каждого слова текста (каждому слову ставится в соответствие лексико-грамматический класс). Данная задача может быть выполнена для  русского языка практически со стопроцентной точностью благодаря его развитой морфологии. В английском языке алгоритм, присваивающий каждому слову в тексте наиболее вероятный для данного слова лексико-грамматический класс (синтаксическую часть речи), работает с точностью около 90 %, что обусловлено лексической многозначностью английского языка.

Синтаксический анализ заключатся в автоматическом выделении  семантических элементов предложения - именных групп, терминологических  целых, предикативных основ. Это  позволяет повысить интеллектуальность процесса обработки тестовой информации на основе обеспечения работы с более обобщенными семантическими элементами.

Семантический анализ заключатся в определении информативности  текстовой информации и выделении  информационно-логической основы текста. Проведение автоматизированного семантического анализа текста предполагает решение задачи выявления и оценки смыслового содержания текста. Данная задача является трудно формализуемой вследствие необходимости создания совершенного аппарата экспертной оценки качества информации.

Реализация семантического анализа текстовой информации предполагает обязательное использование экспертных систем, систем искусственного интеллекта для выявления смыслового содержания информации.

Большинство поисковых  систем обеспечивают автоматическую индексацию большого количества документов, но не обладают развитыми средствами искусственного интеллекта для экспертной оценки смыслового содержания информации. Этим обусловлена низкая релевантность ответа поисковых систем (релевантность - степень адекватности результатов поиска запросу пользователя).

Методика «интеллектуального поиска» текстовой информации позволяет реализовать автоматизацию всех этапов лингвистического анализа (лексического, морфологического, синтаксического и семантического). Данная технология соединяет преимущества автоматического индексирования документов в поисковых системах с экспертной обработкой их содержания в системах искусственного интеллекта.

Реализация указанных  функциональных возможностей достигается  за счет:

  • углубленного лексического анализа текстовой информации, обеспечивающего подготовительную нормализацию обрабатываемого теста;
  • уникальной структуры морфологического словаря, включающего все морфологические и семантические характеристики слов, а также слова - синонимы и тематически связанные слова;
  • детального морфологического анализа, обеспечивающего определение частей речи с учетом семантики запроса пользователя и обрабатываемой текстовой информации;
  • поиска текстовой информации по синонимам и тематически связанным словам;
  • автоматизированного синтаксического анализа членов предложения и связей между ними;
  • отбора текстовой информации на основе семантического анализа ее соответствия запросу пользователя;
  • автоматической оценки релевантности предложений текстов запросу пользователя с обеспечением синтеза семантически полного ответа поисковой системы.

Новые качества интеллектуальной информационно-поисковой системы:

  • Обработка запроса пользователя, представленного на естественном языке.
  • Реализация диалога интеллектуальной поисковой системы с пользователем в ходе уточнения введенного им запроса и формирования ответа системы.
  • Возможность автоматического перевода запроса пользователя с естественного языка на формализованные языки запросов существующих поисковых систем.
  • Обеспечение поиска с учетом смыслового содержания многозначных слов.
  • Реализация поиска с учетом синонимов и тематически связанных слов.
  • Повышение релевантности результатов поиска запросу пользователя на основе учета семантики запроса и синтеза семантически полного ответа поисковой системы.
  • Обеспечение автоматической интегральной оценки семантического смысла проиндексированной текстовой информации.

Рассмотренные выше особенности  построения технологии «интеллектуального поиска» и достигаемые за счет них новые качества поисковой системы обеспечивают существенное снижение «информационного шума» и значительное повышение оперативности формирования ответа системы, адекватного запросу пользователя.

Таблица 3 – Сравнительный анализ основных параметров технологии

Сравнительный анализ основных параметров технологии

Характеристики систем

Поисковая система Яndex

Интеллектуальная информационно - поисковая система

Реализуемые этапы  лингвистического анализа

  • лексический,
  • морфологический,
  • синтаксический (частично)
  • лексический,
  • морфологический,
  • синтаксический,
  • семантический

Основные разделы  морфологического словаря

  • основы слов,
  • морфологические формы слов
  • основы слов,
  • морфологические формы слов,
  • синонимы слов,
  • тематические слова,
  • семантика слов

Типы запроса  пользователя

  • ключевые слова,
  • формализованный язык запросов (иногда)
  • запрос на естественном языке,
  • ключевые слова

Обработка текстов  на национальных языках

  • русский, английский
  • русский,
  • любой иностранный (в перспективе)

Диалог системы  с пользователем при вводе запроса

  • отсутствует
  • уточнение сформированного перечня ключевых слов;
  • уточнение семантики многозначных слов,
  • уточнение семантики ответа системы

Формы ответа системы

  • упорядоченный перечень ссылок на тексты, содержащие ключевые слова
  • упорядоченный перечень ссылок на тексты, содержащие ключевые слова;
  • абзацы текста, содержащие ключевые слова;
  • восстановленный проиндексированный текст;
  • семантически синтезированный ответ интеллектуальной информационно-поисковой системы

Информация о работе Методы информационного эффективного поиска и обмена информацией