Полнотекстовые информационно-поисковые системы. Информационно – технологическая структура полнотекстовых информационно – поисковых

Автор работы: Пользователь скрыл имя, 10 Января 2014 в 16:09, контрольная работа

Краткое описание

Информационная система (ИС)— это система, построенная на базе компьютерной техники, предназначенная для хранения, поиска, обработки и передачи значительных объемов информации, имеющая определенную практическую сферу применения. Многочисленные и разнообразные информационные системы, которые существуют сегодня, можно классифицировать по разным признакам.
В данной контрольной работе мы будем рассматривать полнотекстовые ПС, структуру полнотекстовых ИПС, механизмы поиска документов в ИПС а так же методы количественной оценки релевантности документов.

Содержание

Введение…………………………………………………………………..…3
1 Полнотекстовые информационно – поисковые системы…………...….4
2 Информационно – технологическая структура полнотекстовых информационно – поисковых систем……………………………….…..…5
3 Механизмы поиска документов в полнотекстовых информационно – поисковых системах……………………………………………………...…7
4 Методы количественной оценки релевантности документов…………12
Список используемой литературы………………………………………...17

Прикрепленные файлы: 1 файл

информ.поиск.системы.docx

— 36.20 Кб (Скачать документ)

 Определение количественных  показателей релевантности документов  в полнотекстовых ИПС основывается  на тех или иных подходах  по вычислению мер близости  двоичных векторов документов  и запросов.

 

 Критерии релевантности  подразделяются по моделям представления  и сопоставления документов и  запросов, к которым относятся: 

 • булева модель;

 • модель нечетких  множеств;

 • пространственно-векторная  модель;

 • вероятностно-статистическая  модель.

 

 В качестве показателя (меры) релевантности документов  используется так называемое  значение статуса выборки (retrieval status value — RSV). В булевой модели критерием релевантности является полное совпадение векторов ПОД и ПОЗ.

 

Таким образом, определяемый показатель релевантности RSVможет изменяться в диапазоне от 0 до N(N — число словоформ или терминов в словаре системы) и действительно количественно отражает степень релевантности документов.

 

 

 Более развитым, но  и более сложным подходом к  определению мер близости ПОД  и ПОЗ является учет разной  значимости словоформ (терминов)и их зависимости друг от друга. В пространственно-векторной модели это означает отход от ортогональности и ортонормированности базисных векторов поискового пространства. В этом случае скалярное произведение векторов ПОД и ПОЗ более гибко и осмысленно отражает близость соответствующих векторов и, тем самым, смысловое содержание документов и запросов.

 

 В простейшем варианте  подобного расширения пространственно-векторной  модели различные словоформы  в глобальном словаре системы  дополняются специальными весовыми  коэффициентами, отражающими важность  соответствующей словоформы (термина)  для конкретной предметной обласmu. Соответственно поисковые векторы документов и запросов в этом случае превращаются из двоичных векторов в обычные, т. е. с любыми значениями (а не только 0 или 1) своих компонент. Иногда такой подход называют «окрашиванием»* глобального словаря системы. Следует также заметить, что в случае перехода от глобального словаря (отражающего все слова и словоформы) к словарю терминов происходит вырождение полнотекстового характера ИПС и она переходит в категорию систем на основе тезаурусов.

На практике применяются  также и другие подходы, расширяющие  возможности двоичной (ортогональной  и ортонормированной) пространственно-векторной  модели. Такие подходы базируются на вероятностно-статистической модели. При этом можно выделить две разновидности  вероятностно-статистического подхода:

 • придание весовых  коэффициентов словоформам (терминам) глобального словаря вне контекста  конкретного документа; 

 • придание весовых  коэффициентов компонентам векторов  ПОД по итогам индексирования конкретного документа (с учетом контекста конкретного документа).

 

Первый подход основан  на анализе итогов индексирования совокупности документов, уже вошедших в базу (хранилище) ИПС. Совокупность словоформ (терминов), обязательно присутствующих в любом документе базы, считается наиболее адекватно отражающей тематику предметной области ИПС, и соответствующие словоформы (термины предметной области) получают наибольший вес, наибольшую значимость в словаре системы, по которому производится индексирование документов. В качестве числовых характеристик весов значимости терминов используются те или иные статистические параметры, такие, например, как относительная или абсолютная частота вхождения термина в документы базы системы. Разновидностью такого подхода является учет количества вхождений в совокупность документов базы тех или иных словоформ или терминов.

 

 Более сложные варианты  развития первого подхода основываются  на технологиях «обучения» и  настраивания ИПС на конкретные  предметные области. Традиционный  способ обучения основывается  на использовании обучающей выборки документов. Такая выборка формируется либо на основе отбора текстов экспертами в конкретной предметной области, либо путем использования документов по соответствующим рубрикам каталогов библиотек и т. п. Далее осуществляется исследование обучающей выборки на предмет статистических показателей вхождений в документы выборки тех или иных словоформ или терминов. Результатом обучения является «окрашенность» (различные весовые коэффициенты словоформ) словаря системы.

Другой подход основывается на апостериорном выделении в  поисковом пространстве «сгущений» векторов ПОД и последующем анализе совокупности и количественных данных вхождения в такие группы документов тех или иных словоформ (терминов). Предполагается, что такие группы соответствуют особенностям тематики конкретной предметной области, и словоформы, в них входящие, получают наибольшие весовые коэффициенты на основе тех или иных статистических параметров. Еще одним вариантом является учет дискриминируемости (различимости) термина. Если при внесении в текст одного из двух близких по векторам ПОД документов какого-либо термина происходит резкое «расщепление» этих векторов, то такой термин считается более информативным и значимым, и его коэффициент важности, соответственно, должен быть выше.

 

 При втором подходе  к реализации вероятностно-статистической  модели различия в весах значимости  словоформ или терминов проявляются  по результатам индексирования конкретного документа. В простейшем варианте анализируется, сколько раз тот или иной термин входит в данный документ. Словоформам или терминам, имеющим наибольшее количество вхождений, присваиваются более высокие веса в векторе ПОД. В векторах запросов (ПОЗ) все словоформы или термины считаются равнозначными, но их различные веса в векторах ПОД обеспечивают большую релевантность тех документов, где соответствующие словоформы или термины встречаются наиболее часто.

 Отдельной ветвью развития  второго подхода является использование  обратной, интерактивной связи с  пользователем. В этом случае  информационно-поисковая система  стремится настроиться не столько  на определенную предметную область,  сколько на специфические особенности  тематики информационных потребностей  конкретного пользователя. В общем  виде для каждого пользователя  ИПС создает свое поисковое  пространство с индивидуальным  окрашиванием компонентов векторов  ПОД. Такое индивидуальное окрашивание производится путем запрашивания системой у пользователя его оценки релевантности выданных на каждый текущий запрос документов. Уточнив у пользователя, какие на его взгляд документы наиболее релевантны, система анализирует особенности и статистические параметры вхождения тех или иных словоформ (терминов) в эти наиболее релевантные документы, переопределяет и уточняет их весовые коэффициенты. Тем самым в последующих запросах более адекватно и глубже учитываются информационные потребности конкретного пользователя.

Существуют и другие разновидности  вероятностно-статистических подходов к расширению пространственно-векторной  модели поиска документов, но, к сожалению, из-за отсутствия в документации на коммерческие ИПС соответствующей информации по деталям механизмов поиска и релевантности документов оценить и проанализировать их эффективность довольно затруднительно.

 В целом же информационно-поисковые  полнотекстовые системы являются  одним из наиболее интенсивно  развивающихся направлений документальных  информационных систем, существенно  продвигая теорию и практику  информационного поиска документов  и развивая методы анализа  и автоматизированной обработки  текстовой неструктурированной  информации.

 

 Значением RSV в булевой  модели может быть единица  (релевантный документ) или ноль (нерелевантный документ). По сути, булева модель не дает количественной  меры релевантности и ничем  не отличается от простого  поиска по индексу системы  с логической операцией «И»  словоформ-дескрипторов.

В системах на основе модели нечетких множеств значения компонент  векторов ПОД и ПОЗ могут принимать не только два альтернативных значения —1 и 0 (термин принадлежит документу или не принадлежит), но и такое значение, как «неполная, частичная принадлежность». Соответственно в модели нечетких множеств переопределены и логические операции, чтобы учитывать возможность неполной принадлежности подобных логических элементов анализируемым множествам (поисковым образам запросов). Вычисление значений статуса выборки RSV производится аналогичным булевой модели образом с учетом переопределения операции & («И»).

 

 Несмотря на некоторое  расширение выразительных возможностей  представления и сопоставления  документов и запросов, модель  нечетких множеств, как и булева  модель, не дает по-настоящему  количественной меры релевантности,  хотя достоинством обеих моделей  является их простота и невысокие  вычислительные затраты на реализацию.

 

 В системах на основе  пространственно-векторных моделей  поисковое пространство представлено  многомерным пространством, каждое  измерение которого соответствует  словоформе (термину) из словаря  системы. Например, если в словаре  всего три словоформы, то поисковое  пространство является трехмерным, и т. д. В исходном варианте  пространство имеет евклидову  метрику, т. е. представляется  ортогональным базисом нормированных  векторов, отражающих соответствующие  словоформы словаря системы. Поисковый  образ документа и запроса  в поисковом пространстве представляется  многомерным вектором единичной  длины, координаты которого отражают  наличие или отсутствие в документе  соответствующих словоформ.

 

 

 

Список используемой литературы

 

1.            Э.А. Якубайтис «Информатика-электроника-сети». М., «Финансы и статистика», 1989.

2.            . А. В. Гаврилов "Локальные сети  ЭВМ", Москва, Изд-во "Мир", 1990.

3.            Н.А. Гайдамакин «Автоматизированные информационные системы, базы и банки данных», М.: «Гелиос», 2002.

 


Информация о работе Полнотекстовые информационно-поисковые системы. Информационно – технологическая структура полнотекстовых информационно – поисковых