Автор работы: Пользователь скрыл имя, 10 Января 2014 в 16:09, контрольная работа
Информационная система (ИС)— это система, построенная на базе компьютерной техники, предназначенная для хранения, поиска, обработки и передачи значительных объемов информации, имеющая определенную практическую сферу применения. Многочисленные и разнообразные информационные системы, которые существуют сегодня, можно классифицировать по разным признакам.
В данной контрольной работе мы будем рассматривать полнотекстовые ПС, структуру полнотекстовых ИПС, механизмы поиска документов в ИПС а так же методы количественной оценки релевантности документов.
Введение…………………………………………………………………..…3
1 Полнотекстовые информационно – поисковые системы…………...….4
2 Информационно – технологическая структура полнотекстовых информационно – поисковых систем……………………………….…..…5
3 Механизмы поиска документов в полнотекстовых информационно – поисковых системах……………………………………………………...…7
4 Методы количественной оценки релевантности документов…………12
Список используемой литературы………………………………………...17
Определение количественных
показателей релевантности
Критерии релевантности
подразделяются по моделям
• булева модель;
• модель нечетких множеств;
• пространственно-векторная модель;
• вероятностно-
В качестве показателя
(меры) релевантности документов
используется так называемое
значение статуса выборки (
Таким образом, определяемый показатель релевантности RSVможет изменяться в диапазоне от 0 до N(N — число словоформ или терминов в словаре системы) и действительно количественно отражает степень релевантности документов.
Более развитым, но
и более сложным подходом к
определению мер близости ПОД
и ПОЗ является учет разной
значимости словоформ (
В простейшем варианте
подобного расширения
На практике применяются
также и другие подходы, расширяющие
возможности двоичной (ортогональной
и ортонормированной) пространственно-векторной
модели. Такие подходы базируются
на вероятностно-статистической модели.
При этом можно выделить две разновидности
вероятностно-статистического
• придание весовых
коэффициентов словоформам (
• придание весовых
коэффициентов компонентам
Первый подход основан на анализе итогов индексирования совокупности документов, уже вошедших в базу (хранилище) ИПС. Совокупность словоформ (терминов), обязательно присутствующих в любом документе базы, считается наиболее адекватно отражающей тематику предметной области ИПС, и соответствующие словоформы (термины предметной области) получают наибольший вес, наибольшую значимость в словаре системы, по которому производится индексирование документов. В качестве числовых характеристик весов значимости терминов используются те или иные статистические параметры, такие, например, как относительная или абсолютная частота вхождения термина в документы базы системы. Разновидностью такого подхода является учет количества вхождений в совокупность документов базы тех или иных словоформ или терминов.
Более сложные варианты
развития первого подхода
Другой подход основывается на апостериорном выделении в поисковом пространстве «сгущений» векторов ПОД и последующем анализе совокупности и количественных данных вхождения в такие группы документов тех или иных словоформ (терминов). Предполагается, что такие группы соответствуют особенностям тематики конкретной предметной области, и словоформы, в них входящие, получают наибольшие весовые коэффициенты на основе тех или иных статистических параметров. Еще одним вариантом является учет дискриминируемости (различимости) термина. Если при внесении в текст одного из двух близких по векторам ПОД документов какого-либо термина происходит резкое «расщепление» этих векторов, то такой термин считается более информативным и значимым, и его коэффициент важности, соответственно, должен быть выше.
При втором подходе
к реализации вероятностно-
Отдельной ветвью развития
второго подхода является
Существуют и другие разновидности вероятностно-статистических подходов к расширению пространственно-векторной модели поиска документов, но, к сожалению, из-за отсутствия в документации на коммерческие ИПС соответствующей информации по деталям механизмов поиска и релевантности документов оценить и проанализировать их эффективность довольно затруднительно.
В целом же информационно-
Значением RSV в булевой
модели может быть единица
(релевантный документ) или ноль
(нерелевантный документ). По сути,
булева модель не дает
В системах на основе модели нечетких множеств значения компонент векторов ПОД и ПОЗ могут принимать не только два альтернативных значения —1 и 0 (термин принадлежит документу или не принадлежит), но и такое значение, как «неполная, частичная принадлежность». Соответственно в модели нечетких множеств переопределены и логические операции, чтобы учитывать возможность неполной принадлежности подобных логических элементов анализируемым множествам (поисковым образам запросов). Вычисление значений статуса выборки RSV производится аналогичным булевой модели образом с учетом переопределения операции & («И»).
Несмотря на некоторое
расширение выразительных
В системах на основе
пространственно-векторных
Список используемой литературы
1.
Э.А. Якубайтис «Информатика-электроника-сети»
2. . А. В. Гаврилов "Локальные сети ЭВМ", Москва, Изд-во "Мир", 1990.
3. Н.А. Гайдамакин «Автоматизированные информационные системы, базы и банки данных», М.: «Гелиос», 2002.