Полнотекстовые информационно-поисковые системы. Информационно – технологическая структура полнотекстовых информационно – поисковых

Автор работы: Пользователь скрыл имя, 10 Января 2014 в 16:09, контрольная работа

Краткое описание

Информационная система (ИС)— это система, построенная на базе компьютерной техники, предназначенная для хранения, поиска, обработки и передачи значительных объемов информации, имеющая определенную практическую сферу применения. Многочисленные и разнообразные информационные системы, которые существуют сегодня, можно классифицировать по разным признакам.
В данной контрольной работе мы будем рассматривать полнотекстовые ПС, структуру полнотекстовых ИПС, механизмы поиска документов в ИПС а так же методы количественной оценки релевантности документов.

Содержание

Введение…………………………………………………………………..…3
1 Полнотекстовые информационно – поисковые системы…………...….4
2 Информационно – технологическая структура полнотекстовых информационно – поисковых систем……………………………….…..…5
3 Механизмы поиска документов в полнотекстовых информационно – поисковых системах……………………………………………………...…7
4 Методы количественной оценки релевантности документов…………12
Список используемой литературы………………………………………...17

Прикрепленные файлы: 1 файл

информ.поиск.системы.docx

— 36.20 Кб (Скачать документ)

 

 

 

 

 

 

 

 

 

 

 

«Полнотекстовые информационно-поисковые системы. Информационно  – технологическая структура  полнотекстовых информационно –  поисковых систем. Механизмы поиска документов в полнотекстовых информационно  – поисковых системах. Методы количественной оценки релевантности документов»

 

 

 

 

 

 

 

 

 

 

 

Содержание

 

Введение…………………………………………………………………..…3

1 Полнотекстовые информационно  – поисковые системы…………...….4

2 Информационно – технологическая структура полнотекстовых информационно – поисковых систем……………………………….…..…5

3 Механизмы поиска документов  в полнотекстовых информационно  – поисковых системах……………………………………………………...…7

4 Методы количественной  оценки релевантности документов…………12

Список используемой литературы………………………………………...17

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение 

Информационная система (ИС)— это система, построенная  на базе компьютерной техники, предназначенная  для хранения, поиска, обработки  и передачи значительных объемов  информации, имеющая определенную практическую сферу применения. Многочисленные и  разнообразные информационные системы, которые существуют сегодня, можно  классифицировать по разным признакам.

В данной контрольной работе мы будем рассматривать полнотекстовые ПС, структуру полнотекстовых ИПС, механизмы  поиска документов в ИПС а так же методы количественной оценки релевантности документов.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Полнотекстовые информационно-поисковые системы

 

Процессы компьютеризации  деятельности предприятий привели  к накоплению большого объема неструктурированной  текстовой информации. Возникла потребность  в программном обеспечении, реализующем  эффективный поиск информации.

 

Информационно-поисковые  каталоги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий . В результате на рынке программных продуктов появились полнотекстовые ИС.

 

 Полнотекстовые ИС  строятся на основе информационно-поисковых  языков дескрипторного типа.

 

 

 

 

 

 

 

 

 

 

Информационно-технологическая  структура полнотекстовых ИС включает:

 

*  хранилище документов;

*  глобальный словарь  системы;

*  инвертированный индекс  документов;

* интерфейс ввода документов  в систему;

* механизм индексирования;

* интерфейс запросов пользователя

* механизм поиска документов;

* механизм извлечения  найденных документов.

 

    Хранилище документов  может быть организовано как  единая локально сосредоточенная  информационная структура в виде  специального файла с текстами документов.

Глобальный словарь системы  может быть статическим и динамическим.

Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.

Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.

Элементы глобального  словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие  через интерфейс ввода-вывода документы  подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых И С полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.

 

Существенное влияние  на эффективность полнотекстовых ИС оказывает морфологический разбор при индексировании документов и  запросов. Морфологический разбор позволяет  выделять общую для однокоренных слов словоформу, а также выделять лексемы, т. е. слова, отличающиеся окончаниями, приставками и суффиксами.

В результате индексирования поисковый образ каждого нового документа представляется набором  словоформ из глобального словаря, присутствующих в тексте документа, и поступает в виде соответствующего двоичного вектора для дополнения индекса системы.

Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.

При удалении документа из системы соответственно удаляется  и поисковый образ документа.

Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой  машиной.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Механизм поиска документов в полнотекстовых ИПС

 Механизм поиска основывается  на тех или иных алгоритмах  и критериях сравнения поискового  образа запроса с поисковыми  образами документов, образующими  индекс системы. Результатом поиска  является определение номеров  документов, поисковые образы которых  соответствуют поисковому образу  запроса. Далее специальная подсистема  на основе установленных в  хранилище указательных конструкций  извлекает и доставляет соответствующие  документы пользователю.

Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы  по законодательству.

Автоматизированная информационная система по законодательству (АИСЗ) — это программный комплекс, включающий в себя массив правовой информации и инструменты для работы с  ним . Эти инструменты позволяют производить поиск документов, формировать подборки документов, печатать документы.

АИСЗ являются частью следующих  типов информационных систем .

1. Справочно-информационные  системы общего назначения, ориентированные  на доступ пользователей к нормативно-правовым актам. К этим системам относятся «Консультант Плюс», «Гарант», «Кодекс» и др.

2. Глобальные информационные  службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США).

3. Системы информационной  поддержки деятельности .правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно-правовых документов, с учетом вносимых поправок и изменений.

4. Системы автоматизации  делопроизводства судов, милиции  и других правоохранительных  органов.

 

 

 

Основными особенностями  АИСЗ являются :

* необходимость предоставления адресного доступа к полным текстам;

*  в информационных  языках для поиска в БД по  законодательству

необходим учет контекстных  связей, регламентированных прилагательных (типа «обязательный», «произвольный» и др.);

* тексты нормативных актов  должны подвергаться так называемой  юридической обработке, при которой  тексту приписываются не только  классификационные индексы, ключевые  слова или дескрипторы (как  при обычном индексировании), но и комментарии специалистов, ссылки на предшествующие версии, связанные документы, решения судов и др.

 

 В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть «Консультант Плюс», которая охватила множество городов России. В настоящее время наиболее распространена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей.

 

На третьем месте находится  достаточно популярный продукт —  информационно-поисковая система  «Кодекс», которая разработана малым  государственным предприятием «Центр компьютерных разработок».

На российском рынке АИСЗ представлены также следующие продукты, созданные государственными предприятиями  для обеспечения потребностей в  правовой информации государственных  ведомств:

*  «Эталон» (НЦПИ при  Министерстве юстиции РФ);

*  «Система» (НТЦ «Система»  при ФАПСИ).

 

Кроме того, на российском рынке  представлены такие системы, как :

*  «ЮСИС» (фирма «Инталекс»);

*  «Референт» (ЗАО «Референт-Сервис»);

*  «Ваше право» и  «Юрисконсульт» (фирма «Информационныесистемы и технологии»);

*   «1С: Кодекс», «1С:  Гарант», «1С: Эталон» (компания  «1С»).

 

Информационные банки  РФ включают следующие уровни данных:

*   федеральное законодательство;

* местное законодательство;

* ненормативные материалы  (консультации экспертов, бланки  деловых документов, проспекты эмиссии  ценных бумаг коммерческих банков  и т. п.).

 

Официальная рассылка —  основной источник информации для систем «Консультант Плюс», «Гарант» и «Кодекс». Следует заметить, что государственные  органы выступают не только в качестве источников информации, но и сами являются пользователями систем, т. е. прямо заинтересованы в оперативном и достоверном  пополнении информационного банка. Поэтому, как правило, документы  передаются из органов государственной  власти сразу же после их подписания.

 

Сеть «Консультант Плюс»  имеет прямые договоры об обмене информацией  с основными федеральными органами (среди них — Администрация  Президента РФ, Министерство финансов РФ, Центральный банк РФ, Федеральная  налоговая служба и др.), а также  с местными органами власти. Благодаря  аналогичным договорам, нормативные  акты достаточно оперативно попадают и в систему «Гарант» .

 

Юридическая база «Кодекс» ведется при содействии юридического комитета мэрии Санкт-Петербурга. Документы  для данной системы поступают  в «Центр компьютерных разработок»  на основе договоров не напрямую с  органами власти, а с их представительствами  в Санкт-Петербурге .

 

Публикации в печатных изданиях. Выделяют три группы таких  источников. К первой относятся все  издания, в которых публикация нормативных  актов считается официальной: «Бюллетень международных договоров», «Вестник ЦБ РФ», «Российская газета», «Российские  вести» и др. Вторую группу составляют издания, не признанные официальными, но в состав учредителей которых входят российские министерства и ведомства: «Бюллетень Верховного суда РФ», «Финансовая газета» и т. д. Наконец, в третью группу входят издания, публикация документов в которых считается достоверной. Такие издания или имеют достаточно большой тираж, или пользуются авторитетом в среде специалистов: «Закон», «Хозяйство и право», «Экономика и жизнь» и др.

 

Основными параметрами, позволяющими определить качество содержания информационной базы, являются :

*  полнота информации;

*  достоверность информации;

* оперативность обновления  информации.

 

Параметры, характеризующие  качество программной оболочки:

*  поисковые возможности  системы;

*  средства актуализации  информации;

*  дополнительные сервисные  функции.

 

Оценка полноты, достоверности  и оперативности обновления информации основывается на количественных показателях. Оценка же качества юридической обработки  поступающих в информационный банк документов достаточно субъективна.

Без юридической обработки  АИСЗ является всего лишь электронным  аналогом бумажных изданий. Ее цель —  систематизация документов для повышения  эффективности их дальнейшего использования.

 

Юридическая обработка обычно состоит из следующих основных этапов:

*  классификация документов;

*  выявление взаимосвязей  между различными документами;

*  составление примечаний  к документу.

 

Классификация документов предназначена  для последующего их поиска по некоторым  признакам, формальным или неформальным. Классификация производится на основании  классификатора данной системы. Как  известно, классификатор — это  иерархическая структура, содержащая все понятия, используемые для описания документов, входящих в информационную базу.

Доступ пользователя к  информации, хранящейся в АИСЗ, может  осуществляться двумя способами, каждый из которых имеет свои достоинства  и недостатки :

* работа с удаленной  базой;

* работа с локальной  базой.

При работе с удаленной  базой пользователю нет необходимости  хранить на своем компьютере данные системы, они хранятся на сервере  разработчика и доступны через сеть. Большинство АИСЗ имеют версии, доступные  через глобальную сеть Интернет. Основное преимущество работы с такими версиями заключается в том, что пользователь всегда имеет доступ к самым последним данным .

Однако для работы с  удаленной базой пользователю необходим  доступ к Интернету. Зачастую скорость передачи информации через Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден  вариант работы с локальной базой, которая доступна в любой момент. Недостатком этого варианта по сравнению  с предыдущим является более продолжительный  период актуализации информации.

 

 

 

Методы количественной оценки релевантности документов

 

Количественные показатели релевантности — процент соответствия содержимого документа запросу, ранжирование (самый релевантный  документ, менее релевантный, еще  менее релевантный) и т. п., позволяют  существенно увеличить конечную эффективность использования документальной системы, предоставляя пользователю возможность  после отбора документов сразу сосредоточиваться  на наиболее важных из них.

Информация о работе Полнотекстовые информационно-поисковые системы. Информационно – технологическая структура полнотекстовых информационно – поисковых