Автор работы: Пользователь скрыл имя, 10 Января 2014 в 16:09, контрольная работа
Информационная система (ИС)— это система, построенная на базе компьютерной техники, предназначенная для хранения, поиска, обработки и передачи значительных объемов информации, имеющая определенную практическую сферу применения. Многочисленные и разнообразные информационные системы, которые существуют сегодня, можно классифицировать по разным признакам.
В данной контрольной работе мы будем рассматривать полнотекстовые ПС, структуру полнотекстовых ИПС, механизмы поиска документов в ИПС а так же методы количественной оценки релевантности документов.
Введение…………………………………………………………………..…3
1 Полнотекстовые информационно – поисковые системы…………...….4
2 Информационно – технологическая структура полнотекстовых информационно – поисковых систем……………………………….…..…5
3 Механизмы поиска документов в полнотекстовых информационно – поисковых системах……………………………………………………...…7
4 Методы количественной оценки релевантности документов…………12
Список используемой литературы………………………………………...17
«Полнотекстовые
информационно-поисковые
Содержание
Введение…………………………………………………………
1 Полнотекстовые информационно – поисковые системы…………...….4
2 Информационно – технологическая структура полнотекстовых информационно – поисковых систем……………………………….…..…5
3 Механизмы поиска документов
в полнотекстовых
4 Методы количественной
оценки релевантности
Список используемой литературы………………………………………...17
Введение
Информационная система (ИС)— это система, построенная на базе компьютерной техники, предназначенная для хранения, поиска, обработки и передачи значительных объемов информации, имеющая определенную практическую сферу применения. Многочисленные и разнообразные информационные системы, которые существуют сегодня, можно классифицировать по разным признакам.
В данной контрольной работе
мы будем рассматривать
Полнотекстовые информационно-поисковые системы
Процессы компьютеризации деятельности предприятий привели к накоплению большого объема неструктурированной текстовой информации. Возникла потребность в программном обеспечении, реализующем эффективный поиск информации.
Информационно-поисковые каталоги, фасетные и тезаурусные системы не могли быть в полной мере использованы в массовой персональной автоматизации. Потребовались средства, которые бы в максимальной степени освобождали пользователя от необходимости сложной предварительной структуризации предметной области и затратных процедур индексирования при накоплении текстовых данных, но в то же время создавали бы эффективный и интуитивно понятный поисковый инструментарий . В результате на рынке программных продуктов появились полнотекстовые ИС.
Полнотекстовые ИС
строятся на основе
Информационно-технологическая структура полнотекстовых ИС включает:
* хранилище документов;
* глобальный словарь системы;
* инвертированный индекс документов;
* интерфейс ввода документов в систему;
* механизм индексирования;
* интерфейс запросов пользователя
* механизм поиска документов;
* механизм извлечения найденных документов.
Хранилище документов
может быть организовано как
единая локально
Глобальный словарь системы может быть статическим и динамическим.
Статические словари определяются заранее и не зависят от содержания документов, вошедших в хранилище.
Динамические словари определяются набором словоформ, имеющихся в документах хранилища. Изначально такой словарь пуст, но с каждым новым документом в него помещаются новые словоформы.
Элементы глобального словаря выступают в качестве дескрипторов ИПЯ-системы. Поступающие через интерфейс ввода-вывода документы подвергаются операции индексирования по глобальному словарю. Механизм индексирования в полнотекстовых И С полностью автоматизирован и заключается в создании специального двоичного вектора, компоненты которого показывают наличие или отсутствие в данном документе слова с соответствующим номером из глобального словаря.
Существенное влияние
на эффективность полнотекстовых ИС
оказывает морфологический
В результате индексирования
поисковый образ каждого нового
документа представляется набором
словоформ из глобального словаря,
присутствующих в тексте документа,
и поступает в виде соответствующего
двоичного вектора для
Индекс строится по инвертированной схеме и в двоичном виде отражает весь (полный) текст учтенных или накопленных документов.
При удалении документа из системы соответственно удаляется и поисковый образ документа.
Через интерфейс запросов пользователь в терминах ИПЯ делает запрос, который обрабатывается поисковой машиной.
Механизм поиска документов в полнотекстовых ИПС
Механизм поиска основывается
на тех или иных алгоритмах
и критериях сравнения
Примером полнотекстовых информационно-поисковых систем являются автоматизированные информационные системы по законодательству.
Автоматизированная
АИСЗ являются частью следующих типов информационных систем .
1. Справочно-информационные системы общего назначения, ориентированные на доступ пользователей к нормативно-правовым актам. К этим системам относятся «Консультант Плюс», «Гарант», «Кодекс» и др.
2. Глобальные информационные службы (хост-системы), предоставляющие доступ удаленным пользователям к библиографической, полнотекстовой или другой информации. Крупнейшей в мире коммерческой службой, обеспечивающей доступ к юридической информации, является система LEXIS (США).
3. Системы информационной поддержки деятельности .правотворческих органов. Спецификой таких систем является необходимость хранения и поиска многих версий и редакций нормативно-правовых документов, с учетом вносимых поправок и изменений.
4. Системы автоматизации
делопроизводства судов,
Основными особенностями АИСЗ являются :
* необходимость предоставления адресного доступа к полным текстам;
* в информационных языках для поиска в БД по законодательству
необходим учет контекстных связей, регламентированных прилагательных (типа «обязательный», «произвольный» и др.);
* тексты нормативных актов
должны подвергаться так
В 1992 году образовалось НПП «Гарант-Сервис». В этом же году была создана общероссийская сеть «Консультант Плюс», которая охватила множество городов России. В настоящее время наиболее распространена АИСЗ «Консультант Плюс». Система «Гарант» занимает второе место в России по количеству пользователей.
На третьем месте находится
достаточно популярный продукт —
информационно-поисковая
На российском рынке АИСЗ представлены также следующие продукты, созданные государственными предприятиями для обеспечения потребностей в правовой информации государственных ведомств:
* «Эталон» (НЦПИ при Министерстве юстиции РФ);
* «Система» (НТЦ «Система» при ФАПСИ).
Кроме того, на российском рынке представлены такие системы, как :
* «ЮСИС» (фирма «Инталекс»);
* «Референт» (ЗАО «Референт-Сервис»);
* «Ваше право» и «Юрисконсульт» (фирма «Информационныесистемы и технологии»);
* «1С: Кодекс», «1С:
Гарант», «1С: Эталон» (
Информационные банки РФ включают следующие уровни данных:
* федеральное законодательство;
* местное законодательство;
* ненормативные материалы
(консультации экспертов,
Официальная рассылка — основной источник информации для систем «Консультант Плюс», «Гарант» и «Кодекс». Следует заметить, что государственные органы выступают не только в качестве источников информации, но и сами являются пользователями систем, т. е. прямо заинтересованы в оперативном и достоверном пополнении информационного банка. Поэтому, как правило, документы передаются из органов государственной власти сразу же после их подписания.
Сеть «Консультант Плюс» имеет прямые договоры об обмене информацией с основными федеральными органами (среди них — Администрация Президента РФ, Министерство финансов РФ, Центральный банк РФ, Федеральная налоговая служба и др.), а также с местными органами власти. Благодаря аналогичным договорам, нормативные акты достаточно оперативно попадают и в систему «Гарант» .
Юридическая база «Кодекс» ведется при содействии юридического комитета мэрии Санкт-Петербурга. Документы для данной системы поступают в «Центр компьютерных разработок» на основе договоров не напрямую с органами власти, а с их представительствами в Санкт-Петербурге .
Публикации в печатных изданиях. Выделяют три группы таких источников. К первой относятся все издания, в которых публикация нормативных актов считается официальной: «Бюллетень международных договоров», «Вестник ЦБ РФ», «Российская газета», «Российские вести» и др. Вторую группу составляют издания, не признанные официальными, но в состав учредителей которых входят российские министерства и ведомства: «Бюллетень Верховного суда РФ», «Финансовая газета» и т. д. Наконец, в третью группу входят издания, публикация документов в которых считается достоверной. Такие издания или имеют достаточно большой тираж, или пользуются авторитетом в среде специалистов: «Закон», «Хозяйство и право», «Экономика и жизнь» и др.
Основными параметрами, позволяющими определить качество содержания информационной базы, являются :
* полнота информации;
* достоверность информации;
* оперативность обновления информации.
Параметры, характеризующие качество программной оболочки:
* поисковые возможности системы;
* средства актуализации информации;
* дополнительные сервисные функции.
Оценка полноты, достоверности и оперативности обновления информации основывается на количественных показателях. Оценка же качества юридической обработки поступающих в информационный банк документов достаточно субъективна.
Без юридической обработки АИСЗ является всего лишь электронным аналогом бумажных изданий. Ее цель — систематизация документов для повышения эффективности их дальнейшего использования.
Юридическая обработка обычно состоит из следующих основных этапов:
* классификация документов;
* выявление взаимосвязей между различными документами;
* составление примечаний к документу.
Классификация документов предназначена для последующего их поиска по некоторым признакам, формальным или неформальным. Классификация производится на основании классификатора данной системы. Как известно, классификатор — это иерархическая структура, содержащая все понятия, используемые для описания документов, входящих в информационную базу.
Доступ пользователя к информации, хранящейся в АИСЗ, может осуществляться двумя способами, каждый из которых имеет свои достоинства и недостатки :
* работа с удаленной базой;
* работа с локальной базой.
При работе с удаленной базой пользователю нет необходимости хранить на своем компьютере данные системы, они хранятся на сервере разработчика и доступны через сеть. Большинство АИСЗ имеют версии, доступные через глобальную сеть Интернет. Основное преимущество работы с такими версиями заключается в том, что пользователь всегда имеет доступ к самым последним данным .
Однако для работы с удаленной базой пользователю необходим доступ к Интернету. Зачастую скорость передачи информации через Интернет низкая из-за плохого качества каналов, а стоимость доступа достаточно высокая. Поэтому иногда более выгоден вариант работы с локальной базой, которая доступна в любой момент. Недостатком этого варианта по сравнению с предыдущим является более продолжительный период актуализации информации.
Методы количественной оценки релевантности документов
Количественные показатели
релевантности — процент