Принципы и методы классификации и индексирования документов

Автор работы: Пользователь скрыл имя, 21 Ноября 2012 в 11:16, контрольная работа

Краткое описание

В данной контрольной работе была представлена и раскрыта тема "Принципы и методы классификации и индексирования документов". Рассматривая данный вопрос я выяснил, что понятие «документ» теснейшим образом связан с информацией, поскольку документ является ее основным носителем. Под документом понимают - материальный объект, содержащий
информацию в зафиксированном виде и специально предназначенный для её передачи во времени и пространстве.

Прикрепленные файлы: 1 файл

документоведение.doc

— 68.00 Кб (Скачать документ)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3. Принципы  индексирования документов.

 

Представление документа  обычно конструируется на основе множества  каких - либо его свойств (атрибутов). В простых системах текстового поиска эти атрибуты, как уже указывалось, вообще не являются какими-либо компонентами    текста  документа.  В  качестве  атрибутов  документа  могут

использоваться какие-либо внешние (по отношению к его тексту) характеристики, и совсем не обязательно, чтобы они идентифицировали документ уникальным образом. Можно, например, использовать регистрационный номер документа в архиве, дату его регистрации, название организации - получателя документа, указание места его хранения и прочее. В качестве таких внешних атрибутов документов могут также использоваться рубрики классификаторов документов или элементы метаданных Дублинского ядра.  В любом случае ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются его индексирующими свойствами.

 На основе индексирующих  свойств документов в системе текстового поиска строится вспомогательная структура данных, позволяющая по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра текстов документов и без полного их перебора) обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к ним. Такая вспомогательная структура данных называется индексом, а процесс назначения документу указанных атрибутов - индексированием документа. Заметим, что аналогичная техника индексирования используется в технологиях баз данных для обеспечения прямого доступа к данным в базе данных. В ранних системах текстового поиска использовалось простейшее представление документов, которое имело большую популярность благодаря его простоте, хотя и не могло обеспечить высокого качества поиска. В качестве такого представления служила совокупность слов или словосочетаний лексики предметной области системы, характеризующая содержание данного документа. Эти слова и словосочетания называются дескрипторами. Представление документа в дескрипторных системах называется поисковым образом документа. ИПС,    в которых    используется

рассматриваемый подход, называются дескрипторными. Такие системы

используются до настоящего времени. Индексирование документа  в них сводится к назначению для  него совокупности дескрипторов.   Индексирование документов в системах текстового поиска может осуществляться на основе их названий, аннотаций или полного текста. Оно может производиться вручную авторами документов, экспертами в предметной области системы, подготавливающими документы к вводу в

систему, или автоматически  системными механизмами на основе анализа  текста документа. Методы формирования представления и индексирования документов в современных развитых системах текстового поиска используют довольно трудоемкие вычислительные процедуры. Поэтому они могут быть реализованы только автоматически.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Вывод.

 

В данной контрольной  работе была представлена и раскрыта тема "Принципы и методы классификации  и индексирования документов". Рассматривая данный вопрос я выяснил, что понятие «документ» теснейшим образом связан с информацией, поскольку документ является ее основным носителем. Под документом понимают - материальный объект,   содержащий

информацию в зафиксированном  виде и специально предназначенный  для её

передачи во времени  и пространстве.  При составлении  контрольной работы я представил несколько существующих способов классификации документов: по форме, по срокам исполнения, по происхождению, по содержанию, по месту составления, по виду оформления, по функции. Что касается индексирования документов, ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются     его   индексирующими   свойствами.    На   основе

индексирующих свойств документов в системе  текстового  поиска   строится

вспомогательная структура  данных,  позволяющая  по  их  значениям  или  по

значениям  некоторой  функции,  использующей   их  в  качестве  аргументов,

эффективным образом  обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к ним.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Список используемой литературы.

 

-      Документы  и делопроизводство. Справочное  пособие / сост. М. Т. Лихачев. - М.: Экономика, 1991г.

-      Документалистика, документоведение, архиведение: научное  пособие / М. В. Ларин. -М.: ИНФРА-М, 2000г. 

-      Организация  работы с документами: 2-е издание,  перераб. и доп./ под ред. В.  А. Кудряева, М.: ИНФРА-М, 2001г.

-      Документоведение: учебное пособие/ Н. Н. Кушнаренко, - М.: Знание, 2000г.

-      Документоведение: учебник/ Н. Б. Зиновьева. -М.: Профиздат, 2001г.

 




Информация о работе Принципы и методы классификации и индексирования документов