Автор работы: Пользователь скрыл имя, 21 Ноября 2012 в 11:16, контрольная работа
В данной контрольной работе была представлена и раскрыта тема "Принципы и методы классификации и индексирования документов". Рассматривая данный вопрос я выяснил, что понятие «документ» теснейшим образом связан с информацией, поскольку документ является ее основным носителем. Под документом понимают - материальный объект, содержащий
информацию в зафиксированном виде и специально предназначенный для её передачи во времени и пространстве.
3. Принципы индексирования документов.
Представление документа обычно конструируется на основе множества каких - либо его свойств (атрибутов). В простых системах текстового поиска эти атрибуты, как уже указывалось, вообще не являются какими-либо компонентами текста документа. В качестве атрибутов документа могут
использоваться какие-либо внешние (по отношению к его тексту) характеристики, и совсем не обязательно, чтобы они идентифицировали документ уникальным образом. Можно, например, использовать регистрационный номер документа в архиве, дату его регистрации, название организации - получателя документа, указание места его хранения и прочее. В качестве таких внешних атрибутов документов могут также использоваться рубрики классификаторов документов или элементы метаданных Дублинского ядра. В любом случае ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются его индексирующими свойствами.
На основе индексирующих свойств документов в системе текстового поиска строится вспомогательная структура данных, позволяющая по их значениям или по значениям некоторой функции, использующей их в качестве аргументов, эффективным образом (без полного просмотра текстов документов и без полного их перебора) обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к ним. Такая вспомогательная структура данных называется индексом, а процесс назначения документу указанных атрибутов - индексированием документа. Заметим, что аналогичная техника индексирования используется в технологиях баз данных для обеспечения прямого доступа к данным в базе данных. В ранних системах текстового поиска использовалось простейшее представление документов, которое имело большую популярность благодаря его простоте, хотя и не могло обеспечить высокого качества поиска. В качестве такого представления служила совокупность слов или словосочетаний лексики предметной области системы, характеризующая содержание данного документа. Эти слова и словосочетания называются дескрипторами. Представление документа в дескрипторных системах называется поисковым образом документа. ИПС, в которых используется
рассматриваемый подход, называются дескрипторными. Такие системы
используются до настоящего времени. Индексирование документа в них сводится к назначению для него совокупности дескрипторов. Индексирование документов в системах текстового поиска может осуществляться на основе их названий, аннотаций или полного текста. Оно может производиться вручную авторами документов, экспертами в предметной области системы, подготавливающими документы к вводу в
систему, или автоматически системными механизмами на основе анализа текста документа. Методы формирования представления и индексирования документов в современных развитых системах текстового поиска используют довольно трудоемкие вычислительные процедуры. Поэтому они могут быть реализованы только автоматически.
Вывод.
В данной контрольной работе была представлена и раскрыта тема "Принципы и методы классификации и индексирования документов". Рассматривая данный вопрос я выяснил, что понятие «документ» теснейшим образом связан с информацией, поскольку документ является ее основным носителем. Под документом понимают - материальный объект, содержащий
информацию в зафиксированном виде и специально предназначенный для её
передачи во времени и пространстве. При составлении контрольной работы я представил несколько существующих способов классификации документов: по форме, по срокам исполнения, по происхождению, по содержанию, по месту составления, по виду оформления, по функции. Что касается индексирования документов, ассоциированные с документом атрибуты, идентифицирующие документ и/или характеризующие его содержание, называются его индексирующими свойствами. На основе
индексирующих свойств документов в системе текстового поиска строится
вспомогательная структура данных, позволяющая по их значениям или по
значениям некоторой функции, использующей их в качестве аргументов,
эффективным образом обнаруживать в системных коллекциях документ или документы, которым эти атрибуты соответствуют, и при необходимости осуществлять быстрый доступ к ним.
Список используемой литературы.
- Документы и делопроизводство. Справочное пособие / сост. М. Т. Лихачев. - М.: Экономика, 1991г.
- Документалистика, документоведение, архиведение: научное пособие / М. В. Ларин. -М.: ИНФРА-М, 2000г.
- Организация работы с документами: 2-е издание, перераб. и доп./ под ред. В. А. Кудряева, М.: ИНФРА-М, 2001г.
- Документоведение:
учебное пособие/ Н. Н.
- Документоведение: учебник/ Н. Б. Зиновьева. -М.: Профиздат, 2001г.
Информация о работе Принципы и методы классификации и индексирования документов