Организация архива электронных документов

Автор работы: Пользователь скрыл имя, 09 Ноября 2013 в 06:37, курсовая работа

Краткое описание

Цель работы – рассмотреть организацию архивов электронных документов.
Для достижения поставленной цели необходимо решить следующие задачи:
- дать определение понятия электронного архива;
- рассмотреть основные этапы организации электронного архива;
- описать структуру электронного архива;
- рассмотреть проблемы выбора технической реализации электронного архива;
- описать организацию электронного архива на примере системы ЭТЛАС.

Прикрепленные файлы: 1 файл

6289.doc

— 655.00 Кб (Скачать документ)

При долговременном хранении электронных  документов на внешних носителях  лучшим решением будет использование  оптических компакт-дисков CD. Они непритязательны  в хранении и вполне надежны в течение 15–20 лет. Большего и не требуется. По истечение этого срока неизбежно придется или переписывать файлы на другой тип носителя (т.к. невозможно будет считать информацию с CD), или конвертировать электронные документы в другие форматы и также переписывать на более современные и емкие носители. [8]

Второй и третий аспекты обеспечения  сохранности гораздо сложнее. Они  связаны с быстрой сменой и  устареванием аппаратного и программного компьютерного обеспечения. Со временем устройства, с помощью которых информация считывается с внешних носителей, изнашиваются и морально устаревают. Так, например, исчезли 5-дюймовые магнитные дискеты, а вслед за ними компьютеры перестали оснащать дисководами для их считывания. В ближайшее время подобная судьба ожидает 3-дюймовые дискеты и многие современные модели ПК уже выпускают без дисководов к ним. Устройства для считывания информации с оптических дисков скорее всего также со временем изменятся. Приблизительный жизненный цикл подобных технологий – 10–15 лет. Эти технологические изменения нужно учитывать при организации долговременного хранения электронных документов.

Воспроизведение электронных документов зависит в первую очередь от применяемого программного обеспечения: ОС, СУБД, браузеров, других прикладных приложений. Смена программной платформы может привести к полной утрате документа из-за невозможности его просмотреть. Впрочем, для основной массы делопроизводственных и финансовых электронных документов со сроком хранения до 5 лет этот фактор не так существенен: жизненный цикл программного обеспечения оценивается в 5–7 лет. К тому же, многие современные электронные делопроизводственные системы и системы электронного архива организации (например, на основе DOCUMENTUM или DocsOpen) снабжаются необходимыми конверторами форматов. В кратковременной перспективе для доступа и воспроизведения большинства текстовых, графических и видео документов (но не баз данных или сложных конструкторских систем и мультимедиа) использование таких конверторов самодостаточно. [8]

При более длительном хранении электронных документов существуют несколько решений:

1) Своевременный перевод  (миграция) баз данных и других  электронных документов на современную  технологическую платформу, чаще  всего в форматы, которые используются  в организации для оперативного управления информационными ресурсами. Это сложный и дорогой путь. Как правило, простых конверторов здесь не достаточно. Наибольшие проблемы возникают с базами данных. Обычно к миграции прибегают для обеспечения доступа к оперативным и архивным информационным ресурсам, которые очень важны для деятельности организации и постоянно используются в работе. Вот почему важно изначальное создание баз данных и других электронных документов в наиболее распространенных форматах. В государственных архивах этот путь рационально использовать для организации оперативного доступа к наиболее важным или часто используемым архивным электронным ресурсам.

2) Миграция электронных  документов в "открытые" или  наиболее распространенные компьютерные  форматы. Для текстовых документов это – txt, rtf, pdf; для графических – tiff, jpg; для таблиц и баз данных – db, dbf, xls, txt.

3) Иногда миграция  информационных ресурсов на другие  платформы по какой-то причине  представляется нереальной или  может существенно исказить оригиналы электронных документов. В этом случае можно использовать эмуляторы программной среды. Однако это также бывает непросто сделать, т.к. не для всех программных оболочек эмуляторы могут быть разработаны. Именно поэтому при создании информационных систем и электронных документов следует изначально ориентироваться не только на распространенные форматы записи, но на распространенные ОС, СУБД и другое программное обеспечение. В этом случае может быть проще найти необходимые эмуляторы, которые могут разрабатываться и поставляться на рынок самими производителями программного обеспечения. Например, операционные системы Windows’95’ 97` NT` 2000`XP поддерживают эмулятор операционной системы MS DOS. Так как это широко распространенные операционные системы, есть надежда, что корпорация Microsoft и в дальнейшем будет поддерживать эмуляторы своих старых ОС.

4) Инкапсуляция: включение  электронных документов в состав  файлов межплатформенных форматов, например в XML. В настоящее время  американские архивисты рассматривают этот способ как наиболее оптимальный для обмена и долговременного хранения электронных документов, хотя вряд ли его можно считать панацеей от всех проблем. Исследования в этой области носят пока зачаточный характер. Поэтому единственным проверенным способом долговременного хранения электронных документов остается миграция.

 

1.4. Проблемы обеспечения аутентичности (подлинности) электронных документов

Со способами обмена электронными документами и методами обеспечения их долговременного  хранения тесно связаны проблемы обеспечения их аутентичности.

При обмене электронными документами по сетям надежным средством  является применение электронной цифровой подписи (ЭЦП). Однако задачи обеспечения  сохранности электронных документов в долговременной перспективе значительно модифицируют эту практику. ЭЦП реквизит электронного документа хотя и надежный, но крайне недолговечный: он рассчитан на пять, максимум, десять лет. Смена программной среды, устаревание со временем алгоритмов криптозащиты делают процедуру верификации ЭЦП невозможной или бесполезной. [8]

Наиболее приемлемым методом обеспечения  аутентичности электронных документов при долговременном хранения (особенно заверенных ЭЦП) можно было бы считать  применение эмуляторов или конверторов  при их воспроизведении. Но подобная практика пока мало изучена. Проблемы здесь видятся как в ограниченном наборе этих программных средств, так и в возможных ошибках воспроизведения документов, которые могут возникать при эмуляции или конвертировании, что опять-таки негативно сказывается на доказательной силе электронных документов при долговременном хранении. Инкапсуляция вероятно самый перспективный способ. Именно способ решения проблемы аутентичности электронных документов видят в нем американские архивисты. Но он требует долговременной апробации и дальнейшего развития.

Необходимость переформатирования электронных  документов при долговременном хранении приводит к тому, что, по существу, появляется другой документ с измененными реквизитами  и контрольными характеристиками: датой  последнего сохранения, объемом, контрольной суммой, хэш-кодом, ЭЦП и т.п. Получается, что подлинник электронного документа будет не возможно прочитать и использовать, а его аутентичная копия не будет иметь юридической силы.

Отмеченная проблема – обеспечение аутентичности электронных документов в долговременной перспективе – на сегодняшний день, пожалуй, самая острая и сложная. Четких рекомендаций как ее решить нет пока ни в нашей стране, ни за рубежом. Можно порекомендовать лишь одно: не стоит на этапе делопроизводства создавать, а затем хранить исключительно в электронном виде документы, предполагающие длительный срок хранения и серьезную ответственность сторон. Желательно одновременно создавать и хранить этот официальный документ также на бумажном носителе.

В условиях нерешенности технологических  проблем аутентификации электронной  информации, на первое место выходит "старый дедовский метод": удостоверение  подлинности электронных документов при передаче их на внешних носителях в архив с помощью документа на бумаге. Для этих целей в нашей стране еще с середины 80-х гг. существуют госты:

– ГОСТ 6.10.4–84. Придание юридической  силы документам на машинном носителе и машинограмме, создаваемым средствами вычислительной техники. Основные положения. М., 1985.

– ГОСТ РД 50-524–84. Методические указания. Порядок хранения документов на машинных носителях. М., 1985.

– ГОСТ 28388-89. Системы обработки  информации. Документы на магнитных  носителях данных. Порядок выполнения и обращения.

Подобный документ (удостоверяющий лист, сопроводительное письмо, акт приема–передачи документов или т.п.) должен включать идентификационные характеристики файлов и электронного носителя и быть заверенным подписями должностных лиц и печатью организации.

 

2. Технологии и системы организации электронного архива

2.1. Проблемы  выбора технической реализации электронного архива

При всем многообразии программного обеспечения, сегодня не существует каких-либо продуктов СУД и ИХД, позволяющих обеспечить все основные функции электронного документооборота и архивирования для работы со сверхбольшими объемами документов. С другой стороны, большинство компонентов КЭА (компьютерного электронного архива), как технических, так и программных, являются уникальными и настраиваемыми образцами. Поэтому, при проектировании КЭА возникают, как минимум, две взаимосвязанные проблемы: оценка и выбор компонентов; интегрирование технологий, программных продуктов и технических средств. [6]

Выбор некоторых компонентов, например, высокопроизводительной сети, конкретных моделей серверов или RAID-массива совпадает с современными технологическими решениями построения традиционных автоматизированных систем сбора, хранения и обработки информации. В то же время, ряд компонентов имеет уникальную ориентацию именно на электронное архивирование. Здесь мы будем рассматривать только проблему выбора специфических для КЭА компонентов.

Технологии  индексирования и поиска

Ядром корпоративного электронного архива по праву можно считать технологии индексирования и поиска. Сегодня наметились несколько направлений построения электронных архивов в зависимости от используемых в них методов поиска.

Первое направление, именуемое также корпоративным электронным архивом, относится к классу традиционных информационно-поисковых систем, основанных на атрибутном поиске структурированных данных. В качестве примеров можно привести системы построения небольших электронных архивов на базе программных продуктов типа DOCS Open (PC DOCS), XDOC (Rank Xerox), SoftSolution (Novell), PaperWise (PaperWise) и др. Строго говоря, данное направление не является технологией корпоративного электронного архивирования как таковой. Проведенные расчеты по вводу полного массива документов показывают, что даже небольшая заминка в несколько секунд при вводе документов выливается в дополнительные несколько лет, необходимых для ввода полного объема документов. Визуальный контроль и полуавтоматизированное заполнение атрибутов практически не реализуемы в основной массе документов крупного архива. [6]

Альтернативное направление  электронного архивирования базируется на принципе полнотекстового индексирования неструктурированных данных и включает два вида индексирования:

• контекстно-независимое  индексирование, не зависящее от естественного  языка по причине бинарной или  словарной индексации; 

• контекстно-зависимое  индексирование, позволяющее оптимизировать индексацию и поиск с учетом специфики  морфологии и семантики естественного языка. 

Известно несколько  методов контекстно-независимого индексирования. Наиболее распространенный - индексация на базе инвертированной матрицы, где  словам или нормализованным словоформам  ставятся в соответствие адреса документов. Здесь обычно используются стоп-словарь неиндексируемых слов и словарь синонимов. Другой метод - бинарное индексирование, например, на базе теории нейронных сетей. При использовании теории распознавания образов, этот метод позволяет достичь возможности нечеткого поиска подобных, с точки зрения бинарных единиц, слов или, иначе, "поиска с ошибками". Нечеткий поиск предоставляет огромные возможности для обнаружения слов, содержащих искажения или ошибки. Например: текст после распознавания, переведенные на русский язык названия фирм или иностранные фамилии. Однако при нечетком поиске пользователь сталкивается с проблемой отсеивания шума - документов, где встретились подобные по синтаксису, но не по смыслу слова.

В целом, технология полнотекстового электронного архива представлена двумя магистральными направлениями:

• технология электронного архивирования, использующая возможности  современных промышленных СУБД; 

• технология, основанная на специализированных системах индексирования и поиска. 

Первый подход базируется на использовании средств известных SQL-СУБД, типа: Oracle, Informix, Sybase и других, способных поддерживать сверхбольшие базы данных. Обычно эти СУБД имеют средства полнотекстовой индексации типа инвертированной матрицы. По этой причине, объем индекса может составлять 30-350% от общего объема базы. Процентный разброс зависит от степени нормализации индексируемых слов текста - приведения к начальной форме существительных, прилагательных и глаголов. К достоинству данного метода можно отнести следующее:

• помимо функций индексирования в СУБД присутствует множество полезных и необходимых функциональных, сервисных и технологических функций поддержки качественной архивной деятельности и документооборота. Эти средства существенно упрощают задачи интегрирования средств и функций, защиты информации и т.п.; 

• СУБД имеют широкое  распространение, что исключает  необходимость освоения новых продуктов;

• данные средства прочили  многолетнюю апробацию в рамках приложений СУБД, проверены на практике и, несомненно, будут поддерживаться и развиваться еще достаточно долго. 

К основным недостаткам  следует отнести то, что СУБД, особенно реляционного типа, изначально не ориентированы на интенсивную  обработку сверхбольшого объема информации. Поэтому ряд функций  по полнотекстовому поиску и построению запросов, скорости поиска реализуется менее эффектно и изящно, чем в специализированных пакетах. Например, большинство СУБД пока не имеют средств поддержки нечеткого поиска. В результате, необходим дополнительный этап верификации введенного текста с целью исправления возможных ошибок сканирования и распознавания. Однако сейчас возникла новая тенденция - выпускаются новые модули или версии программных продуктов, ориентированных на обработку сверхбольших объемов традиционных данных и данных мультимедиа. [6]

Примерами реализации указанного направления являются программные  средства индексирования и поиска русскоязычных  текстов, разработанные фирмами LVS и cognitive Technologies. Сегодня соответствующие  средства работают в рамках СУБД Oracle и OB2.

Второй подход, включающий полнотекстовое индексирование и поиск, основан на использовании дополнительных специализированных пакетов полнотекстовой индексации, в частности на базе нейронных сетей. Многие аналитики  считают, что традиционные системы  не годятся для решения задач КЭА, где требуются исключительно мощные процессоры данных, оптимизированные по критерию скорости доступа. Такие системы используют бинарную индексацию и реализуют нечеткий поиск. Перечислим их достоинства:

Информация о работе Организация архива электронных документов