Автор работы: Пользователь скрыл имя, 09 Ноября 2013 в 06:37, курсовая работа
Цель работы – рассмотреть организацию архивов электронных документов.
Для достижения поставленной цели необходимо решить следующие задачи:
- дать определение понятия электронного архива;
- рассмотреть основные этапы организации электронного архива;
- описать структуру электронного архива;
- рассмотреть проблемы выбора технической реализации электронного архива;
- описать организацию электронного архива на примере системы ЭТЛАС.
При долговременном хранении электронных документов на внешних носителях лучшим решением будет использование оптических компакт-дисков CD. Они непритязательны в хранении и вполне надежны в течение 15–20 лет. Большего и не требуется. По истечение этого срока неизбежно придется или переписывать файлы на другой тип носителя (т.к. невозможно будет считать информацию с CD), или конвертировать электронные документы в другие форматы и также переписывать на более современные и емкие носители. [8]
Второй и третий аспекты обеспечения сохранности гораздо сложнее. Они связаны с быстрой сменой и устареванием аппаратного и программного компьютерного обеспечения. Со временем устройства, с помощью которых информация считывается с внешних носителей, изнашиваются и морально устаревают. Так, например, исчезли 5-дюймовые магнитные дискеты, а вслед за ними компьютеры перестали оснащать дисководами для их считывания. В ближайшее время подобная судьба ожидает 3-дюймовые дискеты и многие современные модели ПК уже выпускают без дисководов к ним. Устройства для считывания информации с оптических дисков скорее всего также со временем изменятся. Приблизительный жизненный цикл подобных технологий – 10–15 лет. Эти технологические изменения нужно учитывать при организации долговременного хранения электронных документов.
Воспроизведение электронных документов зависит в первую очередь от применяемого программного обеспечения: ОС, СУБД, браузеров, других прикладных приложений. Смена программной платформы может привести к полной утрате документа из-за невозможности его просмотреть. Впрочем, для основной массы делопроизводственных и финансовых электронных документов со сроком хранения до 5 лет этот фактор не так существенен: жизненный цикл программного обеспечения оценивается в 5–7 лет. К тому же, многие современные электронные делопроизводственные системы и системы электронного архива организации (например, на основе DOCUMENTUM или DocsOpen) снабжаются необходимыми конверторами форматов. В кратковременной перспективе для доступа и воспроизведения большинства текстовых, графических и видео документов (но не баз данных или сложных конструкторских систем и мультимедиа) использование таких конверторов самодостаточно. [8]
При более длительном хранении электронных документов существуют несколько решений:
1) Своевременный перевод
(миграция) баз данных и других
электронных документов на
2) Миграция электронных
документов в "открытые" или
наиболее распространенные
3) Иногда миграция
информационных ресурсов на
4) Инкапсуляция: включение
электронных документов в
1.4. Проблемы обеспечения аутентичности (подлинности) электронных документов
Со способами обмена электронными документами и методами обеспечения их долговременного хранения тесно связаны проблемы обеспечения их аутентичности.
При обмене электронными
документами по сетям надежным средством
является применение электронной цифровой
подписи (ЭЦП). Однако задачи обеспечения
сохранности электронных
Наиболее приемлемым методом обеспечения
аутентичности электронных
Необходимость переформатирования электронных документов при долговременном хранении приводит к тому, что, по существу, появляется другой документ с измененными реквизитами и контрольными характеристиками: датой последнего сохранения, объемом, контрольной суммой, хэш-кодом, ЭЦП и т.п. Получается, что подлинник электронного документа будет не возможно прочитать и использовать, а его аутентичная копия не будет иметь юридической силы.
Отмеченная проблема – обеспечение аутентичности электронных документов в долговременной перспективе – на сегодняшний день, пожалуй, самая острая и сложная. Четких рекомендаций как ее решить нет пока ни в нашей стране, ни за рубежом. Можно порекомендовать лишь одно: не стоит на этапе делопроизводства создавать, а затем хранить исключительно в электронном виде документы, предполагающие длительный срок хранения и серьезную ответственность сторон. Желательно одновременно создавать и хранить этот официальный документ также на бумажном носителе.
В условиях нерешенности технологических проблем аутентификации электронной информации, на первое место выходит "старый дедовский метод": удостоверение подлинности электронных документов при передаче их на внешних носителях в архив с помощью документа на бумаге. Для этих целей в нашей стране еще с середины 80-х гг. существуют госты:
– ГОСТ 6.10.4–84. Придание юридической силы документам на машинном носителе и машинограмме, создаваемым средствами вычислительной техники. Основные положения. М., 1985.
– ГОСТ РД 50-524–84. Методические указания. Порядок хранения документов на машинных носителях. М., 1985.
– ГОСТ 28388-89. Системы обработки информации. Документы на магнитных носителях данных. Порядок выполнения и обращения.
Подобный документ (удостоверяющий лист, сопроводительное письмо, акт приема–передачи документов или т.п.) должен включать идентификационные характеристики файлов и электронного носителя и быть заверенным подписями должностных лиц и печатью организации.
При всем многообразии программного обеспечения, сегодня не существует каких-либо продуктов СУД и ИХД, позволяющих обеспечить все основные функции электронного документооборота и архивирования для работы со сверхбольшими объемами документов. С другой стороны, большинство компонентов КЭА (компьютерного электронного архива), как технических, так и программных, являются уникальными и настраиваемыми образцами. Поэтому, при проектировании КЭА возникают, как минимум, две взаимосвязанные проблемы: оценка и выбор компонентов; интегрирование технологий, программных продуктов и технических средств. [6]
Выбор некоторых компонентов, например, высокопроизводительной сети, конкретных моделей серверов или RAID-массива совпадает с современными технологическими решениями построения традиционных автоматизированных систем сбора, хранения и обработки информации. В то же время, ряд компонентов имеет уникальную ориентацию именно на электронное архивирование. Здесь мы будем рассматривать только проблему выбора специфических для КЭА компонентов.
Технологии индексирования и поиска
Ядром корпоративного электронного архива по праву можно считать технологии индексирования и поиска. Сегодня наметились несколько направлений построения электронных архивов в зависимости от используемых в них методов поиска.
Первое направление, именуемое также корпоративным электронным архивом, относится к классу традиционных информационно-поисковых систем, основанных на атрибутном поиске структурированных данных. В качестве примеров можно привести системы построения небольших электронных архивов на базе программных продуктов типа DOCS Open (PC DOCS), XDOC (Rank Xerox), SoftSolution (Novell), PaperWise (PaperWise) и др. Строго говоря, данное направление не является технологией корпоративного электронного архивирования как таковой. Проведенные расчеты по вводу полного массива документов показывают, что даже небольшая заминка в несколько секунд при вводе документов выливается в дополнительные несколько лет, необходимых для ввода полного объема документов. Визуальный контроль и полуавтоматизированное заполнение атрибутов практически не реализуемы в основной массе документов крупного архива. [6]
Альтернативное направление электронного архивирования базируется на принципе полнотекстового индексирования неструктурированных данных и включает два вида индексирования:
• контекстно-независимое индексирование, не зависящее от естественного языка по причине бинарной или словарной индексации;
• контекстно-зависимое индексирование, позволяющее оптимизировать индексацию и поиск с учетом специфики морфологии и семантики естественного языка.
Известно несколько
методов контекстно-
В целом, технология полнотекстового электронного архива представлена двумя магистральными направлениями:
• технология электронного архивирования, использующая возможности современных промышленных СУБД;
• технология, основанная на специализированных системах индексирования и поиска.
Первый подход базируется на использовании средств известных SQL-СУБД, типа: Oracle, Informix, Sybase и других, способных поддерживать сверхбольшие базы данных. Обычно эти СУБД имеют средства полнотекстовой индексации типа инвертированной матрицы. По этой причине, объем индекса может составлять 30-350% от общего объема базы. Процентный разброс зависит от степени нормализации индексируемых слов текста - приведения к начальной форме существительных, прилагательных и глаголов. К достоинству данного метода можно отнести следующее:
• помимо функций индексирования в СУБД присутствует множество полезных и необходимых функциональных, сервисных и технологических функций поддержки качественной архивной деятельности и документооборота. Эти средства существенно упрощают задачи интегрирования средств и функций, защиты информации и т.п.;
• СУБД имеют широкое распространение, что исключает необходимость освоения новых продуктов;
• данные средства прочили многолетнюю апробацию в рамках приложений СУБД, проверены на практике и, несомненно, будут поддерживаться и развиваться еще достаточно долго.
К основным недостаткам следует отнести то, что СУБД, особенно реляционного типа, изначально не ориентированы на интенсивную обработку сверхбольшого объема информации. Поэтому ряд функций по полнотекстовому поиску и построению запросов, скорости поиска реализуется менее эффектно и изящно, чем в специализированных пакетах. Например, большинство СУБД пока не имеют средств поддержки нечеткого поиска. В результате, необходим дополнительный этап верификации введенного текста с целью исправления возможных ошибок сканирования и распознавания. Однако сейчас возникла новая тенденция - выпускаются новые модули или версии программных продуктов, ориентированных на обработку сверхбольших объемов традиционных данных и данных мультимедиа. [6]
Примерами реализации указанного направления являются программные средства индексирования и поиска русскоязычных текстов, разработанные фирмами LVS и cognitive Technologies. Сегодня соответствующие средства работают в рамках СУБД Oracle и OB2.
Второй подход, включающий полнотекстовое индексирование и поиск, основан на использовании дополнительных специализированных пакетов полнотекстовой индексации, в частности на базе нейронных сетей. Многие аналитики считают, что традиционные системы не годятся для решения задач КЭА, где требуются исключительно мощные процессоры данных, оптимизированные по критерию скорости доступа. Такие системы используют бинарную индексацию и реализуют нечеткий поиск. Перечислим их достоинства:
Информация о работе Организация архива электронных документов