Организация архива электронных документов

Автор работы: Пользователь скрыл имя, 09 Ноября 2013 в 06:37, курсовая работа

Краткое описание

Цель работы – рассмотреть организацию архивов электронных документов.
Для достижения поставленной цели необходимо решить следующие задачи:
- дать определение понятия электронного архива;
- рассмотреть основные этапы организации электронного архива;
- описать структуру электронного архива;
- рассмотреть проблемы выбора технической реализации электронного архива;
- описать организацию электронного архива на примере системы ЭТЛАС.

Прикрепленные файлы: 1 файл

6289.doc

— 655.00 Кб (Скачать документ)

• системы имеют более  качественные возможности по индексированию, поиску и по анализу, в частности, они реализуют нечеткий поиск, позволяющий отказаться от проблемы исправления ошибок после распознавания; 

• системы характеризуются  исключительно высокой скоростью  доступа; 

• объем индекса не превышает 30% объема текстовых данных; 

• системы, кроме неструктурируемых  данных, обычно, поддерживают различные  мультимедиа данные. 

Какие здесь возникают  сопутствующие проблемы? Во-первых, результаты нечеткого поиска напрямую зависят от качества задания запроса, и пользователи сталкиваются с проблемой шума - получения нерелевантных документов. Во-вторых, указанные системы рассчитаны на мощные параллельные вычислительные системы и пока не очень распространены на платформе Intel. Но главный недостаток заключается в том, что это системы исключительно индексирования и поиска - в них существенно ограничены функции управления документами. На разработчиков возлагаются очень непростые задачи создания собственных технологических и сервисных функций, интегрирования технологий и программно-аппаратных средств и т. п.

Застрельщиком представленного  направления является американская компания Excalibur Technologies, имеющая сегодня  представительства по всему миру, включая и Россию. Данное направление  на российском, да и на европейском, рынке достаточно новое, например, разрешение на использование некоторых программных модулей на территории России было получено только в 1996 г. Фирма предлагает два программных продукта: Excalibur EFS и RetrievalWare. Первый - это "коробочный" продукт, он позволяет выполнять полнотекстовую индексацию и поиск информации, хранимой в файловых системах или СУБД. Второй продукт - мощное инструментальное средство создания систем полнотекстового поиска на базе теории нейронных сетей. RetrievalWare включает два компонента или программные библиотеки: текстовый сервер и сервер изображений. Библиотеки могут быть подключены к базовому ядру информационной системы, например, к СУБД Sybase. [6]

Сервер изображений  может эффективно использоваться для поиска трехмерных изображений, сигналов, фотографий, отпечатков пальцев, устной речи и т.п. Текстовый сервер здесь существенно перспективнее, чем Excalibur EFS - он включает не просто механизм поиска неструктурируемой информации, но и семантический анализатор. Данный продукт позволяет создавать семантическую сеть между понятиями языка, а значит, - существенно расширять возможности поиска. Например, английский вариант семантической сети включает более 0.5 млн. слов и 1.5 млн. связей между ними. Сегодня имеются также соответствующие разработки в области русификации семантического сервера. RetrievalWare также включает компонент Web, позволяющий работать в среде Internet или intranet.

Несмотря на различие в указанных подходах к индексированию и поиску, возможна их комбинация при реализации конкретного электронного архива.

Сканеры потокового ввода

Одним из самых узких  звеньев технологии электронного архивирования  являются сканеры, обеспечивающие безотказный  высокопроизводительный массовый ввод документов на бумажных носителях низкого качества: слипшихся, выцветших, порванных, разных размеров и плотности, плохо пропечатанных, испачканных и т.д. Практика показала, что офисные планшетные сканеры с автоподатчиками совершенно непригодны для решения таких задач, а ведь именно документы данного качества имеются сегодня в большинстве отечественных архивах.

Возможным вариантом  решения является использование  специализированных промышленных сканеров, ориентированных на потоковый ввод архивных документов. Отличительной  особенностью таких сканеров является ротационный механизм перемещения документов, позволяющий вводить данные с бумажных носителей плохого качества. На российском рынке наиболее известны три типа промышленных сканеров: Bell&Howell, Fujitsu и Kodak (таблица 1). При их выборе основными критериями являются производительность, долговечность, стоимость, размер вводимых документов, возможность двустороннего ввода, наличие средств, повышающих качество распознавания, наличие средств контроля. Наиболее эффективными с точки зрения массового ввода пока являются сканеры Kodak, которые имеют надежные устройства подачи бумаги, включают процессор распознавания текста, систему компьютерной диагностики и контроля ввода, снабжены развитыми программными средствами распознавания и управления архивированием, имеют естественную технологическую поддержку системы архивирования (запись на компакт-диски, микрофильмирование, стыковка с автоматическими библиотеками компакт-дисков и др.). Здесь следует отметить, что функция микрофильмирования в ряде электронных архивов остается в эксплуатации - электронная копия документа в России, в отличие от микрофильма, пока не имеет юридической силы. Основным недостатком сканеров фирмы Kodak является их высокая стоимость: цена полной поставки с программными средствами и офисными стойками достигает несколько сотен тыс. долларов.

Таблица 1.

Сканеры потокового ввода

Тип сканера Скорость сканирования (лист/мин при А4/200 dpi) Разрешение (dpi) Формат документа, тип  сканирования 

Bell&Howell 2135 36 200 А4, односторонний 

Bell&Howell 2138A 72 200 А4, односторонний 

Bell&Howell 6338 42 200-300 А3, двусторонний 

Fujitsu 3099G 55 200-400 А3, двусторонний 

KODAK IMAGELINK 500S 144 66-300 A3, односторонний 

KODAK IMAGELINK 923D 144 67-300 A3,двусторонний 

KODAK IMAGELINK 990 120 67-200 A3, двусторонний 


 

Сканеры Fujitsu и Bell&Howell уступают сканеру Kodak в первую очередь в  сервисных и технологических  функциях, но успешно справляются  с обеспечением массового ввода  основных архивных документов. Сканеры Fujitsu, в отличие от Kodak и Bell&Howell, выполнены на пластмассовой основе, что заранее определяет меньшую долговечность и более низкий уровень надежности системы сканирования. Поэтому с учетом этих факторов системы компромиссным вариантом базового потокового сканера системы ввода может быть сканер типа Bell&Howell.

Устройства  хранения данных

Как уже отмечалось, все  данные в системе могут находиться в двух видах: поисковый образ  и образ собственно документа. Из-за высоких требований к скорости доступа  к поисковому образу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.

Для хранения образа документов использование магнитных дисковых носителей не представляется возможным  вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические, фазоинверсные (PD/CD), компакт- (CD-R) и WORM-диски (таблица 2). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работе собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать магнитооптические, фазоинверсные и компакт-диски. [6]

Таблица 2.

Оптические и магнитооптические  накопители

Тип диска Емкость  Число циклов перезаписи 

5.25"-магнитооптические  диски 650 Мб, 1.3 Гб, 2.6 Гб 1млн. 

PD/CD-диски фазоинверсной  записи 650 Мб 1тыс. 

WORM-диски 1-10 Гб однократно 

Компакт-диски CD-R 650 Мб однократно 


 

Преимущество магнитооптических  дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Большинство технологических решений электронного архивирования поддерживает технологию миграции данных именно на магнитооптические диски, которые более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам в гарантийном сроке хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 50 лет, то гарантия на компакт-диски может составлять 100 лет и более. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут быть предпочтительнее. Кроме того, компакт-диски удобнее в работе: их автономное чтение можно осуществлять на любом ПК, комплектуемом CD-ROM-плеером.

Не вызывает сомнения, что вся информация в системе  должна иметь резервные копии. Для  графических образов сохранность  информации может быть обеспечена созданием дублированных магнитооптических или компакт-дисков. Для хранения меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах. Применяемые в персональных системах технологии (DC2000/Travan, DC6000, DAT) непригодны из-за ограничений в объеме. Возможным вариантом могут стать DLT-стримеры, восьмимиллиметровые библиотеки Exabyte (Mammoth) или специализированные катушечные системы. Наиболее распространены DLT-стримеры.

Архитектуры вычислительной системы

Не останавливаясь на выборе конкретного сервера, отметим  лишь особенности архитектуры вычислительной системы. Исследования показывают, что  для поддержки системы класса КЭА и ИХД сегодня пригодны только мощные масштабируемые RISC-платформы, ориентированные на параллельные вычисления.

Важным критерием при  выборе перспективного сервера является поддержка 64-разрядности, необходимая  при вводе и обработке больших  объемов мультимедийных данных. Сегодня  эту возможность предоставляют  только компании DEC, SGI, Oracle и Sybase. В ближайшем будущем ожидается, что к ним присоединятся HP и SUN Microsystems.

2.2. Организация электронного архива на примере системы ЭТЛАС

Системы электронного архива ЭТЛАС и электронного документооборота ЭТЛАС основаны на клиент-серверной архитектуре, которая показана на нижеприведенной схеме. [2]

 

 

Клиентские рабочие  места взаимодействуют с основным сервером ЭТЛАС, либо локальным сервером ЭТЛАС, в зависимости от сетевой конфигурации организации.

Клиентские приложения на рабочих местах идентичны для  всех ролей, и автоматически подстраивают свой интерфейс в зависимости  от роли конкретного пользователя в  системе.

Как правило, все сервера ЭТЛАС располагаются на одной серверной машине, вместе с сервером СУБД и базой документов. При больших нагрузках на сервер, работа системы может быть ускорена за счет разнесения серверов ЭТЛАС на разные серверные машины. Сервер базы данных и база документов также могут быть установлены на выделенные серверные машины.

Помимо основной серверной  машины, рекомендуется использовать резервное хранилище данных для  регулярного резервного копирования  базы данных и документов. В качестве резервного хранилища можно использовать различные устройства, в том числе сетевые системы хранения данных (NAS).

Общая схема  работы электронного архива ЭТЛАС

Ниже приведена общая  схема взаимодействия пользователя с системой, отражающая информационные потоки, поступающие в систему и выходящие из нее, а также методы их обработки внутри системы. 

 

 

 

Ключевым отличием схемы  работы электронного архива ЭТЛАС от электронного документооборота ЭТЛАС является отсутствие автоматизации бизнес-процессов внутри системы. При этом входные и выходные информационные потоки идентичны, как и внутренняя структура пространства документов системы.

В левой части схемы  перечислены источники поступления  информации в систему:

  • Офисные приложения, позволяющие создавать и вносить в систему любые документы;
  • Поточный либо планшетный сканер, взаимодействуя с которым система позволяет создавать отсканированные многостраничные PDF и MS Word-версии документов;
  • Файловая система, позволяющая импортировать в систему как отдельные документы произвольных форматов, так и их группы, и иерархические структуры документов (папки с неограниченной вложенностью). Поддерживается импорт как с локальных дисков, так и из сетевого окружения;
  • Сторонние информационные системы, интеграция с которыми позволяет производить обмен как документами, так и другими данными, что позволяет полностью интегрировать систему ЭТЛАС в информационную инфраструктуру организации.

Как показано на схеме, в  систему могут быть внесены любые документы (файлы), при этом их размер ограничен возможностями файловой системы серверной машины (ограничение размера документа в системе ЭТЛАС - 16 Экзабайт). Помимо документов, имеющих хотя бы одну электронную версию (файл), в систему могут быть добавлены документы без версий, путем создания соответствующих регистрационных карточек. Подобные документы могут описывать любые объекты, необходимые пользователю, и позволяют организовать регистрацию и каталогизацию любых данных.

После прохождения регистрации, документы попадают в основное пространство документов, представляющее собой универсальное средство структурирования документов. Основное пространство документов поддерживает как произвольное размещение документов в папках, создаваемых пользователями вручную в соответствии с неформализованными правилами, так и автоматическое размещение документов в зависимости от их типа, в соответствии с заранее настроенными правилами.

Из основного пространства документов, документы могут быть удалены в корзину документов, либо помещены в архив. Корзина позволяет избежать потери документов при случайном удалении, при этом возможность очистки корзины доступна только администраторам системы. Корзина поддерживает два уровня удаления, и разделение удаленных документов по пользователям. Архив документов позволяет скрыть документы, актуальность которых не требует их хранения в общем пространстве документов, при этом сохраняется возможность их поиска и получения доступа к ним.

Информация о работе Организация архива электронных документов