Автор работы: Пользователь скрыл имя, 09 Ноября 2013 в 06:37, курсовая работа
Цель работы – рассмотреть организацию архивов электронных документов.
Для достижения поставленной цели необходимо решить следующие задачи:
- дать определение понятия электронного архива;
- рассмотреть основные этапы организации электронного архива;
- описать структуру электронного архива;
- рассмотреть проблемы выбора технической реализации электронного архива;
- описать организацию электронного архива на примере системы ЭТЛАС.
• системы имеют более качественные возможности по индексированию, поиску и по анализу, в частности, они реализуют нечеткий поиск, позволяющий отказаться от проблемы исправления ошибок после распознавания;
• системы характеризуются
исключительно высокой
• объем индекса не превышает 30% объема текстовых данных;
• системы, кроме неструктурируемых данных, обычно, поддерживают различные мультимедиа данные.
Какие здесь возникают сопутствующие проблемы? Во-первых, результаты нечеткого поиска напрямую зависят от качества задания запроса, и пользователи сталкиваются с проблемой шума - получения нерелевантных документов. Во-вторых, указанные системы рассчитаны на мощные параллельные вычислительные системы и пока не очень распространены на платформе Intel. Но главный недостаток заключается в том, что это системы исключительно индексирования и поиска - в них существенно ограничены функции управления документами. На разработчиков возлагаются очень непростые задачи создания собственных технологических и сервисных функций, интегрирования технологий и программно-аппаратных средств и т. п.
Застрельщиком представленного направления является американская компания Excalibur Technologies, имеющая сегодня представительства по всему миру, включая и Россию. Данное направление на российском, да и на европейском, рынке достаточно новое, например, разрешение на использование некоторых программных модулей на территории России было получено только в 1996 г. Фирма предлагает два программных продукта: Excalibur EFS и RetrievalWare. Первый - это "коробочный" продукт, он позволяет выполнять полнотекстовую индексацию и поиск информации, хранимой в файловых системах или СУБД. Второй продукт - мощное инструментальное средство создания систем полнотекстового поиска на базе теории нейронных сетей. RetrievalWare включает два компонента или программные библиотеки: текстовый сервер и сервер изображений. Библиотеки могут быть подключены к базовому ядру информационной системы, например, к СУБД Sybase. [6]
Сервер изображений может эффективно использоваться для поиска трехмерных изображений, сигналов, фотографий, отпечатков пальцев, устной речи и т.п. Текстовый сервер здесь существенно перспективнее, чем Excalibur EFS - он включает не просто механизм поиска неструктурируемой информации, но и семантический анализатор. Данный продукт позволяет создавать семантическую сеть между понятиями языка, а значит, - существенно расширять возможности поиска. Например, английский вариант семантической сети включает более 0.5 млн. слов и 1.5 млн. связей между ними. Сегодня имеются также соответствующие разработки в области русификации семантического сервера. RetrievalWare также включает компонент Web, позволяющий работать в среде Internet или intranet.
Несмотря на различие в указанных подходах к индексированию и поиску, возможна их комбинация при реализации конкретного электронного архива.
Сканеры потокового ввода
Одним из самых узких звеньев технологии электронного архивирования являются сканеры, обеспечивающие безотказный высокопроизводительный массовый ввод документов на бумажных носителях низкого качества: слипшихся, выцветших, порванных, разных размеров и плотности, плохо пропечатанных, испачканных и т.д. Практика показала, что офисные планшетные сканеры с автоподатчиками совершенно непригодны для решения таких задач, а ведь именно документы данного качества имеются сегодня в большинстве отечественных архивах.
Возможным вариантом решения является использование специализированных промышленных сканеров, ориентированных на потоковый ввод архивных документов. Отличительной особенностью таких сканеров является ротационный механизм перемещения документов, позволяющий вводить данные с бумажных носителей плохого качества. На российском рынке наиболее известны три типа промышленных сканеров: Bell&Howell, Fujitsu и Kodak (таблица 1). При их выборе основными критериями являются производительность, долговечность, стоимость, размер вводимых документов, возможность двустороннего ввода, наличие средств, повышающих качество распознавания, наличие средств контроля. Наиболее эффективными с точки зрения массового ввода пока являются сканеры Kodak, которые имеют надежные устройства подачи бумаги, включают процессор распознавания текста, систему компьютерной диагностики и контроля ввода, снабжены развитыми программными средствами распознавания и управления архивированием, имеют естественную технологическую поддержку системы архивирования (запись на компакт-диски, микрофильмирование, стыковка с автоматическими библиотеками компакт-дисков и др.). Здесь следует отметить, что функция микрофильмирования в ряде электронных архивов остается в эксплуатации - электронная копия документа в России, в отличие от микрофильма, пока не имеет юридической силы. Основным недостатком сканеров фирмы Kodak является их высокая стоимость: цена полной поставки с программными средствами и офисными стойками достигает несколько сотен тыс. долларов.
Таблица 1.
Сканеры потокового ввода
Тип сканера Скорость сканирования (лист/мин при А4/200 dpi) Разрешение (dpi) Формат документа, тип сканирования |
Bell&Howell 2135 36 200 А4, односторонний |
Bell&Howell 2138A 72 200 А4, односторонний |
Bell&Howell 6338 42 200-300 А3, двусторонний |
Fujitsu 3099G 55 200-400 А3, двусторонний |
KODAK IMAGELINK 500S 144 66-300 A3, односторонний |
KODAK IMAGELINK 923D 144 67-300 A3,двусторонний |
KODAK IMAGELINK 990 120 67-200 A3, двусторонний |
Сканеры Fujitsu и Bell&Howell уступают сканеру Kodak в первую очередь в сервисных и технологических функциях, но успешно справляются с обеспечением массового ввода основных архивных документов. Сканеры Fujitsu, в отличие от Kodak и Bell&Howell, выполнены на пластмассовой основе, что заранее определяет меньшую долговечность и более низкий уровень надежности системы сканирования. Поэтому с учетом этих факторов системы компромиссным вариантом базового потокового сканера системы ввода может быть сканер типа Bell&Howell.
Устройства хранения данных
Как уже отмечалось, все данные в системе могут находиться в двух видах: поисковый образ и образ собственно документа. Из-за высоких требований к скорости доступа к поисковому образу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.
Для хранения образа документов
использование магнитных
Таблица 2.
Оптические и
Тип диска Емкость Число циклов перезаписи |
5.25"-магнитооптические диски 650 Мб, 1.3 Гб, 2.6 Гб 1млн. |
PD/CD-диски фазоинверсной записи 650 Мб 1тыс. |
WORM-диски 1-10 Гб однократно |
Компакт-диски CD-R 650 Мб однократно |
Преимущество
Не вызывает сомнения,
что вся информация в системе
должна иметь резервные копии. Для
графических образов
Архитектуры вычислительной системы
Не останавливаясь на
выборе конкретного сервера, отметим
лишь особенности архитектуры
Важным критерием при выборе перспективного сервера является поддержка 64-разрядности, необходимая при вводе и обработке больших объемов мультимедийных данных. Сегодня эту возможность предоставляют только компании DEC, SGI, Oracle и Sybase. В ближайшем будущем ожидается, что к ним присоединятся HP и SUN Microsystems.
Системы электронного архива ЭТЛАС и электронного документооборота ЭТЛАС основаны на клиент-серверной архитектуре, которая показана на нижеприведенной схеме. [2]
Клиентские рабочие
места взаимодействуют с
Клиентские приложения на рабочих местах идентичны для всех ролей, и автоматически подстраивают свой интерфейс в зависимости от роли конкретного пользователя в системе.
Как правило, все сервера ЭТЛАС располагаются на одной серверной машине, вместе с сервером СУБД и базой документов. При больших нагрузках на сервер, работа системы может быть ускорена за счет разнесения серверов ЭТЛАС на разные серверные машины. Сервер базы данных и база документов также могут быть установлены на выделенные серверные машины.
Помимо основной серверной машины, рекомендуется использовать резервное хранилище данных для регулярного резервного копирования базы данных и документов. В качестве резервного хранилища можно использовать различные устройства, в том числе сетевые системы хранения данных (NAS).
Общая схема работы электронного архива ЭТЛАС
Ниже приведена общая схема взаимодействия пользователя с системой, отражающая информационные потоки, поступающие в систему и выходящие из нее, а также методы их обработки внутри системы.
Ключевым отличием схемы работы электронного архива ЭТЛАС от электронного документооборота ЭТЛАС является отсутствие автоматизации бизнес-процессов внутри системы. При этом входные и выходные информационные потоки идентичны, как и внутренняя структура пространства документов системы.
В левой части схемы
перечислены источники
Как показано на схеме, в систему могут быть внесены любые документы (файлы), при этом их размер ограничен возможностями файловой системы серверной машины (ограничение размера документа в системе ЭТЛАС - 16 Экзабайт). Помимо документов, имеющих хотя бы одну электронную версию (файл), в систему могут быть добавлены документы без версий, путем создания соответствующих регистрационных карточек. Подобные документы могут описывать любые объекты, необходимые пользователю, и позволяют организовать регистрацию и каталогизацию любых данных.
После прохождения регистрации, документы попадают в основное пространство документов, представляющее собой универсальное средство структурирования документов. Основное пространство документов поддерживает как произвольное размещение документов в папках, создаваемых пользователями вручную в соответствии с неформализованными правилами, так и автоматическое размещение документов в зависимости от их типа, в соответствии с заранее настроенными правилами.
Из основного пространства документов, документы могут быть удалены в корзину документов, либо помещены в архив. Корзина позволяет избежать потери документов при случайном удалении, при этом возможность очистки корзины доступна только администраторам системы. Корзина поддерживает два уровня удаления, и разделение удаленных документов по пользователям. Архив документов позволяет скрыть документы, актуальность которых не требует их хранения в общем пространстве документов, при этом сохраняется возможность их поиска и получения доступа к ним.
Информация о работе Организация архива электронных документов