Ввод информации о своем предприятии

Автор работы: Пользователь скрыл имя, 07 Февраля 2014 в 12:26, реферат

Краткое описание

В последнее время проблема массового ввода данных стала особо актуальной.Число документов постоянно растёт, а вместе с ними увеличиваются проблемы по вводу и обработке больших объёмов данных в вычислительных системах.Необходимость обработки структурированных и неструктурированных форм документов,изначально выполненных на бумаге, возникает в деятельности большого количества государственных,акционерных и частных предприятий

Содержание

ВВЕДЕНИЕ
СТАНДАРТНЫЕ ФОРМЫ И ИХ КЛАССИФИКАЦИЯ
• Понятие и признаки классификации стандартных форм
• Типы стандартных форм в зависимости от применения
• Выводы к разделу 1
ВВОД И ОБРАБОТКА СТАНДАРТНЫХ ФОРМ
• Этапы ввода и обработки форматированных документов
• Основные принципы потокового ввода форм
• Требования к системам массового ввода стандартных форм
• Подходы к реализации систем обработки форм
• Выводы к разделу 2
СИСТЕМЫ МАССОВОГО ВВОДА СТАНДАРТНЫХ ФОРМ
• СистемаABBYY Fine Reader Form
• СистемаCognitive Forms
• Выводы к разделу 3
ЗАКЛЮЧЕНИЕ
СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Прикрепленные файлы: 1 файл

ввод информации 22.docx

— 61.48 Кб (Скачать документ)

Используются следующие  режимы верификации:

  • Контекстная верификация для проверки текстовых полей;
  • Групповая верификация для проверки цифровых данных;
  • Верификация полей формы по заранее определённым правилам

Для повышения надёжности данных используют дополнительные механизмы,такие как применение словарей и таблиц, определяемых пользователем.Как правило,системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

И на шестом этапе распознанные и проверенные данные сохраняются  в полях базы данных. Суммарное  количество документов,которые должны быть занесены в базу данных для дальнейшей обработки только в одной организации,может достигать нескольких тысяч и даже десятков тысяч в день .

Следовательно,более широкое внедрение систем обработки форм не только освободит сотни людей от неэффективного утомительного труда, но и даст реальную экономию,снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных.

Выполнение двух основных процессов,сегментации документа и чтения текста документа из значимых полей,предполагает обработка форматируемых документов.

Сегментация— это нахождение опорных элементов и вычисление относительно них положения значимых полей.

Эти процессы могут быть выполнены последовательно и  независимо,если поля полностью определены своими визуальными характеристиками.Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков.

В документах,не имеющих строго определённого положения полей и явных разделителей между ними, нет принципиально иного способа,как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации.Пример характерного случая ложной геометрической сегментации и её последующей коррекции после чтения приведён .Очевидно,что различная сложность структуры и её визуальная вариативность порождают самый широкий спектр решений.

В машиночитаемых формах задача сегментации осложняется множеством факторов: помехами на опорных элементах,смещением текста в полях,искажениями формы документа в процессе сканирования(например, дефекты в виде разрыва и топографической грязи, прилегание текста к граничным линиям полей и т.п.). Вследствие этого даже исходно простая схема обработки многократно усложняется.

Документы,не имеющие строго заданной геометрии, но,тем не менее,использующие явно заданные разделители(например, таблицы с разделителями в виде горизонтальных и вертикальных прямых), обрабатываются достаточно надёжно. Если линии непрерывные,а текст их не касается, то принципиальных сложностей при обработке не возникает.На практике эти условия обеспечиваются далеко не всегда,поэтому приходится пользоваться априорными сведениями о характере возможных разрывов, находить части изолированных от текста линий и т.д. Но при этом характеристики устройства документа должны быть чётко определены.

Основные принципы потокового ввода форм

При вводе данных из форм целесообразно придерживаться следующих  принципов:

1. Пакетная обработка  данных.

Смысл этого принципа состоит  в том,что однотипные формы в рамках системы объединяются в так называемые пакеты. Иными словами, на программном уровне однотипные формы рассматриваются как содержимое некоего обособленного контейнера.Каждый такой пакет имеет уникальный идентификатор.Подобное решение позволяет структурировать поток вводимых данных. Этот принцип даёт определённые преимущества:во-первых, с каждым пакетом могут быть связаны свои программные настройки,во-вторых, в потоковой системе ввода структурирование облегчает администрирование,маршрутизацию потоков и дальнейшее хранение данных.

2. Распределение функций  операторов.

Мощные системы ввода  данных обычно функционируют по принципу конвейера.Специализация повышает производительность труда, а также позволяет практически неограниченно масштабировать систему. Например,всегда можно увеличить количество мест операторов сканирования,не вмешиваясь в работу операторов распознавания,верификаторов,и так далее.

3.Масштабируемость системы.

Благодаря распределению  функций между операторами,система оказывается состоящей из узкоспециализированных модулей. При этом количество модулей каждого вида определяется только особенностями конкретной ситуации и может быть при необходимости легко изменено.Эта особенность делают систему более гибкой и управляемой,что существенно удешевляет комплекс ввода в целом.

4. Очередность заданий.

Важным для таких систем является понятие маршрута движения пакета. Пакеты движутся по системе  не произвольным образом, а в соответствии с заданной схемой маршрутизации.Простейшим примером схемы маршрутизации может служить линейная схема:станция сканирования— станция распознавания— станция верификации— станция корректировки— станция экспорта.Основное преимущество системы, использующей очереди заданий,— равномерное распределение нагрузки по всем ресурсам(операторам)системы. Как только, например,оператор верификации освободился от задания и сообщил о своей готовности продолжить работу, на его рабочее место доставляется очередной пакет форм, стоящий следующим в очереди пакетов на верификацию[3].

 

Требования к  системам массового ввода стандартных  форм

 

Основные требования к  системам обработки форм:

1. Соответствие предъявляемым  функциональным требованиям.

Решение о внедрении системы  обработки форм, а также выбор  того или иного приложения должны производиться с учётом, в первую очередь, типа обрабатываемых документов и вида содержащихся в них данных.Для одних целей использование таких приложений может быть эффективно,в то время как для других,напротив, —вести к лишним расходам.

Поскольку производится обработка  образов документов с распознаванием содержащихся в них данных,они должны быть спроектированы с учётом максимально удобного сканирования,а данные — внесены таким образом,чтобы их было удобно распознавать.Помимо типа документов и вида данных нужно оценить количество подлежащей обработке информации.Наиболее эффективно применение систем в тех случаях, когда за день обрабатываются сотни или более форм (ряд систем позволяет справляться и с несколькими тысячами документов).

2. Точность распознавания.

Модуль распознавания  текста встроен в систему обработки  форм. Существуют две его разновидности,основанные на технологиях оптического распознавания:OCR, которая применяется к напечатанным машинным способом символам, и так называемое интеллектуальное распознавание— ICR, способное работать с написанными вручную символами.Первая из технологий появилась давно и в настоящий момент хорошо проработана и широко распространена.Несмотря на то, что ICRбазируется на концепции нейронных сетей, начавшей своё развитие относительно недавно, сегодня это тоже достаточно популярная и совершенная технология.

В табл.1приведены основные характеристики методов распознавания.

 

Таблица1

Характеристики  методов распознавания

Метод

Точность распознавания, %

Процент нераспознанных символов

Процент символов, распознанных ошибочно

Вручную

97-98

3

OCR

99,5

1-2

0,1

ICR

90-95

10-30

0,9-2


 

Как видно из таблицы, ни один из доступных способов не гарантирует  полного отсутствия ошибок в тексте,однако чем выше точность распознавания и меньше количество не распознанных символов, тем больше вероятность того, что вложенные деньги окупятся быстрее. Пользователи систем OCRи ICR сталкиваются с ошибками двух типов: во-первых,это символы,которые система вообще не способна распознать,и, во-вторых, —те, что распознаются ошибочно. Причём последние наиболее опасны,так как ошибка,вполне вероятно,может остаться незамеченной.Первых также не должно быть слишком много,иначе редактирование затягивается на длительный срок, и эффективнее ввести информацию вручную. Диапазон значений, указанных в таблице, зависит от уровня систем:более дорогие,как правило,обеспечивают лучшие показатели.

3. Наличие эффективной  системы редактирования.

Нельзя построить системы  со100%-м распознаванием форм и полностью  исключить действия человека.Но их надо минимизировать и построить систему так,чтобы человек с максимальным удобством и скоростью исправлял выявленные ошибки. Лучше всего при редактировании иметь перед глазами содержимое формы полностью(или части формы),где выделены«сомнительно»распознанные символы. Оператор просматривает и вносит необходимые изменения,после чего подтверждает ввод данных.

4. Настраиваемость системы.

Лучшие системы обработки  форм базируются на открытой платформе, что подразумевает простую интеграцию с существующими системами и  будущими решениями.Они также должны быть настроены на требования конкретного заказчика и изменяться согласно меняющимся внешним условиям без программирования.Настраиваемость системы обработки форм подразумевает:

  • Наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов. Развитые системы должны включать специализированные интерфейсы конкретного типа сканеров, которые обеспечивают максимально возможную для данного типа сканера производительность.
  • Наличие редактора форм, настраивающего систему на новые формы.
  • Наличие редактора схем обработки документов. Системы начального уровня позволяют настраивать систему через единые области в файловой системе. Системы следующего уровня имеют в своём составе редактор схем, который, например, даёт возможность перемаршрутизировать документ конкретному человеку или определённой группе пользователей при наступлении какого-либо заранее описанного события. В связи с тем, что бизнес-правила могут меняться довольно часто, необходимо иметь в составе системы средство, которое позволяет довольно быстро перенастраивать её без изменений в коде.
  • Наличие открытого интерфейса подключения различных модулей распознавания. В зависимости от типа формы можно, для повышения качества распознавания, подключить тот или иной модуль, который наиболее подходит для данного типа формы.
  • Наличие редактора схем экспорта в базу данных. Данные, которые извлекаются при обработке формы, должны быть переданы или в базу данных для хранения, или в другие бизнес-приложения для обработки.
  • Наличие редактора схем импорта в архивную систему. Помимо передачи данных в другие бизнес-приложения иногда необходимо передавать и собственно изображения форм (нераспознанные) или части изображения. Это требуется для организации последующего доступа и проверки соответствия распознанных данных и начальной формы, с которой они были взяты.
  • Возможность наращивания функций системы .

 

 

 

 

Подходы к реализации систем обработки форм

В идеале системы должны включать все функции, необходимые  для сканирования,обработки,исправления и экспорта данных, и в то же время предоставлять возможности наращивания функционала.

Существуют два подхода  для реализации систем обработки  форм: компонентный и монолитный.

При компонентном методе система  обработки форм состоит из компонентов,которые разрабатываются и представляются различными производителями.В случае компонентного подхода, заказчик обладает возможностью получить приложение,обладающее оптимизированным для своих потребностей набором функциональности.Проблема в данном подходе состоит в ответственности за интегрированное решение и последующее его обслуживание.В качестве компонентов рассматриваются:компоненты работы со сканерами,с платами обработки изображений;компоненты обработки изображений и распознавания изображений.

При монолитном подходе вся  система поставляется одним производителем,например разработчиком систем распознавания изображений.При сосредоточении ответственности за всю систему в одних руках необходимо отметить некоторые недостатки.

Во-первых,узость подхода производителя монолитных систем определяется его корнями.Так, производители систем распознавания и обработки форм обычно уверяют, что главное в системе— это модуль распознавания их производства,а всё остальное не так важно.

Во-вторых,нельзя гарантировать,что система от одного производителя способна поддерживать на высоком уровне все функциональны особенности.

В-третьих,невозможно заменить какой-либо элемент на более качественный другого производителя.

И, наконец,нельзя модернизировать систему своими силами, и, как следствие этого, возникает сильная зависимость от одной компании-производителя[1].

Выводы к разделу 2

Ввод информации из полей  формы в базу данных,включает несколько этапов: подготовка обработки формы, сканирование,сегментация полученного изображения,распознавание значимых полей,верификация,сохранение данных в полях базы данных.Причём сегментацию изображения формы и извлечение данных из значимых полей подразумевает обработка форм.

При вводе форм целесообразно  придерживаться определённых принципов,брать во внимание основные требования,предъявляемые к системам массового ввода форм и учитывать подходы к их реализации.Это обеспечит реальную экономию,снизит количество опечаток, повысит точность и соответственно достоверность вводимых данных,а также освободит сотни людей от неэффективного утомительного труда.

 

СИСТЕМЫ МАССОВОГО ВВОДА СТАНДАРТНЫХ ФОР

 

Существует несколько  сотен компаний, которые предлагают решения или компоненты систем обработки  форм по всему миру. Выбор решения, наиболее соответствующего потребностям заказчика и являющегося оптимальным  по стоимости,— непростая задача. Выбирая систему обработки форм, следует ориентироваться на особенности  организации и виды преобладающих  в ней форм.

Информация о работе Ввод информации о своем предприятии