Сканирование и распознавание изображений

Автор работы: Пользователь скрыл имя, 16 Мая 2013 в 16:34, реферат

Краткое описание

Одним из основных способов ввода информации в вычислительные системы является сканирование. Именно сканер стал тем устройством, с помощью которого в компьютер попадает огромное количество информации.
С помощью современной аппаратуры сканирования с высоким разрешением исходного документа довольно просто формируется графический файл специального формата. Такой файл после соответствующей обработки может быть преобразован в любой из форматов, которые применяются в информационных технологиях. Это форматы представления текстов и графических видов информации – фотографий, слайдов, рисунков и т.п.

Прикрепленные файлы: 1 файл

Сканирование и распознавание изображений.doc

— 110.50 Кб (Скачать документ)

Кроме всего этот этап выполняет дополнительные функции: автоматическое определение угла поворота страницы и его автоматическая коррекция.

Процесс распознавания  полностью автоматический, не требует  наличия оператора, при этом возможно распараллеливание распознавания  в рамках локальной сети.

При необходимости, после  распознавания документ передается на верификацию. Если же необходимости в верификации нет, распознанные данные могут экспортироваться во внешние информационные системы и базы данных.

Верификация документа: исправление ошибок заполнения и распознавания, подтверждение результатов распознавания «сомнительных» полей, просмотр полей, не прошедших логический контроль, и принятие решения о дальнейшей судьбе таких документов. На этом этапе оператор производит визуальный контроль результатов распознавания и принимает решение о дальнейшем маршруте документа. Процесс реализован в двухоконном редакторе форм. В одном окне показано изображение бумажного документа, в другом — электронная форма, содержащая распознанные данные.

Процесс верификации документа идет по следующей схеме. Оператору предъявляется изображение и электронная форма с распознанными данными. При этом поля, не прошедшие контроль достоверности и логической непротиворечивости, подсвечены цветом для привлечения внимания оператора. Оператор, перемещая фокус между полями электронной формы, видит диагностику ошибок и либо исправляет ошибку, либо, если ошибку нельзя исправить, принимает решение передать документ на этап обработки «плохих» документов. При передвижении по полям модуль автоматически подсвечивает рамку поля на изображении.

Для повышения эффективности  работы оператора предусмотрены  два режима: проход только по полям, не прошедшим контроль, и режим  пропуска незаполненных полей. Кроме  этого, если прикреплен словарь, содержащий допустимые значения для поля, то имеется возможность указать в описании поля необходимость предъявления словаря оператору и разрешить оператору вставлять в поле значения из словаря.

После окончания верификации  документа оператору предлагается либо отложить его, либо передать на этап экспорта данных.

Возможно распараллеливание  процесса верификации в рамках локальной  сети. В крупных проектах массового  ввода могут быть одновременно задействованы  десятки операторов, выполняющих  функцию верификации потока документов.

После верификации, данные могут экспортироваться во внешние  информационные системы и базы данных.

Точность распознавания

Ключевым параметром систем распознавания, характеризующим  их практическую ценность, является точность распознавания, то есть процент правильно распознанных символов.

Optical Character Recognition - системы могут достигать наилучшей точности распознавания — свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9 % получается одна или две ошибки на страницу. В таких случаях на помощь приходит метод проверки по словарю. То есть, если какого-то слова нет в словаре системы, то она по специальным правилам пытается найти похожее. Но это все равно не позволяет исправлять 100 % ошибок, что требует человеческого контроля результатов.

Точность распознавания падает за счет ошибок распознавания. Повышению точности распознавания способствует устранение указанных ниже причин ошибок.

Причины ошибок при распознавании

Встречающиеся в реальной жизни тексты обычно далеки от совершенства, и процент ошибок распознавания для "нечистых" текстов часто недопустимо велик. Грязные изображения — здесь наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовывать один в другой. Еще одной проблемой является неаккуратное сканирование, связанное с "человеческим фактором", так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера.

Если документ был  ксерокопирован, нередко возникают  разрывы и слияния символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из OCR-систем полагают, что непрерывная область изображения должна быть одиночным символом.

Страница, расположенная  с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR.

Более трудоёмкой является задача сканирования цветных изображений. Она обычно заключается в наиболее полном считывании информации с оригинала, т. е. его тонового и цветового диапазона, а также разрешения. При этом желательно по необходимости скорректировать недостатки оригинала с точки зрения последующего использования изображения. Например, компенсировать нежелательный цветовой сдвиг, тоновый дисбаланс или подавить полиграфический растр оригинала.

В настоящее время  для решения этих задач многие фирмы производят соответствующее  оборудование и разрабатывают математическое обеспечение. Однако именно в наличии  большого количества возможностей и  способов организовать технологический процесс сканирования и кроется главная опасность. Выбор определённого устройства и программ позволяет удовлетворительно и без перенастроек работать только со сравнительно небольшим диапазоном типов документов.

 

Применение Сканирования.

Применение сканеров имеет широкий диапазон и находится в постоянном развитии. Сканирование интенсивно используются в специализированных информационных технологиях. По сканированию текста наиболее полно наработан опыт в создании электронных библиотек Интернета. По второму направлению – цветной графики, давно работают в области полиграфии

Успешность применения сканеров зависит  не только от их собственных качеств, но и от правильного их использования. Каждая из областей применения имеет  свой собственный акцент и делает ударение на различные характеристики системы.

  1. Настольные издательские системы (вы вводите в издаваемую статью рисунки, диаграммы, фотографии). В данном случае сканеры должны быть как минимум цветными, обладать высокой разрешающей способностью, широким диапазоном оптических плотностей, с числом передаваемых цветов 16 777 216 (24 бита на точку - 8 бит на каждый цвет RGB) и т.д.
  2. Системы обработки документов (пакет оптического распознавания символов вместе со сканером научат ваш компьютер "читать" текст, экономия времени, которое тратится на ввод с клавиатуры). Сканеры, применяемые для этих целей не должны быть цветными, т.к. для сканирования текста необходимо регистрировать только два уровня - белый и черный (глубина точки 1 бит), высоких разрешающих способностей здесь тоже не требуется, а значит, стоимость сканера сильно снижается.
  3. САПР (сканер + программа векторизации облегчает процесс ввода чертежей для дальнейшего их использования в пакетах автоматического проектирования). Нет необходимости применять здесь цветной сканер, но разрешающая способность должна быть достаточно высокой, чтобы косые линии не выглядели как ступеньки лестницы.
  4. Системы компьютерной анимации. Здесь почти всю область применения занимают проекционные сканеры, обеспечивающие хорошее качество вводимых изображений и возможность ввода проекций трехмерных тел.
  5. Системы для передачи информации (факс - модем + сканер = факс машина)

 

Заключение.

Качество сканированного изображения  определяется многими факторами. Такие  как — тип сканируемого оригинала, технические возможности сканера, квалификация оператора сканера, размер оригинала, от которого зависит необходимая  кратность увеличения, разрешение при сканировании, а также особенности любой обработки, примененной к изображению в ходе сканирования. Сканируете ли вы оригиналы самостоятельно, пользуетесь ли услугами сервисного бюро или агентства допечатной обработки, для успеха проектов в области печати нелишне детально представлять себе процесс получения сканированных изображений. Кроме того, если вы хотите, чтобы сканированные изображения имели высокое качество, до стадии сканирования необходимо в максимально возможной степени узнать о возможностях вывода изображения и специфике печати — размере выводимого изображения, а также параметрах печатного станка — пространственной частоте растра, типе бумаги, типе печатного станка, ограничениях на тоновый диапазон, а также ожидаемом увеличении размера растровой точки. Согласование характеристик сканирования и этих факторов гарантирует, что каждое сканированное вами изображение будет качественным.

 

Список используемой литературы:

  1. http://www.microbs.ru/hardware_pc/scan.shtml

  1. http://cognitiveforms.ru/technologies/
  2. http://www.novojonov.ru/content/printable.aspx?key=soft-electronic-archive&file=08-scan-ocr
  3. http://www.awella.ru/newsscanirovanie.php.htm
  4. http://ru.wikipedia.org/wiki/%D0%A1%D0%BA%D0%B0%D0%BD%D0%B5%D1%80_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9
  5. http://nestudent.ru/i.php?get=1362
  6. Основы информатики:/ Лихович В.Ф.: Ростов Н/Д: изд-во «Феникс» 1996
  7. В.П. Леонтьев «Новейшая энциклопедия персонального компьютера 2003». – М.: «ОЛМА-ПРЕСС», 2003. - 920с.

 

 

 

 

 

 


 


Информация о работе Сканирование и распознавание изображений