Программа сканирования и распознавания текстов FineReader

Автор работы: Пользователь скрыл имя, 09 Мая 2014 в 11:16, реферат

Краткое описание

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера).
Авторы программ задавали критерий «похожести», используемый при идентификации символов.
Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход.

Содержание

Введение…………………………………………………………………………3
Программа FineReader………………………………………………………..5
Распознавание документов в программе FineReader…………………….6
Как ввести документ за минуту……………………………………………...8
Параметры сканирования……………………………………………………9
Основные панели программы FineReader................................................11
Советы и примеры…………………………………………………………...14
Заключение…………………………………………………………………....21
Список литературы…………………………………………………………..22

Прикрепленные файлы: 3 файла

Введение.doc

— 30.00 Кб (Просмотреть файл, Скачать документ)

Основная часть.doc

— 357.50 Кб (Скачать документ)

Программа FineReader

Программа FineReader выпускается отечественной компанией ABBYY Software (www.bitsoft.ru). Эта программа предназначена для распознавания текстов на русском, английском, немецком, украинском, французском и многих других языках, а также для распознавания смешанных текстов. 
Программа имеет ряд удобных возможностей. Она позволяет объединять сканирование и распознавание в одну операцию, работать с пакетами документов (или с многостраничными документами) и с бланками. Программу можно обучать для повышения качества распознавания неудачно напечатанных текстов или сложных шрифтов.

Она позволяет редактировать распознанный текст и проверять его орфографию. 
FineReader работает с разными моделями сканеров. В частности, программа поддерживает стандарт TWAIN. Мы рассмотрим программу на примере версии 7.0

 

 

 

 

 

 

 

 

 

 

 

Распознавание документов в программе FineReader

После установки программы FineReader в меню Программ Главного меню появляются пункты, обеспечивающие работу с ней. Окно программы имеет типичный для приложений Windows вид и содержит строку меню, ряд панелей инструментов и рабочую область.

  1. В левой части рабочей области располагается панель Пакет, содержащая список графических документов, которые должны быть преобразованы в текст. Эти графические файлы рассматриваются как части одного документа. Результаты их обрабатываются и в дальнейшем объединяются в единый текстовый файл. Форма значка, отмечающего исходные файлы, указывает, было ли произведено распознавание.
  2. Панель в нижней части рабочей области содержит фрагмент графического документа в увеличенном виде. С ее помощью можно оценить качество распознавания. Эту панель используют также при «обучении» программы в ходе распознавания.
  3. Остальную часть рабочей области занимают окна документа. Здесь располагается окно графического документа, подлежащего распознаванию, а также окно текстового документа, полученного после распознавания.
  4. В верхней части окна приложения под строкой меню располагаются панели инструментов. На приведенном рисунке включено отображение всех панелей, которые могут быть использованы в программе FineReader.
  5. Панель инструментов Стандартная содержит кнопки для открытия документов и для операций с буфером обмена. Прочие кнопки этой панели служат для изменения рабочей зоны.
  6. Панель Scan&Read содержит кнопки, соответствующие этапам превращения бумажного документа в электронный текст. Первая кнопка позволяет выполнить такое преобразование в рамках единой операции. Остальные кнопки соответствуют отдельным этапам работы и содержат раскрывающиеся меню, служащие для управления соответствующей операцией.
  7. Панель Изображение используют при работе с исходным изображением. В частности, она позволяет управлять сегментацией документа. С помощью элементов управления этой панели задают последовательность фрагментов текста в итоговом документе.
  8. Элементы управления панели Форматирование используют для изменения представления готового текста или при его редактировании.

 

 

 

 

Как ввести документ за минуту

  1. Включите сканер (если он имеет отдельный от компьютера источник питания).
  2. Внимание! Многие модели сканера необходимо включать до включения компьютера.
  3. Вставьте в сканер страницу, которую Вы хотите распознать.
  4. Нажмите на стрелку справа от кнопки Scan&Read, в открывшемся локальном меню выберите пункт Мастер Scan&Read.

Мастер Scan&Read вызывает специальный режим, при котором Вы можете отсканировать и распознать страницу или открыть и распознать графическое изображение (пример графического файла Вы можете найти в папке Dio. Она находится в папке, в которую Вы установили FineReader).

При этом каждый шаг сопровождается подсказками системы. 
Далее следуйте указаниям Мастера Scan&Read.

Процесс ввода документов в компьютер состоит из четырех этапов: сканирования, распознавания, проверки и сохранения результатов распознавания.  
В результате сканирования появится окно Изображение, содержащее "фотографию" страницы. Затем программа попросит Вас установить параметры распознавания и приступит к распознаванию изображения, одновременно анализируя его. Обработанные участки изображения закрашиваются голубым цветом.  
Результат распознавания Вы увидите в окне Текст. В этом же окне Вы можете проверить и отредактировать распознанный текст. Следуя далее указаниям Мастера Scan&Read, Вы можете либо передать распознанный текст в выбранное Вами приложение или сохранить его на диске, либо продолжить обработку следующих изображений.

Параметры сканирования

Используйте разрешение 300 dpi для стандартных текстов (размер шрифта 10pts. и больше) и разрешение 400-600 dpi для текстов с меньшим шрифтом (9pts. и меньше). Сканирование в сером режиме рекомендуется для повышения качества распознавания. При сканировании в сером режиме яркость регулируется автоматически. Если Вы хотите, чтобы диалог Настройки сканера открывался каждый раз перед сканированием при работе в режиме - Использовать интерфейс FineReader, Меню Сервис — Опции - на закладке Сканирование / отметьте опцию - Запрашивать опции перед началом сканирования.

  • Анализ оформления страницы

Анализ оформления страницы может проходить как вручную, так и автоматически. В большинстве случаев программа FineReader сама выполняет сложную задачу анализа страницы. Нажмите кнопку Распознать для запуска автоматического анализа оформления страницы. Распознавание и анализ страницы выполняются одновременно. 
Если программа выделила некоторые блоки неправильно, проще и быстрее редактировать неправильно размеченные блоки, используя инструмент для редактирования блоков, чем удалять блоки и выделять их заново вручную. 
В некоторых случаях качество автоматического анализа страницы может быть улучшено с помощью изменения опций анализа оформления страницы. Для просмотра текущих опций страницы меню Сервис — Опции / закладка Распознавание.

  • Улучшение качества распознавания изображений сдвоенных страниц

Чтобы увеличить качество распознавания, разбейте сканируемые изображения так, чтобы каждой из пары сдвоенных страниц на изображении соответствовала отдельная страница пакета. Изображения могут быть разбиты как автоматически, так и вручную.   
Чтобы разбивать изображения автоматически перед добавлением в пакет на стрелке возле кнопки Сканирование/Открыть в диалоге Опции, отметьте опцию - Делить разворот книги. Чтобы разбивать изображения вручную, отметьте опцию - Разбить изображение  в меню Изображение. Устранение искажений, анализ оформления страницы и распознавание будут проходить отдельно для каждой страницы.  

  • Неправильно отображаемые символы

Если в окне Текст программы FineReader символы отображаются неправильно (например, "?" или "?" на месте некоторых букв), это означает, что текущий шрифт не поддерживает полностью алфавит выбранного Вами языка распознавания. Выберите шрифт, который поддерживает все символы текста распознаваемой страницы (например, Arial Unicode или Bitstream Cyberbit) на закладке Форматирование (меню Свойства — Опции) в группе Шрифты, и распознайте документ заново.

  • Редактирование распознанного текста в Microsoft Word

Если Вы предпочитаете редактировать распознанный текст в Microsoft Word, а не в текстовом окне программы FineReader, Вы можете сделать так, чтобы неуверенно распознанные символы остались подсвеченными. В меню Сервис выберите пункт Форматы - на закладке RTF/DOC/Word XML отметьте опцию Цветом фона и/или Цветом символа в группе - Выделять неуверенно распознанные символы. В сохраненном файле все неуверенно распознанные символы будут подсвечены выбранными Вами на этой закладке цветами.  
Теперь давайте остановимся немного подробнее на панелях программы и правилах работы с программой.

 

Основные панели программы FineReader

Главная панель программы Scan&Read

Мастер Scan&Read – запускает специальный режим сканирования и распознавания, во время которого система контролирует действия пользователя и подсказывает ему, что надо делать, чтобы получить тот или иной результат. Сканировать и распознать – запускает сканирование и распознавание документа. Сканировать и распознать несколько страниц – сканирует и распознает несколько страниц в цикле.

Открыть и распознать – позволяет открыть и распознать изображения, выбранные в диалоге Открыть (Open).

Открыть изображение – добавляет изображение в пакет, при этом копия изображения сохраняется в папке пакета.

Сканировать изображение – сканирует изображение. Сканировать несколько страниц – сканирует изображение в цикле. Чтобы остановить сканирование, в меню Файл выберите пункт Остановить сканирование. Опции – открывает закладку Сканирование/Открытие диалога Опции, на которой можно установить опции сканирования и предварительной обработки документа.

Распознать – распознает открытую страницу (или выделенные страницы) пакета.

Распознать все – распознает все нераспознанные страницы пакета.

Опции – открывает закладку Распознание диалога Опции, на которой можно установить опции распознавания документа.

Проверить – позволяет найти в тексте слова, содержащие неуверенно распознанные символы, и неправильно написанные слова.

Опции – открывает закладку Проверка диалога Опции, на которой можно установить опции проверки документа.

Мастер сохранения результатов – открывает диалог Мастер сохранения результатов, в котором можно выбрать приложение для сохранения и установить опции сохранения.

Сохранить текст в файл – сохраняет распознанный текст в файл на диск.

Передать страницы в – напрямую передает распознанный текст в выбранное приложение без сохранения его на диск. При передаче распознанного текста с нескольких страниц пакета сначала нужно выделить их в окне.

Передать все страницы в – передает все распознанные страницы в выбранное приложение без сохранения их на диск.

Опции – открывает закладку Форматирование диалога Опции, на которой можно установить опции сохранения документа.

Панель Изображение

 

 

 

 

 

 

Советы и примеры.

PDF документ

Одним из наиболее популярных форматов представления электронных документов в Internet, архивах и т.д. является формат PDF (Portable Document Format).

Открыв PDF-файл в FineReader, можно его распознать, отредактировать и сохранить либо в PDF, выбрав один из четырех режимов сохранения оформления документа (только текст и картинки, только изображение, текст поверх изображения картинки, текст под изображением картинки), либо в любом другом поддерживаемом формате сохранения.

Чтобы установить режимы сохранения в формате PDF:

В меню Сервис выбрать пункт Форматы.

На закладке PDF диалога Форматы установить требуемый режим.

PDF является распространенным форматом для пересылки документов по электронной почте или публикации документов на web-сайтах. Естественно, что при публикации на web-сайтах очень важна высокая скорость открытия документов. Документ, сохраненный из программы FineReader в формате PDF, отвечает подобным требованиям. Структура PDF такова, что позволяет открывать в пользовательском браузере для просмотра первые страницы PDF документа, не дожидаясь, когда весь файл целиком будет загружен с web-сервера.

Сложная журнальная страница

Описание ситуации: плохое качество распознавания вследствие неправильного выделения блоков. Решение: В результате автоматического анализа данной страницы были выделены лишние блоки (например, участки текста на картинке). Проверить количество блоков, а также отредактировать форму выделенных блоков.

Для этого нужно воспользоваться инструментами на панели Изображение:

- чтобы удалить выделенные на  картинке лишние блоки текста  или предварительно, выделив блок, нужно нажать на клавиатуре  кнопку Delete;

 и  - чтобы нарисовать блоки непрямоугольной формы;

 и  - чтобы нарисовать текстовый блок и блок-картинку, либо нарисовать блок самостоятельно, как если рисовать просто прямоугольник в графическом редакторе и в контекстном меню (правой кнопкой мыши на блоке) можно выбрать тип требуемого блока.

Замечание: При выделении текстовых блоков следите за тем, чтобы границы совпадали с границами текста.

Книжный разворот

Описание ситуации: за одно сканирование сканируется пара страниц (книжный разворот), при этом каждая страница имеет свой угол наклона, что отрицательно сказывается на качестве распознавания, кроме того, обе страницы сохраняются на одну страницу в две колонки. (Dual Page.tif) При распознавании изображение должно иметь стандартную ориентацию: текст должен читаться сверху вниз, и строки должны быть горизонтальными. По умолчанию при распознавании программа автоматически определяет и корректирует ориентацию изображения. У изображений со сдвоенными страницами стандартная ориентация отсутствует, так как каждая страница имеет свой угол наклона.

Решение: В программе существует специальный режим, при котором изображение со сдвоенными страницами разрезается на две части и превращается в две отдельные страницы пакета. Это позволяет обрабатывать каждую страницу: автоматически исправить угол наклона и сохранить распознанный текст с каждой страницы в отдельный файл (или на отдельную страницу).

Чтобы установить данный режим, перед добавлением изображения в пакет на закладке Сканирование/Открытие в группе Обработка изображений отметьте опцию – Делить книжный разворот.

Разрезать изображение со сдвоенными страницами на две части, которые впоследствии будут преобразованы в две отдельные страницы пакета, можно также с помощью опции – Разбить изображение.

Визитные карточки

Конечно, это очень удобно – вся важная информация о человеке сконцентрирована на листке бумаги небольшого формата. Но иногда пугает их количество, и мы тратим массу времени для того чтобы их упорядочить, привести в систему, найти удобное средство хранения.

содержание.doc

— 22.50 Кб (Просмотреть файл, Скачать документ)

Информация о работе Программа сканирования и распознавания текстов FineReader