Программа сканирования и распознавания текстов FineReader

Автор работы: Пользователь скрыл имя, 09 Мая 2014 в 11:16, реферат

Краткое описание

Проблема распознавания текста в составе точечного графического изображения является весьма сложной. Подобные задачи решают с помощью специальных программных средств, называемых средствами распознавания образов. Реальный технический прорыв в этой области произошел лишь в последние годы. До этого распознавание текста было возможно только путем сравнения обнаруженных конфигураций точек со стандартным образцом (эталоном, хранящимся в памяти компьютера).
Авторы программ задавали критерий «похожести», используемый при идентификации символов.
Подобные системы назывались OCR (Optical Character Recognition — оптическое распознавание символов) и опирались на специально разработанные шрифты, облегчавшие такой подход.

Содержание

Введение…………………………………………………………………………3
Программа FineReader………………………………………………………..5
Распознавание документов в программе FineReader…………………….6
Как ввести документ за минуту……………………………………………...8
Параметры сканирования……………………………………………………9
Основные панели программы FineReader................................................11
Советы и примеры…………………………………………………………...14
Заключение…………………………………………………………………....21
Список литературы…………………………………………………………..22

Прикрепленные файлы: 3 файла

Введение.doc

— 30.00 Кб (Просмотреть файл, Скачать документ)

Основная часть.doc

— 357.50 Кб (Скачать документ)

Удобный способ ввода и хранения визиток в компьютере с помощью программы FineReader. Все визитки обрабатываются и хранятся в пакете программы. Используя функцию полнотекстового поиска по распознанным страницам пакета. Можно найти нужную визитку (при этом поиск возможен по любой распознанной информации с визитки – по названию компании, фамилии, телефону и т.д.). Список найденных визиток показывается в окне Поиск. Чтобы открыть визитку, выберите запись в результатах поиска. Можно пополнять пакет новыми визитками, редактировать уже распознанные визитки в окне Текст.

Положите несколько визитных карточек (столько, сколько уместится) в сканер.

Внимание! Визитки должны быть разложены так чтобы в результате была получена «табличная структура». Между рядами и колонками должно быть некоторое расстояние. Допустимо либо горизонтальное (более длинные стороны визиток расположены вдоль горизонтали), либо вертикальное размещение визиток на листе, но не оба сразу.

Установить следующие параметры сканирования:

Разрешение – 400-600 dpi (обычно визитные карточки содержат текст, набранный мелким шрифтом,  для хорошего распознавания которого требуется отсканировать документ с более высоким разрешением вместо обычных 300 dpi).

Тип изображения – серый или цветной.

Нажмите кнопку – Сканировать.

Для повышения качества распознавания, полученные изображения с визитками следует разделить так, чтобы каждой визитке соответствовала отдельная страница пакета. В этом случае исправление перекоса строк, анализ и распознавание будет проводиться для каждой визитки. Для этого в меню Изображение выберите пункт – Разбить изображение. В открывшемся диалоге – Разбить изображение нажмите кнопку , а затем кнопку ОК. В окне Пакет появятся новые страницы: каждая страница будет содержать изобажение одной визитки. При этом исходное изображение (содержащее несколько визиток) будет удалено из пакета.

 

Замечание: Если изображение было поделено на визитки неверно, то попробуйте поделить изображение вручную. Для этого воспользуйтесь кнопками и . Чтобы передвинуть или удалить разделитель, нажмите кнопку Выбор разделителя - , мышью переместите разделитель в нужное место. Для удаления разделителя переместите его за границы изображения. Чтобы удалить все разделители, нажмите кнопку .

Установите язык распознавания. Если требуется, установите несколько языков. При этом помните, что увеличение количества подключенных к распознаванию одного документа языков может привести к ухудшению качества распознавания. Не рекомендуется подключать более 2-3 языков. Перед запуском распознавания проверьте подключенные на закладке Форматирование шрифты: они должны содержать все символы языка распознавания. В противном случае распознанный текст будет неправильно отображен в окне Текст (в словах на месте некоторых букв стоят значки «?» или «?»).

Нажмите кнопку – Распознать.

Программная распечатка

Описание ситуации: данный пример имеет две особенности, влияющие на качество распознавания:

программа передает отступы от левого края листа не пробелами, а с помощью задания отступов абзаца: при экспорте в .txt левый отступ не сохраняется: некоторые строки объединяются в один абзац и при экспорте объединяются в одну строку;

много ошибок при распознавании конструкцией языков программирования.

Решение:

Для распознавания таких документов существует специальная опция программы Форматированный пробелами текст. Устанавливается в группе Тип страницы на закладке Распознавание диалога Опции (меню Сервис – Опции).

В этом случае в распознанном тексте сохранится деление на строки; отступы от левого края будут переданы пробелами; каждая строка выделена в отдельный абзац, а расстояния между абзацами переданы пустыми строками. Все это позволит сохранить исходное форматирование текста при сохранении в формате Txt.

Для хорошего распознавания распечаток программ требуется установить специальный язык распознавания. Для этого:

 В списке языков на панели  – Стандартная выберите значение Выбор из полного списка языков и в открывшемся диалоге Язык распознаваемого текста выберите пункт C++.

Замечание: Если распознаваемая программная распечатка помимо программного кода содержит текстовые комментарии, то для хорошего распознавания необходимо выбрать несколько языков распознавания: язык программирования и язык, на котором написаны комментарии.

Таблица с неполным количеством черных разделителей

Описание ситуации: все строки таблицы между черными горизонтальными линиями разделителя объединены в одну строку таблицы.

Если в таблице встречается смешанное разделение на строки и столбцы, при котором некоторые строки разделены черными разделителями, а некоторые нет, программа может разбить таблицу на строки неправильно.

Решение: Программу можно «заставить» выделять каждую строку текста в отдельную строку таблицы, отметив специальную опцию на закладке Распознание (меню Сервис – Опции) в группе Таблицы: В каждой ячейке таблицы не более одной строки текста.

Сложная таблица

Описание ситуации: неправильный анализ таблиц со сложной нерегулярной структурой: неправильное разделение таблицы на строки и столбцы; неправильное выделение картинок в ячейках таблицы; плохое распознавание вертикального и инвертикального текста.

Решение: Воспользуйтесь инструментами ручной разметки таблиц, расположенными на панели Изображение: - чтобы добавить вертикальную линию; - чтобы добавить горизонтальную линию; - чтобы удалить линию.

Для ячеек таблицы, содержащих только картинки, в диалоге Свойства блока (меню Вид – Свойства), отметьте пункт – Считать ячейку картинкой. Для выделения картинок внутри ячеек с текстом в отдельные блоки, воспользуйтесь инструментом на панели Изображение: .

Для ячеек таблицы, содержащих вертикальный текст, в диалоге Свойства блока (меню Вид – Свойства) в поле Направление текста укажите направление текста в ячейке; для ячеек с инвертикальным текстом отметьте пункт Инвертированный.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Заключение

В итоге можно сказать, что программа FineReader позволяет распознавать текст документов не только форматов .tif, .gif и др., т.е. форматов отсканированных документов, но и формата PDF, который с помощью программы Foxit Reader невозможно отредактировать. Кроме того, мы рассмотрели ситуации, в которых обычным пользователям казалось, сложно было бы найти выход, и к ним решения. Что еще можно добавить в заключение, так это то, что при прочтении данного реферата новым «юзером», им будет понят смысл и работа приложения FineReader.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Список литературы

1. Электронный ресурс: http://www.metod-kopilka.ru/page-2-2-23.html.

 

 

 

 

 

 

 


содержание.doc

— 22.50 Кб (Просмотреть файл, Скачать документ)

Информация о работе Программа сканирования и распознавания текстов FineReader