Автор работы: Пользователь скрыл имя, 20 Января 2013 в 12:53, реферат
В данной работе главным объектом является компьютерный анализ. Целью ставится его детальное изучение. Соответственно выстраивается и ряд задач:
• Провести поиск и анализ литературы по рассматриваемой теме.
• Составить структуру работы.
• Рассмотреть историю вопроса и ее настоящее состояние.
• Найти примеры использования и подтверждения актуальности в настоящий день.
• Сделать выводы по изученному материалу.
Введение 3
Глава 1 Анализ текста. Определение 4
Глава 2 Компьютерный анализ текста 7
2.1 История вопроса 7
2.2 Возникновение программ для анализа текстов 10
2.3 Обработка естественного языка 12
2.4 Современное состояние. Программная составляющая 13
2.4.1 Общие сведения 13
2.4.2 Классификация 15
Заключение 20
Библиографический список и сайтография 21
2.4.2 Классификация
В совокупности все программы компьютерного анализа текста можно разбить на тексты на естественном языке и системы распознавания символов OCR.
1) Обработка текста на естественном языке:
1. Электронные словари:
В словаре содержатся грамматические описания, толкования и переводы слов. Кроме того, в статьях может отражаться информация об этимологии, фонетических свойствах и семантических связях слов. Таким образом, Викисловарь - попытка объединить в одном продукте грамматический, толковый, этимологический и многоязычный словари, а также тезаурус.
Особенности:
Аналоги: Мультитран, ПРОМТ, ABBYY Lingvo, Atlantida, Apertium, Babylon, Context, Dicto, Google Translate, Lingoes, LiteDict, MultiLex, Pragma, ProLing Office, StarDict, SYSTRAN, TransLite, WiseDict.
Возможности. Функция программы сканирование выделенного и отображение результата в всплывающих окнах:
Поиск по шаблону. Можно вводить слова, содержащие "*" и "?" как шаблоны.
Нечеткий запрос. Можно воспользоваться "нечётким запросом". Он использует алгоритм Левенштейна для подсчёта похожести двух слов, и выдаёт слова, которые наиболее подходят введённому запросу. Для использования этой возможности запрос должен начинаться с "/".
Полнотекстовой поиск предназначен для поиска слова в словаре без помощи индекса. Более медленный поиск, но позволяет искать совпадения в текстах статей.
Cканирование выделенного. При выделении слова и, в зависимости от настроек, при нажатии клавиш его перевод отображается в всплывающем окне.
Управление словарями. Выключение ненужных словарей, а также установка порядок их использования при запросе.
Поиск в интернете для различных он-лайн словарей.
Произношение слов. При наличии звуковых записей словарь может выполнять произношение слов.
Перевод полных текстов, используя интернет-сервисы.
2. Орфокорректоры (или спеллчекеры):
3. Системы автоматизированного перевода, в т.ч. программы управления памятью переводов:
Начиная с версии 2.04 OmegaT также может переводить текущий абзац текста через Google Translate.
Для работы OmegaT требуется версия Java 1.4, которая доступна для ОС GNU/Linux, Mac OS X и Microsoft Windows, Windows NT. Может работать с OpenJDK.
OmegaT поддерживает разнообразные форматы исходных документов: текстовые файлы (включая Unicode), файлы HTML/XHTML, StarOffice, OpenOffice.org и OpenDocument (ODF), а также файлы DocBook, MediaWiki, Microsoft OOXML, файлы .po (portable object) для библиотеки интернационализации gettext, XLIFF и текстовые файлы со структурой "Ключ=Значение". С файлами старых проприетарных форматов Microsoft Office (Word, Excel и PowerPoint) OmegaT не может работать непосредственно, их необходимо перевести в формат OpenDocument (например, с помощью OpenOffice.org) или OOXML с помощью Microsoft Office 2007.
Система Trados состоит из модулей, предназначенных для перевода текстов различного формата: документов Microsoft Word, презентаций PowerPoint, текстов в формате HTML и других метаданных, документов FrameMaker, InterLeaf и др., а также для ведения терминологических баз данных (модуль MultiTerm). Последняя версия системы, выпущенная независимой компанией Trados - 7.0. Последняя версия Trados на сегодняшний день - SDL Trados Studio 2009.
Принцип работы. Концепция Translation Memory предполагает выявление в переводимом тексте фрагментов, переводы которых уже имеются в базе данных переводов, и за счет этого сокращение объема работы переводчика. Фрагменты, оставшиеся непереведёнными, передаются дальше для ручной обработки переводчику или системе машинного перевода (Machine Translation, MT). Переводчик на этом этапе может выделить вновь переведённые фрагменты и занести новые пары параллельных текстов на двух языках в базу данных. Такая схема наилучшим образом работает в случае однотипных текстов, где повторяемость словосочетаний достаточно высока, т. е. в случае разного рода инструкций для пользователей, технических описаний.
2) Системы распознавания символов OCR:
Возможности. Поддерживает распознавание текста на 186 языках и имеет встроенную проверку орфографии для 38 из них. По некоторым данным, после некоторого обучения системы она может начать распознавать рукописный текст, но его нужно будет учить под почерк пользователя.
Первоначально система CuneiForm была разработана компанией Cognitive Technologies как коммерческий продукт. CuneiForm поставлялся с некоторыми моделями сканеров. Однако после нескольких лет перерыва разработки, 12 декабря 2007 года анонсировано открытие исходных текстов программы, которое состоялось 2 апреля 2008 года.
Особенности. CuneiForm позиционируется как система преобразования электронных копий бумажных документов и графических файлов в редактируемый вид с возможностью сохранения структуры и гарнитуры шрифтов оригинального документа в автоматическом или полуавтоматическом режиме. Система включает в себя две программы для одиночной и пакетной обработки электронных документов. CuneiForm - Шрифтонезависимая система.
В настоящее время OCRopus использует только интерфейс командной строки, принимая указания на входные изображения с текстом, и выводя данные в формате hOCR (открытый формат на основе HTML). Если необходим более точный контроль, можно указать в командной строке команды для выполнения конкретных операций (например, распознание одной строки).
Реальные преимущества цифровых технологий проявляются при анализе действительно массивов информации, когда, пусть с серьезным количеством ошибок, необходимо отобрать разумное число документов для тщательного качественного исследования.
Таким образом, благодаря компьютерам сейчас удается упростить или сделать ненужными многие классические операции обработки и подготовки информации. При этом пока методы анализа текстов играют существенно подчиненную и подготовительную роль для последующей вдумчивой работы специалистов, оснащенных проверенными методиками качественного исследования.
По сути сейчас происходит слияние обоих методов работы, как машинного, так и ручного. Конечно, на лицо все попытки свести ручной труд к минимуму, поскольку те объемы информации, которые мы имеем к настоящему времени, уже настолько велики, что оставить этот процесс не оснащенным технически было бы совершенно неуместно. Как стало известно по изучению данной темы, вопросом анализа текстов в разных его видах занимаются, как различные научные институты и организации, так и коммерческие фирмы-гиганты в информационной сфере, такие как, например, Microsoft Office, Apple и прочие.
Можно сделать вывод, что компьютерный анализ текстов – это развивающаяся в настоящем сфера деятельности, которая перспективна в связи с все большим притоком информации в информационном пространстве и с все большей необходимостью в ее анализе и упорядочении.