Автор работы: Пользователь скрыл имя, 20 Января 2013 в 12:53, реферат
В данной работе главным объектом является компьютерный анализ. Целью ставится его детальное изучение. Соответственно выстраивается и ряд задач:
• Провести поиск и анализ литературы по рассматриваемой теме.
• Составить структуру работы.
• Рассмотреть историю вопроса и ее настоящее состояние.
• Найти примеры использования и подтверждения актуальности в настоящий день.
• Сделать выводы по изученному материалу.
Введение 3
Глава 1 Анализ текста. Определение 4
Глава 2 Компьютерный анализ текста 7
2.1 История вопроса 7
2.2 Возникновение программ для анализа текстов 10
2.3 Обработка естественного языка 12
2.4 Современное состояние. Программная составляющая 13
2.4.1 Общие сведения 13
2.4.2 Классификация 15
Заключение 20
Библиографический список и сайтография 21
1) Исходный текст
2) Преданализ
3) Морфологический анализ
4) Поверхностный синтаксический анализ
5) Глубинный синтаксический анализ
6) Поверхностный семантический анализ
7) Глубинный семантический анализ
8) Прагматический анализ
9) Выявление текстовых структур.
Указанные этапы охватывают всю задачу анализа текстов на естественном языке. Необходимость в исполнении тех или иных этапов при анализе конкретного текста зависит от тех целей, для которых тот анализ осуществляется.
В компьютерной лингвистике проблемы
синтеза текстов сейчас находятся
в центре внимания исследователей,
и нет сомнений, что в ближайшее
время будут найдены
Это одно из самых молодых направлений в компьютерной лингвистике – это оживление текста. Своим появлением оно обязано персональным компьютерам, которые впервые дали возможность организовать общение с пользователем не только путем обмена текстами, но и посредством зрительных образов на экране дисплея. Одной из особенностей мышления человека (едва ли не основной для возможности самого мышления) является его разномодальность. Психологи пользуются этим термином, чтобы подчеркнуть, что наши представления об окружающем мире и о нас самих могут иметь различную природу (различную модальность). Можно "мыслить словами", но можно представлять себе какие-то зрительные картинки, как часто бывает во снах. Есть люди, для которых многие воспоминания состоят из запахов или вкусовых впечатлений. Словом, все наши органы чувств дают свою модальность в мышлении. Но две модальности: символьная (текстовая) и зрительная – являются для человека основными. Легко проверить, что между этими модальностями имеется весьма тесная связь. Обычно называние чего-то или текстовое описание некоторой ситуации тут же вызывает зрительные представления об этих объектах и ситуациях. И наоборот, стоит нам увидеть нечто, как мы тут же готовы описать увиденное с помощью нашего родного языка. Так текст и сопутствующая ему зрительная картина оказываются объединенными в нашем сознании и интегрированными в некоторое единство. Текст как бы "живет" в виде некоторого образного представления. И изучение того, как происходит эта интеграция и как по одной составляющей представления появляется вторая, - одна из увлекательных задач, стоящих перед специалистами в области компьютерной лингвистики и их коллегами - создателями интеллектуальных систем. Уже найдены некоторые важные законы интеграции текстов и зрительных образов. Созданы первые экспериментальные модели этого процесса и первые интеллектуальные системы, способные описывать в виде текста предъявляемую им картинку (например, пейзаж), а также воссоздавать одну из возможных картин, соответствующих введенному в систему тексту.
Первые текстовые редакторы
появились, когда к большим электронно-
После недолгого обучения работе с текстовыми редакторами, писать статьи и книги стали быстрее в среднем в три раза. И это не преувеличение. Ошибки теперь исправляются легко. А это позволило печатать гораздо быстрее и не с таким напряжением. Оказались не нужны ножницы и клей. Без труда любые фрагменты текста несколькими нажатиями клавиш или щелчком «мыши» меняются местами. Более того, стало возможно также просто вставлять в текст куски из других файлов. А сколько времени раньше требовалось, чтобы вписать формулы, иностранные слова, курсив. Если же текст включал значительные фрагменты на иностранном языке, то приходилось пользоваться двумя печатными машинками. Про смену шрифта или его величины не было речи до появления печатных машинок с символами, размещенными на вращающихся барабанах. Но их цена оставляла за бортом большинство пользователей.
Конечно, благодаря памяти компьютеров все тексты сохранялись, что также позволяло экономить время, особенно при вариациях на ту же тему. Cейчас любой автор с минимальной подготовкой может приготовить к изданию оригинал-макет своей книги, причем вставить в него все картинки, графики и таблицы в те места и в таком виде, как ему представляется важным.
Большим достижением явилось
Довольно легко удалось
Конечно, программа проверки иногда ошибается, предлагая исправить то, что не нуждается в исправлении, и пропуская грамматические ошибки. Например, в фразе "жареная колбаса" программа верно определяет, что "жареная" надо писать с одним "н". Однако, в предложении "Жаренная отцом колбаса", слово "жаренная" уже является причастием, которое пишется с удвоенным "н". Такие задачи уже массовому текстовому редактору не решить, как и задачи пунктуации, но, в целом, с профессией корректора он справляется лучше большинства своих владельцев.
В некоторых редакторах, например в Word, программисты пошли даже дальше орфографии и пунктуации. С некоторых пор программа стала оценивать удобочитаемость и благозвучность текста, анализируя его по множеству правил и подчеркивая пользователю те места, где по ее мнению допущены нарушения. Среди этих правил есть вполне очевидные, а есть и довольно загадочные. К примеру, неблагозвучие на стыках слов Word определяет идущими подряд 4-мя или более гласными или согласными буквами. Например, в таких фразах как: "гимнаст спрыгнул" или "лекции у аудитории ". А вот критерии сочетаемости разных слов нигде не поясняются, и можно только догадываться, почему некоторые слова надо менять. Кроме того, программа предупреждает против употребления слов с сильной эмоциональной окраской. Впрочем, многие пользователи быстро понимают, что всерьёз прислушиваться к советам Word можно только в вопросах орфографии.
Обработка естественного языка – общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез - генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.
Теоретически, построение естественно-языкового интерфейса для компьютеров - очень привлекательная цель. Ранние системы, такие как SHRDLU, работая с ограниченным "миром кубиков" и используя ограниченный словарный запас, выглядели чрезвычайно хорошо, вдохновляя этим своих создателей. Однако оптимизм быстро иссяк, когда эти системы столкнулись со сложностью и неоднозначностью реального мира.
Понимание естественного языка иногда считают AI-полной задачей, потому как распознавание живого языка требует огромных знаний системы об окружающем мире и возможности с ним взаимодействовать. Само определение смысла слова "понимать" - одна из главных задач искусственного интеллекта.
Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника. Вот некоторые примеры сложностей, с которыми сталкиваются системы понимания текстов.
Предложения "Мы отдали бананы обезьянам, потому что они были голодные" и "Мы отдали бананы обезьянам, потому что они были перезрелыми" похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом – к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны. По нормам русского языка второе предложение некорректно, потому что в нем местоимение ссылается не на последнее подходящее слово, однако в живой речи такое предложение очень даже может встретиться.
Свободный порядок слов может привести к совершенно иному толкованию фразы: "Бытие определяет сознание" – кто кого определяет?
В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему.
В речи могут встретиться неологизмы, например, глагол "Пятидесятирублируй", то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.
Правильное понимание омонимов - ещё одна проблема. При распознавании речи, помимо прочих, возникает проблема фонетических омонимов. Во фразе "Серый волк в глухом лесу встретил рыжую лису" выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (Кроме того, что лиса, может быть, рыжей, а лес - глухим, лес также может быть рыжим (преобладание цвета листвы в лесу), в то время как лиса может быть глухой, что порождает дополнительную проблему, вытекающую из предыдущей).
2.4.1 Общие сведения
В последнее время появились компьютерные программы, которые претендуют на большее, чем техническая помощь пишущему пользователю. К примеру, программа "Лингвоанализатор" Дмитрия Хмелёва. Программа размещена на сайте "Русская фантастика" и открыта для бесплатного тестирования всем желающим. Она претендует на определение авторства любого текста, то есть, вычисляет некоторую вероятность того, что текст принадлежит данному автору. Вы можете послать программе какой угодно текстовый фрагмент, и, через несколько секунд "Лингвоанализатор" сообщит вам вероятное имя его автора.
Программа определяет возможного писателя, опираясь на базу данных авторских текстов, уже внесенных в программу. В результате анализа сообщается имя не одного, а трёх возможных авторов, выстроенных в порядке убывания вероятности.
Посылать можно любые тексты, в том числе свои собственные, что бы посмотреть насколько и к кому из внесенных в базу они близки. Рядом с именами трёх возможных авторов, программа в процентах указывает вероятность написания ими данного текста.
Идеи, положенные в основу «Лингвоанализатора» высказаны довольно давно. Саму задачу называют "проблемой атрибуции текстов". В нее входит кроме авторства, установление жанра, а также времени и места создания произведения. Первые подобные работы проводились в рамках палеографии – области знаний на стыке различных дисциплин, которая изучала древние рукописи, преимущественно с внешней стороны: способ написания, форма букв, особенности материала на котором писали, состав чернил и так далее. Опираясь на эти сведения, в конце 17 века ученый-бенедиктинец Жан Мабильон доказал в споре с иезуитами подлинность старых документов, закрепляющих права собственности его ордена на монастырь Сен-Дени, а старообрядцы Андрей Денисов, Мануил Петров и Леонтий Федосеев уличили в подлоге представителей государственной церкви, выставившей для убеждения верующих в правоте никоновских реформ якобы исправленную митрополитом Феогностом по приказу Ивана Калиты рукопись 12 века. Их аргументы основывались на сравнении почерков, качества чернил спорных рукописей с бесспорными, а также на фактических, логических и хронологических неточностях.
Когда в 18-19 веке пышно зацвела национальная идея, ее часто обосновывали вольными толкованиями древних текстов, а если таковых не доставало, то их просто придумывали. Джеймс Макферсон в 1765 году выдал свои обработки кельтского фольклора за песни мифического барда Оссиана, жившего по преданиям в 3 веке. В начале 19 века чешские ученые Вацлав Ганка, Йозеф Юнгман, поэт Йозеф Линда и художник Франтишек Горчичка так искусно подделали несколько древних рукописей, что их умысел окончательно был разоблачен лишь сто лет спустя. Среди подделок знаменитая «Краледворская рукопись» и «Любовная песня короля ВацлаваI». Трудность заключалось в том, что фальсификаторы брали подлинную средневековую рукопись частично срезали оригинальный текст и тщательно изготовленными Горчичкой чернилами сложного состава наносили новые буквы.
Есть и другая популярная ветвь компьютерных исследований текстов. Она ведет свое начало с попыток автоматически проанализировать значительные объемы информации, порождаемые современными СМИ. За этими усилиями стоит не только академический интерес, сколько попытки определить степень влияния СМИ на общество. Кроме того, существуют и более частные задачи, например, определение масштабов рекламной компании конкурентов или спектра журналистских статей, компрометирующих кандидата в депутаты.
Такой подход реализован, например, в программе ВААЛ. Программа – коммерческая и поэтому многие заявления создателей ресурса нужно принимать с известной осторожностью. Проект ВААЛ претендует на достоверный контент-анализ, то есть на автоматическое определение эмоциональной и политической окраски текста.
Конечно, потребность в такой программе есть. Сейчас нетрудно получить доступ к цифровым версиям большинства значимых общегосударственных и региональных СМИ. Практически постоянно ведется мониторинг не только газет и журналов, но и влиятельных радио и телевизионных программ. Быстродействия современных компьютеров вполне хватает, чтобы довольно быстро анализировать любые сочетания символов в тексте. Поэтому, создается иллюзия, что нетрудно извлечь из всего этого информационного моря полезную информацию.
Полноценное же проведение контент-анализа проводится в "ручную", то есть подготовленным человеком. Таким человеком становится, например, любой редактор, получающий значительный поток рукописей. Через некоторое время у него появляется почти автоматический навык обнаружения стилистических и логических несообразностей, эмоциональной ангажированности текста и так далее.
Использование компьютерных программ контент-анализа позволяет быстро отобрать в большом общем информационном объеме кандидатов на ручную обработку, которую называют качественным анализом. В отличие от количественного, который позволяет определить частоту появления в тексте определенных характеристик содержания.