Компьютерный анализ текста

Автор работы: Пользователь скрыл имя, 20 Января 2013 в 12:53, реферат

Краткое описание

В данной работе главным объектом является компьютерный анализ. Целью ставится его детальное изучение. Соответственно выстраивается и ряд задач:
• Провести поиск и анализ литературы по рассматриваемой теме.
• Составить структуру работы.
• Рассмотреть историю вопроса и ее настоящее состояние.
• Найти примеры использования и подтверждения актуальности в настоящий день.
• Сделать выводы по изученному материалу.

Содержание

Введение 3
Глава 1 Анализ текста. Определение 4
Глава 2 Компьютерный анализ текста 7
2.1 История вопроса 7
2.2 Возникновение программ для анализа текстов 10
2.3 Обработка естественного языка 12
2.4 Современное состояние. Программная составляющая 13
2.4.1 Общие сведения 13
2.4.2 Классификация 15
Заключение 20
Библиографический список и сайтография 21

Скачать полностью (40.71 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

Аймашева_реферат.doc

— 147.00 Кб (Скачать документ)

Федеральное агентство по образованию

Уральский федеральный университет – УрФУ

имени первого Президента России Б. Н. Ельцина

Институт фундаментального образования

Секция информатизации библиотечного дела

Специальность «Библиотечно-информационная деятельность»

Учебная дисциплина «Аналитика текста»

Компьютерный анализ текста

Реферат

Исполнитель: Аймашева Я.С.,

студент группы ФО-490501

Научный руководитель:

Гришина С.М., доц.

Екатеринбург

2012

Оглавление

Введение

Компьютерный анализ текстов разных стилей и жанров, написанных различными языками и представленных в различных электронных формах, становится в настоящее время одной из необходимых составляющих лингвистических изысканий. В виду развития технологий перед специалистами, занимающимися вопросами в данной области знания, открываются все большие возможности горизонты.

В данной работе главным объектом является компьютерный анализ. Целью ставится его детальное изучение. Соответственно выстраивается и ряд задач:

Провести поиск и анализ литературы по рассматриваемой теме.
Составить структуру работы.
Рассмотреть историю вопроса и ее настоящее состояние.
Найти примеры использования и подтверждения актуальности в настоящий день.
Сделать выводы по изученному материалу.

Компьютерный анализ текста в виду своей специфики развивается во времени со многими другими науками, чье влияние на него бесспорно. В том числе и с аналитикой текста, информационными технологиями и с другими науками, на которые оказывает влияние сам, позволяя расширять возможности анализа информации данных, начиная от их объемов и заканчивая эффективностью проделываемой аналитической работы.

Глава 1 Анализ текста. Определение

Анализ (греч. «analysis» – разложение) – метод научного исследования (познания) явлений и процессов, в основе которого лежит изучение составных частей, элементов изучаемой системы. Аналитические методы широко распространены в социуме, поэтому термин «Анализ» часто воспринимается как синоним исследования вообще и особенно при решении познавательных задач. Анализа является составной частью любого научного исследования, образуя, как правило, его первую стадию, когда исследователь выявляет в описании изучаемого объекта его строение, состав, свойства, признаки и т.п. Он используется как метод получения новых результатов в процессе мыслительной деятельности человека.

Мыслительный анализ совершается с помощью понятий и суждений, выражаемых в естественных или искусственных языках. Такой анализ ориентирован на выявление структуры целого, предполагая фиксацию его частей и установление отношений между ними.

Более 33% отечественных топ-менеджеров к перспективным информационным технологиям, предназначенным для решения инновационных задач, относят сбор и анализ информации. Предполагая с их помощью ускорить решение таких задач, как прогнозирование тенденций и выявление изменений в поведении и в требованиях клиентов.

Анализ документов – это метод сбора первичных данных, при котором документы используются в качестве главного источника информации; это также совокупность методических приёмов и процедур, применяемых для извлечения информации из документальных источников при изучении процессов и явлений в целях решения определённых задач.

Если же мы говорим об анализе текста, то здесь применимо следующее определение: процесс получения высококачественной информации из текста на естественном языке. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных. В последнее время анализ текста привлекает всё больше внимания в различных областях, таких как безопасность, коммерция, наука. Многие пакеты анализа текста, такие как Aerotext и Attensity, нацелены на рынок приложений безопасности, в частности на анализ источников простого текста, например новостных сайтов. Исследования и разработки подразделений крупных компаний, таких как IBM, Apple и Microsoft, исследуют технологии анализа текста с целью будущей автоматизации процессов анализа и извлечения данных.

Такой анализ осуществляет практически каждый человек не задумываясь, что он делает именно это. Например, любой читатель книги анализирует содержание, читая её по частям. Одной из наиболее популярных форм анализа текстов является подготовка аналитических справок.

Аналитические справки обычно делятся на два вида. Первые представляют справки с выводами (например, какого-нибудь контрольного органа или эксперта); вторые – с вариантами решений (действий) в предполагаемой ситуации и оценкой последствий каждого варианта. С помощью таких аналитических справок лицо, принимающее решение (ЛПР) видит сущность проблемы и получает информацию, необходимую для принятия решения. Такая справка, кроме текстового описательного материала, может содержать в себе таблицы, диаграммы и графики.

В общем случае всем, особенно трудоспособному населению, постоянно приходится работать с текстовыми и иными видами документов, явно или неявно анализируя их содержание и другие компоненты, например, качество изготовление, форму, размер и т.д. Таким образом, важной задачей практически любых индивидов является нахождение (получение) нужных им документов, а также анализ их содержания на предмет подготовки различных документов (рефератов, аннотаций, справок, отчётов, учебных работ, производственных заданий и др.). При этом нередко возникают ситуации, когда в течение незначительного периода времени необходимо подготовить некоторый (как правило, аналитический) материал.

Анализ текстов на естественном языке (ЕЯ) был актуальным практически с момента их появления. При таком анализе необходимо определить правила, с помощью которых, по мнению специалистов, «формальная система (набор структурных элементов текста) преобразуется в систему содержательную (осмысленное сообщение».

Анализ текста использовался и продолжает использоваться для классификации текстов, содержащихся в них слов и словосочетаний (например, для определения частоты встречаемости тех или иных терминов в определённых текстах), аннотирования и реферирования текстов, проведения семантически ориентированного поиска текстов по заданным концептам, определения авторского права претендента на соответствующий текст и др.

Считается, что в реальной жизни правила чтения текстов не формализуются. Человек постигает их годами, активно работая в определённой сфере деятельности и предметной области. Специалисты отмечают, что разные контексты порождают различные правила их прочтения, которые со временем меняются, поэтому трудно научить таким правилам компьютер, а значит автоматически учитывать содержательные аспекты обрабатываемого текста. В результате для выполнения заданного набора операций производят сопряжение информационного и семантического пространств с пространством формальных правил чтения текстов. При этом информационное пространство порождается семантическим.

Глава 2 Компьютерный анализ текста

2.1 История вопроса

С самого начала развития кибернетики и вычислительной техники возникла идея автоматического создания, обработки и анализа текстов. Так создание ЭВМ в середине 20-го века и быстрое развитие кибернетических идей стимулировали появление новых наук, которые ранее просто невозможно было представить. Как правило, они возникали на стыке наук, часто не связанных друг с другом. Так, на стыке биологии и инженерных наук возникла бионика, на стыке психологии и лингвистики - психолингвистика, а на стыке вычислительной техники и лингвистики родилась наука, о которой и пойдет речь дальше.

Новая наука несколько раз меняла название: сначала она называлась математической лингвистикой, потом структурной лингвистикой и вычислительной лингвистикой. Наконец за ней прочно укрепилось ее современное название - компьютерная лингвистика.

Две причины обусловили появление новой науки. Во-первых, исследователи-лингвисты надеялись, что современные точные науки (и, прежде всего, математика) помогут лингвистике обрести недостающую ей точность. Появление ЭВМ укрепило эти надежды, так как многим языковедам с самого начала было ясно, что компьютеры - это не только "быстро работающие арифмометры", но и мощное средство для автоматизации работы с текстами. Появилась возможность автоматизировать многие трудоемкие процессы, например, статистическую обработку текстов, ведение разнообразных словарных и лексических картотек.

Во-вторых, с появлением компьютеров почти сразу же возникла проблема общения с ними неподготовленных пользователей. Бесспорно, наилучшей формой для таких пользователей мог быть привычный естественный язык.

К началу 70-х гг. компьютерная лингвистика получила "права гражданства": стали выходить специальные сборники и журналы по компьютерной лингвистике, создавались соответствующие лекции на лингвистических конференциях и конференциях по искусственному интеллекту и, наконец, стали созываться всемирные форумы, посвященные исключительно проблемам этой науки. В большинстве развитых стран начался процесс подготовки специалистов в области компьютерной лингвистики.

В настоящее время в компьютерной лингвистике выделяются несколько основных направлений. Например, анализ текстов на естественном языке.

Лингвисты давно изучают, как устроен текст, и, прежде всего предложение, играющее роль кирпичика, из совокупности которых складывается текст. Но лишь с появлением компьютеров эти исследования приобрели новое направление. Группа американских лингвистов выдвинула дерзкую идею, получившую название Джорджтаунский проект, - автоматизировать процесс перевода текстов с одного языка на другой, используя для этого ЭВМ. Идея заинтересовала лингвистов многих стран и активизировала работы в области анализа текстов. В ходе этих работ надо было ответить на вопрос: "Существуют ли строгие формальные правила, по которым строится структура предложения и структура текста?". Если о структуре предложения лингвисты накопили много материала, то структура текста ими не изучалась.

В результате проведенных исследований стало ясно, что за каждым текстом (в том числе и за отдельным предложением, являющимся своего рода мини-текстом) скрывается не одна, а несколько формальных структур, которые можно разделить на три уровня.

Первый уровень – это поверхностная синтаксическая структура. В этой структуре каждое предложение текста рассматривается изолированно от других и для каждого проводится что-то вроде разбора предложения по его членам, как все мы делали в школе. Но этой структуры для анализа оказывается мало.

Следующий шаг – построение глубинной синтаксической структуры (второй уровень). Идея существования глубинной синтаксической структуры связана с пониманием того, что различные естественные языки, отличаясь друг от друга многими внешними синтаксическими особенностями, передают весь спектр взаимосвязей между объектами, явлениями, их свойствами и протекающими с их участием процессами, характерными для окружающего мира. Рассмотрим как пример две фразы: "Мальчик сорвал цветок" и "Цветок, сорванный мальчиком". Остановимся на уровне синтаксиса. В первом предложении субъект действия "сорвал" – это "мальчик". И это слово играет здесь роль подлежащего, о чем свидетельствует именительный падеж. Во втором же предложении роль подлежащего играет слово "цветок", а слово "мальчик" стоит в творительном падеже. Но субъектом действия "сорвал" и здесь остается все тот же "мальчик". А цветок в любом из двух приведенных предложений играет роль объекта действия. Понимание ситуации, описываемой любым из этих предложений, заключается, в частности, в том, что мы выделяем в тексте некоторое действие, а также его субъект и объект.

Синтаксическая структура, построенная на основе глубинных падежей, позволяет перейти от синтаксического уровня предложения к его семантическому уровню. На этом уровне для анализа привлекаются дополнительные данные, связанные с наличием у лексических единиц языка определенных значений. В семантических структурах (третий уровень формальных структур) также можно выделить поверхностный и глубинный уровни, в чем-то похожие на соответствующие уровни в синтаксических структурах. Например, анализируя фразу: "Женщина пришла домой из магазина очень расстроенная", на поверхностном семантическом уровне мы фиксируем лишь сам факт состояния женщины. На глубинном же семантическом уровне мы сможем высказать предположение о причинах ее состояния - пустые полки магазинов, очереди, отнимающие массу времени и сил. Структуры наиболее "глубокого" уровня, возникающие при анализе предложений, могут быть названы прагматическими. Из них следует понимание того, к чему обязывает или призывает данное предложение. Прагматические структуры устанавливают связь между предложениями в текстах, связывают текст в единое целое, а также побуждают нас делать те или иные действия в реальном мире (как, например, надпись: "Стой! Проход запрещен!"). Чтобы выделить необходимые структуры при автоматическом анализе, надо пройти несколько последовательных этапов:

Информация о работе Компьютерный анализ текста