Корпусная лингвистика

Автор работы: Пользователь скрыл имя, 23 Декабря 2013 в 07:20, контрольная работа

Краткое описание

В мировой науке первые корпуса стали возникать практически одновременно с внедрением компьютерных технологий в гуманитарные исследования, однако массовый рост корпусных исследований и создания новых корпусов приходится на период конца 1980-середины 1990 гг. Именно в это время появляются крупные национальные корпуса английского, итальянского, финского, чешского и ряда других языков (преимущественно, европейских). И именно в это время в теоретическую лингвистику приходит осознание того, что представительный корпус не просто является очень мощным средством поиска примеров в текстах – он должен рассматриваться как принципиально новый инструмент, применение которого приводит к революционным (и не до конца еще осознанным) результатам в исследовании языка.

Содержание

Введение. 2
I.Общие понятия корпусной лингвистики. 6
II.Типы корпусов. 11
III.Связь корпусной лингвистики с другими науками. 14
IV.Корпусная и компьютерная лингвистика. 15
Заключение. 17
Список использованной литературы. 19

Скачать полностью (43.25 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

Корпусная лингвистика доклад.docx

— 45.82 Кб (Скачать документ)

Работа пользователей с корпусом осуществляется с помощью специализированных программных средств - корпусных менеджеров, предоставляющих разнообразные возможности по получению из корпуса необходимой информации:

- поиск конкретных словоформ;

- поиск словоформ по леммам;

- поиск группы словоформ в виде разрывной или неразрывной синтагмы;

- поиск словоформ по набору морфологических признаков;

- отображение информации о происхождении, типе текста и т.п.;

- вывод результатов поиска с указанием контекста заданной длины;

- получение различных лексико-грамматических статистических данных;

- сохранение отобранных строк конкорданса в отдельном файле на компьютере пользователя и др.

Результаты поиска обычно выдаются в виде конкорданса (поэтому корпусные менеджеры еще называют конкордансерами), где искомая единица представлена в ее контекстном окружении и в виде статистических данных. Последние могут фиксировать частотные характеристики отдельных языковых единиц, или граммем, или могут характеризовать совместную встречаемость нескольких лексических единиц. Многие системы позволяют настраивать формат выдачи (менять длину левого и правого контекста, задавать объем выдачи и порядок сортировки данных, отображать или не отображать лингвистические и экстралингвистические характеристики, и т.д.).

II. Типы корпусов.

Несмотря на разнообразие корпусов, можно выделить два основных способа деления корпусов на классы: 1) это противопоставление корпусов, относящихся ко всему языку (часто к языку определенного периода), корпусам, относящимся к какому-либо подъязыку (жанр, стиль, язык определенной возрастной или социальной группы, язык писателя или ученого и т.п.); 2) разделение корпусов по типу лингвистической разметки.

Несмотря на наличие множества типов разметки, большинство реально существующих корпусов относится к корпусам морфологического либо синтаксического типа (последние в англоязычной литературе называют treebanks, что можно перевести как «банки синтаксических структур»). При этом следует подчеркнуть, что корпус с синтаксической разметкой явно или неявно включает в себя и морфологические характеристики лексических единиц. Вообще же существует большое число разных типов корпусов.

Подробнее остановимся на статических, динамических, исследовательских, иллюстративных корпусах текстов и корпусах параллельных текстов.

Исследовательские корпусы. Исследовательскими называются такие корпусы, которые предназначены преимущественно для изучения различных аспектов функционирования языковой системы. Они строятся не post factum -- после проведения какого-либо исследования, а до его проведения. Этот тип корпусов данных, как правило, ориентирован на широкий класс лингвистических задач.

Иллюстративные корпусы. Иллюстративные корпусы создаются после проведения научного исследования: их цель не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются слепком, правильным (с точки зрения статистики) отображением проблемной области. Они включают лишь то, что достаточно для иллюстрации описываемого феномена.

Динамические и статические корпусы текстов. Первоначально корпусы текстов создавались как статические образования, отражающие определенное временное состояние языковой системы. Типичными представителями этого вида корпусов являются авторские корпусы - коллекции текстов писателей. Однако значительная часть чисто лингвистических и не только лингвистических задач требует выявления функционирования языковых феноменов на временной шкале - например, изменения значения слов, частоты использования тех или иных синтаксических конструкций и пр. Для отражения процессуального аспекта проблемной области была разработана новая технология построения и эксплуатации динамического корпуса текстов. В имеющейся литературе такие корпусы получили также название мониторных. Особенность сборки мониторных корпусов заключается в том, что они не предполагают раз и навсегда заданного набора текстов. В течение заранее фиксированного промежутка времени происходит обновление и/или дополнение множества текстов корпуса.

Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из общего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса. Как динамический корпус строился Бирмингемский корпус английского языка.

Корпусы параллельных текстов. Для научных и практических целей (в частности, для преподавания иностранных языков) формируются корпусы параллельных текстов. По своей структуре это подмножество текстов на языке-источнике и одно или несколько подмножеств текстов, которые являются переводами текстов языка-источника на языки-цели. Например, английский текст «Alice in Wonderland» и его переводы на немецкий, французский и русский языки могут формировать такой корпус или быть частью большего корпуса параллельных текстов [2].

Таким образом, разнообразие корпусов текстов определяется многообразием исследовательских и прикладных задач, для решения которых они создаются, и различными основаниями для классификации.

III. Связь корпусной лингвистики с другими науками.

Лингвистика – сложная многоплановая область знаний и приложений, которая соприкасается как со многими гуманитарными науками, так и с естественнонаучными. В последние годы появились смежные лингвистические направления на стыке тех или иных наук, которые активно развиваются за счет новых теоретических и практических приложений. Укажем лишь некоторые:

·Социология, Политология -> Социолингвистика, Политическая лингвистика;

·Филология - > Лингвистика текста;

·Психология - > Психолингвистика;

·Логика -> Когнитивная лингвистика, Информационный поиск, Моделирование семантики и знаний;

·Математика - > Математическая лингвистика, Лингвостатистика;

·Биология - > Фонетика;

·Физика - > Распознавание и синтез речи;

·История, археология, этнография - > Этнолингвистика, Дешифровка, Сравнительно-историческое языкознание;

·Юридическая наука - > Юридическая лингвистика (рассматривает язык права, проводит лингвистические экспертизы текстов и высказываний); ·Информатика - > Компьютерная лингвистика (например, ее раздел лингвистические основы информатики, связанный с разработкой и обработкой искусственных языков программирования);

·Семиотика - > Знаковая теория языка, WEB-дизайн. [7]

IV. Корпусная и компьютерная лингвистика.

Довольно часто звучит вопрос о соотношении корпусной и так называемой

«компьютерной лингвистики». Эти ветви науки о языке, действительно, близки друг другу, но всё же не совпадают.

Что такое «компьютерная лингвистика»? Вообще, термин довольно расплывчат, тем более, что существует ещё некая «математическая лингвистика». В англоязычном языкознании проще — там есть один общий термин computational linguistics, то есть, «вычислительная лингвистика». Мы для простоты будем говорить «компьютерная лингвистика», поскольку сейчас без компьютеров всё равно никто уже ничего не вычисляет. Так вот, обычно говорят, что компьютерная лингвистика — это такая междисципли-нарная ветвь лингвистики, занимающаяся либо статистическим либо rule-based моделированием языка с использованием компьютеров. Моделирование –это приблизительный эквивалент английского термина sampling. То есть, компьютерная лингвистика строит модели языка. Кстати, корпусная занимается примерно тем же, поэтому они друг другу помогают.

Вот некоторые точки приложения компьютерной лингвистики:

•автоматический перевод;

•автоматизированное извлечение информации из естественных текстов;

•конструирование удобных интерфейсов между человеком и машиной;

•количественное описание общения на естественных языках;

Немаловажно, что компьютерная лингвистика создаёт инструменты (то есть, программы) для корпусной лингвистики. В этом смысле они тоже дополняют друг друга. Например, корпусным лингвистам необходимы средства для автоматической разметки классов слов в корпусах. Если у вас есть корпус на 100 миллионов словоупотреблений и вам нужно отметить часть речи у каждого слова, то вручную это сделать совершенно нереально. Тут и понадобится специализированное программное обеспечение. Обычно сначала его нужно «обучить», то есть разметить вручную какое-то небольшое количество слов, чтобы система «натренировалась». После этого разметка по классам слов будет происходить в автоматическом режиме.

Очень активно в современном мире используются программы морфологического и синтаксического анализа. Именно они лежат в основе автоматической проверки орфографии и грамматики, которая в текстовых процессорах подчёркивает вам красным неправильные слова и фразы. Для создания таких программ равно необходимы как программисты, так и лингвисты. Для исследования корпуса бывает важно сначала снять лексическую неоднозначность, то есть, выделить слова-омонимы. Например, в корпусе русских текстов нужно отделить слово «лук» в значении «овощ» от слова «лук» в значении «оружие». В большом корпусе сделать это вручную затруднительно. Поэтому компьютерная лингвистика создаёт программы семантического анализа текстов, которые могут в более или менее автоматическом режиме определять, в каком значении употреблено то или иное слово.

И, наконец, компьютерная лингвистика активно занимается вопросами создания параллельных корпусов, о которых говорилось выше. Ведь это очень интересная лингвистическая задача – как в автоматическом режиме «сопоставить» два текста, один из которых является переводом другого? Как «соотнести» друг с другом отдельные предложения на языке оригинала и на языке перевода? Здесь достаточно проблем и трудностей, но решения уже есть и уже существуют автоматические системы сопоставления текстов.

Итак, как можно видеть, компьютерная лингвистика выступает для корпусной в качестве «поставщика» инструментов анализа и обработки корпусов. Поскольку большой корпус можно обрабатывать только при помощи компьютера, необходимы программы. А написанием лингвистически ориентированных программ как раз и занимается компьютерная лингвистика. С другой стороны, в современной науке порой сложно отделить корпусного лингвистика от компьютерного, поскольку чаще всего учёные занимаются и тем и другим. [5]

Заключение.

Появление различных технических средств, компьютерных технологий и необходимость совершенствования способов сбора и хранения информации обусловило развитие корпусной лингвистики.

Создание корпусов текстов значительно облегчило сбор и хранение информации. Это очень ценится при создании словарей, глоссариев, лексикографических работ. Также способ хранения корпусов текстов позволяет более надежно и дольше хранить любой языковой материал, что является важной находкой и инструментом в лексикографии.

Также создание корпусов текстов позволило быстрее и качественнее производить различные лингвистические исследования и решать важные исследовательские задачи.

Но так как корпусная лингвистика относительно молодая и развивающаяся наука, в ней существуют различные проблемные вопросы.

К настоящему времени накоплен уже довольно значительный опыт построения корпусов текстов, однако информация о наличии корпусов в разных странах ограничена. Это существенно затрудняет проведение научных исследований и нередко приводит к дублированию работы.

Сложность получения информации о существующих корпусах текстов связана с тем, что практически все они создаются по локальным проектам отдельными организациями. Международная координация усилий в этой области пока еще не налажена в должной мере.

Вторая проблема в области корпусной лингвистики связана с первой: локальность проектов приводит к возникновению различных форматов представления корпусов текстов. Отсутствие единого формата представления дополняется и несовместимостью программного обеспечения.

В имеющихся описаниях корпусов нет ясной информации о содержательных принципах отбора материала. Поскольку корпус является сужением проблемной области, то представительность корпуса прямо связана с принципами отбора материала. Если же нет уверенности в представительности корпуса, его заведомо нельзя использовать для многих видов лингвистической деятельности, например, для оценки частоты употребления лексем в тех или иных значениях или для составления словников некоторой проблемной области.

Таким образом, перед учеными встает задача устранения тех самых проблемных вопросов, возникших при процессе создания корпусов текстов.

Список использованной литературы:

1.Апресян, Ю.Д., Иомдин, Л.Л., Санников А.В., Сизов, В.Г. Семантическая разметка в глубоко аннотированном корпусе русского языка[Текст]//Труды международной конференции «Корпусная лингвистика - 2004». СПб.: Издательство Санкт-Петербургского университета, 2004.

Информация о работе Корпусная лингвистика