Компьютерная компаративистика. Реконструкция фонетики и фонологии

Автор работы: Пользователь скрыл имя, 12 Ноября 2012 в 15:49, курсовая работа

Краткое описание

Сравнительно-историческое языкознание (лингвистическая компаративистика) — наука, занимающаяся сравнением языков с целью установления их родства, их генетической классификацией и реконструкцией праязыковых состояний. Основным орудием сравнительно-исторического языкознания является сравнительно-исторический метод, позволяющий эффективно решать все перечисленные выше задачи.

Содержание

Введение 3
1. Компьютерная компаративистика 4
1.1. Использование компьютера в сравнительно-историческом языкознании 4
1.2. Система STARLING 4
1.3. Установление регулярных фонетических соответствий 5
1.4. Поиск слов по приблизительному звучанию и значению 5
2. Реконструкция фонетики и фонологии 8
2.1. Возможность фонетико-фонологической реконструкции 10
2.2. Внутренняя реконструкция 11
2.3. Внешняя реконструкция 15
2.4. Установление относительной хронологии фонетических изменений 18
Заключение 20
Список использованной литературы: 21

Прикрепленные файлы: 1 файл

сравн.docx

— 73.20 Кб (Скачать документ)

Оглавление

 

Введение 3

1. Компьютерная  компаративистика 4

1.1. Использование компьютера в сравнительно-историческом языкознании 4

1.2. Система STARLING 4

1.3. Установление регулярных фонетических соответствий 5

1.4.   Поиск слов по приблизительному звучанию и значению 5

2. Реконструкция фонетики и фонологии 8

2.1. Возможность фонетико-фонологической реконструкции 10

2.2. Внутренняя реконструкция 11

2.3. Внешняя реконструкция 15

2.4. Установление относительной хронологии фонетических изменений 18

Заключение 20

Список использованной литературы: 21

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Введение

 

Сравнительно-историческое языкознание (лингвистическая компаративистика) — наука, занимающаяся сравнением языков с целью установления их родства, их генетической классификацией и реконструкцией праязыковых состояний. Основным орудием  сравнительно-исторического языкознания  является сравнительно-исторический метод, позволяющий эффективно решать все  перечисленные выше задачи.

Сравнивать языки можно различными способами. Одним из наиболее распространенных видов сравнения, к примеру, является типология — изучение типов встречающихся  языковых явлений и обнаружение  универсальных закономерностей  на различных языковых уровнях. Однако сравнительно-историческое языкознание  занимается только сравнением языков в генетическом плане, то есть в аспекте  их происхождения. Таким образом, для  компаративистики главную роль играет понятие родства языков и методика установления этого родства. Генетическая классификация языков — аналог биологической  классификации видов. Она позволяет  систематизировать все множество  известных человеческих языков, которых  насчитывается около 6000, сводя их к сравнительно небольшому числу  языковых семей. Результаты генетической классификации представляют интерес  для целого ряда смежных дисциплин, прежде всего, этнографии — ведь возникновение  и развитие языков теснейшим образом  связано с этногенезом (возникновением и развитием этносов).

Реконструкция праязыковых состояний  — чрезвычайно специфическая  область, близкая к палеонтологической реконструкции. Результаты лингвистической  реконструкции — бесценный материал для историков и археологов, поскольку  из них можно извлечь немало информации о жизни людей в далекие  дописьменные эпохи.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. Компьютерная компаративистика

 

    1. Использование компьютера в сравнительно-историческом языкознании

 

 В наше время никакая  научная работа уже не может  осуществляться без помощи компьютерной  техники. Практически все публикации, включая и публикации работ  по сравнительному языкознанию,  осуществляются при помощи компьютерного  набора.

Однако компьютерная верстка  — отнюдь не единственная помощь, которую  вычислительная техника может предоставить компаративисту. Существует три класса задач, при которых компьютер  может быть чрезвычайно полезен  в сравнительном языкознании:

 

1) составление и обработка  компьютерных лексикографических  баз данных, в нашем случае  — этимологических словарей;

2) разного рода статистические  задачи, связанные с лексикостатистикой  и этимостатистикой, а также автоматическое построение генеалогических классификаций;

3) размещение этимологической  и сравнительно-исторической информации  в Интернете.

Эти задачи призвана решать автоматическая система STARLING, созданная  С. А. Старостиным [1].

 

    1. Система STARLING

 

STARLING — это прежде всего так называемая СУБД, то есть система управления базами данных (хотя STARLING включает в себя и довольно многофункциональный текстовый редактор). Элементарная база данных — это "электронная таблица", состоящая из полей (столбцов) и записей (строк). Содержимое полей может индексироваться, сортироваться, по нему могут вестись различные типы поиска.

Система STARLING позволяет осуществлять разнообразные запросы к базам  данных. Отдельные базы данных можно  связывать друг с другом, формируя так называемую реляционную СУБД. Этимологическая справочная система  по любой семье языков может быть организована в виде реляционной  иерархической системы, состоящей  из отдельных баз данных, связанных  между собой. Система STARLING позволяет  связывать между собой неограниченное количество баз данных.

Помимо хранения и облегчения пользования информацией, система STARLING реализует некоторые специфические  сравнительно-исторические задачи.

    1. Установление регулярных фонетических соответствий

 

Процесс установления фонетических соответствий между языками моделируется при помощи следующего алгоритма

a) вычисляется частота каждой фонемы в списке каждого из сравниваемых языков;

b) в языке A берется подмножество слов N, содержащих фонему x;

c) в языке B берется подмножество слов N', являющихся переводом слов подмножества N языка A.

d) вычисляется частота каждой фонемы языка B в подмножестве N', и сравнивается со стандартной частотой данной фонемы во всем списке слов языка B.

e) фонема x', частота которой в подмножестве N' существенным образом (вычисляемым, например, по правилу "трех сигм") превышает стандартную частоту данной фонемы, считается соответствующей фонеме x языка A.

Заметим, что при такой  процедуре одной фонеме x может в принципе соответствовать несколько фонем в языке B, что не противоречит реальной компаративистической практике.

Эта процедура позволяет  устанавливать около 80% правильных фонетических соответствий, и почти  не дает ложных соответствий. Точность соответствий естественно возрастает при увеличении исходного массива  данных.

Ценность этого компьютерного алгоритма состоит не столько в компьютеризации работы компаративиста (этот алгоритм не может определить дополнительных распределений, не срабатывает в случае выпадения фонем, то есть соответствия некоторой фонемы в одном языке нулю в другом, не позволяет установить многих редких, но существенных, соответствий), сколько в доказательстве объективности факта фонетических соответствий вообще и подтверждения выводов, эмпирически полученных исследователем.

 

1.4. Поиск  слов по приблизительному звучанию  и значению

 

STARLING позволяет осуществлять  любые лексико-статистические и этимостатистические подсчеты, в том числе между семьями, материал которых содержится в разных файлах. Если исходные данные сравниваемых языков относятся к разному времени, программа делает соответствующую поправку. Кроме того, на основании произведенных подсчетов автоматически строится генеалогическое древо.

Моделируются фонетические изменения (с заданием контекстов и  правил), а также собственно работа этимолога: реализован поиск слов по их приблизительному звучанию и значению. Под приблизительным звучанием  понимается сходство первых двух согласных  в сравниваемых словах. Согласные  считаются похожими, если они входят в один класс — например, в  класс "зубных смычных" (t, d, {t.}, {th}, {d^}, {t'}, {d'} и т. п.) или в класс "аффрикат" (c, {z3}, {c^}, {z3^}, {c.}, {c^.} и т. п.). Программа позволяет пользователю создавать свои классы похожих звуков — в соответствии с тем, какие звуковые изменения характерны для исследуемых им языков.

Значения считаются похожими, если существует такой праязыковой  корень, рефлексы которого в языках-потомках имеют эти значения. Список похожих  значений, так же, как и список похожих звуков, хранится в отдельном  файле и доступен изменениям.

Такое широкое понимание  сходства необходимо для того, чтобы  при автоматическом поиске этимологий пропустить как можно меньше правдоподобных сближений. Окончательное решение  о том, являются ли найденные компьютером  слова родственными, в любом случае принадлежит исследователю-человеку.

В подавляющем большинстве  случаев компаративистский компонент  программы STARLING полагается на экспертные этимологические оценки. Однако из сказанного выше ясно, что в принципе программа способна на основании  введенных контрольных списков  самостоятельно установить соответствия между языками, на основании этих соответствий установить этимологические  тождества (этому посвящена специальная  процедура), посчитать проценты совпадений, датировку дивергенции и построить  классификационное дерево. Такая "экспертная деятельность" компьютера оказывается  полезной при предварительном анализе  малоизученных языковых семей.

Система STARLING реализована  на одном из диалектов языка xBase, и на этом языке можно осуществлять разнообразные запросы к базам данных. Отдельные базы данных можно связывать друг с другом, формируя так называемую реляционную СУБД. Сами базы данных имеют широко распространенный формат DBF (database files), но дополнены специальным типом полей переменной длины для хранения и обработки больших текстовых и лексикографических массивов.

Приведем описание типичной этимологической базы данных, содержащей сравнительный словарь северно-кавказских языков (аналогичные базы имеются  уже для целого ряда языковых семей).

На нижнем иерархическом  уровне здесь находятся файлы, содержащие списки базисной лексики отдельных  подгрупп северно-кавказских языков:

1) AAND.DBF — аваро-андийские  языки (аварский, андийский, ахвахский, ботлихский, багвалинский, годоберинский, каратинский, чамалинский, тиндинский).

2) ABAD.DBF — абхазо-адыгские  языки (абхазский, абазинский, адыгейский, кабардинский, убыхский).

2) CEZ.DBF — цезские языки (цезский, гинухский, хваршинский, инхокваринский, гунзибский, бежтинский).

3) DARG.DBF — даргинский язык (с диалектами).

4) KHIN.DBF — хиналугский язык.

5) LAK.DBF — лакский язык (с диалектами).

6) LEZG.DBF — лезгинские языки  (лезгинский, агульский, табасаранский,  рутульский, цахурский, крызский, будухский, арчинский, удинский).

7) NAKH.DBF — нахские языки (чеченский, ингушский, бацбийский).

Эти файлы в принципе содержат небольшой объем лексики (стандартный  стословный список наиболее устойчивой лексики), и являются факультативным звеном общей словарной системы. Они служат прежде всего лексикостатистическим задачам, и полный этимологический словарь можно начинать строить и со следующего уровня. Следует, однако, заметить, что обычно оказывается удобным начинать построение базы данных именно с заполнения такого рода списков. При правильном построении базы каждое слово из списка связано с соответствующей этимологической информацией из файла более высокого иерархического уровня.

На следующем иерархическом  уровне находятся этимологические  файлы для подгрупп (соответственно: AANDET.DBF, ABADET.DBF, CEZET.DBF, DARGET.DBF, KHINET.DBF, LAKET.DBF, LEZGET.DBF и NAKHET.DBF). Каждый из этих файлов, по сути дела, представляет собой самостоятельный этимологический словарь соответствующей подгруппы, и может пополняться независимо от всех остальных. При этом для любого корня, если он имеет северно-кавказское происхождение, можно получить информацию из более высокого в иерархии файла.

На самом высоком иерархическом  уровне находится файл CAUCET.DBF, через  который связаны между собой  все файлы более низкого уровня. Находясь в этом файле мы можем наблюдать все отражения какого-либо общесеверно-кавказского корня в языках-потомках.

При таком устройстве легко  оперировать как со всей базой  данных, так и с отдельными ее фрагментами. В системе STARLING предусмотрена  возможность связывания между собой  при помощи реляционных отношений  произвольного числа файлов баз  данных.

Программа STARLING существует в настоящее время в трех версиях:

1) Версия для DOS — пока  наиболее полная и содержащая  весь комплекс компаративистских  программ;

2) Версия для Windows, изготовленная недавно и еще не включающая в себя сравнительно-исторического компонента;

3) Сервер баз данных, обеспечивающий  функционирование этимологических  баз данных в Интернете.

 

 

 

 

 

 

 

 

 

 

 

 

 

  1. Реконструкция фонетики и фонологии

 

Одной из задач сравнительно-исторического  языкознания является реконструкция  праязыков известных языковых семей.

Реконструкция — это "комплекс приемов и процедур воссоздания  незасвидетельствованных языковых состояний, форм, явлений путем исторического  сравнения соответствующих единиц отдельного языка, группы или семьи  языков" [2].

Информация о работе Компьютерная компаративистика. Реконструкция фонетики и фонологии