Лингвистическое и программное обеспечение систем

Автор работы: Пользователь скрыл имя, 20 Января 2014 в 18:32, контрольная работа

Краткое описание

Компьютерные семантические сети были детально разработаны Ричардом Риченсом в 1956 году в рамках проекта Кембриджского центра изучения языка по машинному переводу. Процесс машинного перевода подразделяется на 2 части: перевод исходного текста в промежуточную форму представления, а затем эта промежуточная форма транслируется на нужный язык. Такой промежуточной формой как раз и были семантические сети. В 1961 г. появилась работа Мастермана, в которой он, в частности, определял базовый словарь для 15000 понятий. Эти исследования были продолжены Робертом Симмонсом (1966), Уилксом (1972) и другими учёными.

Скачать полностью (412.93 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

ЛПО.docx

— 431.27 Кб (Скачать документ)

4.2 Акустические модели на основе цепей Маркова

Акустические модели являются элементарными вероятностными моделями базовых лингвистических единиц (т.е. фонем) и используются для представления единиц следующего уровня – слов[5, 7, 9].

Последовательность акустических параметров, полученная из произнесенной фразы, рассматривается как реализация совокупности процессов, описываемых с помощью Скрытых Марковских моделей (СММ). СММ – совокупность двух случайных процессов:

скрытой цепи Маркова, отвечающей за изменения во времени,
множества наблюдаемых стационарных процессов, отвечающих за спектральные изменения.

СММ доказала на практике, что в состоянии справиться с основными источниками неоднозначности речевого сигнала, например вариациями в произнесении фонемы, позволяя при этом создавать системы со словарем из десятков тысяч слов.

Структура СММ

Модель определяется как пара случайных процессов (Х, У). Процесс Х – цепь Маркова первого порядка, реализации которой не наблюдаются непосредственно. Реализации процесса У берут свои значения из пространства акустических параметров, наблюдаются непосредственно, а их распределения зависят от реализаций процесса Х [5, 9].

СММ характеризуется двумя формальными предположениями. Первое касается цепи Маркова и гласит, что следующее состояние цепи определяется только текущим состоянием и не зависит от предшествующей траектории. Второе гласит, что текущее распределение процесса У, откуда берется наблюдаемое значение акустического параметра, зависит только от текущего состояния цепи Маркова (процесса Х), а не от предыдущих траекторий процессов Х и У.

В приложении 1 приведены математическое определение модели, пример генерирования наблюдаемой последовательности и расчетные формулы.

Для переоценки параметров модели в ходе ее обучения используется алгоритм Баума-Уэлша, основанный на переоценке вероятности по формуле Байеса.

Типы СММ

СММ можно классифицировать по элементам матрицы В, которые по своей природе являются функциями распределения.

Если функции распределения определены на конечном пространстве, то модель будет дискретной. В этом случае наблюдаемая реализация – вектор значений из конечного алфавита в М элементов. Для каждого элемента вектора Q, выбираемого из множества V, определена ненулевая дискретная плотность {w(k)/k=1,…,M}, формирующая распределение. Такое определение предполагает независимость элементов множества V.

Если распределения определены как плотности вероятности на непрерывном пространстве, то модель будет непрерывной. В этом случае к функциям распределения предъявляются требования с целью ограничения числа оцениваемых параметров до приемлемых пределов. Наиболее популярный подход состоит в использовании линейной комбинации плотностей g из семейства G стандартных распределений с простой параметрической формой. Обычно в качестве g используется многомерное нормальное распределение, характеризующееся вектором математического ожидания и ковариационной матрицей. Число стандартных распределений, участвующих в линейной комбинации при формировании результирующего распределения, обычно ограничивается вычислительными возможностями и имеющимся объемом учебных данных [5, 7].

Настройка параметров распределений в ходе обучения непрерывной модели требует большого числа учебных образцов. При их недостатке прибегают к использованию псевдонепрерывной модели, в которой для формирования линейной комбинации используется стандартный набор базовых плотностей. Линейные комбинации отличаются друг от друга только весовыми коэффициентами. Общий подход состоит в связывании каждой координаты входного вектора со своим, отличающимся от других, набором базовых плотностей.

4.3 Моделирование слов

Фонетическая декомпозиция

Слово обычно представляется сетью фонем. Каждый путь в сети представляет вариант произношения слова [8, 9].

Одна и та же фонема, произнесенная в разных контекстах, может иметь отличающиеся акустические параметры, а значит моделироваться разными распределениями. Аллофоны – модели, представляющие фонему в разных контекстах. Решение, сколько аллофонов будут представлять конкретную фонему, зависит от многих факторов, основной из которых – количество обучающих данных для настройки параметров акустической модели.

Существует несколько разновидностей аллофонной модели. Одна из них – полифоны. В принципе произнесение фонемы отличается во всех словах, где она встречается, поэтому требует разных аллофонов. При большом объеме словаря, обучить такую модель практически невозможно из-за недостатка обучающих данных. Поэтому используется представление аллофонов на нескольких уровнях детализации: слово, слог, трифон, дифон, контекстно-независимая фонема. Вероятностные распределения аллофонов на разных уровнях детализации могут быть получены комбинированием распределений более детальных уровней представлений. Потеря особенностей компенсируется улучшением оценки статистических параметров модели при ее обучении благодаря возрастанию отношения объема обучающих данных к числу оцениваемых параметров модели.

Другая разновидность заключается в кластеризации аллофонов по некоторому числу возможных классов контекстов. Поиск класса проводится автоматически, с помощью классификационно-регрессионного дерева (CART). Это – бинарное дерево, в корне находится фонема, с каждым узлом ассоциирован вопрос о контексте типа: «Предыдущая фонема носовая согласная?» Для каждого возможного ответа (да, нет) существует ветвь к другому узлу. Листьями дерева являются аллофоны. Существуют алгоритмы роста и обрезки CART, автоматически связывающие с узлами вопросы из созданного вручную пула [7].

Каждый аллофон в системах распознавания моделируется с помощью СММ. В общем, все модели могут быть построены с использованием распределений, взятых из одного, разделяемого пула или до нескольких тысяч кластеров, называемых сенонами.

Модели аллофонов более высокого уровня, например слов, могут быть так же построены конкатенацией базовых моделей с помощью связующих переходов и распределений. Такие строительные блоки называют фенонами и мультонами.

Другой подход к моделированию слов состоит в использовании кодовой книги – набора эталонных признаков, являющихся ее словами. По входному вектору параметров сигнала находится наиболее близкий эталонный признак из кодовой книги, которому соответствует свой номер. Для кодовой книги используется стандартный набор базовых плотностей, слова представляются последовательностями номеров признаков. Каждая последовательность номеров затем моделируется с помощью СММ [7].

Определение границ и вероятностей слов

В общем, речевой сигнал и его представления не дают четких указаний на границы между словами, следовательно, определение границы слов является частью процесса выдвижения гипотезы, выполняемого как поиск. В ходе этого процесса модели слов сравниваются с последовательностью акустических параметров. В вероятностных рамках сравнение акустических последовательностей с моделями включает расчет вероятности генерирования данной последовательности данной моделью, т.е. расчет p(ylT/W). Это – ключевая составляющая процесса распознавания.

Далее приводятся формулы для расчета вероятности p(ylT/W). Обозначения в этих формулах соответствуют обозначениям в определении СММ в приложении 1. Для него p(ylT/W) = P(O/ λ).

При заданной временной последовательности: 1, 2, …, t, t+1, …, T-1, T [5, 9]:

Вероятность dt(i) того, что к моменту t наблюдалась последовательность o1,o2…ot и модель находится в состоянии Si (forward algorithm):

для всех 1≤i≤N, 1≤j≤N, t = 1,2,…,T-1:

при t = 1: d1(i) = пi bi(o1);(4.2)

при t > 1: dt(j) = .(4.3)

Вероятность ft(i) наблюдения последовательности ot+1,ot+2,…oT начиная с момента t+1до Т при условии, что в момент t модель находится в состоянии Si (backward algorithm):

для всех 1≤i≤N, 1≤j≤N, t = T-1,T-2,…,1:

при t = T: fT(i) = 1;(4.4)

при t < T: ft(i) = .(4.5)

Полная вероятность того, что модель за Т тактов пройдет какую-либо траекторию (вероятность соответствия последовательности и модели) можно рассчитать тремя способами:

P(O/λ) = ;(4.6)
P(O/λ) = ;(4.7)
P(Q/λ) = dt(i) ft(i) = .(4.8)

Пример расчета вероятности приведен в приложении 2.

Для расчетов используются модели в виде линейной последовательности состояний, имеющие начало и конец. Переходы возможны только на месте и от начала к концу без перескока через состояния. Перед расчетом соответствия исходная последовательность векторов параметров делится на сегменты, равные по длине данной модели.

акустические помехи в виде аддитивного шума,
явления линейной фильтрации,
нелинейные искажения при преобразованиях и передаче исходного сигнала,
импульсные помехи,
изменения в артикуляции диктора, вызванные наличием источников шума.

В современных системах, предназначенных для работы в благоприятных акустических условиях, во многом достигнута независимость от диктора, они компенсируют некоторое ухудшение сигнала из-за шума и неизвестной линейной фильтрации. Однако для приложений, работающих в реальных условиях, необходимость в повышении устойчивости очевидна. Даже лучшие современные системы значительно ухудшают качество работы, если распознаваемый сигнал прошел через телефонный канал или если диктор говорит с акцентом. Далее рассматривается устойчивость к искажениям сигнала, вызванным окружающими, внешними источниками помех. Основными подходами к робастности являются динамическая подстройка параметров, применение микрофонных матриц, обработка сигнала с учетом психологических моделей восприятия.

3.2 Динамическая подстройка параметров

Обычно модели адаптации систем к изменению окружающих условий предполагают, что источниками ухудшения качества речи являются аддитивный шум с неизвестным распределением спектральной плотности мощности или сочетание аддитивного шума и линейной фильтрации. Для компенсации этих помех в системе может осуществляться динамическая подстройка акустических параметров как рассчитанных из распознаваемого, входного сигнала, так и хранимых системой акустических моделей высказываний. Существуют три основных подхода к динамической подстройке параметров:

использование оптимальной оценки для получения новых значений параметров в условиях тестирования,
применение компенсации, основанной на эмпирическом сравнении речевого сигнала в условиях обучения и тестирования,
высокочастотная фильтрация значений параметров.

Оптимальная оценка параметров

Используются два основных подхода к оптимальной оценке [10, 11].

Первый основан на формальной статистической модели, характеризующей разницу между речью, использовавшейся при обучении системы и речью при тестировании системы. Значения параметров моделей оцениваются по тестовым образцам речи, записанным в различном окружении, после чего модифицируются либо рассчитанные параметры входного сигнала, либо акустические модели речевых единиц, хранящиеся в системе. Опыты показывают, что при таком подходе существенно снижается число ошибок при распознавании речевого сигнала с аддитивным шумом. Однако сколько-нибудь серьезно противостоять ухудшению качества речи в реальных условиях этот подход неспособен.

Второй популярный подход состоит в использовании знаний о шуме, чтобы заставить фонетические модели характеризовать речь с шумом. Знания получаются из имеющихся образцов помех и используются для подстройки параметров фонетических моделей (изменений средних значений и отклонений), рассчитанных из речи без помех. Этот подход реализован в технике, называемой параллельным комбинированием моделей. Он дает хорошие результаты для аддитивных, мультипликативных помех и для реального речевого сигнала. Однако в настоящее время слишком большие вычислительные затраты препятствуют его применению в системах распознавания.

Эмпирическое сравнение параметров

Сравниваются параметры, извлеченные из речи без помех с параметрами такой же речи, записанной с помехами. В этом подходе совместное действие различных помех рассматривается как аддитивные нарушения параметров сигнала. При сравнении параметров рассчитываются корректирующие векторы, использующиеся затем для коррекции либо векторов параметров входного распознаваемого сигнала, либо векторов параметров акустических моделей, хранящихся в распознающей системе.

Точность распознавания повышается, если корректирующие векторы полагаются зависящими от: отношения сигнал/шум, расположения в пространстве параметров в пределах заданного отношения сигнал/шум, или предполагаемого соответствия фонем.

Информация о работе Лингвистическое и программное обеспечение систем