Автор работы: Пользователь скрыл имя, 20 Января 2014 в 18:32, контрольная работа
Компьютерные семантические сети были детально разработаны Ричардом Риченсом в 1956 году в рамках проекта Кембриджского центра изучения языка по машинному переводу. Процесс машинного перевода подразделяется на 2 части: перевод исходного текста в промежуточную форму представления, а затем эта промежуточная форма транслируется на нужный язык. Такой промежуточной формой как раз и были семантические сети. В 1961 г. появилась работа Мастермана, в которой он, в частности, определял базовый словарь для 15000 понятий. Эти исследования были продолжены Робертом Симмонсом (1966), Уилксом (1972) и другими учёными.
4.2 Акустические модели на основе цепей Маркова
Акустические модели являются элементарными вероятностными моделями базовых лингвистических единиц (т.е. фонем) и используются для представления единиц следующего уровня – слов[5, 7, 9].
Последовательность
СММ доказала на практике, что в
состоянии справиться с основными
источниками неоднозначности
Структура СММ
Модель определяется как пара случайных процессов (Х, У). Процесс Х – цепь Маркова первого порядка, реализации которой не наблюдаются непосредственно. Реализации процесса У берут свои значения из пространства акустических параметров, наблюдаются непосредственно, а их распределения зависят от реализаций процесса Х [5, 9].
СММ характеризуется двумя
В приложении 1 приведены математическое определение модели, пример генерирования наблюдаемой последовательности и расчетные формулы.
Для переоценки параметров модели в ходе ее обучения используется алгоритм Баума-Уэлша, основанный на переоценке вероятности по формуле Байеса.
Типы СММ
СММ можно классифицировать по элементам матрицы В, которые по своей природе являются функциями распределения.
Если функции распределения определены на конечном пространстве, то модель будет дискретной. В этом случае наблюдаемая реализация – вектор значений из конечного алфавита в М элементов. Для каждого элемента вектора Q, выбираемого из множества V, определена ненулевая дискретная плотность {w(k)/k=1,…,M}, формирующая распределение. Такое определение предполагает независимость элементов множества V.
Если распределения определены как плотности вероятности на непрерывном пространстве, то модель будет непрерывной. В этом случае к функциям распределения предъявляются требования с целью ограничения числа оцениваемых параметров до приемлемых пределов. Наиболее популярный подход состоит в использовании линейной комбинации плотностей g из семейства G стандартных распределений с простой параметрической формой. Обычно в качестве g используется многомерное нормальное распределение, характеризующееся вектором математического ожидания и ковариационной матрицей. Число стандартных распределений, участвующих в линейной комбинации при формировании результирующего распределения, обычно ограничивается вычислительными возможностями и имеющимся объемом учебных данных [5, 7].
Настройка параметров распределений
в ходе обучения непрерывной модели
требует большого числа учебных
образцов. При их недостатке прибегают
к использованию
4.3 Моделирование слов
Фонетическая декомпозиция
Слово обычно представляется сетью фонем. Каждый путь в сети представляет вариант произношения слова [8, 9].
Одна и та же фонема, произнесенная в разных контекстах, может иметь отличающиеся акустические параметры, а значит моделироваться разными распределениями. Аллофоны – модели, представляющие фонему в разных контекстах. Решение, сколько аллофонов будут представлять конкретную фонему, зависит от многих факторов, основной из которых – количество обучающих данных для настройки параметров акустической модели.
Существует несколько
Другая разновидность
Каждый аллофон в системах распознавания моделируется с помощью СММ. В общем, все модели могут быть построены с использованием распределений, взятых из одного, разделяемого пула или до нескольких тысяч кластеров, называемых сенонами.
Модели аллофонов более
Другой подход к моделированию слов состоит в использовании кодовой книги – набора эталонных признаков, являющихся ее словами. По входному вектору параметров сигнала находится наиболее близкий эталонный признак из кодовой книги, которому соответствует свой номер. Для кодовой книги используется стандартный набор базовых плотностей, слова представляются последовательностями номеров признаков. Каждая последовательность номеров затем моделируется с помощью СММ [7].
Определение границ и вероятностей слов
В общем, речевой сигнал и его
представления не дают четких указаний
на границы между словами, следовательно,
определение границы слов является
частью процесса выдвижения гипотезы,
выполняемого как поиск. В ходе этого
процесса модели слов сравниваются с
последовательностью
Далее приводятся формулы для расчета вероятности p(ylT/W). Обозначения в этих формулах соответствуют обозначениям в определении СММ в приложении 1. Для него p(ylT/W) = P(O/ λ).
При заданной временной последовательности: 1, 2, …, t, t+1, …, T-1, T [5, 9]:
Вероятность dt(i) того, что к моменту t наблюдалась последовательность o1,o2…ot и модель находится в состоянии Si (forward algorithm):
для всех 1≤i≤N, 1≤j≤N, t = 1,2,…,T-1:
при t = 1: d1(i) = пi bi(o1);(4.2)
при t > 1: dt(j) = .(4.3)
Вероятность ft(i) наблюдения последовательности ot+1,ot+2,…oT начиная с момента t+1до Т при условии, что в момент t модель находится в состоянии Si (backward algorithm):
для всех 1≤i≤N, 1≤j≤N, t = T-1,T-2,…,1:
при t = T: fT(i) = 1;(4.4)
при t < T: ft(i) = .(4.5)
Полная вероятность того, что модель за Т тактов пройдет какую-либо траекторию (вероятность соответствия последовательности и модели) можно рассчитать тремя способами:
Пример расчета вероятности приведен в приложении 2.
Для расчетов используются модели в виде линейной последовательности состояний, имеющие начало и конец. Переходы возможны только на месте и от начала к концу без перескока через состояния. Перед расчетом соответствия исходная последовательность векторов параметров делится на сегменты, равные по длине данной модели.
В современных системах, предназначенных для работы в благоприятных акустических условиях, во многом достигнута независимость от диктора, они компенсируют некоторое ухудшение сигнала из-за шума и неизвестной линейной фильтрации. Однако для приложений, работающих в реальных условиях, необходимость в повышении устойчивости очевидна. Даже лучшие современные системы значительно ухудшают качество работы, если распознаваемый сигнал прошел через телефонный канал или если диктор говорит с акцентом. Далее рассматривается устойчивость к искажениям сигнала, вызванным окружающими, внешними источниками помех. Основными подходами к робастности являются динамическая подстройка параметров, применение микрофонных матриц, обработка сигнала с учетом психологических моделей восприятия.
3.2 Динамическая подстройка
Обычно модели адаптации систем к изменению окружающих условий предполагают, что источниками ухудшения качества речи являются аддитивный шум с неизвестным распределением спектральной плотности мощности или сочетание аддитивного шума и линейной фильтрации. Для компенсации этих помех в системе может осуществляться динамическая подстройка акустических параметров как рассчитанных из распознаваемого, входного сигнала, так и хранимых системой акустических моделей высказываний. Существуют три основных подхода к динамической подстройке параметров:
Оптимальная оценка параметров
Используются два основных подхода к оптимальной оценке [10, 11].
Первый основан на формальной статистической модели, характеризующей разницу между речью, использовавшейся при обучении системы и речью при тестировании системы. Значения параметров моделей оцениваются по тестовым образцам речи, записанным в различном окружении, после чего модифицируются либо рассчитанные параметры входного сигнала, либо акустические модели речевых единиц, хранящиеся в системе. Опыты показывают, что при таком подходе существенно снижается число ошибок при распознавании речевого сигнала с аддитивным шумом. Однако сколько-нибудь серьезно противостоять ухудшению качества речи в реальных условиях этот подход неспособен.
Второй популярный подход состоит в использовании знаний о шуме, чтобы заставить фонетические модели характеризовать речь с шумом. Знания получаются из имеющихся образцов помех и используются для подстройки параметров фонетических моделей (изменений средних значений и отклонений), рассчитанных из речи без помех. Этот подход реализован в технике, называемой параллельным комбинированием моделей. Он дает хорошие результаты для аддитивных, мультипликативных помех и для реального речевого сигнала. Однако в настоящее время слишком большие вычислительные затраты препятствуют его применению в системах распознавания.
Эмпирическое сравнение
Сравниваются параметры, извлеченные
из речи без помех с параметрами
такой же речи, записанной с помехами.
В этом подходе совместное действие
различных помех
Точность распознавания
Информация о работе Лингвистическое и программное обеспечение систем