Автор работы: Пользователь скрыл имя, 20 Января 2014 в 18:32, контрольная работа
Компьютерные семантические сети были детально разработаны Ричардом Риченсом в 1956 году в рамках проекта Кембриджского центра изучения языка по машинному переводу. Процесс машинного перевода подразделяется на 2 части: перевод исходного текста в промежуточную форму представления, а затем эта промежуточная форма транслируется на нужный язык. Такой промежуточной формой как раз и были семантические сети. В 1961 г. появилась работа Мастермана, в которой он, в частности, определял базовый словарь для 15000 понятий. Эти исследования были продолжены Робертом Симмонсом (1966), Уилксом (1972) и другими учёными.
Этот общий подход может быть распространен на случаи, когда тестовое окружение неизвестно априори, путем формирования ансамбля корректирующих векторов для множества различных тестовых внешних условий. Корректирующие векторы затем последовательно применяются к моделям речи, начиная с предположительно наиболее вероятного вектора, до нахождения наиболее точного соответствия вектору, полученному из входного сигнала.
Если условия расчета
Применение фильтров верхних частот
Использование высокочастотной или полосовой фильтрации при расчете кепстральных коэффициентов позволяет при минимуме затрат значительно повысить помехоустойчивость системы. Этот метод реализован в алгоритмах RASTA и CMN. Эти алгоритмы сейчас применяются практически во всех системах, где необходима помехоустойчивость [10].
3.3 Использование матриц
Дополнительное улучшение
Несмотря на то, что матрица эффективна
при помехе в виде аддитивного, независимого
шума, она значительно ухудшает показатели
при наличии множества
Более продвинутые системы для компенсации помех, связанных с задержкой сигнала, используют для управления матрицей алгоритмы, основанные на взаимной корреляции. Эти алгоритмы способны усиливать акустическое поле в определенных направлениях. Тем не менее, они лишь незначительно улучшают показатели системы по сравнению с простыми алгоритмами задержки и суммирования.
Системы распознавания речи преобразуют
акустический сигнал в орфографическое
представление произносимого
Значительный прогресс в решении проблемы распознавания достигнут с началом использования статистической модели совместного распределения p(W,O) последовательности произносимых слов W и соответствующей акустической последовательности О. Этот подход впервые был применен компанией IBM под названием “source-channel model” (модель источник-канал). В ней определяется оценка соответствия выбранной словарной последовательности наблюдавшемуся акустическому факту О с помощью апостериорного распределения p(W/O) [4, 5, 7, 8].
Для минимизации ошибки система выбирает словарную последовательность, максимизирующую это апостериорное распределение:
(5.1)
где p(W) – вероятность последовательности слов W, p(O/W) – вероятность наблюдения акустической последовательности О при произнесении последовательности слов W, p(O) – полная вероятность наблюдения последовательности О по всем имеющимся акустическим моделям. p(O/W) = p(ylT/W) = P(O/ λ) и рассчитывается на этапе акустического моделирования с помощью СММ и называется каналом. p(O) полагается равной 1. Априорная вероятность p(W) рассчитывается с помощью языковой модели (ЯМ).
Аналогичная модель распознавания применяется для распознавания печатных и рукописных текстов [8].
5.2 Языковая модель на основе триграмм
Для заданной последовательности слов W={w1,…,wn} ее вероятность можно представить как:
(5.2)
w0 определяется подходящим для обеспечения начальных условий. Вероятность каждого следующего слова wi зависит от уже произнесенной последовательности hi. При таком определении сложность модели растет экспоненциально с ростом произнесенной последовательности слов. Чтобы упростить модель, сделав ее пригодной для практики, предполагается, что только некоторые аспекты истории влияют на вероятность следующего слова. Один из способов достичь этого – использовать некоторую операцию φ(), разделяющую историческое пространство на К эквивалентных классов. Далее можно применить модель:
(5.3)
Наибольший успех в последние 20 лет достигнут с помощью простых моделей n-грамм. Чаще всего применяются триграммы, где только два предыдущие слова определяют вероятность следующего слова. В этом случае вероятность последовательности слов выглядит так:
(5.4)
Для оценки априорных вероятностей p(W) ЯМ необходим большой объем обучающего текстуального материала. В ходе оценки рассчитываются частоты:
,(5.5)
где с123 – число появлений
.(5.6)
f1( ) и f2( ) оцениваются подсчетом соответствующих биграмм и триграмм. Коэффициенты λ линейной интерполяции оцениваются поиском максимума вероятности для новых данных, не участвовавших в подсчете частот n-грамм. При максимизации используется forward-backward алгоритм (формулы (4.2) – (4.5)).
В общем случае может использоваться более одного λ вектора. Так же целесообразно учесть большее доверие частотам триграмм, оцененным на большем количестве обучающих последовательностей. Для этого весовые коэффициенты λ делаются зависимыми от групп биграмм и слов b(c12, c2), составляющих историю для рассматриваемого слова. Этот метод называется deleted interpolation [8]. Применяются и другие сглаживающие схемы. При моделировании языка с помощью триграмм объем словарных данных обычно колеблется от 1 млн. до 500 млн. слов при соответственном объеме словаря от 1 тыс. до 267 тыс. слов.
5.3 Сложность (перплексность)
Для сравнения распознающих систем можно использовать норму ошибки. Этот показатель лучше всего оценивает языковые модели. Однако есть менее затратный способ оценки ЯМ. В нем используется величина, характеризующая количество информации – энтропия. Идея заключается в расчете энтропии для нового, не использовавшегося при создании модели текста. Сравнивается словарная энтропия, рассчитанная непосредственно по тексту, с энтропией, рассчитанной по ЯМ. Та ЯМ, чья энтропия будет ближе всего к текстовой, и будет лучшей [4, 5, 8].
Обозначим как р(х) правильное распределение вероятности слов в сегменте текста х, состоящем из k слов. Определим энтропию текста по словарному базису как:
.(5.7)
Если слова в тексте равновероятны, а размер текста – V, тогда H=log2V, для других распределений H≤log2V. Для определения вероятности в сегменте текста можно использовать ЯМ. Значение логарифма вероятности для ЯМ составляет:
,(5.8)
где p̃(wi/hi) – вероятности, определенные данной ЯМ. Предел , т.е. рассчитанный по ЯМ, - не ниже энтропии текста. Очевидно, что цель сравнения разных ЯМ – найти такую, для которой логарифм вероятности, рассчитанный по ЯМ, будет ближе всего к энтропии, рассчитанной по тексту.
Перплексность характеризует уровень логарифма вероятности ЯМ и определяется как 2lp. Грубо говоря, это – средний объем словаря, из которого выбирается очередное слово при распознавании. Перплексность зависит от использующегося речевого домена. Значения перплексности для некоторых речевых доменов приведены в таблице 5.1 [4, 8].
речь распознавание
Таблица 5.1. Перплексность речевых доменов
Речевой домен |
Перплексность |
Радиология |
20 |
Медицина катастроф |
60 |
Журналистика |
105 |
Общий английский |
247 |
5.4 Объем словаря
Норма ошибки не может быть ниже, чем процент произнесенных слов, не входящих в словарь. Поэтому основная часть построения ЯМ заключается в разработке словаря, максимально охватывающего тексты, которые, вероятно, будет распознавать система. Это остается задачей, решаемой людьми.
При создании словаря сначала подбираются
тексты, характеризующие задачу, с
которой будет работать система.
Затем тексты с помощью средств
автоматизации делятся на слова.
Далее каждому слову
В таблице 5.2 приводится процент охвата
распознающей системой новых текстов
в английском языке, при использовании
словаря фиксированного объема. У
языков с большим числом форм слова
и зависимостями в
Более рациональный подход предусматривает
составление
Таблица 5.2. Качество распознавания новых текстов
Число добавленных слов |
Объем текста |
Статический охват |
Динамический охват |
100 |
1800 |
93,4% |
94,5% |
400 |
12800 |
94,8% |
97,5% |
3100 |
81600 |
94,8% |
98,1% |
6400 |
211000 |
94,4% |
98,9% |
5.5 Усовершенствованные языковые модели
Существует множество
Модели классов
Вместо слов в языковой модели можно использовать набор классов слов. Классы могут пересекаться, поскольку слово может принадлежать разным классам. Классы могут основываться на частях речи, морфологическом анализе слова, могут определяться автоматически по статистическим связям. Общая модель классов выглядит так:
,(5.9)
где ci - классы. Если классы не пересекаются, то:
. (5.10)
Перплексность такой модели выше, чем у основанной на триграммах, однако она снижается при комбинировании моделей этих двух типов.
Динамические модели
Здесь учитывается прошлое, продолжительностью
во весь документ. Это делается для
обнаружения часто
Комбинационные модели
Еще один подход состоит в разделении всей речевой базы на несколько кластеров. Для моделирования нового текста используется линейная комбинация триграммных моделей из разных кластеров:
, (5.11)
где pj() оценивается по j - му текстовому кластеру.
Структурные модели
В этих моделях вместо влияния на вероятность слова ближайшей предшествующей истории, используется синтаксический разбор. С помощью такого разбора устанавливается связь между удаленными словами, что недавно было предложено учитывать при составлении удаленных биграмм.
Вопрос 5
Назначение морфологического анализатора
Морфологический анализатор это набор алгоритмов, которые занимается сопоставлением отдельных слов и словоформ в словаре (лексиконе, если быть точным) и выяснением грамматических характеристик слов.
Информация о работе Лингвистическое и программное обеспечение систем