Лингвистическое и программное обеспечение систем

Автор работы: Пользователь скрыл имя, 20 Января 2014 в 18:32, контрольная работа

Краткое описание

Компьютерные семантические сети были детально разработаны Ричардом Риченсом в 1956 году в рамках проекта Кембриджского центра изучения языка по машинному переводу. Процесс машинного перевода подразделяется на 2 части: перевод исходного текста в промежуточную форму представления, а затем эта промежуточная форма транслируется на нужный язык. Такой промежуточной формой как раз и были семантические сети. В 1961 г. появилась работа Мастермана, в которой он, в частности, определял базовый словарь для 15000 понятий. Эти исследования были продолжены Робертом Симмонсом (1966), Уилксом (1972) и другими учёными.

Прикрепленные файлы: 1 файл

ЛПО.docx

— 431.27 Кб (Скачать документ)

Этот общий подход может быть распространен на случаи, когда тестовое окружение неизвестно априори, путем  формирования ансамбля корректирующих векторов для множества различных  тестовых внешних условий. Корректирующие векторы затем последовательно  применяются к моделям речи, начиная  с предположительно наиболее вероятного вектора, до нахождения наиболее точного  соответствия вектору, полученному  из входного сигнала.

Если условия расчета корректирующих векторов близки реальным условиям работы системы, качество ее работы достаточно высоко. Недостатком является необходимость  использования стерео записи для  создания базы данных акустических моделей [8, 10, 11].

Применение фильтров верхних частот

Использование высокочастотной или  полосовой фильтрации при расчете  кепстральных коэффициентов позволяет при минимуме затрат значительно повысить помехоустойчивость системы. Этот метод реализован в алгоритмах RASTA и CMN. Эти алгоритмы сейчас применяются практически во всех системах, где необходима помехоустойчивость [10].

 

3.3 Использование матриц микрофонов

 

Дополнительное улучшение точности распознавания при малом соотношении  сигнал/шум может быть достигнуто с использованием матрицы микрофонов. Такая матрица в принципе может  реализовать направленную чувствительность с характеристикой, имеющей максимум в направлении диктора и минимумы – в направлении источников помех, аналогично фазированной антенной решетке в радиосвязи. Изменяя фазировку отдельных элементов с помощью сумматоров и линий задержки, можно точно настроить характеристику направленности при изменении условий работы. Одновременно применяются алгоритмы компенсации спектральной окраски, вносимой самой матрицей. Опыты с микрофонной матрицей в офисной обстановке показали уменьшение нормы ошибки до 61% для помехи в виде источника аддитивного шума [10].

Несмотря на то, что матрица эффективна при помехе в виде аддитивного, независимого шума, она значительно ухудшает показатели при наличии множества отражающих поверхностей, когда помеха – слегка задержанная и ослабленная часть  полезного сигнала.

Более продвинутые системы для  компенсации помех, связанных с  задержкой сигнала, используют для  управления матрицей алгоритмы, основанные на взаимной корреляции. Эти алгоритмы  способны усиливать акустическое поле в определенных направлениях. Тем  не менее, они лишь незначительно  улучшают показатели системы по сравнению  с простыми алгоритмами задержки и суммирования.

 

Системы распознавания речи преобразуют  акустический сигнал в орфографическое  представление произносимого высказывания. Распознаватель строит гипотезы, пользуясь  конечным словарем. Для простоты предполагается, что слово однозначно определяется своим произношением.

Значительный прогресс в решении проблемы распознавания достигнут с началом использования статистической модели совместного распределения p(W,O) последовательности произносимых слов W и соответствующей акустической последовательности О. Этот подход впервые был применен компанией IBM под названием “source-channel model” (модель источник-канал). В ней определяется оценка соответствия выбранной словарной последовательности наблюдавшемуся акустическому факту О с помощью апостериорного распределения p(W/O) [4, 5, 7, 8].

Для минимизации ошибки система  выбирает словарную последовательность, максимизирующую это апостериорное распределение:

 

(5.1)

 

где p(W) – вероятность последовательности слов W, p(O/W) – вероятность наблюдения акустической последовательности О при произнесении последовательности слов W, p(O) – полная вероятность наблюдения последовательности О по всем имеющимся акустическим моделям. p(O/W) = p(ylT/W) = P(O/ λ) и рассчитывается на этапе акустического моделирования с помощью СММ и называется каналом. p(O) полагается равной 1. Априорная вероятность p(W) рассчитывается с помощью языковой модели (ЯМ).

Аналогичная модель распознавания  применяется для распознавания  печатных и рукописных текстов [8].

 

5.2 Языковая модель на основе  триграмм

 

Для заданной последовательности слов W={w1,…,wn} ее вероятность можно представить как:

 

(5.2)

 

w0 определяется подходящим для обеспечения начальных условий. Вероятность каждого следующего слова wi зависит от уже произнесенной последовательности hi. При таком определении сложность модели растет экспоненциально с ростом произнесенной последовательности слов. Чтобы упростить модель, сделав ее пригодной для практики, предполагается, что только некоторые аспекты истории влияют на вероятность следующего слова. Один из способов достичь этого – использовать некоторую операцию φ(), разделяющую историческое пространство на К эквивалентных классов. Далее можно применить модель:

 

(5.3)

 

Наибольший успех в последние 20 лет достигнут с помощью простых моделей n-грамм. Чаще всего применяются триграммы, где только два предыдущие слова определяют вероятность следующего слова. В этом случае вероятность последовательности слов выглядит так:

 

(5.4)

 

Для оценки априорных вероятностей p(W) ЯМ необходим большой объем обучающего текстуального материала. В ходе оценки рассчитываются частоты:

 

,(5.5)

 

где с123 – число появлений последовательности слов {w1, w2, w3}, с12 – число появлений последовательности {w1, w2,}. Для словаря объема V существует V3 возможных триграмм, при словаре 20 тыс. слов – 8 трлн. Очевидно, что многие из этих триграмм не встретятся в обучающих последовательностях, поэтому для них f3(w3/w1, w2) = 0. Чтобы соответствующие вероятности не были равны нулю, проводится линейная интерполяция частот триграмм, биграмм и слов, а так же их равномерное распределение на словаре:

 

.(5.6)

 

f1( ) и f2( ) оцениваются подсчетом соответствующих биграмм и триграмм. Коэффициенты λ линейной интерполяции оцениваются поиском максимума вероятности для новых данных, не участвовавших в подсчете частот n-грамм. При максимизации используется forward-backward алгоритм (формулы (4.2) – (4.5)).

В общем случае может использоваться более одного λ вектора. Так же целесообразно учесть большее доверие  частотам триграмм, оцененным на большем  количестве обучающих последовательностей. Для этого весовые коэффициенты λ делаются зависимыми от групп биграмм  и слов b(c12, c2), составляющих историю для рассматриваемого слова. Этот метод называется deleted interpolation [8]. Применяются и другие сглаживающие схемы. При моделировании языка с помощью триграмм объем словарных данных обычно колеблется от 1 млн. до 500 млн. слов при соответственном объеме словаря от 1 тыс. до 267 тыс. слов.

 

5.3 Сложность (перплексность)

 

Для сравнения распознающих систем можно использовать норму ошибки. Этот показатель лучше всего оценивает  языковые модели. Однако есть менее  затратный способ оценки ЯМ. В нем  используется величина, характеризующая  количество информации – энтропия. Идея заключается в расчете энтропии для нового, не использовавшегося  при создании модели текста. Сравнивается словарная энтропия, рассчитанная непосредственно  по тексту, с энтропией, рассчитанной по ЯМ. Та ЯМ, чья энтропия будет ближе  всего к текстовой, и будет лучшей [4, 5, 8].

Обозначим как р(х) правильное распределение вероятности слов в сегменте текста х, состоящем из k слов. Определим энтропию текста по словарному базису как:

 

.(5.7)

 

Если слова в тексте равновероятны, а размер текста – V, тогда H=log2V, для других распределений H≤log2V. Для определения вероятности в сегменте текста можно использовать ЯМ. Значение логарифма вероятности для ЯМ составляет:

 

,(5.8)

 

где p̃(wi/hi) – вероятности, определенные данной ЯМ. Предел , т.е. рассчитанный по ЯМ, - не ниже энтропии текста. Очевидно, что цель сравнения разных ЯМ – найти такую, для которой логарифм вероятности, рассчитанный по ЯМ, будет ближе всего к энтропии, рассчитанной по тексту.

Перплексность характеризует уровень логарифма вероятности ЯМ и определяется как 2lp. Грубо говоря, это – средний объем словаря, из которого выбирается очередное слово при распознавании. Перплексность зависит от использующегося речевого домена. Значения перплексности для некоторых речевых доменов приведены в таблице 5.1 [4, 8].

речь распознавание акустический языковый

Таблица 5.1. Перплексность речевых доменов

Речевой домен

Перплексность

Радиология

20

Медицина катастроф

60

Журналистика

105

Общий английский

247


 

5.4 Объем словаря

 

Норма ошибки не может быть ниже, чем  процент произнесенных слов, не входящих в словарь. Поэтому основная часть  построения ЯМ заключается в разработке словаря, максимально охватывающего  тексты, которые, вероятно, будет распознавать система. Это остается задачей, решаемой людьми.

При создании словаря сначала подбираются  тексты, характеризующие задачу, с  которой будет работать система. Затем тексты с помощью средств  автоматизации делятся на слова. Далее каждому слову сопоставляется набор его вариантов произношения, включая возможные будущие варианты. Все полученные варианты произношения используются для составления триграмм.

В таблице 5.2 приводится процент охвата распознающей системой новых текстов  в английском языке, при использовании  словаря фиксированного объема. У  языков с большим числом форм слова  и зависимостями в словообразовании (немецкий, французский), для такой  же степени охвата требуется словарь  значительно большего размера.

Более рациональный подход предусматривает  составление персонифицированного словаря для каждого пользователя распознающей системы в дополнение к фиксированному словарю. Таблица 5.2 представляет рост охвата новых слов такой, динамически настраиваемой  системой при начальном, фиксированном  объеме словаря 20 тыс. слов. Данные сравниваются с системой, использующей статический  словарь того же объема при распознавании  текста представленной длины [4, 8].

 

Таблица 5.2. Качество распознавания  новых текстов

Число добавленных слов

Объем текста

Статический

охват

Динамический охват

100

1800

93,4%

94,5%

400

12800

94,8%

97,5%

3100

81600

94,8%

98,1%

6400

211000

94,4%

98,9%


 

5.5 Усовершенствованные языковые  модели

 

Существует множество усовершенствований ЯМ на основе триграмм. Основные из них упомянуты ниже [4, 8, 11].

Модели классов

Вместо слов в языковой модели можно  использовать набор классов слов. Классы могут пересекаться, поскольку  слово может принадлежать разным классам. Классы могут основываться на частях речи, морфологическом анализе  слова, могут определяться автоматически  по статистическим связям. Общая модель классов выглядит так:

 

,(5.9)

 

где ci - классы. Если классы не пересекаются, то:

 

. (5.10)

 

Перплексность такой модели выше, чем у основанной на триграммах, однако она снижается при комбинировании моделей этих двух типов.

Динамические модели

Здесь учитывается прошлое, продолжительностью во весь документ. Это делается для  обнаружения часто встречающихся  слов (например, в этом тексте часто  встречающимся является слово «модель»). Использование КЭШа для таких  слов позволяет придать ЯМ большую  динамику, сокращая время поиска.

Комбинационные модели

Еще один подход состоит в разделении всей речевой базы на несколько кластеров. Для моделирования нового текста используется линейная комбинация триграммных моделей из разных кластеров:

 

, (5.11)

 

где pj() оценивается по j - му текстовому кластеру.

Структурные модели

В этих моделях вместо влияния на вероятность слова ближайшей  предшествующей истории, используется синтаксический разбор. С помощью  такого разбора устанавливается  связь между удаленными словами, что недавно было предложено учитывать  при составлении удаленных биграмм.

 

Вопрос 5

Назначение  морфологического анализатора

Морфологический анализатор это набор алгоритмов, которые  занимается сопоставлением отдельных  слов и словоформ в словаре (лексиконе, если быть точным) и выяснением грамматических характеристик слов.

Информация о работе Лингвистическое и программное обеспечение систем