Автор работы: Пользователь скрыл имя, 30 Декабря 2014 в 21:21, реферат
Актуальность проблемы автоматизации идентификации очевидна. И оптимальным решением данной проблемы является голосовая идентификация. Ввиду того, что каждый человек уже наделен уникальными свойствами, такими как голос, зная которые можно точно авторизовать человека, а подраздел авторизации по ним называется биометрия. И, среди всех способов авторизации при помощи биометрии, самым экономически выгодным является голос. Именно этот способ контроля доступа будет рассмотрен в реферате, ввиду его простоты реализации и разработки.
ПЕРЕЧЕНЬ УСЛОВНЫХ ОБОЗНАЧЕНИЙ И СОКРАЩЕНИЙ
ПК – Персональный Компьютер.
Введение
1 Биометрия
2 Задачи системы ограничения доступа
3 Технические средства формирования аудиоданных
4 Характеристика существующих аналогичных систем
5 Возможность использования нейросетей для построения системы распознавания речи
6 Результаты исследования
Заключение
Список использованных источников
Рисунок 7 – Схема ввода речевых сообщений в ЭВМ |
Речевой сигнал формируется и передается в пространстве в виде звуковых волн. Источником речевого сигнала служит речеобразующий тракт, который возбуждает звуковые волны в упругой воздушной среде. Приемником сигнала является датчик звуковых колебаний, микрофон – устройство для преобразования звуковых колебаний в электрические. Существует большое количество типов микрофонов (угольные, электродинамические, электростатические, пьезоэлектрические и др.) описанных в специальной литературе. Чувствительным элементом микрофона любого типа является упругая мембрана, которая вовлекается в колебательный процесс под воздействием звуковых волн. Мембрана связана с преобразующим элементом, который преобразует колебания мембраны в электрический сигнал.
С выхода микрофона сигнал подается на вход звуковой карты персонального компьютера. При записи звуковая карта представляет собой аналого–цифровой преобразователь с широкими возможностями настройки параметров оцифровки. Основными параметрами является частота дискретизации и разрядность кодирования. Данные параметры определяют качество и размер выборки получаемой в результате записи. Причем размер и качество прямо пропорциональны, т.е. чем выше качество записи, тем больше ее размер.
Чтобы обеспечить компромисс между качеством и размером воспользуемся знаниями о свойствах человеческого голоса при выборе параметров аналого–цифрового преобразования.
Для выбора частоты дискретизации рассмотрим усредненную спектральную плотность мощности непрерывного речевого сигнала для мужского и женского голосов (рисунок 8). Как следует из этой характеристики, усредненная спектральная плотность мощности имеет максимум в диапазоне 250–500Гц и затухает со скоростью, равной 8–10дБ на октаву (при удвоении частоты). Это приводит к тому, что на частотах выше 4000 Гц спектральная плотность падает до уровня –60 дБ, что соответствует ослаблению мощности по сравнению с максимумом (–25... –30 дБ) в 20 и более раз. Это позволяет считать, что полоса пропускания для каналов передачи звуковых сообщений может быть ограничена частотой 4–5 кГц, а, следовательно, частота дискретизации этого сигнала должна составлять 8–10 кГц.
Рисунок 8 – Амплитудный спектр |
В современных звуковых картах используется импульсно–кодовая модуляция, при которой каждый дискретный отсчет речевого сообщения кодируется в соответствии с некоторыми правилами.
Рассчитано, что для обеспечения соотношения сигнал/шум квантования, равного 36 дБ, требуется не менее семи двоичных разрядов и что для получения высококачественного цифрового кодирования сигнала речи необходимо 11 разрядов. На практике число разрядов определяется разрядность ЭВМ и, как правило, равно или кратно восьми разрядам.
В Беларусии биометрические системы контроля появились в середине 90–х годов. В силу то ли неразвитости отечественных технологий, то ли их излишней засекреченности, все коммерческие биометрические системы были импортного производства. На том этапе себестоимость и, соответственно, цена этих систем была довольно высока: например, довольно простое устройство физического контроля доступа стоило около $12 000. Подобное дорогостоящее оборудование приобрело скорее характер новомодной экзотики и массового распространения не получило. Сегодня подобные системы подешевели примерно в 10 раз, так что первая причина появления активного спроса на них у нас в стране исключительно экономическая – устройства стали гораздо дешевле. Вторая причина сводится к объективной потребности заказчиков организовать современную, грамотно построенную систему безопасности у себя на предприятии, в офисе компании или в частном доме [5].
По мнению большинства специалистов, особенно широкое распространение в Белорусии получили дактилоскопические устройства. Есть основания полагать, что в банковских структурах у нас привьются системы распознавания подписи – традиционной биометрической характеристики, которая издавна используется в банковском деле. Большой редкостью в Белорусии считается инсталляция систем идентификации личности по радужной оболочке глаза, голосу или по другим биометрическим признакам. Тем не менее уже есть примеры использования данных устройств, в частности, в ряде крупных депозитарных банков; из других компаний можно назвать "Макдональдс", где установлены биометрические системы контроля рабочего времени персонала; в последнее время резко возрос спрос на дактилоскопические системы со стороны частных лиц, которые устанавливают их в своих загородных коттеджах.
Отечественные разработки на этом рынке отличаются крайней фрагментарностью, существуют на уровне опытных образцов и говорить о сколько–нибудь серьезных объемах их продаж, увы, пока не приходится. Наиболее известная система, разработанная российскими инженерами – "Кордон" – устройство физического доступа в помещение; имеются также разработки в области дактилоскопии (компания "Биолинк"): в области распознавания лица (компания "Спирит"). в основном же рынок биометрических систем безопасности в России представлен иностранными фирмами, которые через своих российских партнеров реализуют свои технологии на отечественном рынке. Систему Facelt, например, представляет группа компаний "Дан–ком"; инженерная компания "Солинг" активно внедряет систему распознавания лиц немецкого производства SmartEye, компания "Биометрические системы" в основном специализируется на поставке импортного дактилоскопического оборудования, но в этой компании ведутся разработки программного обеспечения для идентификации пользователя. Хотелось отметить разработки компании «Центр речевых технологий». Они разработали весь комплекс программ для идентификации пользователя, для управления компьютером с помощью голоса. Также они могут разработать любое обеспечения по нуждам заказчика.
Но эти системы не предоставляют возможности идентификации голоса, только управление компьютером с помощью голоса. Разработанное программное обеспечение использует те же математические алгоритмы, поэтому его можно легко модифицировать под подобные задачи.
Большинство прогнозов сводится к тому, что внедрение биометрических систем безопасности на российский рынок приобретет в скором будущем лавинный характер. Поиск решений для борьбы с нарастающей глобальной угрозой терроризма так или иначе приведет к практическому использованию достижений в этой области. Интенсивное развитие мультимедийных, цифровых технологий и, как следствие, их удешевление позволяют не только разработать принципиально новые подходы в проблеме идентификации личности, но и внедрить их в широкое повсеместное использование.
Существующие сегодня системы распознавания голоса основываются на сборе всей доступной (порой даже избыточной) информации, необходимой для распознавания пользователя.
Вместо этого проводится процесс, первым шагом которого является первоначальное трансформирование вводимой информации для сокращения обрабатываемого объема так, чтобы ее можно было бы подвергнуть компьютерному анализу. Следующим этапом является спектральное представление речи, получившееся путем преобразования Фурье. Результат преобразования Фурье позволяет не только сжать информацию, но и дает возможность сконцентрироваться на важных аспектах речи, которые интенсивно изучались в сфере экспериментальной фонетики. Спектральное представление достигнуто путем использования широко–частотного анализа записи [6].
Хотя спектральное представление речи очень полезно, необходимо помнить, что изучаемый сигнал весьма разнообразен.
Разнообразие возникает по многим причинам, включая: различия человеческих голосов; уровень речи говорящего; вариации в произношении;
нормальное варьирование движения артикуляторов (языка, губ, челюсти, нёба).
Для устранения негативного эффекта влияния варьирования голосового тракта на процесс распознавания речи было использовано множество методов. Наиболее удачные формы трансформации, использованной для сокращения различий, были впервые представлены Сакоя & Чибо и назывались динамичными искажениями (dynamic time warping). Техника динамичного искажения используется для временного вытягивания и сокращения расстояния между искаженным спектральным представлением и шаблоном для говорящего. Использование данной техники дало улучшении точного распознавания (~20–30%). Метод динамичного искажения используют практически все коммерчески доступные системы распознавания, показывающие высокую точность сообщения при использовании. Вначале сигнал преобразовывается в спектральное представление, где определяется немногочисленный, но высокоинформативный набор параметров. Затем определяются конечные выходные параметры для варьирования голоса(следует отметить, что данная задача не является тривиальной) и производится нормализация для составления шкалы параметров, а также для определения ситуационного уровня речи. Вышеописанные измененные параметры используются затем для создания шаблона. Шаблон включается в словарь, который характеризует произнесение звуков при передаче информации говорящим, использующим эту систему. Далее в процессе распознавания новых речевых образцов (уже подвергшихся нормализации и получивших свои параметры), эти образцы сравниваются с шаблонами, уже имеющимися в словаре, используя динамичное искажение и похожие метрические измерения.
Классификация – это одна из основных для нейросетей задач. Причем нейросеть может выполнять классификацию даже при обучении без учителя (правда, при этом образующиеся классы не имеют смысла, но ничто не мешает в дальнейшем ассоциировать их с другими классами, представляющими другой тип информации – фактически наделить их смыслом). Любой речевой сигнал можно представить как вектор в каком–либо параметрическом пространстве, затем этот вектор может быть запомнен в нейросети. Одна из моделей нейросети, обучающаяся без учителя – это самоорганизующаяся карта признаков Кохонена. В ней для множества входных сигналов формируется нейронные ансамбли, представляющие эти сигналы. Этот алгоритм обладает способностью к статистическому усреднению, т.е. решается проблема с вариативностью речи. Как и многие другие нейросетевые алгоритмы, он осуществляет параллельную обработку информации, т.е. одновременно работают все нейроны. Тем самым решается проблема со скоростью распознавания – обычно время работы нейросети составляет несколько итераций.
Далее, на основе нейросетей легко строятся иерархические многоуровневые структуры, при этом сохраняется их прозрачность (возможность их раздельного анализа). Так как фактически речь является составной, т.е. разбивается на фразы, слова, буквы, звуки, то и систему распознавания речи логично строить иерархическую.
Наконец, ещё одним важным свойством нейросетей является гибкость архитектуры. Под этим может быть не совсем точным термином я имею в виду то, что фактически алгоритм работы нейросети определяется её архитектурой. Автоматическое создание алгоритмов – это мечта уже нескольких десятилетий. Но создание алгоритмов на языках программирования пока под силу только человеку. Конечно, созданы специальные языки, позволяющие выполнять автоматическую генерацию алгоритмов, но и они не намного упрощают эту задачу. А в нейросетях генерация нового алгоритма достигается простым изменением её архитектуры [7]. При этом возможно получить совершенно новое решение задачи. Введя корректное правило отбора, определяющее, лучше или хуже новая нейросеть решает задачу, и правила модификации нейросети, можно в конце концов получить нейросеть, которая решит задачу верно. Все нейросетевые модели, объединенные такой парадигмой, образуют множество генетических алгоритмов. При этом очень четко прослеживается связь генетических алгоритмов и эволюционной теории (отсюда и характерные термины: популяция, гены, родители–потомки, скрещивание, мутация). Таким образом, существует возможность создания таких нейро сетей, которые не были изучены исследователями или не поддаются аналитическому изучению, но тем не менее успешно решают задачу.
Проанализировав выше сказанное получим, что самым оптимальным способом защиты данных и объектов является биометрия. А, в виду простоты используемого оборудования, из всевозможных вариантов биометрии целесообразно выбрать голосовую биометрию, с использованием нейро сетей, для получения голосовых отпечатков и их обработки.
Для дальнейшего рассмотрения нейросетевого сравнения, прежде всего, необходимо рассмотреть сам искусственный нейрон.
Несмотря на большое разнообразие вариантов нейронных сетей, все они имеют общие черты. Так, все они, так же, как и мозг человека, состоят из большого числа связанных между собой однотипных элементов – нейронов, которые имитируют нейроны головного мозга. На рисунке 9 показана схема нейрона.
Рисунок 9 – Схема нейрона
Из рисунка видно, что искусственный нейрон, так же, как и живой, состоит из синапсов, связывающих входы нейрона с ядром; ядра нейрона, которое осуществляет обработку входных сигналов и аксона, который связывает нейрон с нейронами следующего слоя. Каждый синапс имеет вес, который определяет, насколько соответствующий вход нейрона влияет на его состояние. Состояние нейрона определяется по формуле 1:
, (1)
где n – число входов нейрона;
xi – значение i–го входа нейрона;
wi – вес i–го синапса.
Затем определяется значение аксона нейрона по формуле 2:
Y = f(S) , |
где f – некоторая функция, которая называется активационной.
Наиболее часто в качестве активационной функции используется так называемый сигмоид, который имеет следующий вид (3) :
, (3)
Основное достоинство этой функции в том, что она дифференцируема на всей оси абсцисс и имеет очень простую производную (2.9):
, (4)
При уменьшении параметра a сигмоид становится более пологим, вырождаясь в горизонтальную линию на уровне 0,5 при a=0. При увеличении a сигмоид все больше приближается к функции единичного скачка.
Хотя один нейрон и способен выполнять простейшие процедуры распознавания, сила нейронных вычислений проистекает от соединений нейронов в сетях. Простейшая сеть состоит из группы нейронов, образующих слой. Каждый элемент из множества входов отдельным весом соединен с каждым искусственным нейроном. А каждый нейрон выдает взвешенную сумму входов в сеть. В искусственных и биологических сетях многие соединения могут отсутствовать, все соединения показаны в целях общности. Могут иметь место также соединения между выходами и входами элементов в слое.