Поиск информации в звуковых файлах

Автор работы: Пользователь скрыл имя, 01 Июня 2012 в 22:23, курсовая работа

Краткое описание

В настоящее время интерес пользователей к мультимедийному контенту постоянно возрастает по мере того как стремительно увеличивается количество широкополосных подключений к интернету. Мультимедийный контент становится все более востребованным, но пользователи не могут его найти, потому что поисковые сайты неспособны индексировать текст внутри мультимедийных файлов, хотя такие технологии существуют. Дошло до того, что уже сами производители

Содержание

Введение…………………………………………………………………………..3
Аналитический раздел…………………………………………………………..11
Результирующий раздел………………………………………………………...19
Литература……………………………………………………………………….20

Прикрепленные файлы: 1 файл

курсовик_мой_финальный_3.doc

— 171.00 Кб (Скачать документ)

привязанные к говорящему – эти программы постоянно обучаются и со временем начинают понимать голос «своего хозяина» все лучше и лучше. Чем чаще пользователь работает в программе, тем лучше она понимает его.

независимые от говорящего – вы можете начинать говорить сразу – программа будет реагировать на голосовые команды. В отличие от первого типа, этим программам не нужно учиться понимать вас. Наоборот, вам надо научиться говорить так, чтобы программа вас понимала.

Работа на ПК существенно облегчится.

Диктовка – с помощью программ распознавания речи многие пользователи надиктовывают тексты документов. Такая возможность актуальна, например, для медиков, проводящих обследование (в ходе которого руки обычно заняты) и одновременно протоколирующих его результаты. Для обычного пользователя, которому набивать текст по какой-либо причине сложно (или просто лень) она также может оказаться полезной.

Ввод команд – пользователи ПК могут использовать «распознавалку» для ввода команд, то есть проговариваемое слово будет восприниматься системой как щелчок клавиши мыши. Пользователь командует: «Открыть файл», «Отправить почту» или «Новое окно», а компьютер выполняет соответствующие действия. Это особенно актуально для людей с ограниченными физическими возможностями – вместо мыши и клавиатуры они смогут управлять компьютером при помощи голоса.

для распознавания речи требуется:

Программа распознавания речи – англоязычные пользователи Windows могут воспользоваться, например, Dragon Naturally Speaking или IBM Via Voice. Русский язык понимают программы «Горыныч» и «Диктограф». В операционную систему Windows Vista программа распознавания речи уже встроена.

Микрофон или гарнитура (гибрид наушника и микрофона) – для «попадания» слов в компьютер.

Достаточно производительный компьютер – для работы функции распознавания речи компьютер не должен быть сверхбыстрым. Вполне достаточно 1 Гб оперативной памяти (для работы Windows Vista лучше иметь 2 Гб) и тактовой частоты процессора не менее 1 ГГц.

функция распознавания речи  используется в:
Функция распознавания речи может использоваться не только в ПК, но и во многих других устройствах.

Мобильные телефоны – уже несколько лет существуют модели с возможностью голосового управления. Но к распознаванию голоса это отношения не имеет – аппарат не переводит голос в текст, а сравнивает произнесенную фразу с заранее записанной (последняя является «эталонной» и обычно называется «голосовой меткой»). Голосовая метка может соответствовать записи в адресной книге (голосовой набор) или пункту меню (голосовое управление). Если телефон изначально не имеет соответствующих функций, «обучить» его будет невозможно.

Мобильные навигаторы – в новых навигационных устройствах, например, Tom Tom Go 720T водитель может голосом ввести пункт назначения. Если произносить слова отчетливо и, по возможности, в тишине, то эта функция работает очень хорошо. Хотя данная операция занимает столько же времени, сколько и клавиатурный ввод, но во время движения в любом случае более безопасно и удобно использовать голосовое управление. Правда, совсем без рук здесь не обойтись – для запуска голосовой команды нужно нажать на экранную кнопку.

Автомобили – некоторыми новыми марками автомобилей, например, Mercedes, Audi, Toyota, Ford или BMW, можно управлять при помощи голоса (правда, набор команд ограничен). Например, в некоторых моделях BMW после нажатия кнопки, расположенной на руле (см. рисунок), активируются функции голосового управления стереосистемой или системой навигации.

Мультимедийные диски для изучения иностранных языков – некоторые обучающие программы проверяют правильность произношения. Программа просит вас прочитать определенное предложение и, обработав с помощью функции распознавания речи результат, сообщает, все ли у вас в порядке с произношением.

перспективы функции распознавания речи:
В мобильных телефонах роль функции распознавания речи существенно возрастет, ведь набивать текст на маленьких клавиатурах мобильных телефонов весьма утомительно.

Диктовка SMS-сообщений – скоро вам не понадобится набирать текст сообщений на телефоне – можно будет просто диктовать. Эту функцию обещает внедрить в некоторые модели своих телефонов фирма Samsung (в ближайшее время они должны появиться на рынке).

Перевод – ко времени проведения Олимпийских игр–2008 в Пекине ожидается появление мобильного телефона со встроенным переводчиком. Если вы, находясь в Поднебесной, захотите, к примеру, отобедать в ресторане, то вам достаточно будет по-русски наговорить свой заказ в мобильный телефон – все будет переведено на китайский язык, а электронный голос из динамика передаст заказ официанту.

Можно предположить, что со временем все большее количество устройств будет понимать человеческий голос. Поэтому не удивляйтесь, если однажды утром ваша кофе-машина не только спросит вас, что приготовить – капуччино или эспрессо – но и поймет ваш ответ.

Программы распознавания речи.

Наиболее удачными оказались разработки в этой области для английского языка, потому что он довольно прост по сравнению с другими. Но даже эти программы являются хоть и успешными, но все же экспериментами, потому что не обеспечивают стопроцентного распознавания.

С русским языком все намного сложнее. Сейчас не существует ни одной программы распознавания речи, позволяющей достичь хоть какого-то приемлемого результата. Не верьте рекламе, утверждающей, что с помощью их продукта вы сможете набирать по 500 знаков в минуту. На деле все наоборот – вы будете тщетно пытаться добиться «угадывания» программой простейшего слова, произнося его множество раз.

Даже если вы создадите для работы программы идеальные условия, которые она запрашивает – хорошая звуковая карта, качественная гарнитура (наушники + микрофон), отсутствие посторонних шумов, четкое членораздельное произношение слов, подстройка под ваш голос – все равно пользы от нее не будет.

Русскоязычные программы для перевода речи в текст – это популярный (но отнюдь не полезный) Горыныч, Диктограф (или Микросервис), Перпетуум-Мобиле, Комбат.

Довольно впечатляющие результаты показывает «Программа пофонемного распознавания речи». Но она не позволяет переводить распознанные слова в текстовый редактор. Она распознает только слова, уже имеющиеся в ее словаре, а это около двадцати слов. Словарь можно самостоятельно дополнять, но для этого нужно записать в специальный файл транскрипцию слова, используя особенные обозначения фонем. Это очень долго и не имеет смысла, раз уж нельзя диктовать в редактор. Если дописать модуль перевода распознанных слов в текст, научить программу распознавать речь без выдержки пауз между словами  или хотя бы сделать требуемые паузы минимальными и создать большой словарь, то может получиться высококачественный программный продукт.

В нынешнее время достижения в области речевых технологий, эффективно используемые на практике, не связаны с диктовкой текста. Индустрия речевых технологий ориентирована на голосовую идентификацию пользователей (пароли и безопасность), управление различными электронными устройствами (от персонального компьютера до самолета) с помощью голоса, программы для незрячих, шумоочистку, логопедию и др. Даже лидер в этой области, российская компания «Центр речевых технологий», работающая уже более двадцати лет, не берется (во всяком случае, пока) за выпуск программного обеспечения по переводу речи в текст.

Описание одной из программ.

Практически вся современная научная фантастика предсказывает нам, что в будущем компьютером и прочими “умными” бытовыми приборами мы будем управлять исключительно голосом. Этот весьма необычный способ управления существует уже сегодня, но вот работоспособен ли он?
 

Была такая реклама в одном уважаемом компьютерном журнале: с помощью встроенного в ноутбук микрофона в реальном времени осуществлялся захват звука англоязычного блока теленовостей CNN; полученный звуковой поток тут же передавался системе распознавания речи «Горыныч», преобразовывался в электронный текст и отображался в окне WordPad; распознанный англоязычный текст обрабатывался программой-переводчиком «ПРОМТ» и уже на русском языке распечатывался на принтере «для неторопливого чтения в свободное время».

О программе
«Горыныч Проф 3.0″ – собственная разработка российской компании VoiceLock.
«Древние» версии русских «Драконов» – «Комбат» и «Диктограф», представляющие собой простой перевод программы Dragon Dictate, не имеют никакого отношения к современному «Горынычу» – единственной на сегодняшний день полнофункциональной системе распознавания речи, которая кроме английского понимает и русский язык.

Программа имеет два режима: команд и диктовки. Ввод текста возможен в окна любых приложений под Windows. Ожидаемая скорость ввода – 500-700 печатных знаков в минуту. Реализована возможность голосового управления периферийным оборудованием, функциями прикладных программ и операционных систем Windows 98SE/Mе/2000/XP. В основе работы – принцип дикторонезависимости. Программа распространяется на CD компанией «Новый Диск» (www.nd.ru/products/exclusive/gorynych3.asp) и стоит $49. Облегченная версия (light) урезана в возможностях, имеет маленькие словари, но позволяет сделать вывод насчет эффективности и к тому же стоит на порядок меньше полной ($4).

Как видите, программа, судя по ее описанию, обещает заманчивую перспективу – отложить в сторону мышь с клавиатурой и просто говорить в микрофон. Компьютер будет выполнять команды и печатать текст в два раза быстрее профессиональной машинистки. Программа поймет голос любого пользователя сразу после установки (раз она дикторонезависимая).


ГОТОВИМСЯ К ВСТРЕЧЕ С «ГОРЫНЫЧЕМ»
Самой распространенной ошибкой при работе с программами речевого восприятия является использование устройств мультимедиа низкого качества. В результате на форумах, посвященных этим программам (пример – forum.ru-board.com), можно увидеть нелестные отзывы вроде: «Поставил я «Горыныча» и снес его через два дня – полнейший отстой, ничего не слышит!». Конечно, не услышит, если пытаться общаться с программой с помощью микрофона за 200 рублей и такой же дешевой звуковой карты.

Распознавание речи – настолько не типовая задача, что решить ее при помощи стандартного оборудования, устанавливаемого по умолчанию на большинство компьютеров, попросту невозможно. Нечего и мечтать о работе с «Горынычем» без гарнитуры вроде “Voice Direct” (наушники с закрепленным на них микрофоном). Эта гарнитура обеспечивает приемлемое качество передачи речи и позволяет минимизировать влияние сторонних фоновых шумов. Не нужно использовать и встроенные (например, в монитор) приемники звука.

НАСТРОЙКА МИКРОФОНА

«Горыныч» состоит их трех отдельных программных модулей, которые не могут быть запущены одновременно. Собственно, сам «Горыныч Проф 3.0″ – это главное окно программы, модули «Настройка словарей» и «Настройка микрофона». Последний модуль необходимо запустить первым – сразу после установки программы. Без этого шага сам «Горыныч» просто не запустится. Настройка микрофона (может быть как ручной, так и автоматической) заключается в произнесении нескольких фраз и, в соответствии с индикаторами, уменьшении или увеличении уровня записи. Один цикл автоматической настройки состоит из двух последовательно проводящихся тестов: шума и сигнала с данными. При тесте шума нужно соблюдать тишину (ничего не говорить в микрофон), поскольку эта часть нужна для определения уровня фонового шума. В тесте сигнала с данными достаточно произнести любую фразу из двух-трех слов. Говорить следует с такой громкостью и интонацией, с какой в дальнейшем вы собираетесь работать с программой.

ИНТЕРФЕЙС «ГОРЫНЫЧА»
При запуске основного модуля программы открывается главное окно и два вспомогательных окна мониторинга, предназначенных для наблюдения за сигналом с микрофона во время произнесения слов. В верхнем окне сигнал отображается по мере поступления со звуковой карты. В нижнее окно выводится графическое отображение сказанного слова.

В средней части главного окна расположена панель с основными кнопками управления.
- Кнопка включения и выключения звукозаписи. Важно помнить: перед выходом из программы звукозапись следует выключить.

- Кнопки английского/русского языка – переключают программу в режим использования английских/русских словарей диктовки и команд.

- Кнопка настройки модулей – элементов программы, отвечающих за возможности голосового управления другими программами и некоторыми функциями операционной системы.

- Кнопка прослушивания предыдущего сказанного слова – для контроля качества сигнала с микрофона. Например, если прослушивание сопровождается сильным треском, то это может быть следствием шума при записи звука.

- Кнопка переключения между режимами команд и диктовки.

В процессе работы с программой в главном окне отображается следующая информация:

- описание текущего режима работы;
- заголовок окна, в которое будет выводиться текст в режиме диктовки (этим текстом и будет вестись управление в командном режиме);

- описание текущего состояния звукозаписи;

- текстовое отображение последнего распознанного слова.

НАСТРОЙКА СЛОВАРЕЙ
«Горыныч» может распознать только те слова, которые имеются в его активном словаре. Каждому элементу такого словаря соответствует его текстовое представление и звуковая модель произношения – как слышится и как пишется. Программа укомплектована словарями диктовки на 5000 слов и словарями команд на 100 слов для каждого из двух языков. В каждом словаре можно заменить (потренировать) слова, уже находящиеся в нем, либо настроить слово под свое произношение. Для контроля записанное слово можно прослушать.
Новые команды станут дикторонезависимыми, если их произнесет и запишет по очереди 15-20 человек.

РЕЖИМ КОМАНД
«Горыныч» запускается в режиме команд. Остается только включить звукозапись, чтобы эти команды могли быть услышаны, распознаны и выполнены. В окно доступных команд выводится список слов, которые можно сказать в данный момент. Список этих команд изменяется в зависимости от того, что происходит на компьютере. Например, щелчок мыши по Рабочему столу приводит к появлению в этом списке команд, соответствующих подписям под значками: «Блокнот», «Корзина», «Мой компьютер» и другие.

Однако некоторые команды, например, для значков «Книга», «Проигрыватель Windows Media» и The Bat!, не появляются. Оказывается, многие команды отсутствуют в русском словаре команд, и их нужно в него добавить. Но и после этого не все из них будут в списке доступных. Так, из перечисленных выше команд в список добавилась только «Книга».

Причина в следующем: в свойствах модуля запуска ярлыков с Рабочего стола настройки по умолчанию запрещают реакцию программы на команды, состоящие более чем из двух слов, а строка символов для исключения содержит латинские буквы. Если увеличить максимальное количество слов в команде до трех-четырех и убрать в строке ограничений латинские буквы, команды для всех ярлычков появятся в списке доступных. Произнесение команды в микрофон будет равносильно щелчку по соответствующему значку на Рабочем столе.

Информация о работе Поиск информации в звуковых файлах