Поиск информации в звуковых файлах

Автор работы: Пользователь скрыл имя, 01 Июня 2012 в 22:23, курсовая работа

Краткое описание

В настоящее время интерес пользователей к мультимедийному контенту постоянно возрастает по мере того как стремительно увеличивается количество широкополосных подключений к интернету. Мультимедийный контент становится все более востребованным, но пользователи не могут его найти, потому что поисковые сайты неспособны индексировать текст внутри мультимедийных файлов, хотя такие технологии существуют. Дошло до того, что уже сами производители

Содержание

Введение…………………………………………………………………………..3
Аналитический раздел…………………………………………………………..11
Результирующий раздел………………………………………………………...19
Литература……………………………………………………………………….20

Прикрепленные файлы: 1 файл

курсовик_мой_финальный_3.doc

— 171.00 Кб (Скачать документ)

Так, по команде «Блокнот» откроется текстовый редактор «Блокнот», и в списке доступных появятся команды для активизации его меню. Скомандуете, скажем, «меню» – к командам добавятся действия, возможные для встроенного меню «Блокнота»: «файл», «правка», «поиск», «справка». Нетрудно догадаться, что команда «файл» будет эквивалентна щелчку по этому пункту меню и список команд опять изменится. Используя эти команды, можно выполнять любые действия, как и при работе с мышью (например, открыть какой-то файл и распечатать его на принтере).

Аналогичным образом можно управлять работой отдельных функций операционной системы, большинства приложений и периферийного оборудования. Само собой, все возможные команды должны быть добавлены в словарь команд. Для возможности работы с приложениями, имеющими англоязычные интерфейсы, в настройках соответствующих модулей должны быть сняты ограничения на латинские символы.

К сожалению, программа не выводит команд для запуска приложений из списков кнопки «Пуск» и «Все программы». Запустить что-то из этих перечней можно, лишь перемещаясь по ним с помощью команд управления курсором мыши («вверх», «влево», «вправо», «дальше», «нажать ввод»). Если программ установлено много, голосовая навигация по этим спискам становится неудобной – проще и быстрее сделать это мышью. Добавим, что «Горыныч» не всегда правильно распознает команды, да еще и моментально выполняет то, что услышал – в программе нет режима подтверждения или отмены команды. Вот почему во избежание досадных недоразумений лучше сразу переозвучить весь командный словарь.

Для оценки качества работы программы в командном режиме вычислялся процент правильно распознанных команд от общего количества произнесенных. После десяти попыток выводился усредненный показатель. В командном режиме «Горыныч» сработал довольно сносно – с уровнем распознавания 87%.

ДРЕССИРОВКА «ГОРЫНЫЧА»
То, что «Горыныч» некоторые слова все же слышит, наводит на мысль, что программа не так уж и безнадежна, как может показаться поначалу. Значит, нужно найти и устранить причины, по которым она не воспринимает другие слова.

Заглянем в русскоязычный словарь диктовки. Оказывается, из 32 слов нашего текста в словаре присутствует всего семь! Да еще точка с запятой. Диктуем только эти семь слов – распознано четыре. Диктуем 50 других слов, имеющихся в словаре, – распознано 32, причем только десять из них с первой попытки. Остальные пришлось повторить от двух до пяти раз.

Вывод: несмотря на дикторонезависимость программы, слова распознаются неуверенно и далеко не на все 100%. Для повышения уровня распознавания необходима тренировка словаря, и оптимальным будет добавление собственных вариантов произношения для всех слов.

После добавления в словарь всех недостающих слов из нашего текста и переозвучивания имеющихся «Горыныч» воспроизвел на экране все продиктованные слова. Правда, поначалу примерно половину слов пришлось повторять по нескольку раз. В основном это связано с немонотонностью произношения – стоит изменить интонацию, и программа уже вас не слышит. Для решения этой проблемы нужно научиться говорить на манер электронных синтезаторов – спокойно, монотонно и разборчиво. Важно исключить посторонние шумы, придыхание, четко проговаривать окончания слов. Также желательно постоянно находиться на одинаковом расстоянии от микрофона.

К счастью, «Горыныч» способен «привыкать» к голосу пользователя, и чем чаще вы диктуете, тем быстрее это происходит. Главное, после работы с программой не забывать сохранять словари. Однако от запоминания неудачных сеансов (много нераспознанных слов) лучше отказаться, иначе качество распознавания только ухудшится.

Так, десять раз продиктовав «Горынычу» наш текст (каждый раз закрывая программу и сохраняя свои варианты произношения), удалось повысить уровень распознавания до 85%. Однако неуверенность идентификации осталась довольно высокой: 20% слов пришлось повторять дважды, чтобы они хотя бы появились в окне вариантов, и дополнительно 5% всегда выбирались из этого списка.

ОФОРМЛЕНИЕ ТЕКСТА
Придавать тексту нужный вид в «Горыныче» можно, лишь переключившись в командный режим с использованием голосовой навигации по меню текстового редактора. Делается это неоправданно долго, и гораздо проще оформить текст вручную. То же можно сказать и о перемещении по документу (страница вверх, страница вниз) и по тексту (влево, вправо и т. д.).

Встроенного контроля пунктуации в программе нет, поэтому точки и запятые нужно диктовать в нужном месте. Однако ставить их тоже придется вручную – «Горыныч» почему-то печатает эти знаки препинания отдельно от текста (через пробел). Более того, вместо запятой упорно лепит точку, хотя прекрасно «слышит» этот символ – «,» присутствует в списке вариантов, но при ее выборе все равно появляется точка.

За правописанием «Горыныч» не следит – предполагается, что при пополнении словарей вы будете правильно набирать слова. И все же лучше проверить текст средствами программы Word. Добавим, что «Горыныч» все печатает с маленькой буквы – большие нужно вводить с клавиатуры. Сидеть сложа руки, диктуя «Горынычу» текст, как видите, не получится.

ПОПОЛНЕНИЕ СЛОВАРЯ ДИКТОВКИ
Напомним, что словарь «Горыныча» запускается в отдельном программном модуле, и для его запуска нужно закрыть главное окно программы. Добавлять таким образом каждое нераспознанное слово (а таких поначалу немало) – не набегаешься. К тому же эти вновь добавляемые слова не сортируются по алфавиту, а валятся в кучу в конец словаря. В результате трудно проверить наличие какого-то слова, поскольку поиск по словарю отсутствует.

Вот почему нераспознанные слова лучше набирать вручную, копировать в отдельный файл, а позже скопом добавлять в словарь – в один сеанс. Важно не допускать появления в словаре дублированных записей (программа допускает их создание). Отслеживать изменение в словаре с анализом новых слов можно разными способами, например с помощью специального макроса для Excel (www.vector-ski.com/vecs/govorilka/dic/DigaloR_VOleg.zip).

Пятитысячный словарь «Горыныча» содержит общеупотребительные слова и, к сожалению, включает далеко не все словоформы, например, существительные только в именительном падеже (адрес, адреса), лишь некоторые формы глаголов (бывает, бывал, бывать) и прилагательные без склонения (высокая, высокий, высокие).

Понятно, что с таким набором слов попросту невозможно надиктовать нормальный связный текст. Отсюда задача: для начала добавить в словарь «Горыныча» эти недостающие словоформы. Если вы собираетесь диктовать программе какие-то специфические тексты, например из области эзотерики или программирования, придется добавить множество слов по этой тематике. С этой целью удобно воспользоваться одной из программ, умеющих выделять ключевые и наиболее информативные слова из разных мудреных текстов. Примером такой программы является «МЛ Аннотатор SDK 1.0″ (www.medialingua.ru/annotator.html) компании «МедиаЛингва».

РАСПОЗНАВАНИЕ РЕЧИ С ОТКРЫТЫХ ИСТОЧНИКОВ

После тестирования «Горыныча» можно с уверенностью сказать, что качественно распознать звуковое сопровождение телепередачи с помощью этой программы практически невозможно. Даже если допустить, что микрофон ноутбука удовлетворяет требованиям программы (что весьма сомнительно), другие причины не позволят повторить рекламный эксперимент, описанный в начале статьи.

- Словари диктовки «Горыныча» (да простят нас его разработчики) можно назвать словарями Эллочки-Людоедки по сравнению со словарями таких англоязычных программ, как IBM ViaVoice и Dragon NaturallySpeaking.

- Даже если использовался пополненный кем-то словарь «Горыныча», скажем, хотя бы до 50 тыс., он фактически является индивидуальным и малопригодным для распознавания речи произвольного диктора.

Теперь представьте текст без знаков препинания, составленный из ограниченного словарного набора и без малейших признаков форматирования. А что получится после перевода такого текста, даже если исключить ошибки при его распознавании? Вот диктор CNN удивился бы, увидев такой текст!
Дабы не обидеть разработчиков единственной подобной русскоязычной программы, скажем, что и зарубежные «коллеги» «Горыныча» не смогут справиться с распознаванием теленовостей. Достаточно назвать одну причину: акустическая модель программ не успеет адаптироваться под конкретного диктора.

Итак, «Горыныч» весьма неплохо справляется с управлением компьютером, и даже light-версия вполне подойдет для этой цели. Конечно, при условии, что словари будут пополнены недостающими командами.

Для диктовки на русском языке альтернатив «Горынычу» пока не существует, и само существование такой программы является огромным достижением ее разработчиков. Но отображать связные тексты программа сможет только после кропотливой работы по тренировке и расширению словаря. Сколько времени займет эта работа, зависит от того, какого рода тексты вы собираетесь диктовать программе и сколько времени сможете уделять ей каждый день. Форсировать события не получится – чересчур усердная работа с программой может плохо отразиться на вашем здоровье.

Из-за большого объема ручной работы при диктовке реальная скорость распознавания речи будет гораздо ниже указанной в инструкции к программе, и хорошо, если поначалу она достигнет 40-60 слов в минуту. При регулярной и упорной тренировке программы возможно плавное повышение этой скорости и улучшение качества распознавания.

Дикторонезависимость и языконезависимость
Западные системы распознавания речи хоть и позволяют вводить слитную речь, но нуждаются в длительных предварительных тренингах, в процессе которых происходит перегенерация их словарей под особенности речи говорящего (диктора). Кроме того, для каждого языка создается отдельная версия программы.

Более того, существуют специальные версии программ Dragon NaturallySpeaking и IBM ViaVoice для различных диалектов одного и того же языка – например, для английского: американская, английская, британская. Вот почему практически невозможно «приспособить» эти программы для русского языка (например, взять и надиктовать для них русский словарь с использованием транслитерации хотя бы для работы в режиме команд).

По этой же причине русскому человеку так трудно работать с иноязычными системами распознавания – они хоть и подстраиваются под наше рязанское произношение, но все же ориентированы на кембриджское или оксфордское…

Российские разработчики речевых систем чаще всего идут другим путем – делают свои программы дикторонезависимыми и языконезависимыми. Поэтому в «Горыныче» отсутствует предварительный тренинг, и по определению такие программы должны распознавать голос любого человека независимо от национальности сразу же после установки и настройки микрофона. Пусть и не на все 100%, но сразу.

Велик и могуч русский язык
Разработка модуля распознавания русской речи требует значительных финансовых и интеллектуальных ресурсов. Эта задача оказалась не по зубам даже таким крупнейшим компаниям–разработчикам речевых технологий, как IBM, Scansoft, Philips. По той же причине до сих пор отсутствует поддержка русского языка в системе речевого ввода в Office XP – даже Microsoft распознавание русского языка с его обширным словообразованием оказалось не под силу. В результате большинство разработанных на сегодня речевых программ – англоязычные, для других языков их значительно меньше.

Русскоязычные же утилиты можно буквально пересчитать по пальцам. Еще более обидным является то, что «достать» хорошие русскоязычные модули распознавания речи простому пользователю практически невозможно – российские речевые технологии являются либо объектами научных исследований и носят, скорее, демонстративный характер, либо предметами коммерческих сделок. В качестве примеров можно назвать разработки московской и минской компаний «Стэл – Компьютерные Системы» (www.stel.ru) и «Сакрамент» (www.sakrament.com), рассчитанные на применение в различных аппаратных системах и программных приложениях.

 

 

 

 

 

 

ЗАКЛЮЧЕНИЕ

 

В качестве вывода на основе изученного материала можно предположить, что поиск в аудиофайлах и голосовой поиск по происшествию некоторого времени прочно закрепится в нашей жизни и будет таким привычным делом, как поиск информации в GOOGLE или в любой другой поисковой системе. Уже сегодня мы имеем данные технологии у себя в КПК или в планшетных компьютерах и вполне логично предположить, что в скором времени подобные  технологии будут интегрированы в персональные компьютеры или ноутбуки. Хотя эта технология много раз испытана и внедряется в нашу жизнь, все же у нее выявляется ряд недостатков. К примеру, данная технология распознает не все языки и диалекты и требует четкого и понятного образца для поиска, что является не совсем возможным, так как многие люди обладают различными дефектами речи и могу4т говорить с акцентами. Так же основной проблемой является  то, что на аудио запросе должен быть записан только голос с информацией для запроса, что затрудняет поиск в общественных и шумных местах. Для усовершенствования, по- моему мнению, стоит интегрировать системы частотного анализа звуковых файлов. Это поможет устройству анализировать устройству полученный аудио образец и позволит отделить в аудио файле с помощью частотного анализа голос от прочих шумов, что могло бы заметно улучшить данную технологию.


ЛИТЕРАТУРА

1. Игорь Лантратов о голосовом поиске Google

2. Материалы с конференции goggle «образование 2.0» от 27.03.2007

3. Толковый словарь Ожегова

4. Орфографический словарь

5. Д. Н. Колисниченко «Поисковые системы и продвижение сайтов в интернете»

6. Рахимов Р.Г. Компьютерные технологии в музыке:- Уфа: ООО «Вагант», 2007

7. «новейшая энциклопедия интернета»2005 год В.П.Леонтьев

8. http://websound.ru/articles/theory/soundfaq.htm

9. http://soundmake.narod.ru/teoriy/obr/3/3.html



Информация о работе Поиск информации в звуковых файлах