Поиск информации в звуковых файлах

Автор работы: Пользователь скрыл имя, 01 Июня 2012 в 22:23, курсовая работа

Краткое описание

В настоящее время интерес пользователей к мультимедийному контенту постоянно возрастает по мере того как стремительно увеличивается количество широкополосных подключений к интернету. Мультимедийный контент становится все более востребованным, но пользователи не могут его найти, потому что поисковые сайты неспособны индексировать текст внутри мультимедийных файлов, хотя такие технологии существуют. Дошло до того, что уже сами производители

Содержание

Введение…………………………………………………………………………..3
Аналитический раздел…………………………………………………………..11
Результирующий раздел………………………………………………………...19
Литература……………………………………………………………………….20

Прикрепленные файлы: 1 файл

курсовик_мой_финальный_3.doc

— 171.00 Кб (Скачать документ)


4

 

Министерство образования науки Российской федерации

Государственное образовательное учреждение высшего профессионального образования

«Таганрогский государственный педагогический институт имени А.П.Чехова»

Факультет информатики

Кафедра Информатики и управления

 

 

Курсовая работа на тему:

«Поиск информации в звуковых файлах»

 

Курсовая работа

Студентки 3 курса 31 группы

Шеверда Марии

Информатика с доп. спец. Иностр.яз.

 

Научный руководитель

К.Т.Н. Доц. Белаконова  И. А.

 

 

 

 

Таганрог

2010

 

 

СОДЕРЖАНИЕ

Введение…………………………………………………………………………..3

Аналитический раздел…………………………………………………………..11

Результирующий раздел………………………………………………………...19

Литература……………………………………………………………………….20

 

 

 

 


ВВЕДЕНИЕ

В настоящее время интерес пользователей к мультимедийному контенту постоянно возрастает по мере того как стремительно увеличивается количество широкополосных подключений к интернету. Мультимедийный контент становится все более востребованным, но пользователи не могут его найти, потому что поисковые сайты неспособны индексировать текст внутри мультимедийных файлов, хотя такие технологии существуют. Дошло до того, что уже сами производители мультимедийного контента начали подстраиваться под требования современных поисковых машин. Если Google пока не может автоматически распознавать текст в аудиозаписях, то приходится делать это самостоятельно. Например, одна из крупнейших в Америке радиостанций NPR начала выкладывать на своем сайте текстовую расшифровку всех репортажей и выпусков новостей, которые выходят в эфир. Расшифровка производится в реальном режиме времени с помощью специального ПО для распознавания речи от компании StreamSage. Теперь сайт радиостанции, наконец, начал появляться среди результатов поиска Google и Yahoo!. А Google даже сделала NPR специальное предложение по включению аудиозаписей в некий "мультимедийный" раздел поиска, который еще даже официально не объявлен.

Впрочем, надежное распознавание речи в мультимедийных файлах пока в будущем. А сейчас крупнейшим в интернете сайтом по поиску аудио- и видеоконтента является более примитивный Singingfish, который не распознает речь, а использует тэги. Поисковый индекс Singingfish содержит описания более 9 млн. потоковых мультимедийных файлов (валидность ссылок около 99%), и каждый день база данных увеличивается примерно на 80 тыс. Для включения файла в индекс требуется создать для него до 70 текстовых полей описания - это автор, битрейт, размер файла и т.д. Поскольку интерес пользователей к мультимедиа в интернете стремительно растет, то в данный момент Singingfish обрабатывает уже 6 млн. запросов ежемесячно, хотя еще в январе 2004 г. количество запросов составляло 3 млн.

Полнотекстовый поиск по мультимедийным файлам - очень перспективная технология, над которой работают множество фирм. Например, технологию Speechbot разрабатывает НР. Над этими же проблемами работают компании Nexidia и Virage, которая сейчас является собственностью Autonomy, а также такие гиганты как Yahoo! и AOL. Например, Yahoo! Приобрела компанию AltaVista, которая в свое время одной из первых разработала механизм для поиска аудио- и видеофайлов в интернете. AOL также не осталась в стороне и недавно приобрела компанию Singingfish.

Американская Fast-Talk Communications представила новую технологию поиска текстовых фрагментов в звуковых файлах. Подобный инструментарий может оказаться весьма полезным для компаний, обрабатывающих значительные объемы речевой информации. Новая технология может пригодиться и журналистам, у которых отпадет необходимость в длительной и трудоемкой расшифровке интервью.

Работа системы Fast-Talk Communications основана на фонетическом поиске информации.[1] Движок программы анализирует аудиофайл с записанной речью и разбивает его на отдельные фонемы. В случае английского языка число фонем составляет 42. Индексирование записей ведется в реальном времени, то есть обработку интервью можно вести во время его записи.

Для поиска информации в полученном индексе аудиофайла необходимо ввести запрос. Он может быть задан в виде набора фонем (транскрипцию слов можно найти в словарях), либо в виде написанного слова или фразы. Программа автоматически преобразует написанное слово в набор фонем. При этом слово может быть набрано с ошибками и опечатками, главное, чтобы произношение правильного и ошибочного варианта написания было одинаковым. К примеру, информацию о президенте Ливии можно с равным успехом искать по запросам QUADAFY или KADDAFI.

По заявлению разработчиков, поиск текста в аудиофайлах осуществляется с точностью порядка 98%. Результаты практически не зависят от особенностей произношения конкретного человека: акцента, использования диалекта, интонационных особенностей и т.д. Качество записи может быть и невысоким. Поиск информации ведется с высокой скоростью: необходимые данные в тридцатичасовой записи можно найти за одну секунду.

Журналист издания InfoWorld Джон Юделл провел собственные испытания демонстрационной версии системы поиска от Fast-Talk. Он использовал программу для записи 45-минутного интервью и последующего поиска в нем определенных фраз. Юделл остался очень доволен результатами, и, по его мнению, разработка Fast-Talk является революционной. Хотя при вводе запросов нужно учитывать, что поиск ведется по фонемам. Например, по запросу MySQL никаких результатов получено не было, тогда как запрос my sequel оказался более эффективным. С другой стороны, фонетическая модель облегчает поиск имен, так как исчезает необходимость в их точном написании.

Юделл также испытал Fast-Talk на уже готовых интервью с людьми, для которых английский язык не является родным. Результаты оказались вполне удовлетворительными, однако максимально эффективно программа обрабатывает все же речь носителей английского языка. В настоящее время Fast-Talk предлагает свой поисковый движок в комплекте с инструментарием для разработчиков. Компания также предлагает демонстрационную версию программы поиска, работающую с файлами формата .wav

В музыкальной сфере существует ряд программ для редактирования звуковой информации, в частности голоса. Используются такие программы как celemony melodyne, так же используются некоторые программы дополнения музыкальных программ это плагины формата vst. В частности такой плагин variaudio, который используется в виртуальном секвенсоре cubase, данная программа и плагин выполняет обработку звукового файла с распознаванием его частотных характеристик. Таким образом, осуществляется своеобразный поиск  информации в звуковом файле. Проанализировав частотную характеристику файла, пользователь (звукооператор) может изменить длительность отдельных фраз, тональность и темпер голоса. В итоге, звукооператор исправляет  ошибки при записи вокала и сольных инструментальных пар.

В настоящее время поиск  звуковых файлов получил распространение навигационных программ, предназначенных для прокладки маршрутов по средствам GPS и ГЛАНАС. С применением данной технологии пользователь может просто произнести конечную точку своего маршрута. Навигационное устройство проведет анализ и поиск информации, связанных с прокладкой маршрута.

Голосовой интерфейс с компьютером долгое время существовал лишь на страницах фантастических романов – но уже сегодня есть производители, которые предлагают его просто не в качестве интересной игрушки, а в роли основного средства ввода информации.

Например, компания LXE, специализирующаяся на компактных компьютерах в защищенном исполнении, оснащенных беспроводными интерфейсами, полнила свой ассортимент специализированной моделью HX3 для сбора данных в складском учете. Особенностью носимого компьютера HX3 является использование распознавания речи, как основной формы ввода данных.

По словам компании, она стала первым производителем, выпустившим такое изделие на рынок.[8]

Для беспроводного подключения HX3 использует протокол 802.11b/g, обеспечивающий высокую скорость обмена и защиту информацию. Само устройство заключено в компактный (12,6 x 8,9 x 3,6 см) корпус из магниевого сплава. Конструкция оптимизирована для ношения на поясе, а органы управления расположены с таким расчетом, чтобы не требовать визуального контакта – оператор работает «на ощупь». Основной объем данных, как уж говорилось, вводится голосом. Предусмотрено также сканирование штриховых кодов. Причем, наличие в HX3 стандартного интерфейса Bluetooth 2.0+EDR обеспечивает не, только подключение гарнитуры, но и беспроводного сканера штриховых кодов.

Конфигурация компьютера включает процессор XScale PXA255 (400 МГц), 128 Мб SDRAM и 128MB или 512 Мб флэш-памяти. В качестве операционной системы используется Windows CE 5.0 Professional Plus.[9]

Безусловно, область применения компьютера – учет – накладывает свои особенности, в том числе, и на приложения, работающие с голосовым вводом. Тем не менее, перенос центра тяжести именно на этот канал взаимодействии с оператором свидетельствует об определенном уровне зрелости технологии.

Голосовое управление — это способ взаимодействия с устройством при помощи голоса. Первыми бытовыми устройствами с голосовым управлением стали стиральные машины, сегодня ряд компаний (Speereo Software, Nuance, Vox) занимаются разработками исключительно систем с голосовым управлением — речевыми интерфейсами.

В 21 веке голосовое управление становится все более востребованным. Голосовой набор номера поддерживается многими современными мобильными телефонами. Сейчас повсеместному распространению голосового управления мешает недостаточная вычислительная мощность процессоров и проблема наличия посторонних (внешних) шумов. Однако, созданный в 2002 году уникальный математический алгоритм, позволяющий полноценное развертывание системы распознавание речи даже на устройствах с процессором в 40MIPS, успешно доработан и внедрен в ряд устройств крупных мировых производителей.[3]

Голосовое управление основано на технологии распознавания речи: система получает информацию о колебаниях воздуха через микрофон, сравнивает полученные данные с командами, которые записаны в системе и, в случае совпадения, выполняет предписанное действие. Чем больше слогов в записанной команде, тем больше шанс, что система ее распознает без ошибок. К примеру, слова «Июнь» и «Июль» настолько схожи, что очень велика вероятность ошибки. Разработчики систем голосового управления решают эту проблему по-разному. Так, программное обеспечение Nuance может «учиться» интонациям пользователя и «привыкать» к его манере говорить. А голосовой переводчик Speereo просто учитывает, что пользователь запросил перевод слова «Вишня» в рамках раздела «Еда», поэтому программа не перепутает его с божеством «Вишну», который находится в разделе «Религия». Алгоритм распознавания Speereo не основывается на сравнении с другими произношениями, а лишь уникально раскладывает речевой сигнал.

Голосовое управление берется на вооружение автомобильными гигантами: производители автомобилей стремятся повысить безопасность и комфорт водителя, поэтому дают возможность управлять бортовой электроникой при помощи голоса (наподобие «Включи радио, станция четыре»). Это позволяет не отводить взгляда от дороги и не занимать руки водителя лишними манипуляциями.

Предсказанные много лет назад фантастами диалоги с компьютерами сегодня стали реальностью - компьютерная эра подарила человечеству общение с использованием технологий, закодированных в загадочные аббревиатуры ASR (Automated Speech Recognition) и TTS (Text-To-Speech). На смену устаревших технологий IVR (Interactive Voice Response) с "кнопочным" (DTMF) набором, повсеместно приходят Speech-enable IVR,  предусматривающие управление голосовыми командами за счет применения  технологии распознавания речи (ASR).

OPENCOM предлагает речевые технологии: распознавания и синтеза речи.

Сегодня такие голосовые технологии, как распознавание и синтез речи, становятся все более эффективным средством снижения затрат и решением, позволяющим повысить качество телефонного обслуживания клиентов. В настоящее время более 7 миллионов телефонных звонков ежедневно обрабатывается автоматизированными справочными системами самообслуживания клиентов – это голосовые сервисы, построенные на основе технологий распознавания и синтеза речи.

Инвестиции в речевые технологии растут на 25% ежегодно. По прогнозам аналитиков, в 2009 году компании потратят около 2.7 млрд. долларов на внедрение услуг с использованием речевых технологий. Это свидетельствует о том, что многие руководители Call-центров стремятся сократить расходы компании за счет использования автоматизированных справочных систем самообслуживания клиентов. Компаниям выгоднее организовать голосовые сервисы самообслуживания, автоматизировав часто повторяющиеся и рутинные обращения клиентов, чем постоянно расширять штат операторов.[5]

Автоматизированная справочная система самообслуживания клиентов.

Популярность применения автоматизированных справочных систем самообслуживания клиентов связана с использованием в них технологий распознавания и синтеза речи, что позволяет организовать  полноценный диалог с клиентом, в котором автоматизированная справочная система самообслуживания клиентов задает вопросы и, получая ответы клиента, адекватно на них реагирует. Голосовые сервисы стремительно развиваются - уходят в прошлое системы с тоновым набором, в которых приходится прослушивать все разделы меню, пытаясь понять и запомнить, на какую клавишу телефона нажать, чтобы попасть в нужный раздел голосового меню. Система Speech-enable IVR при произнесении ключевого слова сама переключает клиента в нужный раздел меню.

Распознавание и синтез речи в российских голосовых сервисах.[2]

В данный момент идет большое количество споров по вопросу необходимости внедрения решений с голосовыми технологиями распознавания и генерации речи в России. Многие считают, что с позвонившим в компанию клиентом должен общаться только оператор Call-центра, но опыт показывает, что клиент готов самостоятельно получать необходимую ему информацию: например, где находится банкомат, филиал компании, точка продаж или какой сегодня курс обмена валют. Поэтому автоматизированная справочная система самообслуживания клиентов – это рациональное решение для контакт-центров.

Информация о работе Поиск информации в звуковых файлах