Поиск информации в звуковых файлах

Автор работы: Пользователь скрыл имя, 01 Июня 2012 в 22:23, курсовая работа

Краткое описание

В настоящее время интерес пользователей к мультимедийному контенту постоянно возрастает по мере того как стремительно увеличивается количество широкополосных подключений к интернету. Мультимедийный контент становится все более востребованным, но пользователи не могут его найти, потому что поисковые сайты неспособны индексировать текст внутри мультимедийных файлов, хотя такие технологии существуют. Дошло до того, что уже сами производители

Содержание

Введение…………………………………………………………………………..3
Аналитический раздел…………………………………………………………..11
Результирующий раздел………………………………………………………...19
Литература……………………………………………………………………….20

Скачать полностью (48.13 Кб) Сколько стоит заказать работу?

Прикрепленные файлы: 1 файл

курсовик_мой_финальный_3.doc

— 171.00 Кб (Скачать документ)

OPENCOM предлагает решения, построенные на базе современных речевых технологий распознавания и синтеза речи и ориентированные для использования в различных секторах бизнеса. Наши инновационные решения используются как эффективные инструменты для оптимизации работы операторского Call-центра и повышения клиентоориентированности компаний.

Вероятность распознавания слов, фраз или предложений способна достигать 100%; клиенту проще назвать ключевое слово, чем прослушать и запомнить большое количество пунктов меню и цифр; сквозная навигация по меню голосовыми командами позволяет клиентам call-центра упростить и ускорить доступ к интересующей информации и избавляет от мучительного набора команд в тональном режиме, что особенно удобно в случаях с глубоким уровнем вложенности разделов меню; голосовое меню необходимо создавать так, чтобы клиент интуитивно понимал, какую фразу или команду ему необходимо назвать для получения ответа на запрос, необходимо превращать общение с системой в удобный диалог.

АНАЛИТИЧЕСКИЙ РАЗДЕЛ

Первое устройство для распознавания речи появилось в 1952 году, оно могло распознавать произнесённые человеком цифры. [1] В 1964 году на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.

Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.

Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.[4]

Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания — вот только некоторые преимущества, доказывающие целесообразность подобных решений.

Прогресс, однако, не стоит на месте и в последнее время в телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.

Основным преимуществом голосовых систем является дружественность к пользователю — он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.

Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI) (Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.

На сегодняшний день существует два типа систем распознавания речи - работающие "на клиенте" (client-based) и по принципу "клиент-сервер" (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки "на клиенте" в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая "на клиенте" кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.

Google, для своей операционной системы, используемой на мобильных устройствах и планшетных компьютеров, привлекла разработчиков программного обеспечения, с целью создать программы мгновенного перевода. Уже имеются первые разработки, в качестве них можно привести программу universal translated.[7] Принцип работы ее заключается в том, чтобы помочь данному пользователю пообщаться с иностранцами на другом языке. Смысл ее использования довольно прост. Пользователь, выбрав свой язык, произносит речь, которая записывается в память устройства по истечению нескольких секунд программа анализирует полученный аудио файл и переводит его в текстовый формат. На следующем этапе программа переводит язык, который пользователь указал для языка перевода. Затем, полученный аудио файл переводится и воспроизводится. Таким образом, в программе задействованы алгоритмы распознавания речи и поиска информации в аудио файлах. В свою очередь компания APLE выпустила ряд программ данной технологии. Программы предназначаются для распознавания исполнителя той или иной музыкальной композиции. Ее работа заключается в том, что вы записываете часть песни на музыкальный магнитофон и программа анализирует запись и сравнивает ее с базой данных на музыкальном магазине itunes.

В начале года корпорация IBM (http://www.ibm.com) объявила о новом достижении в области голосовых технологий, которое даст возможность водителям автомобилей и пользователям карманных ПК управлять аппаратными средствами с помощью естественного языка, освободив их от необходимости заучивания специальных команд. Новый компонент программного пакета IBM Embedded ViaVoice 4.4 значительно усовершенствует технологии голосового управления для карманных устройств и навигационных систем автомобилей. При этом обеспечивается большая гибкость системы и точность выполнения указаний пользователя.

Прежде для взаимодействия с системами распознавания речи пользователям приходилось запоминать фиксированный набор фраз и команд. Теперь, благодаря разработанной IBM технологии, для управления радиоприемником водитель может просто сказать: «настроиться на частоту 104,3», или «установить приемник на частоту 104,3», или «изменить радиостанцию на 104,3». Чтобы настроить радиоприемник на желаемую волну, подходят самые разнообразные, простые и понятные фразы.

Пакет IBM Embedded ViaVoice 4.4 включает специальный компонент, который использует современные средства статистического языкового моделирования и семантической интерпретации, чтобы обеспечить взаимодействие между пользователем и системой распознавания голоса в радиоприемниках, навигационных системах или карманных ПК на естественном языке. Кроме того, новый пакет значительно повышает точность распознавания голоса на фоне любых шумов благодаря новым акустическим моделям, усовершенствованным методикам обучения и улучшенному определению границы «речь/тишина» с учетом различных случайных шумов (неровности дорожного покрытия, сирены, пересечение железнодорожной линии и т. д.).[6]

ПО IBM Embedded ViaVoice Version 4.4 предлагает голосовые технологии для мобильных устройств, таких, как навигационные системы автомобилей, телефоны с голосовым управлением, карманные ПК, и других интеллектуальных устройств. Встраиваемые приложения могут использовать голосовые технологии IBM как для автоматического распознавания речи ASR (Automatic Speech Recognition), чтобы вводить команды в мобильные устройства, так и для преобразования текста в речь TTS (Text-To-Speech), чтобы синтезировать голос человека для воспроизведения текста и другой информации из мобильного устройства.

Помимо этого, было объявлено, что компания VoiceBox Technologies (http://www.voicebox.com) будет встраивать механизм распознавания речи IBM Embedded ViaVoice в свое решение VoiceBox Navigator — первую в мире платформу для голосового поиска в диалоговом режиме. Решение VoiceBox предоставляет пользователям возможность находить информационные ресурсы и перемещаться по ним в режиме диалога в свободной форме. Кроме того, это решение формирует и выполняет процедуры интеллектуального поиска, определяя намерения пользователя на базе контекста запроса. Что бы ему ни потребовалось — найти музыку или развлекательные ресурсы, определить маршрут движения или сделать телефонный звонок, — сочетание технологий двух компаний позволит просто и точно осуществлять навигацию по информационным ресурсам и управлять ими с мобильных устройств в режиме диалога. Принцип работы VoiceBox Navigator основан на использовании алгоритмов Knowledge Enhanced Search and Speech Recognition, определяющих контекст и намерения пользователя в диалоговом режиме, а также механизма голосового поиска, который динамически формирует и выполняет ориентированные на контекст запросы.

Первым пользователем платформы VoiceBox со встроенной технологией IBM Embedded ViaVoice стала компания XM Satellite Radio, предлагающая 160 цифровых каналов радиовещания, транслирующих музыкальные, новостные и спортивные передачи, интервью и развлекательные программы. Новое приложение позволяет водителям автомобилей находить XM-каналы, регулировать громкость, а также запрашивать данные о движении на дорогах, курсах акций, информацию о спорте и погоде — просто «разговаривая» со своим XM-радиоприемником. Планируется, что в течение этого года новую технологию уже смогут использовать компании по производству и модернизации автомобилей.[4]

Кроме того, компании Johnson Controls (http://www.johnsoncontrols.com) и VoiceBox недавно заключили многолетний договор на использование VoiceBox Navigator для диалогового поиска и извлечения ресурсов посредством IBM Embedded ViaVoice на беспроводных мобильных устройствах BlueConnect, предлагаемых Johnson Controls для автомобильного рынка. Телематические средства голосового поиска включают голосовой набор номера с использованием технологии Bluetooth и навигацию по музыкальным ресурсам. Телематическое решение этих компаний будет использовать технологии, входящие в пакет IBM Embedded ViaVoice, и платформу VoiceBox Navigator. Технологии IBM Embedded ViaVoice гарантируют точное и надежное распознавание речи, а VoiceBox обеспечит диалоговый поиск мультимедийных и других цифровых ресурсов с помощью различных устройств в машине и дома или посредством мобильного телефона.[3]

В заключение отметим, что компания Openstream (http://www.openstream.com) намерена интегрировать в свою платформу для мобильных решений программный продукт IBM WebSphere Everyplace Multimodal. Это даст возможность получать доступ к информации по требованию, используя различные способы ввода и вывода информации, в том числе путем голосового управления, ввода команд на клавиатуре или нажатия клавиш на телефонах, КПК и других мобильных устройствах. ПО IBM WebSphere Everyplace Multimodal основано на технологии IBM Embedded ViaVoice, позволяющей вводить данные и управлять устройством различными способами. В рамках этого комплексного подхода пользователи могут с помощью голосовых команд получить доступ к электронной почте, новостям и Web-ресурсам по требованию. Кроме того, технология позволяет преобразовывать текст в речь, так что пользователь сможет не только читать информацию, но и прослушивать ее.

Две самые популярные поисковые системы Google «Яндекс» практически одновременно запускают голосовой поиск. Информация о русскоязычном голосовом поиске Google уже прошла по всем телеэкранам мира, в то время как о голосовом поиске Yandex пока что знают лишь немногие.

Хоть и технология преобразования речи в поисковые запросы на английском языке работает у Google ещё с 2008 года, компания Google только сейчас решила массово распространить эту новость, введя поиск на русском языке и, уже создала, приложения для Android, которые можно скачать в Android Маркете, а для iPhone и Nokia S60 эта функция входит в приложение Google Mobile App.

Пока неизвестно, будет ли голосовой поиск работать со всем спектром услуг Google, или ограничится, как «Яндекс», только некоторыми сервисами. Технологию работы голосового поиска компания Google пока не раскрывает. На данный момент голосовой поиск от Google доступен не на всех языках и не для всех мобильных телефонов.

В отличие от Google, Yandex предлагает воспользоваться голосовым поиском только в «Яндекс. карты», что достаточно логично, так как, пользуясь навигацией во время движения почти невозможно отвлечься, чтобы набрать искомый адрес. С помощью голосового запроса пользователи «Яндекс.карт» смогут быстро находить нужные адреса, а также ближайшие заправочные станции, рестораны или отделения банков.

Технология, которую использует «Яндекс», подразумевает распознавание речи и преобразование её в текстовый запрос. Эта технология была разработана петербургской компанией «Центр речевых технологий», сотрудник которого Анна Белаш рассказала, что словарь системы содержит миллионы распознаваемых слов.

Напомним, что аналогичные голосовые услуги поиска предоставляют пока только поисковые системы Yahoo! и Bing.

Статистики, говорящей об эффективности или популярности метода, пока нет — лишь компания Google недавно рассказала, что около четверти запросов с мобильных телефонов под управлением Android осуществляется голосом.

Данные технологии разрабатывались российскими программистами и ранее. Одним из результатов трудов в этой отрасли вы можете найти на нашем сайте, воспользовавшись поиском по ключевым словам «Управление компьютера голосом»

Сложностью данных приложений являлась универсальность. Написать такую программу под одного человека было несложно, для одного языка сложнее, но так, же возможно. А вот сделать программу универсально было не под силу никому. Ну, как мы видим обе компании пошли вторым путем, они разрабатывают голосовой поиск для отдельных языков, что, в общем, то было неплохим решением. Давно пора. Уже близится то время, когда мы будем работать на компьютере в абсолютно неподвижном состоянии.

Осталось компании Microsoft создать данное дополнение для Офисных приложений серии Microsoft Office и мы начнем писать текст, используя лишь микрофон.

ИССЛЕДОВАНИЕ

Распознавание речи выполняется программами, которые могут быть либо установлены на компьютер, либо «прошиты» в памяти мобильных гаджетов. С технической точки зрения любое распознавание речи осуществляется по одному и тому же принципу: микрофон воспринимает звуковые волны человеческого голоса, а система распознавания речи преобразует их в текст, который впоследствии сопоставляется с заранее заданными образцами. В подобных программах, как правило, таких образцов довольно много.
Существуют два типа программ распознавания речи:

Информация о работе Поиск информации в звуковых файлах