Системы машинного перевода. Достоинства и недостатки

Автор работы: Пользователь скрыл имя, 06 Января 2014 в 16:54, реферат

Краткое описание

В последнее время знание иностранных языков может понадобиться не только в путешествии или на приеме гостей из-за рубежа, но и в собственном доме, например, при просмотре популярных голливудских кинолент, при чтении инструкции по использованию заморских товаров или Web-страниц, которые разыскивает по всему свету неутомимый броузер. Таким образом, оказывается, что даже не покидая родных стен, мы нуждаемся в услугах переводчика. Однако необходимую помощь нам вполне может оказать домашний компьютер. Системы машинного перевода (МП) давно перестали быть диковинкой.

Содержание

1. Машинный перевод…………………………………………………………………….. 3
2. Формы организации взаимодействия ЭВМ и человека при машинном переводе…. 4
3. История машинного перевода…………………………………………………………. 5
4. Качество перевода……………………………………………………………………… 8
5. Статистический машинный перевод………………………………………………….. 9
6. Компьютер на месте переводчика……………………………………………………. 10
7. Машинный перевод – это… инструмент……………………………………………... 12
8. Переводчик для офиса…………………………………………………………………. 13
9. Обзор доступных систем машинного перевода……………………………………… 19
10. Недостатки программ машинного перевода…………………………………………. 20
11. Достоинства программ – переводчиков………………………………………………. 22
12. Заключение……………………………………………………………………………… 24
13. Список используемой литературы…………………………………………………….. 26

Прикрепленные файлы: 1 файл

реферат машинный перевод.doc

— 196.00 Кб (Скачать документ)

 

Качество перевода

Качество перевода зависит от тематики и стиля исходного текста. Машинный перевод художественных текстов практически всегда оказывается неудовлетворительного качества. Тем не менее, для технических документов при наличии специализированных машинных словарей и некоторой настройке системы на особенности того или иного типа текстов возможно получение перевода приемлемого качества, который нуждается лишь в небольшой редакторской корректировке. Чем более формализован стиль исходного документа, тем большего качества перевода можно ожидать. Самых лучших результатов при использовании машинного перевода можно достичь для текстов, написанных в техническом (различные описания и руководства) и официально-деловом стиле.

Применение машинного  перевода без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных бродящих по Интернету шуток. Из пространных примеров наиболее известен текст «Гуртовщики Мыши» (перевод компьютерной документации программой Poliglossum на основе медицинского, коммерческого и юридического словарей); из кратких — фраза «My cat has given birth to four kittens, two yellow, one white and one black», которую переводчик компании ПРОМТ превращает в «Моя кошка родила четырёх котят, два желтых цвета, одного белого и одного афроамериканца». Главной причиной того, почему программа перевела именно так, было то, что после слова black нужно было добавить kitten, тогда программа переведёт правильно: «Моя кошка родила четырёх котят: двух жёлтых, одного белого и одного чёрного котёнка».

Чаще всего подобные шутки связаны  с тем, что программа не распознаёт контекст фразы и переводит термины дословно, к тому же не отличая собственных имён от обычных слов. Тот же переводчик ПРОМТ превращает «bra-ket notation» в «примечание Кети лифчика», «Lie algebra» — в «алгебру Лжи», «eccentricity vector» — в «вектор оригинальности», «Shawnee Smith» в «индеец племени шони Смит» и т. п.

 

Статистический машинный перевод

Статистический машинный перевод — это разновидность машинного перевода текста, основанная на сравнении больших объёмов языковых пар. Языковые пары — тексты, содержащие предложения на одном языке и соответствующие им предложения на втором, могут быть как вариантами написания двух предложений человеком — носителем двух языков, так и набором предложений и их переводов, выполненных человеком. Таким образом статистический машинный перевод обладает свойством «самообучения». Чем больше в распоряжении имеется языковых пар и чем точнее они соответствуют друг другу, тем лучше результат статистического машинного перевода. Под понятием "статистического машинного перевода" подразумевается общий подход к решению проблемы перевода, который основан на поиске наиболее вероятного перевода предложения с использованием данных, полученных из двуязычной совокупности текстов. В качестве примера двуязычной совокупности текстов можно назвать парламентские отчеты, которые представляют собой протоколы дебатов в парламенте. Двуязычные парламентские отчеты издаются в Канаде, Гонконге и других странах; официальные документы Европейского экономического сообщества издаются на 11 языках; а Организация объединенных наций публикует документы на нескольких языках. Как оказалось, эти материалы представляют собой бесценные ресурсы для статистического машинного перевода.

Интересные факты

  • Чарльз Э. Р. Хоар утверждает, что разработал метод, известный как «быстрая сортировка», именно для машинного перевода. Дело в том, что в те времена словарь можно было хранить только на магнитной ленте, и если отсортировать слова в исходном тексте, то их перевод можно получить за один прогон ленты.
  • Системы машинного перевода позволяют провести простой эксперимент, подтверждающий синтаксическое единство русского, украинского и белорусского языков. Для этого достаточно перевести произвольный текст с помощью одной из систем машинного перевода. Качество перевода в данном случае, как правило, получается очень высоким.

 

Компьютер на месте переводчика

Вычислительная  техника, как известно, хорошее подспорье  человеку в рутинной работе. Относится ли к таким занятиям перевод текстов? И да, и нет. С одной стороны, труд переводчика во многом формален, а с другой – перевод не может быть выполнен чисто формально. Есть, например, технический перевод, где важно знать принятые за рубежом стандарты обозначений тех или иных понятий. И есть литературный перевод, когда требуется получить текст, по художественной ценности максимально близкий к оригиналу. Возможно, ли поручить подобную работу компьютеру?

Говоря о МП, следует, прежде всего, помнить, что компьютер — создание бездушное. Он не понимает языковых нюансов, намеков в тексте, того, что называется тонкой игрой слов. Да и, собственно, понять содержание текста в полной мере ему не под силу. Мышления как такового при МП не происходит: предложение расчленяется на части речи, в нем выделяются стандартные конструкции, слова и словосочетания переводятся по находящимся в памяти машины словарям. Затем переведенные части речи собираются по правилам другого языка.

Но этого, согласитесь, недостаточно для полноценного перевода. В зависимости от того или иного стиля и назначения текста одно и то же слово нередко имеет разные значения. В какой-то мере эта особенность учитывается в системах МП: предусмотрены сменные словари, иногда для каждого вида текста предусмотрен свой словарь. Если лексики одного машинного словаря не хватает и применяются несколько словарей одновременно, можно указать системе, из какого словаря нужно брать слово, если есть несколько вариантов его перевода. Наконец, программа сама может предлагать на выбор пользователю несколько вариантов перевода, и он выбирает подходящий вариант, так сказать, вручную. Могут возникнуть и проблемы с переводом слов в устойчивых словосочетаниях и фразеологизмах, но это вполне по силам компьютеру.

Наряду с установленными правилами построения предложения в каждом языке существуют и свои неписаные законы, которые иногда называются красотами языка. Например, предложение на английском языке «This is my book» дословно переводится «Это есть моя книга», и формально это будет правильным, но по-русски так не говорят. В данном случае можно сказать, что предложение «написано так, будто его составил иностранец». Конечно, приведенный пример является простейшим, и возможность исключения слова «is» очень просто отражается в программе МП. Но на практике получившийся перевод похож на текст, написанный иностранцем.

Текст также может содержать  слова, которые нужно понимать в  контексте образа жизни людей в конкретной стране. Например, под словом «демократ» в США подразумеваются политики, выступающие за большее вмешательство государства в экономику, а в России те, кто выступает за большую свободу рынка. Это разные понятия.

Заглавные буквы и сокращения таят в себе и другие подвохи. Когда  слово начинается с большой буквы, его перевод будет начинаться тоже с большой буквы. Слово, целиком состоящее из таких букв, также будет в переводе записано заглавными. В англоязычной литературе достаточно часто встречаются внешне эффектные аббревиатуры, которые могут быть прочитаны как одно слово. Такая аббревиатура и будет переведена единым словом.

Таким образом, результаты МП часто  требуют редактирования. Насколько  адекватными можно считать результаты перевода на компьютере? Это определяется не только качеством системы МП, но и качеством последующего редактирования. Нередко систему МП использует в качестве подспорья специалист, которому нужно быстро перевести, например, техническую документацию. Тогда проблема корректного употребления терминов решается сама собой.

Однако МП – это такая специфическая  область применения компьютеров, в проблемах которой почти каждый ощущает себя более или менее специалистом. Давайте рассмотрим, каким образом осуществляется перевод.

Как переводит компьютер

Во-первых, всем ясно, что чем больше словарь, тем лучше перевод, значит, первая проблема – проблема создания больших словарей для систем.

Во-вторых, ясно, что система должна переводить такие предложения: «Привет, как дела?». Значит, еще одна проблема - научить систему распознавать устойчивые обороты.

В-третьих, понятно, что предложение для перевода пишется по определенным правилам, по определенным правилам переводится, а значит, есть еще одна проблема: записать все эти правила в виде программы. Вот, собственно, и все.

Самое интересное, что эти проблемы действительно являются основными при разработке систем МП, другое дело, что методы их решения известны далеко не всем и отнюдь не так просты, как может показаться.

Системы МП семейства PROMT (PROgrammer's Machine Translation) - очень хороший объект, чтобы  продемонстрировать, каким образом эти проблемы могут решаться эффективно.

 

Машинный перевод – это… инструмент

Всем хорошо известно, что хороший  перевод текста – это не только творческая, но и достаточно трудоемкая работа. Причем даже самый хороший  перевод, как правило, нуждается в редакторской правке. Что касается творческой части, то в обозримом будущем в соревновании компьютер-человек всегда победит "живой" переводчик. Однако для решения проблем, обусловленных трудоемкостью процесса перевода, системы МП могут оказаться хорошим подспорьем. Для того чтобы это лучше понять, перечислим достоинства программ машинного перевода (общие для всех систем МП вообще и систем PROMT в частности):

  1. Высокая скорость.  Всего несколько секунд и Вы получаете перевод многостраничного текста. Это позволяет быстро понять смысл текста, а если система настроена на перевод текстов этой тематики, требуется минимальная редакторская правка.
  2. Низкая стоимость.  Это очень легко оценить: если вы обращатесь к профессиональным переводчикам, приходиться платить за каждую страницу переведенного текста (в зависимости от региона и уровня квалификации переводчика страница перевода будет стоить от 5 до 20 долларов), либо вы нанимаете штатного переводчика, которому приходится платить зарплату. В случае с системой машинного перевода, вы платите деньги только один раз – при покупке программы. Что вы предпочтете – разовое капиталовложение или регулярные издержки? По данным пользователей компании ПРОМТ при переводе от 50 страниц текста в месяц программа-переводчик PROMT 98 окупается примерно за месяц.
  3. Доступ к услуге.  Немаловажный фактор, который многие критики систем МП не принимают в расчет. Программа-переводчик всегда под рукой, а обращаться в переводческое бюро во многих случаях связано с дополнительными затратами времени и сил.
  4. Конфиденциальность.  Системе МП вы можете доверить любую информацию. Приятно ли вам отдавать на перевод личную переписку? Готовы ли Вы к тому, чтобы посвятить в свои финансовые дела постороннего переводчика? Пойдете ли вы в переводческое бюро для того, что бы перевести какую-нибудь эротическую литературу? Если да, то действительно вопросов нет. Но даже в этом случае, согласитесь, немногие пользователи Вас в этом поддержат. Мы знаем, что многие пользователи регулярно используют наши системы для перевода личных писем, поскольку часто получаем письма от людей, которым наша система помогла устроить личную жизнь. Программа-переводчик сохранит в тайне любые тексты, которой Вы ей доверите.
  5. Универсальность.  Любой переводчик всегда имеет специализацию, т.е. переводит тексты по той теме, которой он хорошо владеет. Когда переводчик художественной литературы берется за перевод, например, технических текстов, ляпсусов не избежать. Взять хотя бы классический пример: "Голый проводник бежит по автобусу" (в оригинале "Naked conductor runs along the bus"). И это не результат творчества компьютера, этот исторический пример имел место, когда компьютер еще был редкостью. Система МП выгодно отличается тем, что она абсолютно универсальна. Нужно только грамотно подключить специализированный словарь по соответствующей тематике. Следует учесть и еще одно преимущество систем МП: пополнение их специализированных словарей новейшими терминами значительно опережает аналогичные словари полиграфического исполнения. В ряде случаев также рекомендуется вести свой собственный словарь новых терминов или новых значений. В этом случае вы гарантированно получаете необходимое качество перевода.
  6. Перевод информации в Интернете.  В онлайне наиболее ярко проявляются все преимущества систем МП. Более того, в большинстве случаев переводить информацию в Интернете, если Вы, конечно, сами не знаете нескольких языков, можно только с помощью программ-переводчиков. Именно эта потребность обусловила огромный рост интереса к системам МП сейчас в мире. Только благодаря онлайновым системам МП появилась возможность просматривать иностранные сайты, не затрудняясь с их переводом. Кроме того, здесь действуют все вышеперечисленные достоинства систем МП: перевод текстов по любой тематике производится быстро и конфиденциально.

Коллективное использование систем МП в организациях дает дополнительные преимущества:

  1. Единообразие стиля и используемой терминологии.  Как известно, затраты на постредактирование при работе коллектива переводчиков составляют около 100-140 % от стоимости перевода. Перевод, выданный системой МПа, гораздо легче править, поскольку он выдержан в одном стиле. Если в тексте, какой-либо часто встречающийся термин переведен неправильно, то все эти ошибки можно исправить простой автозаменой. Когда объемный текст переводится группой переводчиков, то приходится вылавливать отдельные неточности, допущенные каждым переводчиком. Редактору в этом случае требуется также "выравнивать" и стиль перевода.
  2. Отсутствие затрат на форматирование.  Это особенно важно при переводе электронной документации. Программа-переводчик полностью сохраняет исходное форматирование, что позволяет сэкономить время и деньги при подготовке перевода.

Однако вместо того, что бы попытаться использовать те преимущества, которые  предоставляет МП, некоторые люди пытаются довести задачу до абсурда, например, пытаясь перевести поговорки, песни или стихотворения, т.е. именно то, для чего системы МП не предназначены. Другие, не удосужившись прочитать описание программы, пытаются переводить текст по медицинской тематике с подключенным банковским словарем, а затем шумно веселятся, увидев на выходе очевидную бессмыслицу. Подчас создается впечатление, что таким образом они борются с собственными комплексами и пытаются, в первую очередь, себе доказать, что они умнее компьютера. Подобные критики зачастую уподобляются известному персонажу анекдота, который подсунул ломик под бензопилу и был страшно горд, увидев плачевный результат.

 

Переводчик для офиса

Итак, машинный перевод уже довольно уверенно вошел в повседневную жизнь современного офиса и ни у кого не вызывает удивления. В мире существует очень много программ МП. У нас наиболее распространены системы PROMT 98 или Stylus (фирма ПРОМТ) и ПАРС (фирма «Лингвистика 93»). PROMT 98 (Stylus) предназначена для профессионального перевода больших объемов информации, но ее лицензионная копия достаточно дорога. Что же касается использования пиратских копий, то они, как правило, имеют всего один-два словаря с относительно небольшим количеством слов. В лицензионной же копии есть широкий выбор специализированных словарей. Таким образом, использование пиратских копий не только неэтично с моральной и правовой точек зрения, но и не позволяет получить качественный перевод многих текстов.

Информация о работе Системы машинного перевода. Достоинства и недостатки