Сравнительный анализ систем машинного перевода

Бесплатный доступ

В статье рассматриваются вопросы эволюции автоматической обработки текста, дается сравнительный анализ современных возможностей систем машинного перевода. Выявлены общие и индивидуальные для всех систем достоинства и недостатки наиболее распространенных бесплатных систем типа RBTM, STM и нейросетевого перевода. Дана оценка эффективности и целесообразности использования онлайн-систем в профессиональной деятельности переводчика

Машинный перевод, статистический перевод, перевод, основанный на правилах, нейросетевой перевод, технический перевод, художественный перевод, контекстуальное значение

Короткий адрес: https://sciup.org/140129986

IDR: 140129986

Текст научной статьи Сравнительный анализ систем машинного перевода

Перевод – это творческий процесс, который требует глубокого осмысления текста, учета национальных особенностей и ряда экстралингвистических факторов при передаче на язык перевода. Очень показательным в этом отношении является высказывание А.К. Толстого: «Не следует переводить слова, и даже иногда смысл, а главное, надо передавать впечатление. Необходимо, чтобы читатель перевода переносился бы в ту же сферу, … и чтобы перевод действовал на те же нервы» [6]. Задача «воздействия на те же нервы» остается неразрешимой для систем машинного перевода даже на сегодняшний день.

Несомненно, машинный перевод (МП) явился прорывом в области компьютерной лингвистики, о котором не приходилось и мечтать несколько десятилетий назад. Первые попытки создания примитивного МП были сделаны в середине прошлого века. В 1946 году американский ученый У.Уивер обосновал возможность создания систем машинного перевода на базе ЭВМ, а в 1954 году был впервые продемонстрирован машинный перевод на практике. Для испытания в эксперименте, получившем известность как Джорджтаунский эксперимент, был подготовлен словарь из 250 русских слов, а для перевода были выбраны простейшие русские фразы и разработаны 6 синтаксических правил, обеспечивающих с помощью кодовых чисел правильный перевод [1].

За последние 60 лет научные исследования и разработки в области систем машинного перевода (МП) претерпели огромные изменения. Огромный вклад в развитие систем автоматизированного перевода внесли такие советские ученые, как П.П. Троянский, Д.Ю. Панов, А.А. Ляпунов и И.С. Мухин и др. Теоретические разработки пионеров МП послужили основой для создания систем (ПРОМТ, Сократ, SYSTRAN и др.), которые пользуются спросом и по сей день. В результате накопления началь- ного опыта прототипов языковых систем, классификации грамматик (Н. Хомский), в 60-70 годах появились методы и средства автоматической обработки естественного языка, появились первые инструменты, позволяющие создавать морфологию. В середине 90-х годов произошел переход от лингвистики предложения к лингвистике текста. В это же время появляются первые коммерческие системы автоматической обработки текстов. Первоначальный восторг по поводу возможностей МП еще тогда породил суждения о том, что переводчики будут не нужны уже в ближайшем будущем. Но даже на сегодняшний день, когда разработаны модели когнитивного восприятия текста, внедрены нейросети, анализ автоматической обработки текста свидетельствует о том, что ученым предстоит решить еще массу задач, чтобы приблизить МП к человеческому уровню восприятия текста.

Взвешенный взгляд на возможности автоматического перевода позволяет говорить о целесообразности МП при переводе большого объема технической документации. Перевод художественных текстов практически всегда оказывается низкого качества, поскольку система не владеет языковыми средствами, способными создавать образы и «впечатление», использует примитивные приемы передачи реалий и безэквивалентной лексики, не имеет возможности оперировать переводческими трансформациями, как это способен делать профессиональный переводчик.

Несомненно, онлайн-переводчики служат большим подспорьем для тех, кто хочет извлечь общий смысл из исходного текста, даже если пользователям неизвестен язык. Передовые системы перевода снабжены функцией автоматической идентификацией языка оригинала и настройкой на тематику текста [2].

На сегодняшний день существует большое количество бесплатных систем онлайн-перевода. В статье проведен сравнительный анализ последних версий таких онлайн-переводчиков, как SYSTRANet, PROMPT, Yandex.translate, Google.translate.

Лексико-грамматический анализ языковой пары (английский – русский) выявил определенные недостатки во всех системах.

Хуже всего себя проявила система SYSTRANet от компании SYSTRAN. Допускаются семантические ошибки при переводе простых бытовых слов и фраз. Например, она полячка переведено как it polyachka, достаньте билет пер. reach your ticket, эта девушка – Александра пер. this girl – Alexander, дождь все еще идет пер. the rain still goes.

Неточности и ошибки связаны, в основном, с переводом многозначных слов, поскольку система выдает наиболее употребимые первые значения. Контекстуальные значения, на примере отрывка из художественной литературы, не передаются. Всем тестируемым системам предлагалось перевести предложение Sara, a bubbly girl with a tumble of copper brown curls (Энн Тайлер), содержащее метафорический эпитет bubbly и существительное tumble в контекстуальном значении копна. Литературный перевод предложения – Сара, жизнерадостная девушка с копной медно-рыжих курчавых волос. Система перевода Systran предложила следующий вариант: Сара, шипучая напиток девушка с падением медно-коричневых скручиваемостей.

Грамматический анализ предложений выявил частые ошибки практически во всех грамматических аспектах: артикли, отсутствие глагола-связки или оборота there is/there are, видовременные формы глагола, страдательный залог, порядок слов при построении вопросов, притяжание, сложное дополнение. При переводе на русский язык часто встречается нарушение падежного согласования и лексической сочетаемости слов.

Тем не менее, несмотря на устойчивое наличие лексических и грамматических ошибок, перевод технического текста был выполнен чуть более адекватно и его обратный перевод на русский язык совпадал на 80% процентов с оригинальным текстом.

Онлайн-переводчик PROMT был разработан в России бывшими сотрудниками лаборатории инженерной лингвистики ЛГПИ им. А. И. Герцена. Система перевода PROMT Translation Office 2000 позиционируется как профессиональная система МП, которая гарантирует качественный перевод и позволяет переводить большие объемы информации. В основе процесса перевода – система RBTM (rule-based machine translation). Данная система реализует перевод «по правилам», процесс перевода строится на анализе лингвистических баз языках, на основе описания двух языков [3,4].

Онлайн-переводчик действительно обладает большими функциональными возможностями: позволяет выбрать тематику словарей, доступна функция автоматического определения языка. В памяти переводчика – многочисленная коллекция языковых пар на 15 языках, включая редкие. Лексико-грамматический анализ на материале того же набора предложений нейтрального, художественного и научного стиля выявил следующее.

Применение МП без настройки на тематику (или с намеренно неверной настройкой) служит предметом многочисленных ляпов.

Лексический анализ простых повествовательных и вопросительных предложений нейтрального стиля выявил некоторые лексические несоответствия: достаньте билет пер. get your ticket, дождь все еще идет пер. the rain still goes. В целом, общий смысл остальных предложений был понятен и переведен без грубых нарушений норм языка. Перевод предложения Ему удалили моляр может послужить классическим примером переводческих ляпов систем с автоматической настройкой тематики словарей. Онлайн-переводчик выдал вариант to it removed the painter.

Грамматический анализ показал, что определение морфологических характеристик лексем выполняется программой более эффективно. Так, например, система «видит» в предложении оборот there is/are и встраивает в английский перевод, хотя в русском варианте эта конструкция не читается. К тому же, система дает правильный перевод сложного дополнения: he saw his mother entering the room пер. он видел, как его мать вошла в комнату, что само по себе является большим достижением в плане морфологического анализа слов в предложении.

Тем не менее, еще повторяются ошибки, связанные с употреблением артиклей, аспектным разграничением времен (переводчик не видит различия между Continuous и Simple), употреблением страдательного залога, порядка слов при построении вопросительных предложений, использовании вспомогательных глаголов.

Перевод контекстуальных значений и предложений художественного стиля все же далек от профессионального «ручного» перевода: Сара, игристая девочка с падением медно-каштановых завитков.

Электронный переводчик Yandex достаточно специфичен, представляет собой пример системы МП типа SMT (Statistical Machine Translation). Система статистического перевода построена на анализе параллельных корпусов для генерации перевода.

Как показал лексико-грамматический анализ разнонаправленных текстов перевода, система не выдает стабильно правильный перевод, но во многих случаях варианты перевода самые удачные. Погрешности и ошибки при переводе можно суммировать следующим образом:

  • •    при переводе текстов на русский язык во многих случаях наблюдается нарушение согласования в тексте перевода;

  • •    система не дает адекватный перевод некоторых грамматических конструкций, в частности, сложного дополнения, аспектного разграничения времен (не различает предложения в Simple\Continuous\ Perfect Continuous, Simple\Perfect);

  • •    во многих случаях отсутствует глагол «to be» (она по-лячка пер. she pole);

  • •    не использует оборот there is/there are при переводе предложений типа В Москве много исторических зданий пер. In Moscow a lot of beautiful buildings;

  • •    копирует порядок слов при переводе вопроса.

Вместе с тем, в некоторых случаях система дает лучший вариант из числа проанализированных: Дождь еще идет It’s still raining.Во многих случаях пассивные конструкции переводятся правильно.

Такое нестабильное попадание в точные варианты обусловлено тем, что в данном переводчике используется статистическая система, алгоритм работы которой заключается в анализе статических данных, а не правил языка. Перевод выдается на основе анализа текстов подобной информации, содержащихся в памяти переводчика.

Система дает приемлемый перевод технических текстов с минимальным набором лексических и грамматических ошибок. Переводчик предложил верный вариант для фразы сокращение от английского слова пер. abbreviation from English, а не reduction как в переводах от ПРОМТ и SYSTRANet.

Качество перевода текстов художественной литературы значительно хуже уровня перевода технических текстов. Контекстуальные значения не передаются: кудри Сары, бисерные девушка с а сушильный медно-коричневый. Во многих случаях при переводе на русский нарушается согласование и лексическая сочетаемость слов.

Наиболее эффективной в плане точности перевода оказалась система МП Google translate. Данная система заслуживает внимания также потому, что является примером использования нейронных сетей, на которые компания Googleперевела свои сервисы в ноябре 2016 года. С марта 2017 к языковым парам добавился нейросетевой перевод на русский язык. Нейронный переводчик использует широкий контекст, чтобы определить наиболее точный вариант перевода, после чего выстраивает предложение с учетом грамматических норм. Система снабжена функци- ей автоматического распознавания языка, корректировки перевода пользователями. В базе системы на сегодняшний день языковые пары 98 языков.

Лексико-грамматический анализ повествовательных и вопросительных предложений, переведенных системой Google translate, показал некоторые преимущества нейронного переводчика относительно других систем перевода.

В частности, система видит и переводит обороты there is/there are (В Москве много красивых зданий пер. There are many beautiful buildings in Moscow); глагол-связка в русско-английском переводе не теряется (Она полячка пер. She’s Polish); во многих предложениях дается адекватный перевод вопросительных предложений с соответствующим порядком слов и вспомогательными глаголами (Do you know them?, Why are you laughing? и др.); дается адекватный перевод сложного дополнения. Недочеты касаются использования артиклей, различения длительного аспекта и совершенного вида глагола (The ticket collector checks tickets вместо The ticket collector is checking tickets). Последние замечания касаются контекстуального значения, подтекста, обусловленного множеством факторов, понимание которого доступно лишь человеку. Недочеты лексического характера касаются перевода предложений типа Дождь все еще идет пер. The rain is still coming, достаньте свой билет пер. get your ticket и др. В целом, анализируемый переводчик предложил адекватный перевод большинства предложений разговорного и нейтрального стиля.

Уровень перевода технического текста, предложенный нейронным переводчиком, гораздо выше, чем переводы тех же текстов другими системами, но также требует анализа и редактирования на предмет точности перевода терминов, соблюдения грамматических правил и т.д.

Несмотря на более адекватный по сравнению с другими системами перевод предложений художественного стиля, машинный перевод от Google далек от совершенства: Сара, игривая девушка с падением медно-коричневых кудрей.

Современные компьютерные программы, в частности, Google translate, неплохо переводят формализованный текст с четкой синтаксической структурой. Тем не менее, любой переведенный машиной текст должен восприниматься как черновой вариант, требующий анализа и редактирования. В некоторых случаях корректировка текста занимает больше времени, чем «ручной» перевод с использованием электронных словарей узкой тематики или систем ТМ (Translation Memory). Современные электронные словари разрабатываются с учетом четкой адресации, сочетаемостных потенций слова, указанием смысловых связей слова в лексической системе языка [5], что позволяет сделать осмысленный выбор термина или словосочетания и ставит под вопрос регулярное использование систем автоматической обработки в ходе выполнения профессионального технического перевода. Самой сложной задачей для систем МП является выбор контекстуального значения, обусловленного множеством факторов. Перевод художественной литературы остается непосильной задачей для МТ. Создание образа, оказание воздействие на читателя через использование всевозможных стилистических приемов, передача ироничного отношения автора – творческий процесс, доступный только человеку.

Список литературы Сравнительный анализ систем машинного перевода

  • Авдонина М.Ю., Жабо Н.И. Использование информационных технологий при переводе научно-технических текстов: теоретические и практические материалы для студентов экологического факультета/М.Ю. Авдонина, Н.И. Жабо. -КИЯ экологического факультета, 2015. -43с
  • Голуб Л.Н. Развитие коммуникативной компетенции обучаемых на основе информационных технологий.//Вестник образовательного консорциума Среднерусский университет. Информационные технологии. Электронный журнал. 2016. № 2 (8). -С.5-7
  • Исламов Р.С., Фомин А.Г. Анализ современных систем машинного перевода типа SMT и RBMT//Филологические науки. Вопросы теории и практики. Тамбов: Грамота, 2013. №3 (21). Ч.1. -С.69 -73
  • Медведева С.А., Мацура К.В. Лингвистический редактор PROMT//Электронный журнал. Вестник образовательного консорциума «Среднерусский университет». Серия: Информационные технологии. 2014. №3. С. 26-28. Режим доступа: http://www.universitys.ru
  • Павлова Е.С., Селифонова Е.Д. Принципы разработки электронного двуязычного словаря//Вестник образовательного консорциума Среднерусский университет. Информационные технологии. 2016. № 2 (8). -С. 37-39
  • Толстой А.К. Собр. соч., т. 4./А.К. Толстой. -М.: Изд-во: Художественная литература, 1964. -с. 214
Еще
Статья научная