Машинный перевод для выравнивания параллельных текстов

Бесплатный доступ

В данной статье предложена процедура выравнивания параллельных текстов с использованием он-лайн переводчика предложений исходного текста. Результат перевода сопоставляется с переводом, выполненным профессиональным переводчиком и эти два перевода выравниваются средствами динамического программирования. Метод был проверен на параллельных корпусах рассказов Чехова в переводах на английский, немецкий, французский, итальянский, португальский, фарси и армянский языки. Продолжение работы предполагает фрагментацию предложений на словосочетания и слова.

Машинный перевод, динамическое программирование, армянский язык, рассказы чехова, параллельные тексты

Короткий адрес: https://sciup.org/170188677

IDR: 170188677   |   DOI: 10.24412/2500-1000-2021-4-1-79-82

Текст научной статьи Машинный перевод для выравнивания параллельных текстов

Параллельные лингвистически значимые тексты имеют важное значение в ряде направлений обработки естественного языка и в лексикографических приложениях, в частности в области машинного перевода на основе примеров (EBMT) и в системах Памяти переводов (TM). TM ищет наилучшее совпадение между предложениями исходного и целевого текстов и сохраняет пару предложений в памяти машины. При попытке перевести новый текст система TM ищет ближайшее предложение исходного языка (ИЯ) в памяти устройства и выдает параллельное предложение на целевом языке (ЦЯ). Проблема, решение которой имеет существенное значение в этом подходе, заключается в установлении соответствия между единицами текстов на разных языках на уровне предложений, словосочетаний и даже на уровне слов. Было предложено несколько подходов к решению проблемы сопоставления единиц текста на различных уровнях.

  • [ 1] описал метод, основанный на количестве слов, содержащихся в предложениях, кроме того, им рассматриваются некоторые опорные точки и маркеры абзацев. Этот метод был применен к Hansard Corpus с точностью до 96-97%. [2] предложил метод, основанный на простой статистической модели длин предложений. Модель основана на наблюдении, что бо-

  • лее длинные предложения на одном языке, как правило, переводятся более длинными последовательностями на другом языке, и обратно. Вероятностная величина присваивается каждой паре предложений, исходя из отношения их длин и дисперсии этого отношения. Хотя очевидная эффективность алгоритма GaleChurch проверена на разных языках, он сталкивается с проблемами при обработке сложных выравниваний, то есть когда одно предложение исходного текста соответствует нескольким предложениям целевого текста или наоборот, либо когда несколько предложений переводятся несколькими, но их границы не совпадают.

Следует отметить, что предложенные методы предполагают широкое использование двуязычных словарей для пословно-пооборотного сопоставления предложений ИЯ и ЦЯ [3]. В то же время для большинства пар языков отсутствуют двуязычные машиночитаемые словари, и даже словари на бумажных носителях. В случае наличия последних перевод словаря в машиночитаемую форму требует значительных трудозатрат и не всегда дает точный результат вследствие ошибок распознавания, редактирования, выверки. Предлагаемый подход основан на использовании многоязычного он-лайн переводчика. Такие переводчики выпущены многими ведущими интернет-компаниями, Майкрософт, Яндекс и др. Мы пользуемся переводчиком Гугл, в настоящее время обрабатывающим более 100 языков и, соответственно, около 10000 языковых пар. Список языков постоянно расширяется, улучшается также качество перевода. Для нас важно, что слова ИЯ переводятся наиболее частотными эквивалентами ЦЯ. Далее средствами динамического программирования выполняется сопоставление предложений уже одного и того же ЦЯ, а именно предложений перевода, выполненного профессиональным переводчиком и Гугл-перевода, таким образом исключается необходимость использования двуязычных словарей.

Алгоритм сопоставления

Соответствие между предложениями исходного и целевого текстов очень часто не является взаимно-однозначным, т.е. одному предложению исходного текста могут соответствовать несколько предложений перевода и наоборот; какие-то предложения и целые абзацы исходного текста могут выпадать в переводе, границы предложений могут не совпадать, т.е. группа слов в переводе переходит в следующее предложение и т.п. Особенно часто отсутствие однозначного соответствия между предложениями и фразами в парах текстов характерно для перевода художественных произведений. При выравнивании на уровне предложений применяются чисто структурные (по длине, числу слов) и статистические методы (по частотности составляющих слов), которые могут использоваться для языков с небольшой ресурсной базой. Методы выравнивания по длине очень чувствительны к пропускам или вставкам предложений в том смысле, что отдельный пропуск или вставка может приводить к неправильному последующему выравниванию от точки пропуска или вставки до конца текста. Статистические методы также часто дают ошибочные результаты выравнивания, требуя в последующем дорогостоящей ручной проверки и исправления. Для научных текстов часто применяют метод транскрибирования, поскольку многие научные термины происходят из одного источника - греческого, латинского, позднее из английского, немецкого, французского. Сопоставленные таким образом термины служат опорными точками для дальнейшего выравнивания. Использование двуязычных словарей для выравнивания текстов менее распространено и применялось в основном для спе-диализированных текстов, (англофранцузские протоколы канадского парламента, юридические тексты ЕС, спецификации программ, и т.п.). Предлагаемый нами метод выравнивания содержит определенные ограничения, а именно (a) порядок предложений в русском и иноязычном текстах совпадает; (b) в ЦЯ нет значительных (более 200 слов) пропусков; (c) длина параллельных текстов не слишком большая - порядка 60 тыс. словоупотреблений.

Прежде всего, необходимо провести разделение текста ИЯ (русский язык) на семантические значимые части, предложения или части предложения, чаще всего разделенные знаками препинания. В качестве разделителей в русском тексте выбраны точка, вопросительный и восклицательный знаки, точка с запятой, двоеточие, многоточие. Из набора разделителей следует исключить точку после сокращений, инициалов и т.п. Разделение на семантически значимые части выполняется также и для текста ЦЯ с некоторыми модификациями. В частности, в текстах на армянском языке конец предложения оформляется двоеточием (:)

Затем текст на ЦЯ подается на вход онлайн транслятора в виде отдельных предложений, снабженных порядковыми номерами. В качестве примера взяты предложения из рассказа Чехова «Человек в футляре», переводчик Серго Паязат.

  • 3    Միրոնոսիցկոյե գյուղի ծայրին, տանուտեր Պրոկոֆիի մարագում կանգ առան գիշերելու ուշացած որսորդները:

  • 171 .— Ներողություն, սա ի՞նչ բան էր,— հարցրեց նա: -- Позвольте, что же это такое? -- спросил он.

В результате Гугл-перевода на ИЯ получено предложение:

В конце села Мироносицкое ближе к вечеру охотники остановились у дома Прокофи.

Соответствующее предложение, текста оригинала выглядит следующим образом:

На самом краю села Мироносицкого, в сарае старосты расположились на ночлег запоздавшие охотники .

Подчеркнуты слова, совпавшие в двух переводах. В небольшом предложении, состоящем из 14 слов обнаружено всего 2 полностью совпадающих слова, однако есть возможность сопоставит лексемы географических названий Мироносицкое Мироносицкого и имен собственных Прокофи – Прокофия , вычислив меру Левен-штейна близости между ними. Последовательность совпавших слов в двух переводах одинакова. Число совпавших слов в двух вариантах перевода может служить мерой сходства между предложениями и использоваться в алгоритме динамического программирования (ДП).

В результате выравнивания рассказа А.П. Чехова «Человек в футляре» и его перевода на армянский язык в русском тексте были выделены 305 предложений, в армянском тексте – 284 предложения, однако в армянском тексте отсутствуют такие знаки конца предложения, как восклицательный и вопросительный знак и точка с запятой, которые приняты как разделители предложений в русском тексте. После выравнивания всех сопоставленных пред- ложений методом динамического программирования остались «пробелы», содержащие пары предложений, объединенных при переводе, напр.:

Либо, наоборот, одно предложение переводится двумя. Такие ошибки легко исправляются путем анализа лексики. Другой, более трудный для обработки случай – когда несколько предложений (2-3) переводятся 2-3 предложениями, однако их границы не совпадают: "Эк ведь спит! – вскричала она с негодованием, – и все-то он спит!" <> "My goodness; how he sleeps! - she cried indignantly: And he is always asleep" (Русс-Англ). Во всех подобных случаях приходилось проводить слияние фрагментов.

Фрагмент таблицы, используемой для сопоставления ЦЯ и ИЯ с промежуточным машинным переводом. В 2 и 3 столбцах таблицы выделены подчеркиванием совпадающие словоформы, курсивом выделены совпадающие лексемы.

ЦЯ

Google - перевод

ИЯ

114. Իսկ Բե՞լիկովը:

114. А Беликов?

А Беликов?

115. Նա Կովալենկոյի մոտ էլ նույն կերպ էր գնում, ինչպես մեզ մոտ:

115. Он пошел к Коваленко так же, как и мы.

Он и к Коваленку ходил так же, как к нам.

116. Գնում նստում էր ու լռում:

116. Он сидел и молчал.

Придет к нему, сядет и молчит.

Заключение.

Предложена процедура выравнивания параллельных текстов на уровне предложений. В процедуре использована система машинного перевода (Google translation), позволяющая в отсутствие двуязычного машиночитаемого словаря выполнить перевод исходного / целевого текста по предложениям и затем сопоставлять этот перевод с предложениями целевого / исходного текста. В качестве меры близости между предложениями можно использовать число совпадающих или близких по написанию слов, не прибегая к морфологическому анализу словоформ. Процедура динамического программирования находит оптимальный путь (в смысле наибольшего числа совпавших слов) от начала текстов до их конца. При этом сопоставленными оказываются 85% всех предложений. Оставшиеся пробелы вызваны, как правило, переводом одного предложения – двумя или более, либо обратно – два или более предложения ИЯ переведены одним предложением ЦЯ. В этих случаях производится слияние указанных сегментов.

Список литературы Машинный перевод для выравнивания параллельных текстов

  • P.F. Brown, V.J. Della Pietra, S.A. Della Pietra, R.L. Mercer. The mathematics of statistical machine translation: parameter estimation // Computational Linguistics. 1993. Vol. 19 (2).
  • Gale W.A., Kenneth W.C. A Program for Aligning Sentences in Bilingual Corpora // Computational Linguistics. 1993. Vol. 9 (1).
  • Кедрова Г.Е., Потемкин С.Б. Использование корпуса параллельных текстов для пополнения специализированного двуязычного словаря // Труды и материалы III Международного Конгресса исследователей русского языка "Русский язык: исторические судьбы и современность" (Москва, 20-23 марта 2007). - М.: МАКС Пресс, 2007. - С. 27-628. - [Электронный ресурс]. - Режим доступа: http://www.isi.edu/naturallanguage/download/hansard/ (дата обращения: 22.04.2012).
Статья научная