Понятие и алгоритм работы систем машинного перевода
Автор: Ризвонов М.М.
Журнал: Международный журнал гуманитарных и естественных наук @intjournal
Рубрика: Филологические науки
Статья в выпуске: 1-2 (100), 2025 года.
Бесплатный доступ
Машинный перевод в последнее время находится в центре всеобщего внимания благодаря современным достижениям в области технологий искусственного интеллекта. В статье раскрывается понятие термина «машинный перевод» с точки зрения истории его возникновения и особенностей его использования на современном этапе. Раскрываются основные механизмы обработки текста машинными системами в процессе перевода с одного языка на другой. Делаются выводы о преимуществах и недостатках использования систем машинного перевода.
Машинный перевод, искусственный интеллект, перевод
Короткий адрес: https://sciup.org/170208694
IDR: 170208694 | DOI: 10.24412/2500-1000-2025-1-2-170-173
Текст научной статьи Понятие и алгоритм работы систем машинного перевода
В условиях быстрого развития технологий и повсеместного использования компьютерных систем машинный перевод становится все более распространенным инструментом для перевода текстов различных областей.
Идея использовать для перевода текстов с языка оригинала на другой язык специальное машинное оборудование зародилась еще в XVII веке. Ее авторами стали немецкий философ, изобретатель и языковед Г.В. Лейбниц и французский философ, механик и физик Р. Декарт. Однако практического развития данная идея не получила, поскольку уровень технологий того времени был слишком низким, чтобы всерьез заняться ее реализацией.
Истоки зарождения машинного перевода тесно связаны с именем Чарльза Бэббиджа – английского математика, жившего в XIX веке, сыгравшего роль в истории создания компьютера. Он утверждал, что в один день прогресс дойдет до того, что машина сможет понимать человеческую речь и сама переводить его на какой-либо язык. Бэббидж так и не смог реализовать задумку.
О машинном переводе как самостоятельном научном направлении заговорили в 1947 г., когда криптограф У. Уивер высказал мысль о рассмотрении задачи перевода с одного языка на другой в качестве новой области использования технологий декодирования [1, с. 98].
Отметим важный момент в истории становления машинного перевода, когда в 1954 г. в штаб-квартире IBM в Нью-Йорке был про- веден так называемый Джорджтаунский эксперимент. В этом же году был поставлен и первый опыт по машинному переводу в СССР. Необходимо указать, что ведущую роль в отечественной лингвистике в создании теоретических основ машинного перевода сыграли П.С. Кузнецов, А.А. Ляпунов, А.А. Реформатский, Д.Ю. Панов, О.С. Кулагина. В современной лингвистике – А.Д. Андреева, О.В. Скворцова, О.В. Митре-нина. Что касается зарубежной лингвистики, можно выделить таких лингвистов как J. Bar-Hillel, J. Byrne, V. Dendi.
Машинный перевод в узком смысле – это технология, использующая программное обеспечение для автоматического перевода текста с одного языка на другой, в широком смысле – это область научных исследований, находящаяся на стыке лингвистики, математики, кибернетики, и имеющая целью построение систем, реализующих машинный перевод в узком смысле.
Машинный перевод основан на использовании словарей и баз данных, где содержатся эквивалентные слова и фразы на разных языках. Кроме того, алгоритмы машинного обучения позволяют улучшать точность перевода, основываясь на большом объеме предоставленной программе информации.
Машинный перевод представляет собой процесс, в рамках которого компьютерная программа в автоматическом режиме осуществляет перевод текста с одного языка на другой – целевой [2, с. 140].
Согласно исследованию Занемонского, существуют следующие основные системы машинного перевода:
-
- RBMT (Rule-BasedMachineTranslation) – системы, основанные на правилах грамматики.
-
- SMT (StatisticalMachineTranslation) – системы, основанные на анализе статистики.
-
- Нейронный машинный перевод – системы, основанные на нейронных сетях (по структуре они схожи с мозгом человека, поэтому и получили такое название) [3, с. 51].
Рассмотрим плюсы и минусы каждой из систем подробнее.
RBMT-системы меняют синтаксис предложений, а также хорошо работают с контекстом. В программы встроены языковые словари и правила грамматики.
Плюсы. Высокая точность грамматики и синтаксиса, благодаря чему пользователь получает стабильный перевод. Поскольку программы имеют функцию встроенных словарей, значительно расширяется сфера применимости.
Минусы. Базы данных словарей и грамматики необходимо обслуживать. Это приводит к росту затрат на человеческие ресурсы, следовательно, и финансовых вложений.
SMT-системы работают по принципам, похожим на работу первого компьютера переводчика. В такие системы загружаются массивы данных с корпусами текстов. В них находятся тексты на исходном языке и их перевод, выполненный специалистом. Затем система анализирует статистические данные межъязыковых соответствий, синтаксических конструкций и подбирает наиболее вероятный перевод.
Плюсы. Сферу перевода легко расширить, т. к. такие системы легко настраиваются.
Минусы. Ввиду множества грамматических ошибок адекватность перевода снижается. Несмотря на то, что сфера перевода быстро расширяема, в массивы данных требуется загружать переводы, выполненные специалистами, на это нужны финансы и человеческий ресурс. В противном случае, это приведет к дефициту загружаемых данных.
Системы нейронного машинного перевода работают по принципу работы головного мозга. Они построены по принципам SMT-систем. Такие системы имеют очень сложную структуру по сравнению с двумя предыдущими. Слово х подается в кодер, преобразующийся в контекстный вектор – он указывает на слова, с которыми слово x встречается в тексте [4, с. 85].
Декодер преобразует из контекстного вектора слово на переводимом языке. В системах нейронного машинного перевода есть такая архитектурная особенность, как механизм внимания. Благодаря данному механизму система фокусируется на отдельных сегментах текста.
Плюсы. Система развивается самостоятельно, поэтому присутствие человека не является острой необходимостью. Благодаря сложной структуре системы растет качество перевода. Он становится близок к идеальному.
Минусы. Система развивается самостоятельно, но делает это медленно, особенно в случае работы с большими объемами данных. Причиной тому служат аппаратные ограничения. В случае работы с узконаправленными текстами точность перевода резко снижается. Это связано с тем, что, в отличие от SMT-систем, нейронные сети принимают ограниченные массивы данных. Данные ограничения не нагружают систему. Поэтому редко встречающиеся слова корректно перевести не удается.
Анализ теоретического материала показал, что выделяются следующие этапы алгоритма работы систем машинного перевода:
-
1. Выделение и анализ терминов.
-
2. Сегментация текста.
-
3. Поиск терминов.
-
4. Анализ памяти переводов.
-
5. Процесс перевода. Непосредственно перевод.
На данном этапе анализируется терминология. Например, пользователь вводит словосочетание «солнцезащитные очки». Программа анализирует данное словосочетание на возможность того, что оно является термином несмотря на то, что в системе есть слова «солнцезащитный» и «очки».
Она нужна для того, чтобы одна часть текста переводилась независимо от другой. В противном случае перевод получится некорректным. Сегменты должны быть граммати-чески-независимыми друг от друга. Для этого используются знаки пунктуации.
На этапе поиска терминологии программа ищет и находит все возможные варианты пе- ревода термина и автоматически добавляет проще «научить» работать с массивами дан- его в перевод.
Программа берет данный текст и сравнивает его с теми, что имеются в базе. Она находит в базе похожие сегменты и предлагает их к использованию в данном тексте.
Проверка терминов на соответ-ствие/Проверка сегментов и грамматики – происходят одновременно. Проверяются такие пункты, как корректные места сегментов, корректность грамматики переведенного текста, а также терминологии [5, с. 400].
Хотя системы нейронных сетей имеют перспективы на порядок выше, чем RBMTи SMT-системы, на сегодняшний день нейронные сети сложно назвать ведущими в области машинного перевода. RBMT все еще лучше пе- ных.
Таким образом, выделим положительные стороны машинного перевода: экономия времени, свободный доступ, удобство пользования. А также отметим и существенный недостаток: необходимость редактирования текста для обеспечения высокого качества перевода. В настоящее время существует множество систем машинного перевода, которые справляются с задачей передачи общего смысла и выполняют свою функцию, помогая не только профессиональным переводчикам, но и всем людям, которым требуется выполнить перевод. Для дальнейшего усовершенствования систем машинного перевода необходимо постоянно дополнять и обогащать терминологическую базу. Таким образом, ресурсы, предоставляющие услуги машинного перевода, будут пользоваться популярностью, а качество редают грамматику и структуру предложения машинного перевода постоянно повышаться.
в узких сферах перевода, а SMT-системы
Список литературы Понятие и алгоритм работы систем машинного перевода
- Старатович Е.В. Машинный перевод / Е.В. Старатович // Наука и инновации: исследование и достижения: сборник статей V Международной научно-практической конференции, Пенза, 28-29 марта 2022 года. - Пенза: Автономная некоммерческая научно-образовательная организация «Приволжский Дом знаний», 2022. - С. 98-101.
- Шамигулова С.Х. Нейросетевой машинный перевод: анализ и классификация ошибок при переводе автоматических субтитров / С.Х. Шамигулова // Система непрерывного филологического образования: школа-колледж-вуз. Современные подходы к преподаванию дисциплин филологического цикла в условиях полилингвального образования: Сборник научных трудов по материалам XXII Всероссийской с международным участием научно-практической конференции, Уфа, 14-15 апреля 2022 года. - Уфа: Башкирский государственный педагогический университет им. М. Акмуллы, 2022. - С. 140-145. - EDN ZUHAUB.
- Занемонский Е.В. Машинный перевод / Е.В. Занемонский, Д.А. Захаров // Проблемы научной мысли. - 2022. - Т. 8, № 12. - С. 51-54.
- Ковалева Д. Основные проблемы машинного перевода / Д. Ковалева // Актуальные проблемы науки, образования и общества: Сборник статей по материалам молодёжной научно-практической конференции, приуроченной к Международному Дню Науки за мир и развитие, Москва, 20-21 января 2023 года. - Москва: Московский информационно-технологический университет - Московский архитектурно-строительный институт, 2023. - С. 83-89.
- Латыпова Э.Р. Роль машинного перевода в межкультурной коммуникации / Э.Р. Латыпова, Б.В. Кашаев // Евразийский юридический журнал. - 2023. - № 1(176). - С. 400-402.