Терминологическая база в системе автоматической переработки текста: критерии отбора лексики
Автор: Калинина С.В.
Журнал: Известия Санкт-Петербургского государственного экономического университета @izvestia-spgeu
Рубрика: Проблемы языкознания и теории коммуникации
Статья в выпуске: 1 (151), 2025 года.
Бесплатный доступ
Автоматизация обработки значительных объёмов специальной информации обострила интерес к лексическому составу подъязыков и привела к необходимости экспертного анализа технических текстов на естественном языке. Актуальным направлением практической лексикографической деятельности является создание автоматических словарей и терминологических банков данных. Особое значение при этом имеет отбор лексики, осуществляемый с учётом теоретических основ терминоведения, задач конкретного переводческого проекта, архитектуры программного обеспечения.
Прикладное языкознание, машинный перевод, большие языковые модели, автоматизация научно-технической лексикографии, терминологическое редактирование переводов, подъязык нефтегазовой отрасли, терминологическая база данных
Короткий адрес: https://sciup.org/148331384
IDR: 148331384
Текст научной статьи Терминологическая база в системе автоматической переработки текста: критерии отбора лексики
Исследование выполнено в рамках задач прикладной лингвистики на современном этапе её развития, обусловленном научно-технической революцией, междисциплинарными связями гуманитарных и технических наук, пониманием сущности естественного языка как средства сбора, хранения и передачи информации. Значимость разработки и ведения лексикографических источников как способа фиксации,
ГРНТИ 16.31.21
EDN KNPHOR
Светлана Валентиновна Калинина – кандидат филологических наук, начальник отдела по работе с иностранными специалистами и переводческой деятельности ООО «ПО «Киришинефтеоргсинтез» (г. Кириши), доцент кафедры лингвистики и перевода Ленинградского государственного университета имени А.С. Пушкина (г. Пушкин). ORCID 0000-0002-4175-3143
Контактные данные для связи с автором: 187113, Ленинградская обл., г. Кириши, ул. Восточная, д. 24 (Russia, Leningrad reg., Kirishi, Vostochnaya str. 24). Тел.: +7 921 967-00-71.
упорядочения и передачи терминологических единиц определённой предметной области не вызывает сомнения – точная, адекватная и согласованная терминология является залогом высококачественного перевода [14, 24, 47, 43].
Одним из основных пользователей прикладной терминологии является специалист-практик по обработке специальных текстов на естественном языке, значимыми компетенциями которого являются знание основных методов терминоведения, способность формировать лексикографические базы и корпуса данных [1, 2]. В этом процессе, в отсутствие единого подхода к разработке лексикографических источников для автоматической переработки текстов, немаловажной задачей является установление и обоснование критериев отбора лексики, что определяет актуальность исследования.
Методы
Лингвистический анализ языка науки является действенным путём исследования семантики и понятийной систематизации терминологии. В качестве материала исследования используются либо словари, либо тексты. В первом случае описывается компонентный состав термина и его место в терминологическом поле, во втором – употребление термина в текстах, «естественной среде обитания», где наиболее полно исследуется семантика [15, с. 49-50]. Источником отбора лексики является «язык для специальных целей», функциональная разновидность языка для общих целей, служащая для профессионального общения: в этой прикладной терминологии репрезентируются понятия, в которых концептуализированы результаты научно-производственной деятельности человека по изменению окружающей действительности [1, с. 202; 14, с. 77-88].
Поскольку в основе терминологической работы лежат когнитивные, лингвистические, коммуникативные основания, целесообразен расширенный исследовательский подход к терминологии. Науки и дисциплины находятся в постоянном взаимодействии – синтез наук и научных направлений порождает новые дисциплины, а дисциплины, в свою очередь, влияют на синтезирование научного знания [19, с. 10; 24]. Междисциплинарный характер словарной науки «объединил в процессе создания словарей нового поколения профессионалов из других наук: информатики, психологии, педагогики, терминоведения, истории, культуры и т.д.» [13, с. 292].
При работе с терминологией важно помнить о динамичном, не статичном характере терминоси-стемы и об актуальности «синергетического подхода, который позволяет утверждать, что при активном развитии предметной области в терминосистеме конкретного языка возникают точки дифуркации, требующие пересмотра зафиксированной терминосистемы, для того, чтобы она реально отражала соответствующую систему понятий» [4, с. 30].
Интегративный подход к исследованию отраслевой лексики позволяет изучать разные аспекты термина, поскольку принимаются во внимание достижения различных научных теорий, используется методологический инструментарий как когнитивных, так и традиционных методов анализа. Такой подход даёт возможность выявлять не только словообразовательные тенденции в современной отраслевой терминологии, но и описывать особенности переосмысления готовых языковых единиц при вторичной номинации [11].
К системе управления терминологией применяется и смысловой подход – словарная статья в базе терминов содержит лексические единицы, номинирующие одно понятие, а также классифицирующую и описательную информацию. Пользователь устанавливает количество описательных полей, равно как и необходимость добавления мультимедийных объектов, перекрёстных ссылок. Терминологическая база данных (ТБД) в этом случае обладает комплексной структурой и, как правило, содержит следующие компоненты: «информационный (данные о сфере функционирования и фиксации термина), лингвистический (поиск термина в заданном направлении – язык источника и язык перевода, параметры поиска – терминоид → предтермин → квазитермин → термин), технический (параметры поиска: лингвистический, понятийный), организационный (внешние ссылки на дополнительные источники)» [20, с. 49-51].
При создании терминологических баз используется тезаурусный подход, который даёт представление не только о концептуальных связях термина внутри терминологической системы (логос), но и о семантических, синтаксических, лексических особенностях термина (лексис). Тезаурус, итоговая форма представления материала в упорядоченной форме, представляет собой «словарь с концептуальным входом и семантическими связями между его единицами» [15, с. 53]. Тезаурус является моделью логико-семантической структуры терминологии, в нём совмещается тематическая классификация терминологии и классификация по иерархическим/неиерархическим отношениям между лексическими единицами. При разработке тезауруса исследователь проделывает путь от терминов до системы понятий и возвращается к терминам для того, чтобы организовать их в соответствии с системой понятий [35, 37, 51].
В связи с цифровизацией возникла необходимость в представлении информации в удобном для компьютерной обработки виде, что привело применению нового похода, характеризующегося интегрированием онтологического и терминологических принципов. Онтология отражает наиболее разнообразные отношения между обозначаемыми понятиями в различных предметных областях, отличается от других систем организации знаний более высоким уровнем семантической детализации представляемых структур знаний, которые могут быть организованы в виде списка (наименьшая детализация), таксономии, тезауруса (онтология низшего уровня с логико-понятийными отношениями между терминами определённой предметной области) и формальной онтологии (наибольшая детализация). Онтология представляет собой способ формализации, тезаурус – метод семантического описания понятий и терминов предметной области [21, 23, 28, 45, 42].
Онтология используется в автоматической обработке текста – определённой системе понятий соответствуют наборы языковых выражений (терминологических словосочетаний), лингвистические ресурсы (глоссарии) задают концептуализацию предметной области [9, 23]. Тезаурус структурирует термины с синонимами, родственными понятиями на основании лингвистических связей, в то время как онтология фокусируется на концептуальных отношениях, определяя логические связи между понятиями – актуальна для построения терминосистем, репрезентирующих языки для специальных целей, и характеризуется динамическим подходом к представлению знаний [10, 27, 36, 46, 48].
Теория вопроса
Использование систем машинного перевода (МП) давно стало «элементом профессиональной работы» переводчиков [3, с. 22]. Современные системы МП, наряду с большими языковыми моделями (БЯМ), являются удобным инструментом, обеспечивающим оперативность выполнения переводческой задачи. Вместе с тем, возможности этих систем при работе с терминологией той или иной предметной области весьма ограничены, поэтому возникает необходимость интеграции в них терминов для корректного перевода [44, 46, 47, 52]. Распространёнными ошибками в МП и БЯМ являются: некорректный перевод терминологии; несоответствие лексической единицы терминологической базе и предметной области, искажение понятий; несогласованное использование термина; изменение структуры предложения; ошибки согласования по роду, числу, падежу; стилистические неточности [12, 16, 29]. Организованное управление терминологией упрощает процесс постредактирования результатов МП и выдачи БЯМ. Основанием для добавления термина является его частотность в специальных текстах, которая свидетельствует о его внедрённости в профессиональную коммуникацию [8, с. 78; 33].
Практическая терминологическая деятельность предполагает практику создания терминологических словарей – терминологическую лексикографию, терминографию. Создание банков терминологических данных, автоматизированных баз знаний является актуальным направлением терминологической деятельности, ориентированным на обеспечение работ по переводу научно-технической литературы и унификацию (упорядочение, стандартизацию и гармонизацию) терминов. Задачей терминологического редактирования переводов специальных текстов является достижение «правильного использования терминологических единиц с позиции их роли в конкретном тексте и места среди других единиц данной отрасли знаний и/или деятельности внутри терминосистемы» [14, с. 196-203].
Поскольку работа с терминами предполагает не перевод, а поиск эквивалентов – лексических единиц, используемых профессионалами в языке перевода; а терминологические данные имеют источник – профессиональный дискурс, создание материала для последующего лексикографического описания (корпуса текстов, их машинные и отредактированные переводы) должно происходить «в тесном сотрудничестве с экспертами в конкретной области знаний, способными анализировать термины и их переводы» [5, с. 77, 24]. Это связано с тем, что фиксация терминосистемы в словаре требует отбора кандидатов в термины, логико-понятийного анализа лексики путём наложения проекта словника на систему понятий (терминологическая единица в плане содержания обязательно соотносится с определённой единицей соответствующей логико-понятийной системы, выполняя функцию вербализации понятия в определённой предметной области научного знания), организации лексики по алфавитному, систематическому или алфавитно-гнездовому признаку в зависимости от назначения словаря, определение комплекса информации в описании лексики [6, 8, 31, 32].
Классификация терминологических словарей базируется на тематическом охвате и новизне лексики, наполнении словарной статьи, назначении и функции словаря, охвате языков. Специальные терминологические словари ориентированы на профессиональных переводчиков научно-технической литературы и могут быть «регистрирующими (отражающими современное состояние терминологии отрасли), нормативными (содержащими термины, обязательный характер применения которых подтверждён распорядительным документом), информирующими (раскрывающими смысловые отношения между терминами, облегчающими поиск информации)» [7, с. 287-290; 14].
Специальные словари делятся на адресованные человеку и на ориентированные на ЭВМ. Автоматические словари (АС), предназначены для повышения производительности человеческого труда при работе с текстами и используются в практических системах автоматической переработки текста, составляя базы знаний систем МП. Преимущества электронного словаря по сравнению с бумажным состоят в оперативности поиска языковых единиц, возможности подстановки переводных эквивалентов в текст, постоянной актуализации содержания. Важной составляющей АС является «словник, большая часть состава которого для целей обработки научно-технических текстов, представлена терминологической лексикой» [6, с. 318].
Принципы построения АС и терминологических баз данных включают в себя «модульность (относительную независимость входящих в состав объектов и возможность встраиваться в общую систему), динамичность (возможность оперативных корректировок словаря), гибкость (возможность информационного поиска), сбалансированность (системность комплектования словаря), дружественность (эффективность взаимодействия между системой и пользователем)» [5, с. 73].
В рамках настоящего исследования, исходя из особенностей архитектуры систем МП и больших языковых моделей (БЯМ), понятия «словарь», «глоссарий», «терминологическая база» синонимичны. ТБД представляет собой набор терминологических записей, сбор терминологии, цифровой формат, в котором реализуются онтология и тезаурус. Микроструктура ТБД включает в себя ключевой термин, его лексико-грамматические характеристики, структурные модели терминологических сочетаний, дефиницию со ссылкой на источник, синонимы, гнездовые термины, тематическую лексику. Структура словарной статьи динамична, подвержена корректировкам, фиксирует различную лингвистическую и экстралингвистическую информацию: заглавное слово, его иноязычные эквиваленты, тематическую принадлежность, код предметной области, маркировку отдельных значений пометами, неформализованные толкования и/или стандартизированные дефиниции, контексты, источники, подбор иллюстраций функционирования лексемы, сокращения, лингвогеографические ограничения, служебную информацию; организация словарной статьи иерархическая – заглавие, морфологическая характеристика, стилистическая помета, толкование, перевод [5, 6, 18, 21, 29, 31, 32].
Основные результаты
В рамках исследования рассмотрено создание ТБД в МП и БЯМ. ООО «ПРОМТ» – отечественный поставщик программных продуктов в области искусственного интеллекта, создан для поддержки переводческих бизнес-процессов и обеспечения технологической независимости и безопасности. В корпоративной системе машинного перевода PROMT Neural Translation Server (PROMT NTS) предусмотрена возможность создания собственного пользовательского словаря, организованного следующим образом: в поле 1 находится текущая словарная статья (заголовок с указанием части речи, транскрипция (для английского языка), переводы с указанием грамматической информации, комментарии), в поле 2 – список словосочетаний, содержащих заголовок данной словарной статьи, в поле 3 – алфавитный список словаря, в поле 4 – примеры из баз контекстов, в которых встречается данная лексическая единица.
Есть ряд ограничений: в словарь могут быть занесены только существительные и прилагательные (с учётом морфологии), для каждого слова можно задать только один перевод – введённый перевод термина будет применяться во всех контекстах, в этой связи в словарь не следует добавлять общеупотребительные слова; словарь можно сохранить в файле архива PROMT (*.adc) или текстовом файле (*.txt) кодировки Unicode/UTF8; артикли и показатель инфинитива игнорируются [40]. Однако, учитывая то, что в языке для специальных целей происходят процессы терминологизации/детерминологизации, целесообразно добавление в словарь единиц с широким значением, относящихся к слою общеупотребительной лексики и выступающих в роли терминов [11, с. 15]. Для этого у правообладателя PROMT NTS запрошены соответствующие патчи, программное обеспечение для корректировки данных.
В ходе предварительной подготовки к МП уточняется терминологическая лексика в исходном тексте, после МП – извлекаются кандидаты в термины для новых словарных статей и вводятся в словарные ресурсы системы МП [3]. В состав глоссария в МП добавляются термины (слова/словосочетания), сокращения (аббревиатуры, акронимы), наименования (компаний, организаций, должностей, продуктов, документов и пр.), адреса, жаргонизмы, слоганы, описания, устойчивые выражения, термины без перевода (по желанию) [17, с. 77].
Существует точка зрения, что отнесение профессионализмов/профессиональных жаргонизмов к терминологической лексике не является обоснованным, поскольку термин вербализирует научное или профессиональное понятие, а профессионализм лишь отсылает к нему [1, с. 207]. Вместе с тем, процесс отбора терминологической лексики для TБД систем МП сопряжён с субъективностью, определяемой задачами конкретного переводческого проекта и профессиональной компетентностью терминолога, на усмотрение которого возможно включение предтерминов, терминоидов, номенов, профессионализмов, консубстациональных и других единиц специальной лексики. При этом, целесообразнее создавать много небольших словарей под определённые проекты, нежели добавлять все термины в одну терминологическую базу.
Анализ лексики языка для специальных целей показывает, что в составе терминологий, репрезентирующих различные сферы научного знания, представлены термины-эпонимы, аббревиатуры, акронимы, но-мены, значительное количество единиц со сложной структурой, к которым сложнее подобрать эквивалент. Отмечены зыбкая граница между терминами различных областей знания, несовпадение объёма значений многозначных слов в разных языках, необходимость корректной передачи безэквивалентной лексики [1, 7, 11, 12, 47]. Экспертная оценка, фиксация термина в специализированном словаре, технологической карте, нормативных документах предприятия, наличие дефиниции или объяснения в технических текстах также являются основанием для отбора терминологической лексики [21, c. 13].
Принцип отбора терминологических единиц базируется на сущностных характеристиках термина: в отношении семантики — соответствие отражаемому термином понятию, полисемантичность; в отношении структуры — соответствие языковым нормам, краткость, способность к деривации, инвариантность, мотивированность; в отношении функционирования – внедрённость, воспроизводимость, интернациональность, современность, благозвучность, эзотеричность. Учитывается временной промежуток появления лексики, новизна содержания как факт вербализации появившегося понятия, отсутствие в лексикографических источниках и многоязычных терминологических базах [49, 50], многозначность как проявление антропоцентрической природы лексической единицы [11].
В ходе создания словаря в PROMT NTS создан персонифицированный профиль перевода, добавлена терминологическая лексика, при этом важно убедиться в отсутствии пробела в конце слова/словосоче-тания, а при вводе аббревиатур учитывать регистр. Частеречный состав общетехнического термина помимо существительных и прилагательных, содержит наречия, глаголы, которые также могут быть занесены в пользовательский словарь [21, 26]. Для перевода фрагмента отраслевой периодики в словарь с учётом вышеуказанных критериев введены англоязычные единицы специальной лексики нефтегазовой отрасли тематической группы «Технологии»: «мой словарь» → «добавить слово» → «сохранить». Результаты МП, безусловно, нуждаются в постредактировании, но встроенная система терминологического менеджмента автоматически подставляет необходимую лексику в текст перевода, облегчая тем самым рабочую задачу профессионального переводчика. Пример перевода текста нефтегазовой предметной области, выполненного с помощью нейронного МП – PROMT NTS приведён в таблице 1.
В цифровом архиве Ассоциации Компьютерной Лингвистики не обнаружено работ по разработке нефтегазового глоссария для систем МП и БЯМ [22]. На основании фреймовой схемы «Нефтепереработка» в ПО Protégé создан фрагмент онтологии нефтеперерабатывающего оборудования “Oil processing equpment.rdf” – оборудование структурировано по классам (резервуары, насосы, теплообменники, контрольно-измерительные приборы и автоматика и т.д.), обозначены иерархические отношения между классами, для конкретных единиц оборудования (индивидов) указаны характеристики и метки на русском и английском языке. Далее в трансформер DeepSeek выгружен файл для перевода в паре en_ru и написан следующий promt “translate the attached file into Russian using the highlighted terms’ translation as per the ontology” [11, 39, 41, 25].
Таблица 1
Пример работы системы машинного перевода (фрагмент)
Оригинал |
Перевод PROMT NTS |
During World War II, the coal-to-liquid process has been modified for vacuum residua applications, commonly referred to as slurry-bed hydroprocessing . This hydroprocessing technology is capital intensive and complex to operate [38]. |
Во время второй мировой войны процесс превращения угля в жидкость был модифицирован для вакуумных остаточных применений, обычно называемых гидроочисткой слоем взвешенного осадка . Эта технология гидрообработки является капиталоёмкой и сложной в эксплуатации. |
In 2012, Equinor set a company-wide upstream flaring intensity target of 0.2% by 2020 for its operated assets. It aims to stop routine flaring in its operations by 2030 at the latest [38]. |
В 2012 году Equinor установила для своих эксплуатируемых активов целевой показатель интенсивности сжигания газа на факеле в масштабах всей компании на уровне 0,2% к 2020 году. Он нацелен на то, чтобы прекратить рутинное сжигание газа на факеле в своей деятельности не позднее 2030 года. |
The completed jumpers were manufactured to meet the company-supplied metrology and FAT included hydro and lift tests [38]. |
Готовые перемычки были изготовлены в соответствии с метрологией, поставляемой компанией, и заводские приемочные испытания включали гидравлические и подъемные испытания. |
The Liza Unity will be designed to produce 220,000 b/d of oil with associated gas-treatment capacity of 400 MMcfd and water injection capacity of 250,000 b/d [38]. |
Liza Unity будет рассчитана на добычу 220 000 баррелей нефти в сутки с производственной мощностью переработки попутного газа 400 млн. кубических футов в сутки и мощностью закачки воды 250 000 баррелей в сутки. |
В результате выделенные термины переведены корректно. Выдача БЯМ, как и результаты МП, нуждается в постредактировании, однако требуемая терминологическая точность достигнута. Пример перевода текста нефтегазовой предметной области, выполненного с помощью БЯМ – трансформера DeepSeek приведён в таблице 2.
Таблица 2
Пример работы большой языковой модели (фрагмент)
Оригинал |
Перевод трансформера DeepSeek |
Beebe said Northern Offshore works to maintain, service, and preserve a rig’s components, including the blowout preventers and mud pumps [38]. |
Компания Northern Offshore занимается обслуживанием, ремонтом и консервацией компонентов буровой установки, включая ** противовыбросовое оборудование ** и ** насосы для бурового раствора **. |
Ordinarily, people refer to horizontal storage tanks as “ bullet tanks ”. Some say this alludes to the tank’s shape. Others, mostly firefighters, say it is what the tank becomes in any incident if not securely fastened to the ground [30]. |
Горизонтальные резервуары часто называют **« горизон-тальными резервуарами пулевидной формы »**. Некоторые связывают это название с формой резервуара. Другие, преимущественно пожарные, утверждают, что такое название отражает поведение резервуара при аварии, если он не закреплён надёжно. |
The maxi-naphtha distillate HyK unit will apply advanced catalytic solution in combination with high-efficiency heat integration provided by spi-raled-tube heat exchangers technology from Zhenhai Petrochemical Jianan Engineering Co. Ltd [38]. |
Макси-нафта-дистиллятная установка HyK будет использовать передовые каталитические решения в сочетании с высокоэффективной тепловой интеграцией, обеспечиваемой ** спиралевидными трубчатыми теплообменниками ** от Zhenhai Petrochemical Jianan Engineering Co. Ltd. |
The acidic blowdown vapors from potential pressure relief valve releases are routed to the acid blowdown drum to knock out any entrained liquid sulfuric acid [34]. |
Кислотные пары от возможных выбросов через ** предохра-нительный клапан ** направляются в барабан для сброса кислоты, где происходит отделение жидкой серной кислоты. |
Заключение
Проблема исследования актуальна, поскольку активно используемые в настоящее время нейронные сети и трансформеры не всегда в полной мере решают задачи ведения и пополнения терминологических баз. В этой связи при их непродуманном применении высок риск нарушения терминологии. Управление терминологий в современных системах МП и БЯМ способствует обеспечению оперативности и должного качества перевода научно-технической литературы, результативности профессиональной межъязыковой бизнес-коммуникации. Важной задачей при автоматической обработке специальных текстов на естественном языке является отбор лексики для терминологических баз. Принципы и критерии отбора определяются уровнем профессиональной компетентности лингвиста-терминолога, соответствием цели переводческого проекта, наличием ограничений в архитектуре выбранного программного обеспечения автоматизации перевода.