Сопоставительный анализ изменений текста научного стиля на английском и русском языках в результате редактирования ИИ
Бесплатный доступ
Статья посвящена сопоставительному исследованию текстовых изменений, возникающих в результате редактирования при помощи технологий ИИ. Рассматриваются примеры фрагментов академических текстов на английском и русском языках, а также их эквиваленты, отредактированные при помощи ChatGPT версий GPT-5.1 и GPT-5.0. Делается вывод о стремлении ИИ к стандартизации стилистических и синтаксических конструкций, проведению одних и тех же преобразований как в англоязычных, так и в русскоязычных текстах. Формируется предположение о том, что большие языковые модели избирают стратегии в соответствии с собственным алгоритмом, а не посредством анализа норм языка, с которым взаимодействуют.
ИИ-редактирование, ChatGPT, большая языковая модель, БЯМ, языковые нормы, когезия
Короткий адрес: https://sciup.org/148333722
IDR: 148333722 | УДК: 81:004.8 | DOI: 10.18137/RNU.V925X.26.02.P.089
Comparative analysis of textual alterations in English and Russian scientific texts as a result of AI-aided editing
The article describes a comparative analysis of textual alterations as a result of AI-aided editing. It explores examples of scientific texts’ extracts in English and Russian as well as their Chat- GPT (GPT-5.1 и GPT-5.0. versions) redacted counterparts. A conclusion is drawn about AI’s tendency to standardize stylistic and syntactic constructions, to carry out the same transformations in bothenglish-language and Russian-language texts. An assumption is made that LLM chooses strategies according withits own algorithm, rather than by analyzing the norms of the language it interacts with.
Текст научной статьи Сопоставительный анализ изменений текста научного стиля на английском и русском языках в результате редактирования ИИ
Вестник Российского нового университетаСерия: Человек в современном мире. 2026. № 2
Начиная с конца 2022 года технология искусственного интеллекта достигла беспрецедентного уровня доступности, и с тех пор темпы ее развития только растут, а количество генеративных моделей, чат-ботов и других ее форм увеличилось во множество раз. Развитие генеративных моделей, таких как ChatGPT1, усилило внимание ученых, в частности лингвистов, к тому, как алгоритмы формируют текстовую структуру и внутреннюю связность [1–5].
В этом контексте в англоязычных научных работах все чаще исследуется понятие коге-зийности текста. В исследовании механизмов генерации текста при помощи ИИ зарубежные авторы чаще подразумевают стремление к повышению ясности и точности текста [6–8]. В текстах, написанных при помощи нейросетей, такая ясность и точность часто выражаются во внешних, поверхностных характеристиках текста, таких как слова-маркеры, показывающие связь высказываний между собой. В русском языке это такие слова и словосочетания, как «тем не менее», «важно отметить», «потому», «более того», «во-первых», «во-вторых» и другие. В английском же можно увидеть их соответствия в виде “therefore”, “thus”, “firstly”, “notably”, “arguably”, “despite this”, “although” и др.
На текущем этапе исследования потенциала и возможного влияния технологий искусственного интеллекта в области лингвистики одним из главных затруднений является тот факт, что инструменты ИИ оказывают все большее воздействие на существующие стилистические нормы. Наибольшее присутствие текстов, созданных или отредактированных при помощи ИИ, наблюдается в сфере научной литературы, в деловых переписках, а также в текстах в медиапространстве.
Цель данного исследования - описать и продемонстрировать, как языковые модели ИИ способствуют чрезмерной выраженности связей высказываний внутри текста в двух языках разной типологической классификации - на примере текстов на английском и русском языках. Главным объектом исследования стали фрагменты научных текстов, а также варианты этих текстов, отредактированные при помощи ИИ.
Прежде всего, необходимо указать на то, какое место в типологической классификации занимают английский и русский языки. Оба этих языка являются относятся к флективным, однако русский язык является флективным-синтетическим, тогда как английский принадлежит к флективным-аналитическим языкам.
В ходе исследования нами были выбраны несколько статей лингвистической тематики на английском и русском языках. Фрагменты этих статей были отредактированы при помощи моделей GPT-5.1 и GPT-5.0. Запрос к чат-боту (Prompt) формулировался на соответствующем оригинальному тексту анализируемой статьи языке, в частности: “I will give you an extract from an article called <”name of the Article”>. Rewrite it for clarity and flow:” и “Я предоставлю фрагмент статьи <«название статьи»>. Отредактируй его для большей ясности и связности”. Также стоит отметить, что функция «Память» чат-бота (данная функция позволяет ChatGPT сохранять и использовать память при ответе) не использовалась с целью обеспечить чистоту эксперимента. Также каждый сеанс редактирования отдельного фрагмента проводился в отдельном окне запроса к чат-боту. Первый фрагмент англоязычной статьи, а также его версия, отредактированная ИИ, представлены ниже (см. Таблицу 1).
Сопоставительный анализ изменений текста научного стиля на английском 91и русском языках в результате редактирования ИИ 91
Таблица 10
Фрагмент текста оригинала
Brain regions modulated by linguistic demand
The contrast between the Semantic Difficult and Semantic Easy conditions was used to identify brain regions modulated by linguistic demand (Figure 2, Table 2). In the left hemisphere, the regions that were differentially active for the more difficult condition included the left IFG (pars opercularis and triangularis) and sulcus, the inferior frontal junction, the precentral gyrus, the anterior insula, and an extensive occipito-temporal region extending anteriorly along the fusiform gyrus almost to the temporal pole; also notable was activation of the left preSMA/anterior-mid cingulate that did not meet the cluster extent threshold (p = .082). Activations in the right hemisphere were similar but less extensive: the inferior frontal activation was largely restricted to the ascending ramus of the Sylvian fissure, the inferior frontal junction, and the anterior insula, while the occipito-temporal region did not extended nearly as anteriorly; the right pre-SMA/anterior-mid cingulate did, however, reach significance. The regions that were deactivated by this contrast were bilateral and reflected the default mode network: the angular gyrus, precuneus, posterior cingulate, and ventromedial prefrontal cortex.
Отредактировано ИИ
Brain regions modulated by linguistic demand
To identify brain regions sensitive to linguistic demand, we contrasted the Semantic Difficult and Semantic Easy conditions (see Figure 2 and Table 2). In the left hemisphere, increased activity during the more difficult condition was observed in the inferior frontal gyrus (pars opercularis and pars triangularis) and its adjacent sulcus, the inferior frontal junction, the precentral gyrus, the anterior insula, and a large occipito-temporal region extending forward along the fusiform gyrus nearly to the temporal pole. Activation was also detected in the left pre-supplementary motor area (preSMA) and anterior mid-cingulate cortex, although this cluster did not reach the threshold for statistical significance (p = .082).
Right-hemisphere activations followed a similar but more restricted pattern. Increased activation was concentrated in the ascending ramus of the Sylvian fissure, the inferior frontal junction, and the anterior insula. The occipito-temporal activation on this side extended less anteriorly than in the left hemisphere. However, the right preSMA/anterior mid-cingulate region did show significant activation.
In contrast, regions showing decreased activity were bilateral and corresponded to the default mode network, including the angular gyrus, precuneus, posterior cingulate cortex, and ventromedial prefrontal cortex.
Источник: [9, с. 19].
Наиболее видимым изменением, произведенным ChatGPT, является преобразование структуры текста. ИИ сегментирует фрагмент статьи на несколько абзацев, что можно выделить как отличительную черту сгенерированных текстов. Следующая значимая трансформация, применяемая ИИ, -замена пассивного залога в большинстве случаев его изначального применения. Так, например, фраза “The contrast between the Semantic Difficult and Semantic Easy conditions was used to…” становится “To identify brain regions sensitive to linguistic demand, we contrasted the Semantic Difficult…” При этом пассивный залог не просто меняется на активный, ИИ подвергает элементы предложения словообразовательным изменениям - так происходит конверсия существительного “contrast” в глагол “contrasted”. ИИ также заменяет лексические элементы на более простые, распространенные: “extending anteriorly along” становится “extending forward along”. Данная замена происходит только один раз, при этом, наоборот, затрудняя понимание содержания текста, так как оппозиция anterior и inferior используется автором на протяжении всей статьи для обозначения областей мозга. Происходит также и отказ со стороны ИИ от обратного порядка слов в предложении. Во всех случаях применения инверсии в оригинале GPT преобразовал предложе-
92 Вестник Российского нового университета92 Серия: Человек в современном мире. 2026. № 2
ния в прямой порядок слов. На примере данного фрагмента отлично прослеживается излишняя грамматическая выраженность когезии текста ИИ. Так, в отредактированном машиной варианте можно наблюдать обилие таких слов, как “To”, “However”, “In contrast”, “although”, тогда как в оригинале используются точки с запятой, двоеточия, знак дроби (/) и др. Происходит замена сложносочиненных и сложноподчиненных предложений: бот сегментирует длительные высказывания на более короткие.
Обратим внимание на следующий фрагмент (см. Таблицу 2).
При редактировании другого фрагмента сохраняется тенденция сегментирования текста на большее количество абзацев мень- шего объема. Сохраняется и закономерная излишняя «выраженность межфразовых связей и линейной развернутости» текста ИИ, прослеживаемая в введении со стороны машины большого количества слов-связок (“Although”, “In contrast”, “Ultimately”). ИИ все так же заменяет лексические элементы на упрощенные синонимы. В частности, стоит обратить внимание на “real world language processing”, который используется авторами на протяжении всей статьи в значении «обработка (мозгом) языка в естественных условиях». ИИ преобразует это словосочетание в “natural language comprehension”, что немного меняет восприятие изначального понятия, введенного авторами (comprehension можно интерпретиро-
Фрагмент текста оригинала
It is unclear to what extent MD regions support language processing in real world language use, as opposed to only in metalinguistic tasks. Blank and Fedorenko (2017) examined intersubject correlations between participants listening to the same narratives in MD regions and language regions. They found stronger intersubject correlations in language regions than MD regions, and focused their interpretation on this difference, but it is noteworthy that intersubject correlations throughout the MD network were still highly significant. We interpret this as evidence for modulation of the MD network by the systematic time-varying demands of (relatively) ecologically valid language comprehension. However other studies from the same group have provided evidence against MD involvement in real world language processing, including lack of MD recruitment in the absence of overt tasks (Diachek et al., 2020), lack of MD modulation by surprisal (Shain et al., 2020), and lack of MD modulation by online measures of incremental processing load (Wehbe et al., 2020). This question is not central to our study, because we are primarily concerned with informing the interpretation of studies of language processing in aphasia, which have usually involved metalinguistic tasks. But going forward, the resolution of this question will be important, because we are interested in understanding the neural mechanisms of real world language processing, not just performance of language tasks.
Таблица 2
Отредактировано ИИ
It remains unclear to what extent the multiple-demand (MD) regions support language processing during real-world comprehension, as opposed to being engaged only during explicit, metalinguistic tasks. Blank and Fedorenko (2017) examined intersubject correlations while participants listened to the same narratives and found stronger correlations in language-selective regions than in MD regions. Although they emphasized this difference in their interpretation, it is noteworthy that correlations within the MD network were still highly significant. We take this as evidence that the MD network is modulated by the systematic, timevarying demands of relatively naturalistic language comprehension.
In contrast, other studies from the same group have reported findings arguing against MD involvement in real-world language processing, including a lack of MD recruitment in the absence of overt tasks (Diachek et al., 2020), no modulation by surprisal (Shain et al., 2020), and no sensitivity to online measures of incremental processing load (Wehbe et al., 2020). Although resolving this issue is not central to the present study - which is primarily concerned with interpreting results from aphasia research that typically uses metalinguistic tasks - it will be important for future work. Ultimately, our goal is to understand the neural mechanisms that support natural language comprehension, not merely performance on languagebased tasks.
Сопоставительный анализ изменений текста научного стиля на английском и русском языках в результате редактирования ИИ
вать как понимание, осознание текста; processing - обработка, анализ, подразумевает именно деятельность мозга в момент восприятия речи).
Следующий фрагмент для анализа был выбран из статьи на русском языке, и работа с чат-ботом проводилась также на русском языке (см. Таблицу 3).
При сопоставлении с анализируемыми англоязычными текстами прослеживаются те же закономерности: сегментирование текста на фрагменты меньшего объема; бóльшее количество слов-связок («связанному с», «с учетом», использование союза «и» в сложносочиненных предложениях вместо запятой); замена слов на их более частотные синонимы. Также стоит отметить и повышение клишированности текста через синонимичные замены: «в обращении к» заменяется на «с учетом», «есть» - на
«представляет собой», «обнажение» -на «выявление скрытого», «привносится в жизнь» - на «формируется».
На примере четвертого фрагмента (см. Таблицу 4) вновь заметно повторное применение ИИ большего количества слов-связок («которые», «тогда как», «при этом»). В частности, редактирование машиной этого фрагмента приводит к искажению смысла: определение «концептосферы, состоящей из единиц мышления - концептов, постоянно изменяющейся и обновляющейся» становится: «концептосферы, состоящей из единиц мышления - концептов, которые находятся в состоянии постоянного изменения и обновления», хотя параметр «постоянно изменяющейся и обновляющейся» относится не к концептам. Однако в этом фрагменте отсутствует сегментирование текста на абзацы меньшего объема.
Таблица 3
Фрагмент текста оригинала
КДА возникает в недрах критической лингвистики [16]. И КДА, и критическая лингвистика во многом восходят к классической риторике, лингвистике текста, социолингвистике, прагматике, прикладной лингвистике. В свою очередь, критическая лингвистика есть применение методик лингвистического анализа к материалу социальной парадигмы, с использованием уместных лингвистических приемов в обращении к соответствующему историко-социальному контексту. Таким образом, происходит обнажение идеологического подтекста и высвечивание процессов в социально-политических сферах общества. Основные представители КДА, названные выше в тексте: Тён Адрианус ван Дейк, Рут Водак, Н. Фэрклаф и другие, заимствуют инструментарий анализа из направлений критической риторики для реконструкции дискурсивных практик и для того, чтобы проследить процесс их дальнейшей трансформации. Будучи составной частью общества, дискурс как метапонятие привносится в жизнь в процессе социальных взаимодействий, и константно подвергается влиянию со стороны социальной структуры.
Отредактировано ИИ
Критический дискурс-анализ (КДА) возникает в русле критической лингвистики [16]. И КДА, и критическая лингвистика во многом восходят к классической риторике, лингвистике текста, социолингвистике, прагматике и прикладной лингвистике. В свою очередь, критическая лингвистика представляет собой применение методов лингвистического анализа к материалу, связанному с социальной проблематикой, с учетом соответствующего историко-социального контекста. В результате становится возможным выявление скрытого идеологического подтекста и освещение процессов, происходящих в социально-политической сфере общества.
Основные представители КДА, упомянутые выше в тексте - Тён Адрианус ван Дейк, Рут Водак, Н. Фэрклаф и другие, - заимствуют аналитический инструментарий из направлений критической риторики для реконструкции дискурсивных практик и прослеживания их дальнейшей трансформации. Будучи составной частью общества, дискурс как метапонятие формируется в процессе социальных взаимодействий и постоянно подвергается воздействию со стороны социальной структуры.
94 Вестник Российского нового университета94 Серия: Человек в современном мире. 2026. № 2
Таблица 4
Фрагмент текста оригинала
Когнитивная лингвистика стала возможной после оформления теоретических постулатов психолингвистики. Именно психолингвисты обосновали концепцию невербальности мышления, существование в сознании людей концептосферы, состоящей из единиц мышления - концептов, постоянно изменяющейся и обновляющейся. Установлено, что знаки языка создаются людьми для обмена важной информацией, то есть для наиболее общераспространенных и коммуникативно востребованных концептов, что знаки языка лишь пунктир на пространстве концептуальных смыслов, что концеп-тосфера намного объёмнее и шире, чем та её часть, которая обозначена языковыми средствами. Эти теоретические достижения психолингвистики стали основой для создания методологии когнитивной лингвистики.
Отредактировано ИИ
Когнитивная лингвистика смогла сформироваться благодаря оформлению теоретических положений психолингвистики. Именно психолингвисты обосновали идею о невербальном характере мышления и существовании в сознании человека концепто-сферы, состоящей из единиц мышления - концептов, которые находятся в состоянии постоянного изменения и обновления. Было установлено, что языковые знаки создаются людьми для передачи значимой информации, то есть для обозначения наиболее распространённых и коммуникативно востребованных концептов. При этом языковые знаки - лишь условные ориентиры в пространстве концептуальных смыслов, тогда как сама концепто-сфера значительно шире и объёмнее той её части, которая находит выражение в языке. Эти теоретические достижения психолингвистики стали основой для разработки методологии когнитивной лингвистики.
Источник: [11, с. 34].
Заключение
Во всех примерах ChatGPT демонстрирует тяготение к повышению грамматической когезийности и выраженности межфразовых связей. Это проявляется в постоянном введении дополнительных слов-связок (“However”, “although, “In contrast”, “Ultimately”, «которые», «тогда как», «при этом», «связанному с», «с учетом»), замене пунктуационных средств связи (например, замена запятых на союз «и» в сложносочиненных предложениях), постоянной маркировке логических связей между высказываниями, что приводит к большей стилистической однообразности текста.
Часто ИИ применяет стратегию сегментирования больших абзацев на несколько маленьких. Хотя данная тенденция является устойчивой, вероятно, из-за небольшого последнего русскоязычного фрагмента, сегментирования текста не было. Чат-бот заменяет сложный авторский синтаксис на более стандартизированный. Так, например, пассивные конструкции становятся активными (was used - we used), устраняются инверсии, теряются параметры имплицит-ности, что нарушает научный стиль автора.
Нейросеть выбирает более частотные и нейтральные термины, использует большее количество клише, что может приводить к искажениям изначального смысла (“natural language processing” - “comprehension”). В этом же значении ИИ склонен к изменению смысловой структуры текста. Так, чат-бот ошибочно идентифицирует принадлежность признаков к понятиям («концептосферы, постоянно изменяющейся и обновляющейся» → «концептов, которые находятся в состоянии постоянного изменения и обновления»). Происходит замена авторских противопоставлений или терминологических оппозиций (например “anterior/inferior” → “forward”).
Сопоставительный характер данного исследования демонстрирует, что, несмотря на различие типологических систем
Сопоставительный анализ изменений текста научного стиля на английском и русском языках в результате редактирования ИИ
(флективный-синтетический русский язык и флективный-аналитический английский), ИИ проводит одни и те же преобразования в обоих языках:
-
• упрощение и стандартизация синтаксиса;
-
• излишнее повышение грамматической когезии;
-
• замена лексических элементов на более частотные;
-
• сегментирование текста;
-
• снижение стилистического разнообразия;
-
• нейтрализация авторских стилистических особенностей.
Все это свидетельствует о том, что трансформации не связаны со структурной составляющей русского и английского языков, а представляют собой результат деятельности генеративной модели, опирающейся на свой собственный стилистиче- ский стандарт. Так как большинство самых популярных моделей ИИ на данный момент проходят обучение на английском языке, а присутствие текстов, сгенерированных и отредактированных при помощи ИИ, только растет, данное наблюдение может оказаться показательным в отношении более глобальных процессов в развитии как английского, так и, в большей степени, русского языка. В будущем это исследование может послужить одним из обоснований более фундаментального исследования воздействия технологий ИИ на формирование человеческой речи. Имеется потенциал проведения лингвистических экспериментов. Также следует обратить внимание на возможный диахронический аспект анализа данного явления, который можно реализовать посредством работы с более ранними и будущими версиями больших языковых моделей (БЯМ).