Функциональная стилистика научного текста М. Н. Кожиной и современные корпусные исследования по идентификации искусственно сгенерированного контента
Автор: Рябцева Н.К.
Журнал: Вестник Пермского университета. Российская и зарубежная филология @vestnik-psu-philology
Рубрика: Язык, культура, общество
Статья в выпуске: 4 т.17, 2025 года.
Бесплатный доступ
В статье подчеркивается значимость научной деятельности выдающегося отечественного ученого, профессора Пермского государственного университета М. Н. Кожиной и ее особый вклад в лингвистику в целом и в современную стилистику в особенности. Показана взаимосвязь современных компьютерных и корпусных статистических исследований с направлениями работы пермской стилистической школы, основанной М. Н. Кожиной. На материале последних развернутых статистических исследований в области идентификации искусственно сгенерированных текстов продемонстрирована преемственность и эффективность квантитативного анализа языка, речи и коммуникации, а также его значимость для развития науки в целом. Так, данные последних развернутых исследований в этой области свидетельствуют об устойчивом росте использования общедоступного инструмента класса «Искусственный интеллект» ChatGPT-4 в научных публикациях почти сразу после его выпуска (30 ноября 2022 г.). Причем самый большой и быстрый рост искусственно сгенерированного контента отмечается в публикациях по компьютерным наукам – до 17,5 %. Основным принципом установления данного факта являлось системное масштабное статистическое сравнение свыше 950 900 научных статей, опубликованных на английском языке с января 2020 г. по февраль 2024 г. в ведущих мировых научных журналах по различным академическим дисциплинам – написанных до выпуска ChatGPT-4 и после него. При этом частотность слов в аннотациях по компьютерным наукам за последние 14 лет (2010–2024 гг.) оказалась непропорционально большой у четырех слов – realm, intricate, showcasing, pivotal. Причем именно после поступления ChatGPT-4 в свободный доступ они показали внезапный всплеск употребления. Таким образом, использование ChatGPT-4, особенно в области научной коммуникации, создает принципиально новые проблемы, в том числе лингвистические и стилистические, по идентификации искусственно сгенерированного контента.
Функциональная стилистика, научный текст, корпусные исследования, частотность, ChatGPT-4, искусственно сгенерированный контент
Короткий адрес: https://sciup.org/147252791
IDR: 147252791 | УДК: 81’38 | DOI: 10.17072/2073-6681-2025-4-81-90
Текст научной статьи Функциональная стилистика научного текста М. Н. Кожиной и современные корпусные исследования по идентификации искусственно сгенерированного контента
Маргарита Николаевна Кожина как выдающийся ученый и заслуженный деятель науки РФ, как создатель пермской школы функциональной стилистики, известной в России и за рубежом, а также как выдающийся специалист в области изучения родного языка и его истории, социолингвистики, риторики и прагматики, внесла своими трудами неоценимый вклад в развитие лингвистики в целом. Этот выдающийся вклад был по достоинству оценен многочисленными коллегами, соратниками и учениками М. Н. Кожиной, которые в своих публикациях с большой благодарностью и уважением выражают ей признательность как своему учителю, наставнику и соратнику. Так, опубликованный в 1966 г. фундаментальный и новаторский труд М. Н. Кожиной «О специфике художественной и научной речи в аспекте функциональной стилистики» [Кожина 1966], по сути, предвосхитил дальнейшее развитие лингвистической науки в изучении речи, дискурса и коммуникации, особенно научной. В книге, в частности, особо отмечается, что познавательная оценка, выраженная в научном тексте, - это его когнитивный стержень, объединяющий все варианты компонентов знания и подчиняющий их взаимодействие цели научного текста - фиксировать получение нового научного знания. Эти и многие другие положения данного исследования, а также всех последующих нашли позитивный отклик в большом количестве публикаций, рецензий, отзывов и комментариев как отечественных, так и зарубежных лингвистов (см., например: [Гайда 2010; Данилевская 2005] и мн. др.).
В фундаментальном труде «Очерки истории научного стиля русского литературного языка XVIII-XX вв.» в своих статьях М. Н. Кожина [Кожина 1996, 1998] указывает на особенности стилевой дифференциации разных литературных языков с учетом своеобразия их истории, а также на перспективы развития и важность сопоставительной стилистики, учета стилевой дифференциации разных литературных языков, взаимодействия функциональных стилей, стилистической организации целого речевого произведения и мн. др., что стало объектом особого содержательного рассмотрения в статье [Салимовский 2013: 20-22]. В ходе глубокого и тонкого лингвистического анализа классических произведений русской литературы М. Н. Кожина «предложила новое понимание конструктивного принципа речевой организации художественного текста, назвав эту стилевую черту художественнообразной речевой конкретизацией», что также отмечается в статье [там же: 14], в которой подчеркивается, что особый вклад М. Н. Кожиной в стилистику текста заключается также в раскрытии междисциплинарности стилистики и в ее функционально-коммуникативной интерпретации текста [там же: 10], в характеризации текста как явления культуры, в выделении стилистически значимых средств коммуникации, в идентификации «функциональных семантико-стилистических категорий» (ФССК) текста, в определении коммуникативной организации научного текста и мн. др. (см.: [Кожина 1996; 1998]).
М. Н. Кожиной принадлежат также такие программные для пермской школы стилистики исследовательские положения, как «разработка методики применения статистики для изучения воздействия на характер речи того или иного конкретного из ряда действующих экстралингви-стических факторов - так называемый метод срезов, на основе использования которого можно решать вопросы стилевой дифференциации речи на уровне более частных факторов и различные задачи социальной и коммуникативной лингвистики» [Штайн 2004: 34].
В целом «функционально-стилистическая теория текста М. Н. Кожиной знаменовала качественный скачок отечественного языкознания в понимании коммуникативной природы текста и закономерностей его лингвостилистической организации» [Баженова 2013: 80]. М. Н. Кожина также особо подчеркивала, что развернутые вариативные повторы в научном тексте поддерживают его динамику, задают его организацию и воплощают введение нового научного знания: «в создании стиля участвует фактор частоты употребления языковых средств» (см.: [Кожина 2003; 2004; 2020]). Так, «деятельностная концепция, положенная в основание теории интерпретации научного текста» позволила М. Н. Кожиной, ее ученикам и соратникам-коллегам «прийти к выводу об огромной организующей роли развернутых вариативных повторов (РВП) в научном тексте» [Штайн 2004: 21].
Следует подчеркнуть, что проблеме языковой и речевой частотности вообще и повторяемости в частности, как особо актуальной и значимой в лингвистике, постоянно посвящается значительное количество разнообразных лингвистических исследований (а также разного рода словарей; см., например, [Засорина 1977; Шайкевич, Андрющенко, Ребецкая 2016; Divjak 2019; Беляева 2021] и мн. др.). Так, частотность как лексикографически значимое явление «имеет большую прагматическую и научную значимость в синхронном и диахронном языковом описании. Употребительность слов учитывается при составлении словарей-минимумов, используемых для обучения иностранному и родному языку; в сфере стилистики она считается показателем идиостиля автора и его эволюции» (см., например: [Арутюнова 1996]); частотность в аспекте исторической лексикографии «позволяет судить о динамике лексики, о формировании узуальной нормативности в прошлом и о глубинных истоках современного словарного состава языка» и мн. др. [Глинкина 2011, с. 7].
Поэтому неудивительно, что с развитием цифровых технологий частотность становится всё более актуальной и информативной лингвистической категорией. Одним из таких, можно сказать, неожиданных эффектов в области изучения языковой частотности современными компьютерными и корпусными методами оказалось сравнение «естественных» научных текстов с текстами, в генерировании которых был использован принципиально новый цифровой работающий общедоступный инструмент класса «Искусственный интеллект» (ИИ), основанный на больших языковых моделях (Large Language Models, LLM) – ChatGPT-4: LLM-modified texts. «GPT – Generative Pretrained Transformer – трансформер, обученный для генерации текста» [Козловская 2023: 71]).
ChatGPT-4 и особенности научной коммуникации
С момента появления нового общедоступного ИИ-инструмента ChatGPT-4, 30 ноября 2022 г., в научной литературе всё более активно обсуждается проблема его использования в порождении всех типов текстов, особенно в образовании, науке и средствах массовой информации (см., например: [Кащук 2024; Liang et al. 2023а; Poel, Gasiorek 2024; Yang et al. 2025] и мн. др.). Главная проблема заключается в том, что порожденные этим инструментом тексты с большим трудом можно отличить от текстов, написанных человеком. Так, например, в научных текстах по медицине большинство аннотаций, сгенерированных при помощи ChatGPT-4 – LLM-modified, не поддаются распознаванию как «искусственные». В средствах массовой информации, в свою очередь, было обнаружено свыше 700 новостных сайтов на 15 языках, информационные сообщения которых вызывают сомнение в их достоверности и соответствии действительности [NewsGuard 2023; Cantor 2023; Liang et al. 2024a].
К настоящему времени разработан целый ряд методов класса «GPT-Detector» для различения «естественного» текста и текста, сгенерированного искусственно (LLM-modified). Однако их эффективность и надежность подвергаются сомнению [Kelly 2023 и мн. др.]. Особо актуальной данная задача является в области научной коммуникации, поскольку здесь использование искусственного инструмента порождения текста угрожает «экологичности» научной коммуникации. Так, в работе W. Liang с соавторами отмечается, что «стремительное освоение генеративных языковых моделей принесло значительный прогресс в цифровой коммуникации, но, в то же время, породило подозрения в возможном сомнительном использовании ИИ-сгенерирован-ного контента» (“The rapid adoption of generative language models has brought about substantial advancements in digital communication, while simultaneously raising concerns regarding the potential misuse of AI-generated content”) [Liang et al. 2023а, с. 1]. В связи с этим подчеркивается, что результаты исследования, проведенного W. Liang и соавторами, «свидетельствуют о наличии определенных этических проблем в данной области и о необходимости предостережения авторов относительно использования ChatGPT в образовательном и квалификативном контексте» (“Our results call for a broader conversation about the ethical implications of deploying ChatGPT and caution against their use in evaluative or educational settings”) [ibid.: 1], а также о важности дальнейшего исследования способов идентификации ИИ-сгенерированного текста.
На этом основании было проведено одно из наиболее развернутых и фундаментальных исследований в данной области. Оно заключалось в последовательном масштабном статистикостилистическом сравнении научных текстов, написанных до и после выпуска ChatGPT-4, и состояло из трех этапов [Liang et al. 2023b; 2024a; 2024b]. На первом из них, под названием “Can Large Language Models provide useful feedback on research papers? A large-scale empirical analysis” («Могут ли большие языковые модели дать полезную обратную связь по исследовательским работам? Масштабный эмпирический анализ») [Liang et al. 2023b: 1–39], изучался вопрос о том, насколько полезным может быть использование аппарата ChatGPT-4 в научной коммуникации, в первую очередь в процессе порождения рецензий на тексты научных докладов, представляемые на конференции по компьютерным наукам. При этом сравнивались рецензии, написанные специалистами (до выпуска ChatGPT-4) и предположительно сгенерированные при помощи ChatGPT-4. В ходе исследования был установлен целый ряд их отличий, а также положительные свойства созданных с помощью ChatGPT-4 рецензий. В частности, было высказано мнение, что «естественно» созданные рецензии на тексты научных докладов и искусственно сгенерированные – LLM feedback – в некотором смысле дополняют друг друга, особенно на предварительном этапе подготовки рукописи к печати, тем более что в некоторых об- ластях, в первую очередь в компьютерных науках, наблюдается «лавинообразный» рост публикаций, и не всегда нужный специалист-рецензент находится в зоне доступа автора. Но это ни в коем случае не отменяет строгого подхода «живого» рецензента (human reviewer / expert) – специалиста и авторитета в данной области – и его участия в издательском процессе (“Our results suggest that LLM and human feedback can complement each other. While human expert review is and should continue to be the foundation of rigorous scientific process, LLM feedback could benefit researchers, especially in earlier stages of manuscript preparation before peerreview”) [Liang et al. 2023b: 2]. «Автоматическое рецензирование ни в коем случае не отменяет рецензирование, выполненное специалистом, и которое составляет неотъемлемое звено в продвижении научного знания» (“Automatically generating reviews without thoroughly reading the manuscript would undermine the rigorous evaluation process that forms the bedrock of scientific progress”) [Liang et al. 2023b: 7]. Следовательно, необходимо различать написанные специалистами и ИИ-сгенерированные рецензии.
На втором этапе – “Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews” («Масштабный мониторинг ИИ-модифицированного контента: Изучение влияния ChatGPT на экспертные заключения на конференциях по ИИ») [Liang et al. 2024a: 1–46] – была разработана специальная компьютерная дистрибутивная методика количественной оценки частотности лексики (distributional GPT quantification framework for estimating the fraction of AI-modified content in a corpus), которая позволяет наблюдать в LLM-сгенерированном тексте тенденции на уровне корпуса, слишком тонкие для обнаружения на индивидуальном текстовом уровне (“We thus can observe corpus-level trends in LLM-generated text which may be too subtle to detect at the individual level”) [ibid.: 1].
Данная методика, разработанная на материале рецензий на тексты докладов, представленных на ведущие конференции по искусственному интеллекту (ИИ; Artificial Intelligence, AI) и машинному обучению (Machine Learning, ML): ICLR (International Conference on Learning Representations), NeurIPS (Neural Information Processing Systems), EMNLP (Conference on Empirical Methods in Natural Language Processing) и CoRL (Conference on Robot Learning), позволяет продемонстрировать, что хотя и небольшая, но вполне значимая их часть, представленная на соответствующие конференции после выпуска инструмента ChatGPT-4 в свободный доступ, является ИИ-модифицированной (AI-modified).
Так, на основе специально полученных эмпирических статистических данных о том, что частотность употребления таких специфических прилагательных, как commendable («достойный похвалы»), meticulous («тщательный») и intricate («усложненный»), неожиданно увеличивается в ICLR-рецензиях, опубликованных после появления ChatGPT-4 в свободном доступе, то есть после 30 ноября 2022 г., было принято решение разработать соответствующие системные дистрибутивные принципы установления растущего использования LLM в корпусе научных рецензий и оценки в нем доли ИИ-модифицированного контента.
Указанные прилагательные при их более подробном статистическом изучении показали ощутимый рост в их использовании в рецензиях на материалы конференции ICLR именно после выпуска ChatGPT-4, в 2024 г., соответственно в 9,8, 34,7 и 11,2 раз (“We find a significant shift in the frequency of certain tokens in ICLR–2024, with adjectives such as “commendable”, “meticulous”, and “intricate” showing 9.8, 34.7, and 11.2-fold increases in probability of occurring in a sentence”) [ibid.: 2]. Подчеркивается, что аналогичные результаты можно получить на материале других частей речи.
В качестве исходной посылки в указанном исследовании, как уже отмечалось, послужило положение о том, что современные предполагаемые ИИ-модифицированные тексты (рецензий) можно сравнивать с текстами, написанными до появления ChatGPT-4 (“We assume that we have access to a collection of reviews which are known to contain only human-authored text”) [Liang et al. 2024a: 4]. В качестве одного из исходных предположений было принято также отмеченное в литературе наблюдение о том, что в ИИ-сгенерированном тексте вряд ли будут цитаты из других публикаций и, соответственно, цепочки вида “et al.”, отражающие их присутствие (“LLMs are less likely to include scholarly citations, as highlighted by recent studies [Walters, Wilder 2023]; we thus hypothesize that reviews containing scholarly citations might indicate lower LLM usage. To test this, we use the occurrence of the string “et al.” as a proxy for scholarly citations in reviews”) [Liang et al. 2024a: 8].
С использованием соответствующих соображений при сравнении текстов рецензий, написанных до и после выпуска инструмента ChatGPT-4, было установлено, что примерно от 7 до 15 % предложений из текстов рецензий, представленных на конференции по машинному обучению в 2024 г. (Machine Learning, ML), являются существенно ИИ-модифицированными (“Applying this method to conference reviews written before and after the release of ChatGPT shows evi- dence that roughly 7-15% of sentences in ML conference reviews were substantially modified by AI”) [ibid.: 9]. В целом полученные данные свидетельствуют, что в ИИ-модифицированных текстах существенно снижается разнообразие используемых лингвистических средств выражения, а также их «эпистемическое разнообразие» (“AI-generated texts... appear to compress the linguistic variation and epistemic diversity that would be expected in unpolluted corpora”) [ibid.: 9].
На третьем этапе исследования - “Mapping the Increasing Use of LLMs in Scientific Papers” («Отображение растущего использования LLM в научных публикациях») [Liang et al. 2024b: 1-27] -проводился анализ больших корпусных данных, включавших 950 965 научных статей, опубликованных на английском языке с января 2020 г. по февраль 2024 г. в ведущих мировых научных журналах - от вычислительной техники до медицины. Он опирался на разработанную ранее компьютерную дистрибутивную методику количественной оценки частотности лексики (distributional GPT quantification framework for estimating the fraction of AI-modified content in a corpus), которая, как уже упоминалось, позволяет наблюдать в LLM-сгенерированном тексте тенденции на уровне корпуса [Liang et al. 2024a: 1]. Сначала анализировались аннотации и введения к соответствующим статьям, поскольку они представляют собой наиболее показательные элементы научных публикаций. Устанавливалось при этом, не является ли данный (вероятно, LLM-модифицированный) текст публикации «развертыванием» ранее опубликованного текста или генерацией текста на основе заданного инструменту ChatGPT-4 плана [Liang et al. 2024b: 3].
При обучении модели была установлена частотность слов в научных текстах, написанных до выпуска ChatGPT-4 и после его выпуска. Для проверки точности модели использовались 3000 статей, вышедших из печати с 1 января 2022 года по 29 ноября 2022 года, т.е. непосредственно перед выпуском ChatGPT-4. Полученные статистические данные свидетельствуют об устойчивом росте использования LLM в научных публикациях после выпуска инструмента ChatGPT-4. Причем самый большой и быстрый рост наблюдался в публикациях по компьютерным наукам - до 17,5% (тогда как публикации по математическим наукам показали наименьшую LLM-модификацию - менее 6,3%) (подробнее см.: [Рябцева 2025]).
Полученные таким образом данные говорят о резком увеличении LLM-модифицированного (искусственно сгенерированного) контента в научных текстах публикаций уже спустя примерно пять месяцев с момента выпуска ChatGPT-4. При этом частотность слов в аннотациях по компью- терным наукам за последние 14 лет (2010-2024 гг.) оказалась непропорционально большой у четырех слов: realm («область, сфера»), intricate («сложный, запутанный»), showcasing («демонстрация»), pivotal («решающий, основной»). И если в период с 2010 по 2022 г. эти понятия использовались в аннотациях статей по данному направлению с незначительной частотой, то с 2023 г., спустя примерно пять месяцев после поступления ChatGPT-4 в свободный доступ, они показали внезапный всплеск употребления [Liang et al. 2024b: 3]). Результаты статистического исследования к тому же свидетельствуют о более тесной связи между разными публикациями, содержащими LLM-модификации. Она проявляется в том, что «LLM-сгенерированный текст сглаживает стилистическое разнообразие лингвистических средств выражения в научной коммуникации» [ibid.: 4]).
Таким образом, статистические исследования повторов и частотности лексики в научных текстах, написанных как «естественным» образом, так и предположительно ИИ-модифи-цированных, в разных научных направлениях и разного времени издания позволяют определить уровень «искусственности» - «модифицирован-ности» современных научных публикаций. При этом дальнейшие попытки «измерить» степень использования LLM в порождении научных публикаций должны помочь выявить риски для «экосистемы» научных публикаций в целом. Специалисты также подчеркивают, что исследования по идентификации компьютерно-модифицированных научных текстов должны способствовать повышению прозрачности, эпистемич-ности и независимости научной коммуникации [Liang et al. 2024b: 9].
Заключение
В заключении следует особо отметить, что с выпуском нового общедоступного ИИ-инструмента ChatGPT-4 появился принципиально новый типа дискурса - «компьютерно-модифицированный», в результате чего наступила новая эра когнитивных, коммуникативных, стилистических, статистических и всех аналогичных исследований языка и речи, особенно в сфере научной коммуникации. В результате в настоящее время, с развитием цифровых технологий вообще, в том числе компьютерной и корпусной лингвистики в особенности, появляются разнообразные возможности взглянуть на различные коммуникативные и стилистические явления языка и речи с новой точки зрения, в том числе на особенности повторов и их частотность в различных типах текстов и на причины их появления. Как свидетельствуют соответствующие современные цифровые статистические исследования, которые вполне правомерно назвать «компьютерной стилистикой», частотность способна выступать в качестве важнейшего критерия в установлении «естественности» или «искусственности» текстов научных рецензий и научных публикаций. Причем «искусственный» тип текста характеризуется повышенной частотностью некоторых типов, в первую очередь оценочной лексики, а также меньшей эпистемиче-ской вариативностью.
Таким образом, «компьютерная стилистика» в целом позволяет установить новые, не отмечаемые ранее и «невидимые» ранее стилистические особенности научных текстов и рецензий на них, которые проявляются при их «компьютерном» сравнении с ИИ-сгенерированными текстами, а также проследить способы их модификации, заложенные в инструментах автоматического порождения речи. И тем самым продемонстрировать преемственность и последовательность в развитии лингвистических стилистических знаний, важный вклад в которое внесла выдающийся лингвист-стилист М. Н. Кожина и вся созданная ею пермская школа стилистических исследований.