Характеристики сгенерированного текста: языковой и социально-коммуникативный анализ

Автор: Е.В. Осетрова, А.В. Седова

Журнал: Сибирский филологический форум @sibfil

Рубрика: Языкознание: новая реальность

Статья в выпуске: 2 (31), 2025 года.

Бесплатный доступ

Постановка проблемы. В современном информационном пространстве огромный массив текстов распространяется и обращается в среде Интернета. Этот процесс существенным образом изменил способы взаимодействия людей и с развитием научно-технического прогресса привел к появлению искусственного интеллекта (ИИ). «Способности» последнего к самообучению и диалогу, особенно в сфере вербальной коммуникации, поставили вопрос об идентификации сгенерированного текста на фоне естественных текстов, созданных человеком, и в сравнении с ними. Исследование виртуального «поля» применения языка в режиме генерирования текстов становится актуальным, соотнесенным с запросами общества. К.А. Студеникина, Н.А. Багрова, Р.Е. Тельпов и С.В. Ларцина, А.Р. Айдагулова и др. изучают их с целью выявления совокупности специфических особенностей, а нейросеть – на предмет ее лингвистического потенциала. Цель исследования – исчислить языковые характеристики текстов, сгенерированных искусственным интеллектом, расширив их список, а также определить перспективы анализа коммуникативной рамки – обстоятельств и процесса их производства. Авторами статьи проведен анализ искусственных текстов, сгенерированных по одной из тем, которая представлена в УМК под редакцией М.М. Разумовской (8-й класс). Материалом для наблюдений стали 12 текстов в жанре сочинения, созданные ботами ChatGPT4, анализ помогли обеспечить метод пофакторного анализа речевого жанра и методики тема-рематического и семантического анализа текста/высказывания. Результаты анализа. Список известных к настоящему времени особенностей сгенерированного текста расширен пятью характеристиками грамматической, тема-рематической и жанровой природы. Анализ организации коммуникации в процессе генерирования текста, в свою очередь, выявил разнородность состава ее участников (человек и «ИИ-коммуникант»); трансформацию инициативной реплики пользователя в жанр промпта; в репликах ИИкоммуниканта – наличие модуса предположения как сигнала о потенциальной возможности альтернативных ответов; перспективность применения теории коммуникативных неудач к рассматриваемому объекту. Выводы. Список известных к настоящему времени особенностей сгенерированного текста расширен пятью характеристиками грамматической, тема-рематической и жанровой природы, наличие которых проиллюстрировано языковым материалом.

Еще

Искусственный интеллект, нейросеть, чат-бот, ChatGPT, сгенерированный текст, язык, коммуникация, коммуникативные неудачи

Короткий адрес: https://sciup.org/144163360

IDR: 144163360

Текст научной статьи Характеристики сгенерированного текста: языковой и социально-коммуникативный анализ

СИБИРСКИЙ ФИЛОЛОГИЧЕСКИЙ ФОРУМ 2025. № 2 (31)

П остановка проблемы. В современном информационном пространстве огромный массив текстов распространяется и обращается в среде Интернета. Этот процесс существенным образом изменил способы взаимодействия людей и с развитием научно-технического прогресса привел к появлению искусственного интеллекта (далее – ИИ). Роботизированные самообучающиеся системы как одна из принадлежностей современного интернет-пространства, известные под названием «искусственный интеллект», могут обрабатывать текстовые материалы, созданные с использованием разных знаковых систем. Эти системы, в частности, реализуют функцию анализа текста, определяя его смысл и степень соответствия той или иной конкретной ситуации. Скорость и качество такой работы значительно превышают возможности человеческого мышления [Воейкова, Долгова и др., 2023, с. 233].

Несмотря на высокую функциональность искусственного интеллекта и нейросетей, их развитие привело к появлению ощутимых проблем в ряде предметных областей; выделим три из них: медиапространство, прикладную лингвистику и образование.

К текстам медиа в качестве ключевых применимы требования четкости и сжатости, фактуальности и достоверности изложения, умеренного использования синонимии, избегания канцелярита и клишированных конструкций. Сгенерированные тексты не всегда отвечают этим критериям, изобилуя, кроме того, повторами, перифразами, языковыми ошибками, понижая рейтинги и имидж корпоративных медиасубъектов.

В рамках прикладной лингвистики, особенно ее важнейшей отрасли лингвистической экспертизы, проблемными становятся не только квалификация искусственно созданного текста, который может содержать следы речевых преступлений, но и стремительно расширяющаяся практика подражания голосу и манере общения реально существующего человека. Известно, что лингвисты-эксперты занимаются в том числе идентификацией человека по голосу и речи, а синтезированная речь становится все менее отличимой от речи естественной. Эксперты сталкиваются с ее копированием на уровне ее перцептивных характеристик, на фонетическом, лексическом и грамматическом уровнях языка. В сложившейся ситуации в качестве важнейших маркеров дифференциации естественной и сгенерированной речи следует рассматривать ее коммуникативные и синтаксические параметры.

Наконец, в сфере образования как социальный вызов воспринята практика частичного и/или полного делегирования создания текстов различных жанров (школьные сочинения, эссе, курсовые работы, выпускные квалификационные работы и др.) искусственному интеллекту. Типично такое положение дел, когда обучающийся не просто пользуется компьютерной программой на определенном этапе задания, но выполняет с помощью данного инструмента задание в полном объеме, относясь к полученному тексту как завершенному произведению, не проводя минимальной критической правки его содержания и структуры.

Обзор научной литературы. В целом исследование виртуального «поля» применения языка в режиме генерирования текстов искусственным интеллектом становится актуальным, соотнесенным с запросами общества.

На данный момент соответствующая тема осмыслена лингвистами как одна из наиболее привлекательных и наукоемких. Искусственные тексты изучают с целью выявления совокупности их специфических особенностей, а нейросеть – на предмет ее лингвистического потенциала. Так, К.А. Студеникина рассматривает возможность нейронных моделей моделировать грамматические структуры [Студеникина, 2022, с. 179]; Н.А. Багрова анализирует нейросеть в плане воспроизведения и преобразования идиоматических выражений русского языка [Багрова, 2024, с. 25]; в работе Р.Е. Тельпова и С.В. Ларциной – с учетом принципов компаративистики и количественного варьирования – внимание акцентировано на употреблении слов различных тематических групп в сгенерированной и естественной речи [Тельпов, Ларцина, 2023, с. 48].

Базируясь на понимании проблемы, уже достигнутом коллегами, А.Р. Айдагу-лова обозначает следующие особенности созданных ChatGPT текстов: 1) повторы словосочетаний и отдельных лексем; 2) повторение одной и той же мысли в разных предложениях; 3) отсутствие связи сгенерированного фрагмента с остальным текстом; 4) поверхностные примеры; 5) искажение фактов, наличие недостоверной информации; 6) отсутствие цитирования [Айдагулова, 2023, с. 155].

«Способности» ИИ к самообучению и диалогу, особенно в сфере вербальной коммуникации, поставили вопрос об идентификации сгенерированного текста – на фоне естественных текстов, созданных человеком, и в сравнении с ними. Отсюда цель исследования – исчислить языковые характеристики текстов, сгенерированных искусственным интеллектом, расширив их список, а также определить перспективы анализа коммуникативной рамки – обстоятельств и процесса их производства.

Материалы и методы . Для экспликации методологической базы исследования важно определить несколько ключевых понятий, используемых в статье. Под искусственным интеллектом здесь имеется в виду «способность технической системы имитировать когнитивные функции человека (включая самообучение и поиск решений без заранее заданного алгоритма) и получать при выполнении конкретных практически значимых задач обработки данных результаты, сопоставимые… с результатами интеллектуальной деятельности человека»1. Конкретной реализацией искусственного интеллекта становится нейросеть, применяемая для обработки сложных наборов данных в режиме реального времени.

СИБИРСКИЙ ФИЛОЛОГИЧЕСКИЙ ФОРУМ 2025. № 2 (31)

Пользовательская аудитория относится к данным понятиям как содержательно близким, использует их в однородных контекстах, а соответствующие лексемы имеют схожую сочетаемость; к примеру, ИИ/искусственный интеллект/ нейросеть выдал/а…; подсказал/а…; глючит…; офигенно быстро работает и под. Одновременно с этим разница двух обозначенных понятий ощутима, разъясняется в различных, в том числе научно-популярных, источниках2, постепенно осваиваясь в массовом языковом сознании. За нейросетью , а также за чат-ботом (разработанная на основе нейросети диалоговая программа, поддерживающая запросы на естественных языках) закрепляется скорее представление об инструменте, объекте либо некоем виртуальном пространстве, в котором происходит взаимодействие человеческого субъекта с программой, а характеристика особой популярности приписана пользователями ChatGPT – чат-боту, разработанному компанией OpenAI; к примеру: Пользователи ChatGPT из ряда стран сообщают о сбоях в работе чат-бота , следует из данных Dowundetector3 . С искусственным интеллектом ( ИИ) связано представление о некоем субъекте, с которым человек вступает в коммуникацию; например: Искусственный интеллект помог раскрыть убийства Дарьи Дугиной и Владлена Татарского, рассказал Бастрыкин4. Продукт, получаемый в результате использования человеком чат-ботов, называется сгенерированным текстом; искусственным текстом . С таким пониманием разницы контекстных значений выделенных лексем и словосочетаний соотнесена и терминологическая база данной статьи.2

Авторами статьи проведен анализ искусственных текстов, сгенерированных по одной из тем, которая представлена в УМК по русскому языку под редакцией М.М. Разумовской (8-й класс)5 – «Легко ли быть молодым?». Материалом для наблюдений стали 12 текстов в жанре сочинения, созданные ботами ChatGPT4, сам же анализ помогли обеспечить метод пофакторного анализа речевого жанра и методики тема-рематического и семантического анализа текста/высказывания.

Ход и результаты исследования. Проиллюстрируем наличие формально-языковых и содержательных повторов – первых двух из шести приведенных выше особенностей сгенерированных текстов [Айдагулова, 2023, с. 155] - на следующих примерах из искусственных сочинений; ср: Молодость – это время безграничных возможностей и энергии <...> С одной стороны, молодость дарует свободу и возможность экспериментировать; Не менее важным аспектом молодости является поддержка со стороны близких . Друзья и семья играют важную роль в нашей жизни, помогая справляться с трудностями и разделять радости.

Данное наблюдение справедливо не только в отношении лексических повторов, но и повторов синтаксических конструкций; ср.: Вопросы о выборе профессии, построении отношений и ожиданиях окружающих могут вызывать тревогу и неуверенность <...> Конкуренция на рынке труда, необходимость получать образование и стремление к финансовой независимости могут создавать давление.

Отметим, что даже при использовании команд «напиши по-другому», «напиши другими словами», «напиши иначе» итоговые варианты демонстрируют весьма небольшое перифрастическое разнообразие.

В отдельный блок языковых несоответствий авторы статьи выделяют отклонения, связанные с нарушением сочетаемости слов по линии предсказуемости/ непредсказуемости, обязательности/факультативности синтаксической связи; см. примеры: бытие молодым сопряжено с рядом трудностей и испытаний; мы имеем возможность путешествовать; молодость предоставляет нам свободу выбора; конкуренция на рынке труда, необходимость получать образование и стремление к финансовой независимости могут создавать давление .

В процессе анализа обнаружены, кроме того, несколько характеристик сгенерированных текстов, проявляющих особенности их тема-рематической структуры.

Так, выделенным признаком искусственных текстов является «закольцован-ность» одной и той же темы, то есть повтор темы без ввода полноценного рематического компонента с новым содержанием; например: Неуверенность в себе, страх неудачи, давление со стороны общества, желание быть «как все» – все это давит на плечи молодого человека. Ты стоишь перед выбором: быть собой или подстроиться под ожидания? Мир полон соблазнов, сложностей и противоречий. Ты сталкиваешься с непониманием родителей, с давлением сверстников, с неуверенностью в будущем. Данная иллюстрация доказывает еще одну особенность сгенерированных текстов – наличие множества рем, ни одна из которых в дальнейшем не трансформируется в тему и не продолжает свое текстовое развитие.

В свою очередь, нарушением жанровой природы следует признать переформатирование исходной установки текста. В соответствии с учебным заданием школьник должен описать личный и/или сторонний опыт молодого человека и высказать собственное мнение о возникающих проблемах, то есть ориентироваться на информативное целеполагание, никого ни к чему не призывая. Отсюда заданный жанр текста (сочинение), его целеустановка, типовые образы автора и адресата (школьник, рассуждающий о проблемах взросления в письменном учебном тексте, адресованном взрослому-педагогу) использование побудительных конструкций не подразумевают. При этом именно последние найдены в заключительной части одного из сгенерированных текстов: Не бойтесь трудностей, не сдавайтесь . В каждом новом дне вас ждет новое открытие, новый опыт, новая возможность. Будьте смелыми, дерзайте , творите, и тогда молодость станет для вас не временем испытаний, а временем раскрытия своего потенциала и поиска своего собственного счастья.

СИБИРСКИЙ ФИЛОЛОГИЧЕСКИЙ ФОРУМ 2025. № 2 (31)

Таким образом, помимо уже известных характеристик, помогающих идентифицировать сгенерированные текстовые фрагменты [Айдагулова, 2023], в один с ними ряд мы предлагаем поставить следующие пять, расширив исходный список:

– нарушение сочетаемости слов по линии предсказуемости/непредсказуемо-сти, обязательности/факультативности синтаксической связи;

  • –    «закольцованность» одной темы (то есть повтор темы без ввода рематического компонента);

  • –    наличие множества рем, ни одна из которых в дальнейшем не преобразуется в тему и не продолжает свое текстовое развитие;

  • –    нарушение/трансформация исходной интенции субъекта – того, кто формирует запрос по генерации текста;

  • –    недостаточный учет факторов автора и адресата.

Опубликованные лингвистические работы по проблематике искусственного интеллекта и генерации текстов, а также вышеприведенные комментарии доказывают следующее. В процессе анализа специфических характеристик сгенерированных языковых произведений плодотворен собственно текстовый подход, когда внимание сосредоточено на «внутреннем» устройстве таковых, позволяя выявлять содержательную и формальную специфику, отличающую их от естественных, то есть произведенных человеком, текстов.

Однако при таком подходе, когда текст рассматривают как автономную единицу, из поля зрения исследователей выпадает коммуникативная составляющая. Учитывая повышенный интерес научного сообщества к сгенерированным текстам, полезным было бы рассмотреть «внешнюю» коммуникативную рамку, в которую заведено их производство, ее структуру и наполнение: состав элементов, актуальные обстоятельства, механизмы взаимодействия и др. При этом, как и в случае использования внутритекстового подхода, здесь, очевидно, должна обнаружиться специфика, обусловленная искусственным использованием языка и формированием на этой основе некоего произведения.

В процессе создания искусственных текстов рабочей является модель, аналогичная модели естественного общения: адресант => адресат. Разница состоит в том, что при коммуникативной организации генерирования текста позицию одного из участников взаимодействия занимает человек, а позицию другого – условный участник, ИИ. Отличной оказывается не только различная природа «общающихся», но и характер реплик: реплики человека, всегда являющегося инициатором коммуникации на ее стартовом этапе, трансформируются в промпт/ промт (от англ. prompt «запрос», «подсказка») – вербальную команду-задачу, которую необходимо выполнить. Разработчики чат-ботов и многие пользователи настолько освоили этот новый речевой жанр, что дают рекомендации по его составлению; см. один из предлагаемых вариантов: 1) цель запроса; 2) формат ответа; 3) предупреждения; 4) контекст. Все большую ценность – на фоне интеллектуальной способности личности к самостоятельному производству текстов – приобретает практический навык правильно сформировать запрос, четко обозначив, какую информацию и из каких источников использовать, поскольку именно от этого будут зависеть четкость и полнота результата.

Реплики ИИ-коммуниканта, в свою очередь, чаще всего представляют более или менее развернутые ответы, маркированные показателями модуса предположения, некатегоричности, сигнализирующими о наличии других, альтернативных вариантов ответа; к примеру: Возможно, имелись/имелось в виду; Возможно, будут полезны некоторые сведения о…; …На основе источников, возможны неточности; Ответ сформирован YandexGPT на основе текстов выбранных сайтов. В нем могут быть неточности; и под.

Вербальное взаимодействие человека и ИИ в пределах нейросети с целью получения готовых текстов и с учетом смешанной природы его участников и обращающихся текстов доказывает необходимость поиска специальных подходов к анализу коммуникативной стороны данного процесса. Авторы статьи в качестве апробированной базы для анализа предлагают использовать лингвистическую традицию исследования коммуникативных неудач.

Существует множество определений понятия «коммуникативная неудача», большинство из которых развивают базовое либо отталкиваются от него: коммуникативная неудача – это «полное или частичное непонимание высказывания партнером коммуникации, то есть неосуществление или неполное осуществление коммуникативного намерения говорящего, а также возникающий в процессе общения не предусмотренный говорящим нежелательный эмоциональный эффект» [Ермакова, Земская, 1993, с. 31].

В современной лингвистике отсутствует общепринятая классификация как самих видов коммуникативных неудач, так и причин их возникновения. Одной из попыток преодолеть проблему можно считать типологию Н.К. Къневой, учитывающую несколько основополагающих аспектов вербального общения.

  • 1.    Коммуникативные неудачи, обусловленные нарушением хода интеракции (нарушение «алгоритмических ходов» устного речевого общения).

  • 2.    Коммуникативные неудачи, обусловленные нарушением организации дискурса (неоднозначность сообщения, незавершенность вербализации коммуникативного замысла, несоответствие пресуппозиции реальному миру и т.д.).

  • 3.    Коммуникативные неудачи, обусловленные нарушением правил организации информационного обмена (нарушение постулатов общения Г.П. Грайса и принципов вежливости Дж. Лича).

  • 4.    Коммуникативные неудачи, обусловленные нарушением правил учета статусных ролей коммуникантов6.

    СИБИРСКИЙ ФИЛОЛОГИЧЕСКИЙ ФОРУМ 2025. № 2 (31)


Отмечая пользу применения теории коммуникативных неудач к рассматриваемому материалу, заметим, что имеющиеся классификации должны быть в таком случае уточнены; это обусловлено рядом факторов:

  • –    каузатором коммуникативной ситуации всегда выступает человек; в норме он же занимает ведущую позицию в разворачивающемся процессе общения;

  • -    применительно к ИИ-коммуниканту некорректно было бы обсуждать фактор экстралингвистических обстоятельств диалога;

  • -    у ИИ-коммуниканта отсутствуют коммуникативная цель, а также эмпатическая и эмоциональная база общения.

Комментирование последней из названных особенностей выходит за пределы чистого языкознания, попадая в сферу психолингвистики. В ChatGPT4 при высказывании возражения, несогласия используются логические модели выстраивания аргументации и обоснования ответа. Естественно, что в случаях когда структура и содержание ответной реплики не соответствуют представлениям человека, «ломая» его интеллектуальные, социальные, оценочные или речевые ожидания, это может стать причиной коммуникативной неудачи.

Выводы. Итак, список известных к настоящему времени особенностей сгенерированного текста расширен пятью характеристиками грамматической, тема-рематической и жанровой природы, наличие которых проиллюстрировано языковым материалом. Анализ организации коммуникации в процессе генерирования текста, в свою очередь, выявил разнородность состава ее участников (человек и «ИИ-коммуникант» (искусственный интеллект)); трансформацию инициативной реплики пользователя в жанр так называемого промпта; в репликах ИИ-коммуниканта - наличие модуса предположения как сигнала о потенциальной возможности альтернативных ответов. В этой связи отмечена польза применения теории коммуникативных неудач к рассматриваемому объекту с необходимостью уточнения содержания их типов.

Статья научная