Генерация текстов как объект лингвистических исследований
Бесплатный доступ
Статья посвящена обзору исследований в области генерации текстов искусственным интеллектом. Актуальность темы обусловлена широким применением нейросетей в медиа, образовании и других сферах, что требует систематического изучения создаваемых текстов. Цель работы – охарактеризовать основные направления исследований сгенерированных текстов, включая технологические, этические и собственно лингвистические направления. Используемые методы включают описательный, сопоставительный и контекстуальный анализ. В результате изучения существующих исследований выявлены наиболее значимые аспекты изучения: обучение языковых моделей, обработка естественного языка, правовое регулирование в области института авторского права и исключение культурных искажений. Особое внимание уделяется лингвистическим аспектам, а также возможностям практического применения сгенерированных текстов. Научная новизна заключается в комплексном подходе к исследованию феномена генерации текстов, сочетающем лингвистический, технологический и этический аспекты. Практическая значимость работы заключается в определении направлений дальнейших исследований, для лингвистического мониторинга одной из способностей нейросетей в виде генерации текста.
Лингвистика, искусственный интеллект, генерация текста, языковая модель, нейросеть
Короткий адрес: https://sciup.org/148331585
IDR: 148331585 | DOI: 10.18137/RNU.V925X.25.03.P.064
Текст научной статьи Генерация текстов как объект лингвистических исследований
За последние годы развитие искусственного интеллекта (далее – ИИ) вызвало большой интерес у исследователей, в частности, одной из важнейших областей исследования стала генерация текстов. Эта технология интересует специалистов уже давно. Еще в 1950-х годах Алан Тьюринг предложил эмпирический тест, состоящий из трех вопросов, с целью определить, умеет ли компьютер мыслить. Один из запросов заключался в том, чтобы сгенерировать стихотворение [1]. Сейчас ChatGPT легко сможет решить эту задачу и, возможно, справится лучше среднестатистического человека.
Так, в 2025 году итальянская газета Il Foglio опубликовала номер, который был полностью сгенерирован ИИ1. По словам главного редактора, цель такого эксперимента заключалась в том, чтобы показать изменения, происходящие в журналистике по причине развития искусственного интеллекта. Среди других изданий, использующих искусственный интеллект для подготовки статей, можно выделить агентство Associated Press2, которое использует нейросеть для генерации идей или заголовков по теме написанной статьи3. Таким образом, генерация текстов при помощи искусственного интеллекта имеет очень много перспектив, следовательно, можно обусловить важность изучения данной области ИИ.
Изучение искусственного интеллекта тесно связано с наукой о языке. В настоящее время исследования охватывают технологические, собственно лингвистические и даже этические вопросы. Рассмотрим их далее.
Технологические основы генерации текста в основном включают рассмотрение вопросов обучения языковых моделей (LLM) и обработки естественного языка (NLP) с целью сделать тексты, созданные ИИ, качественными и похожими на те, которые мог бы написать человек. Современные технологии генерации текстов основаны на архитектуре Transformer, глубокой нейросетевой языковой модели, которая, в отличие от предыдущих моделей, использует методы кодирования и декодирования. При кодировании решается поставленная задача, при этом используется механизм, позволяющий анализировать связь между словами во всем предложении; при декодировании на основе проведенного анализа формируется сгенерированный текст [2]. Исследования в области обработки естественного языка стремятся улучшить понимание семантики предложений, связи между словами, имеющими один и тот же объект (coreference resolution), а также
66 Вестник Российского нового университета
66 Серия: Человек в современном мире. 2025. № 3
решить проблему полисемии [3; 4]. Другой вектор исследований направлен на создание предобученных моделей языка (pretraining). Подразумевается, что такие языковые модели уже обладают определенными навыками и знаниями, в том числе о семантике слов и синтаксисе, и в дальнейшем их можно настроить для решения более узких задач (transfer learning) [5].
Этический аспект исследования генерации текстов основывается на определении авторского права текста, написанного нейросетью. На сегодняшний день в российской науке и правоприменительной практике единое мнение о том, кому принадлежит написанный нейросетью текст, отсутствует. Среди существующих теорий можно выделить следующие: право на произведение принадлежит самой нейросети, право на произведение принадлежит пользователю нейросети, автором сгенерированного произведения является владелец нейросети, сгенерированный текст является общественным достоянием [6]. Проблемной областью генерации текстов также являются культурные искажения. Например, результаты исследования 2024 года, посвященного анализу генерируемых текстов на тему политического статуса Тайваня, показали, что нейросеть чаще предлагала тексты с маркерами, выражающими суверенитет острова Тайвань, чем его принадлежность к Китайской Народной Республике [7]. Следовательно, учитывая сложную политическую ситуацию в этом регионе, с точки зрения Китая, это является искажением информации и может спровоцировать цифровой конфликт. Данный пример свидетельствует о необходимости пересмотра данных, используемых для обучения нейросетей.
В рамках данной статьи наиболее важным является собственно лингвистический аспект исследований в области генерации текста. В настоящее время ученые пытаются выявить сходства и различия текстов, сгенерированных ИИ, и текстов, написанных человеком. В подобных исследованиях делается вывод, что нейросети не обладают той же креативностью, что реальный человек, а также не способны сознательно использовать языковые средства в текстах определенного жанра [8; 9]. Ученые считают, что сгенерированные тексты довольно просты по своей структуре и использованным лексическим средствам, в них отсутствуют сложные синтаксические конструкции, метафоры, эпитеты и другие средства художественной выразительности, присутствует шаблонность и клиши-рованность формулировок, повторяются отдельные части текста [10; 11]. Исследования с целью выявить типовые различия естественных и сгенерированных текстов показывают, что распределение ключевых слов в сгенерированных текстах неравномерно и что в них не раскрывается проблематика в полной мере, а лишь содержится общая информация [12; 13].
Существуют также узконаправленные исследования, например, проводится анализ понимания человеком и искусственным интеллектом контекстуальных значений лексических единиц; ставится цель сгенерировать тексты юмористического характера и изучить использованные в текстах лексические приемы [14; 15]. Несмотря на активное обучение языковых моделей выразительным средствам, на момент проведения исследований нейросети не способны в полной мере понимать и воссоздавать коннотативные оттенки и грамотно использовать их в процессе генерации текстов. Этот вопрос относится к областям литературоведения, лингвостилистики и смежным с ними областями риторики и жанроведения.
Генерация текстов как объект лингвистических исследований 67
Большое внимание также уделяется сферам применения сгенерированных текстов. Генерация текстов в основном применяется в области медиа и в сфере образования. Использование инструментов искусственного интеллекта для написания текстов имеет достаточное количество преимуществ, среди которых экономия времени, помощь в генерации идей, структурирование материала, но в то же время формирует необходимость создания дополнительных требований к оригинальности текстов и их более тщательному анализу с целью исключить так называемые «галлюцинации нейросетей», использование ложной информации, упоминание несуществующих ученых, цитат и экспериментов [16; 17]. Данное обстоятельство следует отнести к факторам, в значительной степени влияющим на качество текстового продукта.
Несмотря на результаты исследований, которые показывают, что возможности ИИ намного ниже, чем таковых уреального автора, нельзя отрицать, что нейросети развиваются весьма стремительно и, возможно, в обозримом будущем они смогут если не превзойти, то точно приблизиться к человеческим способностям. В качестве иллюстрации этого тезиса приведем следующий пример.
В 2015 году языковую модель Seq2seq, которая применялась в основном для машинного перевода, решили использовать для синтеза текстов. Поскольку модель была полностью обучена на произведениях У. Шекспира, в качестве текстового материала был сгенерирован белый стих (стих, не имеющий рифмы, но обладающий размером):
Capulet:
No, good sir,
And make a pen and meeding down, trouble me Here provide it: your breast of any other use Wearing behind the old looks of a man begin: But, for your city, as the cases of the art I have held to go to you [1, с. 83].
Данный фрагмент не соотносится с историей, описанной в «Ромео и Джульетте», в нем отсутствует связность между элементами, и больше это напоминает простой набор слов.
Теперь сравним стих, приведенный выше, со сгенерированным современным GPT-4, который является примером нейросети с трансформерной архитектурой («T» в GPT обозначает «transformer»):
Capulet:
No, good sir,
Your words, though sweet, have not found favour here.
In matters of my house, I hold the sway, Decisions made are mine, and mine to bear.
Your counsel, though well meant, I shan’t adhere [1, с. 84].
Стих, сгенерированный GPT-4, имеет структуру, схожую с оригинальным произведением У. Шекспира, и, несмотря на то, что подлинность текста установить несложно (это НЕ трагедия У. Шекспира), данный фрагмент имеет свойственный драматургу ритм и рифму, а семантика фрагмента отражает характер сеньора Капулетти [1]. Очевидны значительные различия в текстах, сгенерированных десять лет назад, и тех, которые можно создать с помощью ресурсов ИИ сейчас.
Таким образом, способность нейросетей генерировать тексты представляет собой динамичный процесс, который требует пристального внимания со стороны языковедов. Безусловно, с каждым годом открывается все больше областей для применения данного инструмента ИИ. Учитывая сказанное, отметим, что лингвистика обладает значительным научным потенциалом, который позволяет как фиксировать возникающие проблемы в плоскости оппозиции «язык программирования vs естественный язык», так и адаптировать имеющиеся наработки к возникающим по-
68 Вестник Российского нового университета
68 Серия: Человек в современном мире. 2025. № 3
требностям. Характеризуя процесс генерации текстов как объект лингвистических исследований, выскажем мнение о необходимости разработки внутридисциплинар-ного мониторинга, который бы учитывал телеологию изучения этого объекта, а также практические инструменты в области генерации текстов.
Те области, которые мы эскизно очертили в настоящей статье, можно отнести к таким дисциплинам, как стилистика, текстология, риторика, теория жанров, литературоведение. Каждая из этих дисциплин обладает сложившимся инвентарем методов. Например, аналитические компоненты «точка зрения», «фокальный персонаж» с одной стороны откроют доступ к тому, кто ведет повествование, с другой – расширят репертуар текстового продукта ИИ. Стилистика и, в частности, метафорология дадут доступ к пониманию интерпретации ИИ метафоричных текстов. Так, можно обучить языковую модель схемам концептуальной интеграции для прогнозирования стратегий интерпретации и развертывания метафоры. Работу можно построить, используя дискурсивный анализ, актуально провести сравнительно-сопоставительный анализ используемых в текстах ИИ лексико-семантических и грамматических средств, фреймов, маркеров, а также изучить соответствие параметрам определенных видов дискурса.