Потенциал искусственного интеллекта в автоматической обработке естественного языка и машинном переводе. Рубрика в журнале - Вестник Волгоградского государственного университета. Серия 2: Языкознание

Статья научная
The article examines the issue of representing municipal government in the media space, followed by the proposed solution for automatically identifying signs of destructive and constructive positioning of communicative types of municipal employees in the public information space. The definition of the concept of the communicative type “municipal employee” with verification features is introduced. The results of the analysis of the organization of local self-government on the example of the Moscow region allowed us to conclude that the communicative type “municipal employee” reflects a diversified system of territorial communicative position within the regional government. The information obtained during the analysis of public information space attitudes regarding the activities of municipal employees can be automated with the method of identifying linguistic markers of emotivity to determine the communicative position of territorial authorities. The suggested methodology for effective automation of the studied subject area in the humanities has been verified as possessing a high scientific potential for further research. It is concluded that the development of technology for monitoring and forecasting public threats based on “soft power” methods through automatic and expert work to identify markers of evaluative presentation of communicative types of municipal employees is designed to help regional authorities achieve the desired results in ensuring territorial identity.
Бесплатно

Exploring automated summarization: from extraction to abstraction
Статья научная
This paper provides a review of AI-powered automated summarization models, with a focus on two principal approaches: extractive and abstractive. The study aims to evaluate the capabilities of these models in generating concise yet meaningful summaries and analyze their lexical proficiency and linguistic fluidity. The compression rates are assessed using quantitative metrics such as page, word, and character counts, while language fluency is described in terms of ability to manipulate grammar and lexical patterns without compromising meaning and content. The study draws on a selection of scientific publications across various disciplines, testing the functionality and output quality of automated summarization tools such as Summate.it, WordTune, SciSummary, Scholarcy, and OpenAI ChatGPT-4. The findings reveal that the selected models employ a hybrid strategy, integrating both extractive and abstractive techniques. Summaries produced by these tools exhibited varying degrees of completeness and accuracy, with page compression rates ranging from 50 to 95%, and character count reductions reaching up to 98%. Qualitative evaluation indicated that while the models generally captured the main ideas of the source texts, some summaries suffered from oversimplification or misplaced emphasis. Despite these limitations, automated summarization models exhibit significant potential as effective tools for both text compression and content generation, highlighting the need for continued research, particularly from the perspective of linguistic analysis. Summaries generated by AI models offer new opportunities for analyzing machine-generated language and provide valuable data for studying how algorithms process, condense, and restructure human language.
Бесплатно

Interpreting metaphorical language: a challenge to artificial intelligence
Статья научная
In recent years, numerous studies have pointed to the ability of artificial intelligence (AI) to generate and analyze expressions of natural language. However, the question of whether AI is capable of actually interpreting human language, rather than imitating its understanding, remains open. Metaphors, being an integral part of human language, as both a common figure of speech and the predominant cognitive mechanism of human reasoning, pose a considerable challenge to AI systems. Based on an overview of the existing studies findings in computational linguistics and related fields, the paper identifies a number of problems associated with the interpretation of non-literal expressions of language by large language models (LLM). It reveals that there is still no clear understanding of the methods for training language models to automatically recognize and interpret metaphors that would bring it closer to the level of human “interpretive competencies”. The purpose of the study is to identify possible reasons that hinder the understanding of figurative language by artificial systems and to outline possible directions for solving this problem. The study suggests that the main barriers to AI’s human-like interpretation of figurative natural language are the absence of a physical body, the inability to reason by analogy and make inferences based on common sense, the latter being both the result and the cognitive process in extracting and processing information. The author concludes that further improvement of the AI systems creative skills should be at the top of the research agenda in the coming years.
Бесплатно

Metagraph theory as a basis for modeling relevant media discourse
Статья научная
This article is devoted to modeling media discourse based on a combination of a complex graph model and a multidimensional model. Despite significant advances in the field of neural network text processing, the task of modeling text and media discourse remains relevant. Large language models cannot be considered as a reliable discourse model, due to the fact that they are susceptible to hallucinations, which are features of model training and are difficult to diagnose and eliminate in practice. The basic model within the framework of the proposed approach is an annotated metagraph model; the main element of this model is the metavertex. The presence of metavertices with their own attributes and connections with other vertices corresponds to the principle of emergence, that is, giving the concept a new quality, the irreducibility of the concept to the sum of its component parts. Metagraph agents are used to transform metagraphs. A multidimensional metagraph model is a combination of a classical multidimensional model and an annotated metagraph model and allows complex descriptions in the form of metagraphs to be stored in hypercube cells. The multidimensional metagraph model can naturally be considered as a model of text and media discourse. The main drawback of the current version of the proposed model is the lack of a semantic discourse check system. Designing this system is the main direction for the development of further research.
Бесплатно

Texts of different emotional classes and their topic modeling
Статья научная
The article is devoted to studying verbalization specifics of various emotional states in the texts in the Russian language with the purpose to confirm or refute the hypothesis that texts of different emotional classes reflect the denotative situation not identically, which is reflected in thematic specifics and lexical content. The research material consisted of eight corpus texts in the Russian language, which were extracted from the public pages of the social network VKontakte. The texts were selected according to emotional hashtags that corresponded to eight basic emotions, according to H. Lцvheim’s model: anger, surprise, shame, enjoyment, disgust, distress, excitement, fear. The correspondence of emotion and hashtag was established in a preliminary psycholinguistic experiment. While analyzing the text collection, we used the method of computer thematic modeling to identify statistically non-random groups of words (topics). We applied the BERTopic neural network model to the collected data. As a result of the analysis, it was found that texts of 8 emotional classes contain an uneven number of topics, despite the fact that their number does not correlate directly with the amount of data: with a relatively small amount of data, there may be many topics, but in a voluminous corpus - few. The sets of words (tokens) that make up each non-random group (topic) differ in each subcorpora, reflecting the specifics of the denotative situation, which is formed under the influence of the emotional state of the speaker. The idea of diverse thematic “granularity” of texts of different emotional classes is theoretically justified.
Бесплатно

Статья научная
Разработка эффективных систем фильтрации медийных текстов обусловлена необходимостью развития систем искусственного интеллекта, представляющего собой большую модель языка, которая должна создаваться на основе «правильных» текстовых образцов, не содержащих признаков дезинформации, инфодемии и недостоверности. В статье изложены результаты автоматической идентификации качественных медийных текстов и текстовых экземпляров, содержащих инфодемические и недостоверные признаки. Она проведена с применением модели естественного языка, построенной методами машинного обучения на основе размеченного вручную корпуса. Цели работы заключались в создании модели языка медийных сообщений, оценке ее качества и выявлении ошибок идентификации, обусловленных лингвистическими характеристиками текстов. Создание модели языка медийных сообщений выступает условием повышения эффективности и качества систем искусственного интеллекта. Установлено, что тестовое использование обученной модели естественного языка позволяет с высокой точностью провести фильтрацию медийных текстов. Наибольшую эффективность в рамках модели продемонстрировал метод опорных векторов: доля ошибочно распознанных информативных текстов, отвечающих признакам достоверности и новизны, невысока и составляет 6,2 %, количество неправильно распознанных неинформативных текстов составляет примерно 10,2 %. Установленные ошибки в идентификации информативных текстов связаны с употреблением в заголовках имен собственных (антропонимов, топонимов) и числительных. К лингвистическим признакам неправильно распознанных текстов, содержащих признаки дезинформации, относятся текстовые образцы, содержащие высказывания с глаголами в форме будущего времени, а также глаголами речи, часто встречающимися в достоверных текстах.
Бесплатно

Лексикографические проблемы систем машинного перевода: на пути от буквального до нейронного
Статья научная
В статье рассматриваются актуальные вопросы интерпретации современными системами машинного перевода (МП) лексики, неизвестной этим системам (out-of-vocabulary words), в контексте изменений форм и ведения автоматического словаря. Дан критический очерк типологии систем МП и стратегий их развития. Описаны особенности этих стратегий и влияние на них развивающихся программных средств и технологий. Проанализированы формы ведения словарной поддержки, меняющиеся под воздействием технологических условий. Показано, что при любой системе МП ее лингвистическое обеспечение и структура автоматических словарей становятся принципиально важными для поддержания качества перевода. При всем успехе развития нейронных систем МП (НМП) их автоматически пополняемые словарные базы не фиксируют слова, характеризующиеся терминологической спецификой и низкой частотой в массивах и корпусах текстов, на которых обучается система. На примере анализа результатов двух востребованных НМП - Google Translate и Yandex Translate - доказано, что обработка и унификация перевода слов, не вошедших в словари системы, прежде легко решавшаяся пользователями всех типов систем МП на основе пополнения и ведения автоматического словаря, остается по-прежнему актуальной проблемой и требует особого подхода при редактировании результатов НМП.
Бесплатно

Потенциал машинного перевода в медиадискурсе музеев: анализ современных браузерных систем
Статья научная
Статья посвящена актуальным проблемам оптимизации нейронного машинного перевода, которые обусловлены включением многоязычия в функционал онлайн-ресурсов. Описаны результаты анализа машинного перевода англо-, немецко- и франкоязычного контента медиадискурса музеев на русский язык с применением встроенных браузерных систем от Яндекс, Google и Microsoft. Выбор фрагментов для сравнительного анализа осуществлялся с учетом рандомного предпочтения исходного языка пользователями. Определено, что функциональные возможности систем машинного перевода, оптимизированных нейросетевыми технологиями, в основном обеспечивают его денотативную эквивалентность, корректно передают большинство имен собственных и адекватно актуализируют значения лексических единиц с опорой на контекст. Выявлены ситуации, когда браузерные переводчики используют соответствия без учета контекста, лингвокультурной традиции, прагматического значения языковых единиц, что демонстрирует ограниченные возможности этих систем создавать адекватный, стилистически и дискурсивно оформленный перевод. Установлено, что наибольшую сложность представляет перевод изолированных номинаций (названий разделов, кнопок выбора языков и т. п.), что свидетельствует о высоком уровне задействованного в системах машинного перевода искусственного интеллекта, имитирующего человека в его обязательном стремлении получить контекст, актуализирующий значение слова. В.А. Митягиной предложена концепция работы и дана общая характеристика актуальных исследований нейросетевого этапа развития машинного перевода, А.А. Новожиловой проанализированы англо- и немецкоязычные публикации по машинному переводу и контент Пергамского музея, А.П. Наумовой - публикации на французском языке и контент Музея Орсе.
Бесплатно