Атрибуция медийных текстов на основе обученной модели естественного языка и лингвистическая оценка качества идентификации

Бесплатный доступ

Разработка эффективных систем фильтрации медийных текстов обусловлена необходимостью развития систем искусственного интеллекта, представляющего собой большую модель языка, которая должна создаваться на основе «правильных» текстовых образцов, не содержащих признаков дезинформации, инфодемии и недостоверности. В статье изложены результаты автоматической идентификации качественных медийных текстов и текстовых экземпляров, содержащих инфодемические и недостоверные признаки. Она проведена с применением модели естественного языка, построенной методами машинного обучения на основе размеченного вручную корпуса. Цели работы заключались в создании модели языка медийных сообщений, оценке ее качества и выявлении ошибок идентификации, обусловленных лингвистическими характеристиками текстов. Создание модели языка медийных сообщений выступает условием повышения эффективности и качества систем искусственного интеллекта. Установлено, что тестовое использование обученной модели естественного языка позволяет с высокой точностью провести фильтрацию медийных текстов. Наибольшую эффективность в рамках модели продемонстрировал метод опорных векторов: доля ошибочно распознанных информативных текстов, отвечающих признакам достоверности и новизны, невысока и составляет 6,2 %, количество неправильно распознанных неинформативных текстов составляет примерно 10,2 %. Установленные ошибки в идентификации информативных текстов связаны с употреблением в заголовках имен собственных (антропонимов, топонимов) и числительных. К лингвистическим признакам неправильно распознанных текстов, содержащих признаки дезинформации, относятся текстовые образцы, содержащие высказывания с глаголами в форме будущего времени, а также глаголами речи, часто встречающимися в достоверных текстах.

Еще

Медийный текст, нейронная сеть, модель языка, метод машинного обучения, корпус, автоматическая идентификация

Короткий адрес: https://sciup.org/149147495

IDR: 149147495   |   DOI: 10.15688/jvolsu2.2024.5.3

Список литературы Атрибуция медийных текстов на основе обученной модели естественного языка и лингвистическая оценка качества идентификации

  • Борхсениус А. В., 2021. Инфодемия: понятие, социальные и политические последствия, методы борьбы // Вестник Российского университета дружбы народов. Серия: Государственное и муниципальное управление. Т. 8, № 1. С. 52–58. DOI: 10.22363/2312-8313-2021-8-1-52-58
  • Вольская Н. Н., 2018. Кликбейт как средство создания ложной информации в интернет коммуникации // Медиаскоп. № 2. DOI: 10.30547/mediascope.2.2018.12
  • Жук Д. А., Жук Д. В., Третьяков А. О., 2018. Методы определения поддельных новостей в социальных сетях с использованием машинного обучения // Информационные ресурсы России. № 3. С. 29–32.
  • Землянский А. В., 2021. Инфодемия: генезис и морфология явления // Вестник ВГУ. Серия: Филология и журналистика. № 4. С. 111–114.
  • Ильинова Е. Ю., 2018. Полимодусность дискурсивной репрезентации медийного события // Когнитивные исследования языка. № 35. С. 280–287.
  • Иссерс О. С., 2014. Медиафейки: между правдой и мистификацией // Коммуникативные исследования. № 2. С. 112–123.
  • Карабулатова И. С., Копнина Г. А., 2023. Специфика лингвистической параметризации деструктивного массмедийного текста с обесцениванием исторической памяти // Медиалингвистика. Т. 10, № 3. С. 319–335. DOI: 10.21638/spbu22.2023.303
  • Карабулатова И. С., Копнина Г. А., 2022. Лингвистическая параметризация деструктивного массмедийного текста: к постановке проблемы // Медиалингвистика. Вып. 9. Язык в координатах массмедиа: материалы VI Междунар. науч. конф. (СПб., 30 июня – 2 июля 2022 г.) / под ред. Л. Р. Дускаева. СПб.: Медиапапир. С. 364–367.
  • Кондратьева О. Н., Игнатова Ю. С., 2023. Инфодемия: становление нового медиаконцепта // Медиалингвистика, Т. 10, № 4. С. 497–521. DOI: 10.21638/spbu22.2023.404
  • Кошкарова Н. Н., Бойко Е. С., 2020. «Фейк, я тебя знаю»: лингвистические механизмы распознавания ложной информации // Политическая лингвистика. № 2 (80). С. 77–82. DOI: 10.26170/pl20-02-08
  • Некрасов Г. А., Романова И. И., 2017. Разработка поискового робота для обнаружения веб-контента с фейковыми новостями // Инновационные, информационные и коммуникационные технологии. № 1. С. 128–130.
  • Николаева А. В., 2019. Языковые особенности фейковых публикаций // Верхневолжский филологический вестник. № 3 (18). С. 55–59.
  • Осипов Г. С., 2011. Методы искусственного интеллекта. М.: ФИЗМАТЛИТ. 296 с.
  • Попов В. В., Штельмах Т. В., 2019. Естественный текст: математические методы атрибуции // Вестник Волгоградского государственного университета. Серия 2: Языкознание. Т. 18, № 2. С. 147–158. DOI: https://doi.org/10.15688/jvolsu2.2019.2.13
  • Распопова С. С., Богдан Е. Н., 2018. Фейковые новости: Информационная мистификация: учеб. пособие. М.: Аспект Пресс. 112 с.
  • Салимовский В. А., Девяткин Д. А., Каджая Л. А., Мишланов В. А., 2019. Автоматическое распознавание ментальных действий, реализуемых в научных эмпирических текстах // Научно-технические ведомости СПбГПУ. Гуманитарные и общественные науки. Т. 10, № 3. C. 74–88. DOI: 10.18721/JHSS.10307
  • Салимовский В. А., Девяткин Д. А., Каджая Л. А., Мишланов В. А., Чудова Н. В., 2021. Исследование речевых жанров в задачах по искусственному интеллекту (идентификация познавательно-речевых действий, образующих жанровую форму) // Жанры речи. № 3 (31). С. 170–180. DOI: 10.18500/2311-0740-2021-3-31-170-180
  • Сладкевич Ж. Р., 2019. Заголовки-анонсы в сетевых медиасервисах: между информированием и кликбейтингом // Медиалингвистика. Т. 6, № 3. С. 353–368. DOI: 10.21638/spbu22.2019.306
  • Стернин И. А., Шестернина А. М., 2020. Маркеры фейка в медиатекстах. Воронеж: РИТМ. 34 с.
  • Суходолов А. П., Бычкова А. М., 2017. «Фейковые новости» как феномен современного медиапространства: понятия, виды, назначения, меры противодействия // Вопросы теории и практики журналистики. Т. 6, № 2. C. 155–156.
  • Третьяков О. А., 2018. Метод определения русскоязычных фейковых новостей с использованием элементов искусственного интеллекта // International Journal of Open Information Technologies. Vol. 6, № 12. P. 99–105.
  • Хижнякова Е. В., 2023. Автоматическое распознавание инфодемического текста: к построению модели языка медийного дискурса // Медиалингвистика. Вып. 10. Язык в координатах массмедиа: материалы VII Междунар. науч. конф. (СПб., 28 июня – 1 июля 2023 г.) / науч. ред. Л. Р. Дускаева, отв. ред. А. А. Малышев. C. 201–206.
  • Чанышева З. З., 2016. Информационные технологии смысловых искажений в кликбейт-заголовках // Вестник Пермского национального исследовательского политехнического университета. Проблемы языкознания и педагогики. № 4. С. 54–62. DOI: 10.15593/2224- 9389/2016.4.5
  • Al Asaad B., Erascu M., 2018. A Tool for Fake News Detection // 20th International Symposium on Symbolic and Numeric Algorithms for Scientific Computing (SYNASC) (Romania, 20–23 September). Timisoara. P. 379–386. DOI: 10.1109/SYNASC.2018.00064
  • Anand A., Chakraborty T., Park N., 2017. We Used Neural Networks to Detect Clickbaits: You Won’t Believe What Happened Next! // 39th European Conference on Information Retrieval (ECIR). Lecture Notes in Computer Science (LNCS) (Aberdeen, United Kingdom, 8–13 April 2017). Vol. 10193. P. 541–547. DOI: 10.1007/978-3-319-56608-5_46
  • Bednarek M., Caple H., 2017. The Discourse of News Values: How News Organizations Create Newsworthiness. N. Y.: Oxford University Press. 302 p.
  • Bronakowski M., Al-khassaweneh M., Al Bataineh A., 2023. Automatic Detection of Clickbait Headlines Using Semantic Analysis and Machine Learning Techniques // Applied Sciences. Vol. 13, iss. 4. P. 2456. DOI: 10.3390/app13042456
  • Biyani P., Tsioutsiouliklis K., Blackmer J., 2016. 8 Amazing Secrets for Getting More Clicks: Detecting Clickbaits in News Streams Using Article Informality // Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence, Phoenix, AZ, USA, 12–17 February 2016. URL: https://ojs.aaai.org/index.php/AAAI/article/view/9966
  • Klyachin V. A., Khizhnyakova E. V., 2023. Machine Learning Methods and Words Embeddings in the Problem of Identification of Informative Content of a Media Text // CSOC2023, Artificial Intelligence Application in Networks and Systems. Proceedings of 12th Computer Science On-line Conference 2023, vol. 3. P. 463–471.
  • Kumar V., Khattar D., Gairola S., Kumar Lal Y., Varma V., 2018. Identifying Clickbait: A Multi-Strategy Approach Using Neural Networks // Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval (Ann Arbor, MI, USA, 8–12 July 2018). P. 1225–1228.
  • Mikolov T., Chen, K., Corrado, G. Dean J., 2013. Efficient Estimation of Word Representations in Vector Space. DOI: 10.48550/arXiv.1301.3781
  • Pérez-Rosas V., Kleinberg B. Lefevre A., Mihalcea R., 2018. Automatic Detection of Fake News // Proceedings of the 27th International Conference on Computational Linguistics. Santa Fe, New Mexico, USA. Association for Computational Linguistics. P. 3391–3401.
  • Pujahari A., Sisodia D. S., 2021. Clickbait Detection Using Multiple Categorisation Techniques // Journal of Information Science. Vol. 47, iss. 1. P. 118–128. DOI: 10.1177/0165551519871822
  • Razaque A., Alotaibi B., Alotaibi M., Hussain S., Alotaibi A., Jotsov V., 2022. Clickbait Detection Using Deep Recurrent Neural Network. Applied Sciences. Vol. 12, iss. 1. P. 504.
  • Shu K., Wang S., Le T., Lee D., Liu H., 2018. Deep Headline Generation for Clickbait Detection // 18th IEEE International Conference on Data Mining (ICDM) (Singapore, 17–20 November). P. 467–476. DOI: 10.1109/ICDM.2018.00062
Еще
Статья научная