Исследование "языка вражды" с использованием средств автоматической обработки текстов
Автор: Литвинова Т.А., Литвинова О.А.
Журнал: Форум молодых ученых @forum-nauka
Статья в выпуске: 1-2 (29), 2019 года.
Бесплатный доступ
Развитие интернет-коммуникации привело к появлению большого числа текстов, содержащего разного рода вредоносный контент, в том числе призывы к экстремистской деятельности, направленной против определенной группы людей. «Язык вражды» стал самостоятельным объектом исследований отечественных ученых-лингвистов, однако большинство работ основано на анализе ограниченного по объему языкового материала. В статье приведен обзор работ (преимущественно выполненных на англоязычном материале), посвященных анализу корпусов экстремистских текстов с использованием инструментов компьютерной лингвистики, и обозначены перспективы дальнейших исследований в этом направлении.
Экстремистский текст, экстремизм, противодействие экстремизму, корпус текстов, корпусная лингвистика, компьютерная лингвистика, язык вражды
Короткий адрес: https://sciup.org/140284781
IDR: 140284781
Текст научной статьи Исследование "языка вражды" с использованием средств автоматической обработки текстов
Litvinova O.A., graduate student
Voronezh State Pedagogical University
Russia, Voronezh
HATE SPEECH STUDY WITH THE USE OF NATURAL LANGUAGE PROCESSING TOOLS
В настоящее время в связи с увеличением числа интернет-текстов, содержащих призывы к экстремистской деятельности, особую актуальность приобрели исследования «языка вражды», в том числе направленные на разработку методик лингвистической экспертизы текстов на предмет наличия в них признаков экстремизма [2; 3; 4; 5; 6; 7; 11]. При всей важности подобного рода исследований следует отметить, что большинство из них выполнено на весьма ограниченном языковом материале, что связано, очевидно, с объективными причинами, а именно с ограничением доступа к экстремистским текстам (как только ресурс признается экстремистским, доступ к нему закрывается по решению суда). Таким образом, как справедливо отмечается в [1, с. 6], «создание соответствующих коллекций является сложнейшей актуальной проблемой выявления противоправных текстов». Как отмечается в указанном выше обзоре, в немногочисленных исследованиях, направленных на автоматическую детекцию экстремистских текстов на русском языке, используются подходы, связанные с определением тональности текста, а также ключевых слов текста. Как справедливо отмечают авторы обзора, основная трудность при проведении такого анализа состоит в составлении соответствующих словарей эмоциональной лексики и тематических словарей. Авторы [1] заключают, что в настоящее время психологами и лингвистами до сих пор не разработаны применимые для автоматического анализа текстов критерии отнесения текста к экстремистским. Для разработки таких критериев особенно важны объемные коллекции экстремистских текстов. Примером такой коллекции является Dark Web archive [14], которая содержит 3 млн постов, собранных с 29 международных джихадистских форумов на арабском, английском, немецком и русском языках. Большинство зарубежных исследований, направленных на исследование экстремистских текстов и разработку методов автоматической детекции экстремистского контента, основано на материалах из базы данных Dark Web Project. Такие исследования являются частью работ, выполняемых в рамках нового активно развивающегося междисциплинарного направления – Terrorism Informatics, изучающего феномен терроризма с использованием интеллектуальных методов анализа данных [14]. Исследователи тестируют различные методики классификации текстов, используя такие подходы, как тематическое моделирование, сантимент-анализ и т.д. При всей важности подобных работ следует отметить, что они не дают целостного представления о лингвистических особенностях экстремистских текстов. Насколько нам известно, специальных работ, посвященных комплексному анализу русскоязычных текстов Dark Web Project, до настоящего времени не проводилось, хотя, как утверждают создатели проекта, необходимо проводить исследования экстремистских текстов на разных языках для лучшего понимания феномена терроризма и соответственно разработки более эффективных методов выявления экстремистского контента. Проведенное нами [20] первое исследование русскоязычной части коллекции (форума «Кавказчат») доказало перспективность использования средств компьютерной лингвистики (в частности, программы WordSmith) для анализа таких текстов, позволяющего выявить особенности экстремистской риторики.
Практически не исследованными до настоящего времени являются особенности речевого портрета автор текстов экстремистского форума. Под речевым портретом мы понимаем «совокупность языковых и речевых характеристик коммуникативной личности или определённого социума в отдельно взятый период существования» [13, с. 8]. Чаще всего описание языкового уровня речевого портрета включает в себя характеристику единиц одного или нескольких уровней языка [9]. Описание коллективного речевого портрета экстремистов представляется нам правомерным, поскольку, как указывается в ряде работ, экстремисты представляют собой группу лиц, обладающих определенными психологическими и социальными характеристиками [12]. Особенно перспективным нам представляется использование таких средств автоматической обработки текстов, как программы контент-анализа, и в частности программы Linguistic Inquiry and Word Count (LIWC) [23], которая позволяет быстро анализировать большие массивы текстов по целому ряду грамматических и лексико-семантических параметров. Изначально данная программа была предназначена для диагностирования по тексту динамики восстановления после психологических травм. LIWC используется для подсчета в тексте (как в письменном, так и в устном транскрибированном) доли слов тех или иных категорий (из словаря программы; на данный момент в словарь версии программы для английского языка входит около 4000 слов, распределенных в те или иные категории). Программа вычисляет значения свыше 70 параметров текста, входящих в разные категории: грамматические (Linguistic Processes, например, доля артиклей, предлогов, местоимений и т. д.), лексикосемантические (доля слов, обозначающих психологические процессы (Psychological Processes, с соответствующими подкатегориями и т.д.); слов, обозначающих различные виды деятельности (Personal Concerns)) и т.д. Кроме того, программа позволяет рассчитывать встречаемость знаков препинания, среднюю длину слов, долю слов длиннее 6 букв и т.д., а также сложные психолингвистические индексы. Слова, входящие в словари программы, были отнесены в те или иные тематические группы в многочисленных экспериментах с участием независимых экспертов. Число тематических категорий изменялось по мере работы над программным продуктом, однако все они были выбраны не случайно, а эмпирически как наиболее тесно связанные с различными психологическими характеристиками и состояниями автора текста. В настоящее время программа LIWC широко применяется для анализа различных текстов в разных областях знаний, в том числе широко используется для анализа экстремистских текстов (интернет-тексты группировки ИГ, Аль-Каиды и т.д.) [15; 21; 22; 24; 25; 26]. Как подчеркивают авторы подобных исследований, программа особенно удобна для анализа такого рода текстов, поскольку позволяет исследовать скрытые мотивы и интересы террористических группировок, в том числе в динамике, и является «уникальным инструментом для выявления латентных психологических характеристик, в отличие от традиционных программ контент-анализа» [25, р. 8]. Эффективность использования LIWC послужила основанием для разработки ее версий применительно к другим языкам. Как показали исследования, и на материале других языков программа LIWC зарекомендовала себя как ценный инструмент для психологического анализа текстов. Нами впервые была проведена апробация переводной версии входящего в программу LIWC словаря для русского языка [16]. Опыт использования переводной версии основного словаря программы LIWC, а также ряда специально созданных словарей программы для анализа текстов на русском языке в целях выявления различий в текстах мужчин и женщин, а также лиц с разными психологическими характеристиками [10], выявления статистически значимых различий между ложными и правдивыми текстами [19] и др. также показал эффективность программы LIWC для психолингвистического анализа текстов на русском языке. Впервые для анализа текстов русскоязычного экстремистского форума программа была использована нами [18] и зарекомендовала себя как эффективный инструмент анализа.
В дальнейшем нами планируется доработать русскоязычную версию словаря программы, а также добавить новые категории, специфичные для экстремистских текстов. В качестве материала для сравнения нами будет использоваться корпус текстов RusPersonality [17]. Тексты представляют собой образцы естественной письменной речи на разные темы. Для каждого из авторов текстов известны пол, возраст, результаты психологического тестирования и т.д. Таким образом, на обширном материале нами будет построен речевой портрет экстремиста на разных языковых уровнях (прежде всего лексическом), что позволит глубже изучить феномен экстремизма и терроризма как его крайнего проявления.
Список литературы Исследование "языка вражды" с использованием средств автоматической обработки текстов
- Ананьева М. И. [и др.]. О проблеме выявления экстремистской направленности в текстах // Вестн. Новосиб. гос. ун-та. Серия: Информационные технологии. 2016. Т. 14, № 4. С. 5-13.
- Араева Л.А., Осадчий М.А. Судебно-лингвистическая экспертиза по криминальным проявлениям экстремизма // Уголовный процесс. 2006. № 4. С. 45-56.
- Араева Л.А., Осадчий М.А. Языковая личность экстремиста (о специфике автороведческой экспертизы по криминальным проявлениям экстремизма) // Юрислингвистика - 9: Истина в языке и праве: межвузовский сборник научных трудов. - Кемерово, Барнаул: Изд-во Алт. ун-та, 2008. - С. 182-193.
- Верховский А.М. Язык вражды против общества: сб. ст. / сост.: А.М. Верховский. - М., 2007. - 259 с.
- Геранина И.Н., Логинова Е.И. Психолого-лингвистическое исследование текстов на предмет выявления признаков разжигания в обществе национальной, расовой или религиозной вражды // Судебная экспертиза. 2008. № 3 (15). С. 38-42.
- Дубровский Д.В. [и др.]. Язык вражды в русскоязычном Интернете: материалы исследования по опознаванию текстов ненависти. - СПб, 2003. - 72 с.
- Злоказов К. В. Контент-анализ текстов деструктивной направленности // Политическая лингвистика. 2015. №. 1. С. 244-251.
- Зубарь А.С., Сараев Н.В. Актуальные проблемы производства лингвистических экспертиз и исследований по делам, связанным с проявлением экстремизма // О состоянии и проблемах противодействия преступности в регионах Российской Федерации: сб. науч. тр. - М.: ФГКУ "ВНИИ МВД России", 2012, Вып. 1. С. 37-41.
- Леорда С. В. Речевой портрет современного студента: автореф. дис. канд. филол. наук. - Саратов, 2006.
- Литвинова Т.А. [и др.]. Исследование влияния пола и психологических характеристик автора на количественные параметры его текста с использованием программы Linguistic Inquiry and Word Count // Научный диалог. 2015. № 12(48). C. 101-109.
- Мишланов В.А. Законодательство РФ об экстремизме и задачи лингвистической экспертизы текстов // Вестник Пермского университета. Российская и зарубежная филология. 2012. Вып. 3(19). С. 62-69.
- Петрянин А. В. Личность экстремиста: криминологический аспект // Юридическая наука и практика: Вестник Нижегородской академии МВД России. 2012. №20.
- Тарасенко Т. П. Языковая личность старшеклассника в аспекте ее речевых реализаций (на материале данных ассоциативного эксперимента и социолекта школьников Краснодара): автореф. дис. канд. филол. наук. -Краснодар, 2007. - 26 с.
- Chen H. Dark Web. Exploring and Data Mining the Dark Side of the Web. Springer, 2012.
- Chung C. K., Pennebaker J. W. Using computerized text analysis to assess threatening communications and actual behavior // C. Chauvin (Ed.). Threatening communications and behavior: Perspectives in the pursuit of public figures. 2011.
- Kailer A., Chung C.K. The Russian LIWC2007 dictionary. Austin, TX: LIWC.net, 2011.
- Litvinova T. [et al.]. "Ruspersonality": a Russian Corpus for Authorship Profiling and Deception Detection // Proceedings of Proceedings of International FRUCT conference on Intelligence, Social Media and Web (FRUCT 2016). 2016. Р. 1-7.
- Litvinova T., Litvinova O. A study of texts of an extremist forum "Kavkazchat" using Linguistic Inquiry and Word Count (LIWC) // QUALICO 2018: Book of abstracts. 2018. P. 69-70.
- Litvinova T., Litvinova O. Russian Deception Bank: A Corpus for Automated Deception Detection in Text // A. Horák, K. Pala, P. Rychlý, A. Rambousek (Eds.). Community-based Building of Language Resources (CBBLR 2016). 2016. Р. 1-7.
- Litvinova T., Litvinova O., Panicheva P., Biryukova E. Using Corpus Linguistics Tools to Analyze a Russian-Language Islamic Extremist Forum // Bodrunova S. (eds). Internet Science. INSCI 2018. Lecture Notes in Computer Science. 2018. vol 11193. Springer, Cham.
- Pennebaker J. W., Chung C.K. Computerized text analysis of Al-Qaeda transcripts // K. Krippendorff & M. Bock (Eds.). A content analysis reader. Thousand Oaks, CA: Sage, 2008.
- Pennebaker J. W., Chung C.K. Tracking the social dynamics of responses to terrorism: Language, behavior, and the Internet // S. Wessely and V.N. Krasnov (Eds.). Psychological responses to the new terrorism: A NATO-Russia dialogue. Amsterdam: ISO Press, 2005.
- Pennebaker J.W. [et al.]. The development and psychometric properties of LIWC2007. Austin, TX: LIWC.net, 2007.
- Scanlon J. R., Gerber M. S. Automatic detection of cyber-recruitment by violent extremists // Scanlon and Gerber Security Informatics. 2014. Vol. 3, N 5.
- Vergani M., Bliuc A.-M. The evolution of the ISIS' language: a quantitative analysis of the language of the first year of Dabiq magazine // Sicurezza, Terrorismo e Società. 2015. № 2.
- Weinstein H. [et al.]. Why Are They Attacking Us? Decoding the Messages of al-Qaeda Terrorists Targeting the United States and Europe // Revue international de psychologie sociale. 2009. № 3, T. 22. Р. 65-85.