Вероятностно-статистическая методика установления гендерной принадлежности текстов на русском языке в судебном автороведении
Автор: Радбиль Тимур Беньюминович, Маркина Марина Викторовна
Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics
Рубрика: Развитие и функционирование русского языка
Статья в выпуске: 5 т.20, 2021 года.
Бесплатный доступ
В статье представлены промежуточные результаты разработки и усовершенствования компьютеризованной модели авторизации текстов на русском языке на основе вероятностно-статистической методики. Целью исследования является интерпретация экспериментального исследования расширенных возможностей компьютерной программы авторизации текста «КАТ» (компьютерная авторизация текста) при применении ее в диагностических автороведческих экспертизах по установлению гендерной принадлежности предполагаемого автора текста. Описаны результаты апробации усовершенствованной версии «КАТ», которая была адаптирована для определения и сопоставления стабильных относительных частот коэффициентов корреляции в текстах, авторами которых являются мужчины и женщины. Материалом исследования послужили созданные авторами и непрерывно пополняемые первичные базы художественных текстов XIX и XXI веков. Установлено, что в текстах, написанных мужчинами и женщинами, имеются значимые расхождения в таких коэффициентах корреляции, как средняя длина слов, средняя длина предложения, коэффициент предметности, коэффициент качественности, коэффициент активности, коэффициент динамизма, коэффициент связности. Проверка полученных результатов показала, что точность определения гендерной принадлежности на данном этапе исследования составляет приблизительно 65 %. Этот показатель может быть существенно превышен при увеличении объема и качественной спецификации баз данных с учетом типа дискурса и/или при использовании других моделей исчисления коэффициентов корреляции.
Авторизация текста, компьютерная авторизация текста, гендер, судебное автороведение, автоматическая обработка текста, вероятностно-статистическая методика, прикладная лингвистика
Короткий адрес: https://sciup.org/149139434
IDR: 149139434 | DOI: 10.15688/jvolsu2.2021.5.4
Текст научной статьи Вероятностно-статистическая методика установления гендерной принадлежности текстов на русском языке в судебном автороведении
DOI:
В статье представлены результаты очередного этапа разработки компьютерной программы диагностики и авторизации текста «КАТ», описанной в наших предыдущих исследованиях применительно к собственно идентификации авторства [Радбиль, Маркина, 2019]. Он связан с решением новой экспериментальной задачи определения гендерной принадлежности авторов спорных текстов на русском языке. Еще на стадиях замысла, создания и первичной апробации программы (см.: [Юматов, Маркина, Ковалева, 2015; Юматов В.А., Маркина, Юматов С.В., 2016]) в нее была заложена возможность диверсифицировать не только проблемы идентификации текста, но и проблемы классификационного и диагностического типа, к каковым относится определение гендерной принадлежности автора.
Использование методик автоматической обработки текста востребовано в судебных автороведческих экспертизах. «В связи с развитием компьютерных технологий, с одной стороны, и с успехом применения математических вероятностно-статистических моделей в исследовании самых разнообразных аспектов бытия человека в мире – с другой, судебное автороведение сегодня получает новые импульсы» [Радбиль, Маркина, 2019, с. 157]. Это связано прежде всего с возрастанием объема и повышением качественного и структурного многообразия попадающих в сферу внимания правоприменительной практики текстов, которые часто могут распространяться через сеть Интернет без элементов атрибуции, анонимно или псевдонимно.
Актуальным для экспертов-автороведов видится такой аспект проблемы, как выявление имплицитных компонентов спорного текста на разных уровнях их «залегания» [Галя-шина, Ермолова, 2005; Радбиль, 2014; Радбиль, Юматов, 2014; и др.] посредством квантитативных методик, например подсчета частоты использования определенных элементов текста, которая может свидетельствовать об особенностях психологического состояния автора, его социальных, образовательных, гендерных характеристиках [Катышев, Осадчий, 2018; Хоменко, 2019; Литвинова, Громова, 2020].
Современные компьютерные методы авторизации и диагностики текста, отражающие инновационное развитие традиционных принципов стилеметрии, или стилостатистики, во многом восходящие к знаменитой работе Н.А. Морозова «Лингвистические спектры» [Морозов, 1916], отличаются разнообразием [Баранов, 2001; Верзохин, 2013; и др.]. Как от- мечает С.С. Верзохин, «одни направлены на изучение лексических показателей, другие на изучение синтаксических или грамматических характеристик. Существуют также некоторые другие подходы, авторы которых предлагают комплексный анализ текста на нескольких языковых уровнях» [Верзохин, 2013, с. 24]. Сегодня большинство методов основано на применении разных версий вероятностно-статистического подхода к анализу текста [Головин, 1970; Хмелев, 2000; Кремер, 2007; Романов, Мещеряков, 2009; Хоменко, 2019]. С их помощью ставятся и решаются различные авторизационные задачи в области текстологии, в том числе обладающие культурной значимостью. Результаты применения указанного подхода в текстологии привлекли внимание и представителей лингвокриминалистики.
Пионером в области отечественного криминалистического исследования письменной речи по праву считается С.М. Вул. Именно он заложил основы современного судебного автороведения и разработал его терминологический аппарат (см.: [Вул, 1977]). Предметом судебного автороведения является установление фактических данных о личности автора при исследовании текста документа и иных материалов уголовного дела. Эти данные фиксируются в заключении эксперта и служат доказательством в процессе расследования и судебного разбирательства дел [Га-ляшина, Ермолова, 2005].
Изначально судебное автороведение сосредоточилось исключительно на определении авторства спорного текста [Литвинова, 2012], в том числе анонимного [Argamon et al., 2009], и добилось на этом пути значительных успехов. Однако с развитием компьютерных технологий круг проблем, требующих обсуждения, неуклонно расширяется. Специалисты обратили внимание на то, что в принципе стабильные относительные частоты встречаемости в тексте того или иного языкового элемента могут быть не только индивидуальным признаком автора, но и показателем общих черт людей, пребывающих в определенном психическом или психофизиологическом состоянии, а также маркером уровня образованности, профессии, возраста и гендера. Иными словами, в современном судебном автороведении становятся легитимными проблемы диагностического пла- на, а также определение гендерной принадлежности автора спорного текста посредством методов автоматической обработки текстов.
Материал и методы
Теоретические основы исследования
Теоретической базой предлагаемого исследования стал сложившийся на современном уровне междисциплинарного лингвистического знания комплекс идей о наличии собственно языковых, коммуникативных и психологических различий между речью мужчин и женщин [Крючкова, 1976; Енгалычев и др., 2001; Литвинова и др., 2014]. Эти различия не эксплицитны, но между тем они пронизывают все уровни языковой системы и отражаются в речевой практике [Горошко, 1999], в разных типах дискурсов и речевых жанрах [Викторова, 2011; Сеченова, 2012].
Кроме того, эмпирически выяснено, что указанные различия имеют не столько качественный, сколько количественный характер, а значит, они в принципе могут быть подвергнуты вероятностно-статистической процедуре [Ионова, Огорелков, 2020]. Любой текст характеризуется определенными статистическими закономерностями, которые измеряемы и вычислимы с достаточной степенью объективности, что позволяет применять математические методы, например, модели А.А. Маркова, для достижения требуемых результатов [Хмелев, 2000]. Сегодня в науке о языке получены достоверные корреляции между параметрами текста и характеристиками личности, в частности гендером. Так, информативными для диагностирования личности по гендеру были признаны такие параметры текста, как «количество знаменательных слов / количество незнаменательных слов», «количество имен существительных / всего слов», «количество незнаменательных слов / число существительных», «отношение местоимений / общее число слов»; «личные местоимения / всего слов» и пр. [Литвинова и др., 2014]. При этом акцент делается на квантитативную интерпретацию не столько лексических, сколько формально-грамматических элементов текста (соотношение слов разных частей речи, разных синтаксических моделей), потому что они в меньшей степени контролируются автором, но при этом являются облигаторными для выражения.
Современное развитие компьютерных технологий позволяет в значительной степени формализовать и автоматизировать полученные результаты при наличии теоретически непротиворечивых и методологически оправданных параметров анализа. Цель работы – интерпретация экспериментального исследования расширенных возможностей компьютерной программы авторизации текста «КАТ» (компьютерная авторизация текста) применительно к новым задачам определения гендерной принадлежности спорного текста, то есть разработка научнопрактической платформы диагностического гендерного анализа текста для экспертных авто-роведческих исследований.
Нами принята методика вероятностностатистического исчисления и оценки относительных частот соотношения тех или иных языковых элементов, в результате чего подсчитываются коэффициенты корреляции и колебания параметров в разных выборках из текстовых баз данных. Набор исчисляемых параметров основан на коэффициентах Б.Н. Головина [Головин, 1970] и дополнен некоторыми другими принятыми в стилостатистике параметрами.
Материалом исследования являются созданные нами на основе Национального корпуса русского языка непрерывно пополняемые первичные базы художественных текстов XIX и XXI вв. и тексты, достоверно атрибутированные как написанные мужчинами или женщинами (соответственно, 4 базы: XIX век – женщины, XIX век – мужчины; XXI век – женщины, XXI век – мужчины). На данном этапе в каждой базе примерно по 150 текстов.
Принципы построения автоматизированной компьютерной программы гендерной диагностики текста и выбор алгоритмов
Исходные данные. Имеется компьютерная программа идентификации авторства текста по определенным параметрам (о начальном этапе ее разработки см.: [Юматов, Маркина, Ковалева, 2015; Юматов В.А., Маркина, Юматов С.В., 2016], о корректировании и апробации применительно к идентификации автора см.: [Радбиль, Маркина, 2019]). В настоящей работе освещаются результаты усовершенствования этой программы для установления ген- дера предполагаемого автора текста, которое сводится к поиску параметров, отражающих гендерный инвариант. После его установления определение гендерной принадлежности автора текста существенно упрощается.
Выбор группы параметров. В программе идентификации автора ранее была выделена группа параметров:
-
– отношение знаков препинания к общему количеству слов в тексте – число знаков препинания / число всех слов в тексте (1);
-
– средняя длина слова – число букв в слове / число всех слов в тексте (2);
-
– средняя длина предложения – число слов в предложении / число предложений в тексте (3);
-
– коэффициент предметности (Рг) – отношение суммы существительных и местоимений к сумме прилагательных и глаголов (4);
-
– коэффициент качественности (Qu) – отношение суммы прилагательных и наречий к сумме глаголов и существительных (5);
-
– коэффициент активности (Ас) – отношение суммы глаголов и глагольных форм к количеству слов в тексте (6);
-
– коэффициент динамизма (Din) – отношение суммы глаголов и глагольных форм к сумме существительных, прилагательных и местоимений (7);
-
– коэффициент связности текста (Con) – отношение суммы предлогов и союзов к числу предложений (8).
Всего используется 8 параметров [Рад-биль, Маркина, 2019].
Компьютеризованная программа опирается на предварительно заданный набор характеристик, что существенно ограничивает надежность полученных результатов.
В основу предлагаемого алгоритма компьютеризованной модели положен корреляционный анализ – статистический метод, посредством которого изучается связь между явлениями на основе установления связей между случайными величинами.
Согласно концепции Н.Ш. Кремера, для изучения корреляционной связи данные о статистической зависимости целесообразно задавать в виде корреляционной таблицы или в виде двумерной выборки X ( X 1 , X 2 , ..., Xn ), Y ( Y 1 , Y 2 , ..., Yn ). Для наглядности каждую пару можно представить в виде точки на координатной плоскости.
По оси абсцисс откладываются значения одного вариационного ряда Xi , а по оси ординат – другого Yi . Такое изображение статистической зависимости называется полем корреляции или корреляционным полем точек. Оно создает общую картину корреляции [Кремер, 2007].
Математической мерой корреляции двух случайных величин служит коэффициент корреляции r. Линейный коэффициент корреляции (или коэффициент корреляции Пирсона), разработанный К. Пирсоном, Р. Уэлдоном и Ф. Эджуортом в 90-х гг. XIX в. (см.: [Кремер, 2007]), рассчитывается по формуле r = covXY _ E (X - X)(Y - Y)
" ®xоy Je(x -X)2E(y -y)2, где X = — E _ X,, Y = — E _. Yt - средние значения n ‘=1 n ‘=1
выборок.
Алгоритм действия данной программы
Пусть имеются несколько баз данных художественных произведений, авторство которых известно ( A , B , C ), и текст new ( new 1 , new 2 , ..., new m ) T , авторство которого не известно. Необходимо определить, написан ли текст одним из известных писателей либо новым автором.
Представим базы произведений, авторство которых известно, в виде матриц, где m – количество обработанных текстов, n – количество их параметров:
a11 a21 ... am1 a12 a22 ... am2
-
a1n a2n ... amn
b11 b21 ... bm1 b12 b22 ... bm2
............
b1n b2n ... bmn c11 c21 ... cm1
c12 c22 ... cm2
c 1n c 2n ... c mn
Новый текст представим в виде вектор-столбца new ( new 1 , new 2 , ..., newm ) T .
Для каждой матрицы посчитаем коэффициент корреляции каждого столбца с вектором new и получим три вектора s (s1, s2, ..., sm); p (p1, p2, ..., pm); r (r1, r2, ..., rm).
Найдем среднее значение элементов каждого вектора. Получим ~ s , ~ p , r ~ , из этих значений составим вектор k ( ~ s , ~ p , r ~ ).
Конечным результатом работы алгоритма по определению авторства текста выступают вектор, длина которого равна количеству писателей, и значения, позволяющие установить авторство спорного текста.
Далее предстоит выяснить, подходят ли рассмотренные выше параметры, коэффициенты и методы их исчисления для определения гендера предполагаемого автора текста.
Результаты и обсуждение
Предварительная стадия реализации поставленной цели диагностики гендерной принадлежности автора текста
На предварительной стадии исследования мы, используя данные нашей работы [Радбиль, Маркина, 2019], установили 8 релевантных параметров, которые предполагалось проверить посредством программы:
– отношение всех знаков препинания к числу слов;
-
– средняя длина слов;
-
– средняя длина предложения;
-
– коэффициент предметности;
-
– коэффициент качественности;
-
– коэффициент активности;
-
– коэффициент динамизма;
-
– коэффициент связности.
Затем на основе баз Национального корпуса русского языка методом сплошной выборки были созданы две первичных базы художественных текстов (в одной – написанные мужчинами, в другой – женщинами). Все тексты были обработаны программой «КАТ» по 8 параметрам. Были определены усредненные коэффициенты для всех баз (см. таблицу).
Для каждого нового текста вычисляются 8 параметров и устанавливаются корреляции с усредненными значениями по каждой базе. Затем проверяются уже атрибутированные тексты авторов – мужчин и женщин – для выяснения возможности разграничить их по набору указанных параметров (см. рис. 1, 2).
Значения усредненных коэффициентов для баз текстовValues of averaged coefficients for text bases
Параметры |
Авторы |
|
Женщины |
Мужчины |
|
Отношение всех знаков препинания к числу слов |
0,222 |
0,254 |
Средняя длина слов |
5,292 |
4,988 |
Средняя длина предложения |
13,540 |
11,014 |
Коэффициент предметности |
0,994 |
1,023 |
Коэффициент качественности |
0,364 |
0,317 |
Коэффициент активности |
0,157 |
0,165 |
Коэффициент динамизма |
0,315 |
0,359 |
Коэффициент связности |
4,535 |
3,974 |
Текст 1. Сергей Самаров. «Операция “Антитеррор”»
Название |
Корелляция |
Отношение всех знаков препинания к числу слов |
Средняя длина слова |
Средняя длина предложения |
Коэффициент предметности |
Коэффициент качественносп |
Коэффициент активности |
Коэффициент динамизма |
Коэффициент связности |
ТЕКСТ |
1 |
0,256 |
5,513 |
7,977 |
1,073 |
0,416 |
0,123 |
0,232 |
2,795 , |
Мужчины |
0.803 |
0,254 |
4,985 |
11,034 |
1,023 |
0,317 |
0,166 |
0,36 |
3,983 |
Женщины |
0,794 |
П ?2? |
5,292 |
13,541 |
0,995 |
0,364 |
0,158 |
0,315 |
4,536 |
Программа рекомендует данную базу как максимально близкую: Мужчины
Рис. 1. Значения коэффициентов для текста, написанного мужчиной
-
Fig. 1. Values of coefficients for a text written by a man
Текст 2. Галина Чернецкая. «Невеста Дракона»
Название |
Корелляция |
Отношение всех знаков препинания к числу слов |
Средняя длина слова |
Средняя длина предложения |
Коэффициент предметности |
Коэффициент качественносп |
Коэффициент активности |
Коэффициент динамизма |
Коэффициент связности |
ТЕКСТ |
1 |
0,224 |
5,371 |
14,3 |
0,824 |
0,428 |
0,171 |
0,331 |
4,45 |
Женщины |
0,933 |
0,222 |
5,292 |
13,541 |
0,995 |
0,364 |
0,158 |
0,315 |
4,536 |
Мужчины |
0,864 |
0,254 |
4,989 |
11,014 |
1,024 |
0,318 |
0,166 |
0,359 |
3,975 |
Программа рекомендует данную базу как максимально близкую: Женщины
Рис. 2. Значения коэффициентов для текста, написанного женщиной
-
Fig. 2. Values of coefficients for a text written by a woman
Далее были проведены эксперименты по анализу новых текстов и определению их отношения к усредненному показателю в базе. Это позволило уточнить значения параметров и выявить три наиболее релевантных из них для определения различий между текстами, написанными мужчинами и женщинами: (1) средняя длина слов: у женщин – 5,292, у мужчин – 4,988; (2) средняя длина предложения: у женщин – 13,540, у мужчин – 11,014; (3) коэффициент связности: у женщин – 4,535, у мужчин – 3,974.
Терминальная стадия реализации поставленной цели диагностики гендерной принадлежности автора текста
На основании результатов эмпирического анализа значительного массива текстов было сделано предположение, что указанные коэффициенты не являются абсолютными, но зависят от хронологического периода. В соответствии с ним необходимо было проверить следующее наблюдение: при переходе от текстов XIX в. к текстам XXI в. коэффициенты средней длины предложения приближаются друг к другу (у женщин уменьшаются, а у мужчин увеличиваются), то есть формальнограмматические различия между текстами авторов разной гендерной принадлежности сокращаются. Проверка этого наблюдения осуществлялась на материале 4 баз текстов: XIX век – женщины, XIX век – мужчины; XXI век – женщины, XXI век – мужчины (см. рис. 3–6 соответственно).
Значения коэффициентов для текстов, написанных женщиной, XIX в. (см. рис. 3):
– отношение всех знаков препинания к числу слов: 0,253;
– средняя длина слов: 5,472;
– средняя длина предложения: 13,744;
– коэффициент предметности: 1,602;
– коэффициент качественности: 0,286;
– коэффициент активности: 0,138;
– коэффициент динамизма: 0,261;
– коэффициент связности: 4,200.
Значения коэффициентов для текстов, написанных мужчиной, XIX в. (см. рис. 4):
– отношение всех знаков препинания к числу слов: 0,239;
– средняя длина слов: 5,161;
– средняя длина предложения: 15,062;
– коэффициент предметности: 0,954;
– коэффициент качественности: 0,377;
– коэффициент активности: 0,156;
– коэффициент динамизма: 0,324;
– коэффициент связности: 5,245.
Значения коэффициентов для текстов, написанных женщиной, XXI в. (см. рис. 5):
– отношение всех знаков препинания к числу слов: 0,243;
– средняя длина слов: 5,209;
– средняя длина предложения: 11,070;
– коэффициент предметности: 1,049;
– коэффициент качественности: 0,329;
– коэффициент активности: 0,160;
– коэффициент динамизма: 0,332;
– коэффициент связности: 3,789.
Значения коэффициентов для текстов, написанных мужчиной, XXI в. (см. рис. 6):
– отношение всех знаков препинания к числу слов: 0,231;
– средняя длина слов: 5,380;
– средняя длина предложения: 12,013;
– коэффициент предметности: 1,019;
– коэффициент качественности: 0,346;
– коэффициент активности: 0,162;
– коэффициент динамизма: 0,321;
– коэффициент связности: 3,851.
Данные результаты получены на первичных базах текстов, и их следует оценивать как промежуточные. Однако уже и на этом, весьма схематичном, уровне диагностики можно выдвинуть некоторые предположения в области их качественной интерпретации. Так, при переходе от текстов XIX к текстам XXI в. уменьшается средняя длина предложения, что свидетельствует об общей тенденции мужской и женской речи к упрощению синтаксиса в целом, к динамизму, к ускорению коммуникации в условиях временных ограничений на речевой акт. Кроме того, можно говорить о стирании различий между мужской и женской речью в современном мире, что, вероятно, отражает тенденции к стандартизации и унификации всех форм мыслительной, психической и вербальной активности людей в меняющихся условиях коммуникации.
£Ь База текстов — □ X
Название |
Отношение всех знаков препинания к числу слов |
Средняя длина слова |
Средняя длина предложения |
Коэффициент предметности |
Коэффициент качественност] |
Коэффициент активности |
Коэффициент динамизма |
Коэффициент связности |
Дьяконова Елизавет. |
0,309 |
5,394 |
10,226 |
0,798 |
0.486 |
0.155 |
0,297 |
3,323 |
Жукова Мария Семе... |
0.284 |
5,117 |
8,926 |
1,08 |
0.296 |
0.163 |
0,338 |
3,161 |
Жукова Мария Семе... |
0,286 |
5,165 |
10,406 |
0,822 |
0,316 |
0,201 |
0,447 |
3,631 |
Жукова Мария Семе... |
0,215 |
5.316 |
11,436 |
0,812 |
0.431 |
0.168 |
0,335 |
3.769 |
Кохановская Надеж... |
0,287 |
5,357 |
13,25 |
2.15 |
0,204 |
0,106 |
0,174 |
3.8 |
Кохановская Надеж... |
0.336 |
5.839 |
13.111 |
2.507 |
0.223 |
0.076 |
0,114 |
3.37 |
Кохановская Надеж... |
0.259 |
5.231 |
13.358 |
0.773 |
0.351 |
0.204 |
0.437 |
4.403 |
Кохановская Надеж... |
0.338 |
5,42 |
9,735 |
1,671 |
0.146 |
0,169 |
0,327 |
3,059 |
Кохановская Надеж... |
0,313 |
5,584 |
11,484 |
1,996 |
0,219 |
0,104 |
0.183 |
3,753 |
0,253363636363636
0,285681818181818
0.137590909090909
0,261363636363636
4,20018181818182
5,47204545454546
13,7435454545455
1,60204545454545
Добавить текст Удалить текст
Рис. 3. Фрагмент базы текстов: XIX век – женщины Fig. 3. Base of texts: the 19th century – women
^ База текстов — □ X
Название |
Отношение всех знаков препинания к числу слов |
Средняя длина слова |
Средняя длина предложения |
Коэффициент предметности |
Коэффициент качественное^ |
Коэффициент активности |
Коэффициент динамизма |
Коэффициент связности |
|
Александр Пушкин -... |
0.221 |
5,082 |
10,637 |
0.905 |
0,324 |
0.176 |
0,389 |
3.953 |
|
Александр Пушкин -... |
0.243 |
4,925 |
9.508 |
1.039 |
0,274 |
0.172 |
0,38 |
3.571 |
|
Антон Павлович Чех... |
0.263 |
5.096 |
12.133 |
0,794 |
0,335 |
0.193 |
0,441 |
4,478 |
|
Антон Павлович Чех... |
0.218 |
4,789 |
11.878 |
1.285 |
0,286 |
0.131 |
0,275 |
4,634 |
|
Антон Павлович Чех... |
0.217 |
5,14 |
16.374 |
0.878 |
0,426 |
0.151 |
0,305 |
5,788 |
|
Антон Павлович Чех... |
0.242 |
4,729 |
15.241 |
0.79 |
0,261 |
0.214 |
0,543 |
5,983 |
|
Антон Павлович Чех... |
0.264 |
5,189 |
9,257 |
1.078 |
0,331 |
0.153 |
0,303 |
3,174 |
|
Иван Александрович... |
0.216 |
5.45 |
17,493 |
0.857 |
0,459 |
0.15 |
0,288 |
5,76 |
|
Иван Александрович... |
0.226 |
5.179 |
20,379 |
1 |
0,357 |
0.154 |
0.311 |
7.138 |
V |
0.23876 0.37734
5.16058 0.15632
15.06234 0.32382
0,9541 5.24516
Добавить текст |
Удалить текст |
Рис. 4. Фрагмент базы текстов: XIX век – мужчины
Fig. 4. Base of texts: the 19th century – men
^ База текстов — □ X
Название |
Отношение всех знаков препинания к числу слов |
Средняя длина слова |
Средняя длина предложения |
Коэффициент предметности |
Коэффициент качественное^ |
Коэффициент активности |
Коэффициент динамизма |
Коэффициент связности |
Анжела Колесников... |
0.238 |
5.219 |
11.2 |
1.035 |
0.371 |
0.148 |
0.283 |
3.702 |
Анна Джейн - Белые ... |
0,229 |
5,045 |
15,629 |
0,923 |
0,431 |
0.139 |
0,28 |
5,688 |
Анна Джейн - Мой ид... |
0,246 |
5,092 |
12,565 |
1,063 |
0,393 |
0,126 |
0,254 |
4,741 |
Анна Джейн - На вол... |
0,259 |
4,98 |
9.635 |
0,951 |
0.296 |
0.181 |
0.397 |
3.502 |
Анна Джейн - Небес... |
0,22 |
5,227 |
13,018 |
0,955 |
0.378 |
0,16 |
0.311 |
4,248 |
Анна Джейн - Покло... |
0,218 |
4,954 |
10,418 |
1,092 |
0,321 |
0,149 |
0,308 |
3,814 |
Гузель Яхина - Зулей... |
0.242 |
5.381 |
9,016 |
1,103 |
0.295 |
0.178 |
0.33 |
2.55 |
Екатерина Николаев... |
0,296 |
4,935 |
6,275 |
1,189 |
0,254 |
0,157 |
0,342 |
2,406 |
Елена Звездная - Бу... |
0,252 |
5,25 |
13,3% |
1,128 |
0,279 |
0,163 |
0,337 |
4.708 |
0.242846153846154
0,329076923076923
0,159769230769231
0,322461538461538
3,7885
5,2085
11,0700769230769
1,04915384615385
Добавить текст Удалить текст
Рис. 5. Фрагмент базы текстов: XXI век – женщины Fig. 5. Base of texts: the 21st century – women
§^ База текстов
Название |
Отношение всех знаков препинания к числу слов |
Средняя длина слова |
Средняя длина предложения |
Коэффициент предметности |
Коэффициент качественное |
Коэффициент активности |
Коэффициент динамизма |
Коэффициент связности |
Александр Полярны... |
0,264 |
4.831 |
10.445 |
1.043 |
0.272 |
0.176 |
0.38 |
3.785 |
Анджей Сапковский ... |
0,293 |
5,374 |
8.69 |
1.081 |
0.309 |
0.173 |
0.324 |
2.54 |
Андрей Круз - Ветер ... |
0,282 |
4.749 |
8,624 |
1,156 |
0.313 |
0.141 |
0.291 |
3,248 |
Андрей Круз - Выжив... |
0,272 |
4,892 |
11,194 |
1.14 |
0,297 |
0,153 |
0,313 |
4,038 |
Андрей Круз - Я еду ... |
0,231 |
5,415 |
14,426 |
1,077 |
0,385 |
0,139 |
0,256 |
4,565 |
Борис Акунин - План... |
0,247 |
5,937 |
11,365 |
0,957 |
0,451 |
0,142 |
0,25 |
3,292 |
Вячеслав Прах - Коф... |
0.241 |
4.653 |
7,909 |
1.017 |
0.282 |
0.17 |
0.381 |
3,04 |
Дмитрий Алексееви... |
0,245 |
5.342 |
8,967 |
1,019 |
0.36 |
0.152 |
0.3 |
3.051 |
Дмитрий Алексееви... |
0,208 |
5,099 |
19,31 |
1.1 |
0.33 |
0.147 |
0.295 |
6,887 |
0,2314 |
0,3455 |
|
5,3804 |
0.16225 |
|
12,01315 |
0,32165 |
|
1,0192 |
3,8511 |
|
Добавить текст |
Удалить текст |
Рис. 6. Фрагмент базы текстов: XXI век – мужчины
Fig. 6. Base of texts: the 21st century – men
Выводы
Проведенное исследование выявило ряд проблем, которые требуют дальнейшей корректировки программы компьютерной диагностики текста по нескольким направлениям. Прежде всего необходимо предусмотреть дифференцирование пороговых значений коэффициентов применительно к текстам разных хронологических периодов с учетом уменьшения различий по параметрам между женской и мужской речью (уменьшить диапазон значимых расхождений для более современного периода).
Применительно к общим принципам работы системы отметим ее преимущества и недостатки. Преимущества заключаются в относительной простоте использования, интуитивной понятности параметров авторизации и логики их исчисления, а также в прозрачности качественной интерпретации результатов. Недостатком программы на данной стадии разработки является приблизительность в вычислениях коэффициентов корреляции. Кроме того, нуждается в дополнительной проверке на релевантность состав параметров – какие из параметров действительно необходимы, а какие имеют случайный характер. Остаются пока не решенными задачи установления необходимого и достаточного количества выборок текстов (какое количество минимально допустимое?), объема данных выборок (достаточен ли, например, объем 10 000 единиц?) и пр.
Так, на данном этапе программа правильно определяет гендерную принадлежность автора с точностью примерно 65 %. Для начальной стадии исследования это приемлемый результат, но для возможностей дальнейшего применения «КАТ» в судебно-авторовед-ческих экспертизах этого недостаточно. Необходимы более тонкие и точные расчеты, что напрямую зависит от качественного состава и объема баз данных текстов. Чем больше текстов в базах, тем точнее диагностика. Возможно, следует проверить и другие методы вычисления корреляций, например метод Спирмена.
В качестве перспектив усовершенствования программы предполагается осуществить спецификацию процесса определения коэффициентов по разным типам дискурса. Тогда с помощью программы «КАТ» можно будет полноценно решать экспертные задачи по диагностике гендерной принадлежности авторов спорных текстов художественного, медийного и политического дискурсов, юридической, официально-деловой и коммерческой документации.
Список литературы Вероятностно-статистическая методика установления гендерной принадлежности текстов на русском языке в судебном автороведении
- Баранов А. Н., 2001. Введение в прикладную лингвистику. М. : Эдиториал УРСС. 347 с.
- Верзохин С. С., 2013. К вопросу о лингвотеорети-ческих основах методик авторизации текста // Ученые записки Забайкальского государственного гуманитарно-педагогического университета им. Н.Г. Чернышевского. №2 2 (49). С. 22-27.
- Викторова Е. Ю., 2011. Влияет ли гендер на использование дискурсивов? : (На материале письменного научного дискурса) // Известия Саратовского университета. Новая серия. Серия: Филология. Журналистика. Вып. 3. С. 8-14.
- Вул С. М., 1977. Теоретические и методические вопросы криминалистического исследования письменной речи. М. : ВНИИСЭ. 109 с.
- Галяшина Е. И., Ермолова Е. И., 2005. Перспективы развития автороведческой экспертизы в России // Судебная экспертиза. №9 3. С. 5-11.
- Головин Б. Н., 1970. Язык и статистика. М. : Просвещение. 190 с.
- Горошко Е. И., 1999. Особенности мужского и женского стиля письма // Гендерный фактор в коммуникации : сб. науч. тр. Иваново : Иван. гос. ун-т. С. 28-41.
- Енгалычев В. Ф., Белянин В. П., Константинова Е. С., Ощепкова Е. С., 2001. Психолингвистические особенности «мужского» и «женского» языков // Труды регионального конкурса научных проектов в области гуманитарных наук. Калуга : Эйдос. Вып. 2. С. 177-187.
- Ионова С. В., Огорелков И. В., 2020. Речевая диагностика личности по гендерному признаку в автороведении: квантитативный подход // Вестник Волгоградского государственного университета. Серия 2, Языкознание. Т. 19, № 1. С. 115-127. DOI: https://doi.org/ 10.15688/тгоки2.2020.1.10.
- Катышев П. А., Осадчий М. А., 2018. Метод параметрического моделирования в судебной лингвистике // Вестник Волгоградского государственного университета. Серия 2, Языкознание. Т. 17, № 3. С. 24-34. DOI: https:// doi.org/10.15688/jvo1su2.2018.3.3.
- Кремер Н. Ш., 2007. Теория вероятностей и математическая статистика. Изд. 3-е, перераб. и доп. М. : ЮНИТИ-ДАНА. 543 с.
- Крючкова Т. Б., 1976. К вопросу о дифференциации языка по полу говорящего // Восточное языкознание : сб. тр. / отв. ред. В. П. Старинин. М. : Наука. С. 152-158.
- Литвинова Т. А., 2012. Языковые корреляты личностных особенностей автора письменного текста: алгоритм исследования // В мире научных открытий. Серия: Проблемы науки и образования. № 9.3 (33). С. 236-255.
- Литвинова Т. А., Загоровская О. В., Черванева В. А., Литвинова О. А., 2014. Проблема диагностирования пола автора письменного текста: фактор жанра // Современные исследования социальных проблем : электрон. науч. журн. № 1 (33). DOI: 10.12731/2218-7405-2014-1-4. URL: https:// cyberleninka. ru/art icle/n/probl ema-diagnostirovaniya-pola-avtora-pismennogo-teksta-faktor-zhanra/viewer (дата обращения: 14.08.2020).
- Литвинова Т. А., Громова А. В., 2020. Компьютерные технологии в судебной автороведческой экспертизе: проблемы и перспективы использования // Вестник Волгоградского государственного университета. Серия 2, Языкознание. Т. 19, № 1. С. 77-88. DOI: https://doi.org/ 10.15688/jvolsu2.2020.1.7.
- Морозов Н. А., 1916. Лингвистические спектры : Средство для отличения плагиатов от истинных произведений того или другого известного автора. Пг. : Тип. Императ. Акад. наук. 42 с. URL: http://www.textology.ru/library/ book.aspx?bookId=1&textId=3 (дата обращения: 12.05.2020).
- Радбиль Т. Б., 2014. Выявление содержательных и речевых признаков недобросовестной информации в экспертной деятельности лингвиста // Вестник Нижегородского университета им. Н.И. Лобачевского. №2 6. С. 146-149.
- Радбиль Т. Б. Маркина М. В., 2019. Вероятностно-статистические модели в производстве авторовед-ческой экспертизы русскоязычных текстов // Политическая лингвистика. № 2 (74). С. 156-166.
- Радбиль Т. Б., Юматов В. А., 2014. Способы выявления имплицитной информации в лингвистической экспертизе // Вестник Нижегородского университета им. Н. И. Лобачевского. № 3 (2). С. 18-21.
- Романов А. С., Мещеряков Р. В., 2009. Идентификация автора текста с помощью аппарата опорных векторов // Компьютерная лингвистика и интеллектуальные технологии : по материалам ежгод. Междунар. конф. «Диалог 2009» (Бе-касово, 27-31 мая 2009 г). М. : РГГУ Вып. 8 (15). С. 432-437.
- Сеченова Е. Г., 2012. Гендерная идентичность в фокусе современного научного дискурса // Вестник Тюменского государственного университета. Гуманитарные исследования. N° 1. С. 86-91.
- Хмелев Д. В., 2000. Распознавание автора текста с использованием цепей А.А. Маркова // Вестник Московского университета. Серия 9, Филология. № 2. С. 115-126.
- Хоменко А. Ю., 2019. Лингвистическое атрибуци-онное исследование коротких письменных текстов: качественные и количественные методы // Политическая лингвистика. № 2 (74). С. 177-187. DOI: 10.26170/pl19-02-20.
- Юматов В. А., Маркина М. В., Ковалева А. С., 2015. Программа криминалистической диагностики и авторизации текста «КАТ» // Вестник Костромского государственного университета им. Н.А. Некрасова. Т. 21, № 3. С. 199-202.
- Юматов В. А., Маркина М. В., Юматов С. В., 2016. Математические методы криминалистической диагностики и авторизации текста в рече-ведческой экспертизе // Вестник Нижегородского университета им. Н.И. Лобачевского. № 5. С. 227-232.
- Argamon Sh., Koppel M., Pennebaker J. W., Schler J., 2009. Profiling the Author of an Anonymous Text // Communication of the ACM. Vol. 52 (2). Р. 119-123.