Концептуальные различия подходов к описанию статистической структуры текстов (на примере «Сказания о Мамаевом побоище»)
Автор: Ковригина Любовь юрьевнА.
Журнал: Ученые записки Петрозаводского государственного университета @uchzap-petrsu
Рубрика: Филология
Статья в выпуске: 7 (136) т.1, 2013 года.
Бесплатный доступ
Сопоставляются три метода моделирования статистической структуры текста как поликомпонентного объекта по одному из параметров на материале редакций «Сказания о Мамаевом побоище». Методы нацелены на выявление тематических и нетематических лексических единиц в эмпирическом распределении лексики текста. Производится апробация этих методов на одном материале и выявляется приоритетный параметр - точка h Хирша - Попеску, которая позволяет «отсеять» большинство нетематических единиц для конкретного текста.
Вариативный текст, негауссовость, н-распределение, статистическая структура текста, ядерные и периферические элементы, неоднородность генеральной совокупности, пойнтер-точка r б. и. кудрина, точка h дж. хирша -и.-и. попеску, я-distribution
Короткий адрес: https://sciup.org/14750542
IDR: 14750542
Текст научной статьи Концептуальные различия подходов к описанию статистической структуры текстов (на примере «Сказания о Мамаевом побоище»)
В качестве предмета лексикостатистического исследования текст предстает как определенный набор лексических единиц (уникальных или повторяющихся с той или иной частотой). Если перенумеровать элементы словаря V = {x1, x2, …, xN} так, чтобы частота F слова xi была невозрастающей функцией его номера F (x1) > F (x2) > … > F (xN) , то ранговым распределением называется функция Ф (п) = F (xN) , которая ставит в соответствие номеру или рангу п (х) слова xЄV частоту F (x) этого слова. В обсуждаемом далее контексте рассматриваются такие ранговые распределения, график которых приближается к гиперболе, в силу чего такие распределения обозначаются как Н -распределения1.
К настоящему времени накопилось довольно большое число разных подходов к описанию ранговых распределений и не прояснено, как эти подходы соотносить между собой, поскольку каждый из них разрабатывался внутри предметно-специфичной научной парадигмы и под конкретный материал.
Поэтому представляется практически важным исследование и сопоставление разных моделей и получаемых с их помощью результатов на одном материале. Предметом статьи выбрана задача соотнесения трех характеристик моделей, принадлежащих разным авторам (Б. И. Кудрину [4]; Г. Я. Мартыненко [6], [7], [8]; И. Попеску, Г. Альтманну и Я. Машутеку [15]).
Перечисленные ниже параметры моделей и характеристики эмпирических данных принимаются всеми исследователями: 1. Резкая неравночисленность разных классов распределения. 2. Большое количество одноэлементных классов. 3. Наличие небольшого количества высокочастотных классов. 4. Большой разрыв численности классов с рангами 1 и 2, 2 и 3, 3 и 4 и немного далее с уменьшением разницы по мере движения по этому ряду (в случае моделирования с помощью ранговых распределений). 5. Отсутствие простого описания соотношения численности классов распределения. 6. Более или менее симметричный относительно биссектрисы первого квадранта график рангового распределения. 7. Более или менее хорошая аппроксимация гиперболой графика рангового распределения. 8. Систематическое отклонение этих распределений от гиперболы в зоне средних частот.
При таких сходных допущениях среди исследователей Н -распределений отсутствует единое мнение об их гауссовости/негауссовости и выполнения для них центральной предельной теоремы. Спорным моментом является и одно-родность/неоднородность генеральной совокупности, описываемой Н -распределениями.
Большинство исследователей исходит из того, что они имеют дело с единой генеральной совокупностью (к их числу относится и Б. И. Кудрин). Как указывает С. В. Чебанов, «всячески обыгрывается то обстоятельство, что это такая хитрая генеральная совокупность, что она содержит принципиально непохожие друг на друга компоненты» [11; 75].
Иная точка зрения заключается в том, что H -распределение описывает смесь как минимум двух генеральных совокупностей, каждая из которых внутри однородна. Этой точки зрения придерживается Г. Я. Мартыненко, который считает более перспективным направление, учитывающее неоднородность статусных распределений [7; 67]. Убежденным сторонником неоднородности распределений, до этого аппроксимируемых
(в гуманитарных науках) преимущественно «гиперболой» Ципфа, был и Густав Хердан [14; 77– 86]. Опишем подробнее каждый из подходов.
ЦЕНОЛОГИЧЕСКИЙ ПОДХОД Б. И. КУДРИНА
Б. И. Кудриным начиная с середины 1970-х годов разрабатывается претендующий на всеобщность ценологический подход [5]2.
По Б. И. Кудрину, аналитическим выражением для Н -распределения является функция вида Ω(x) = W1/ x 1+α, где x – численность класса ( x = 1, 2, … n , где n – численность самого высокочастотного класса); W1 – количество классов с численностью 1 ( hapax legomena ); α > 0 – параметр (см. подробное описание, напр., в [3; 388]).
Функция Ω(х) не вполне хорошо описывает эмпирическое распределение, поэтому Кудрин вводит понятие особой точки, точки перегиба – пойнтер-точки R, которая фиксируется на эмпирическом распределении. Гипербола делится точкой R на две ветви: слева x = 1, 2, …, R – неоднородные группы, где каждая образована множеством классов; справа x = R + 1, R + 2, …, F max – однородные группы ( F max – эмпирическая частота слова, встретившегося в тексте с максимальной частотой) [4] (см. столбец « n » табл. 1, где пойнтер-точка выделена полужирным шрифтом).
Б. И. Кудриным были получены интересные результаты при изучении распределения персонажей в романе М. А. Булгакова «Мастер и Маргарита»: вокруг пойнтер-точки сгруппировались персонажи, определяющие отличие романа Булгакова от «Фауста» Гёте: Левий Матвей, Босой, Варенуха, Римский, Стёпа Лиходеев [4].
ЗОНЫ КОНЦЕНТРАЦИИ И РАССЕЯНИЯ ПО Г. Я. МАРТЫНЕНКО
Г. Я. Мартыненко подвергает радикальному сомнению однородность генеральной совокупности и возможность аппроксимации ее распределения с помощью функции Ципфа – Парето [6; 157], справедливо указывая, что, «если по данным наблюдения построить убывающее ранговое распределение, то его характерные особенности могут ускользнуть из поля зрения исследователя ввиду чрезмерной растянутости графика вдоль оси рангов. Как правило, такой график отождествляется с крайне асимметричной J-образной кривой. Высокий пик таких распределений и очень растянутый хвост затушевывают некоторые ненормальности в поведении кривой, которые чаще всего списываются на счет ошибок наблюдения» [6; 140]. Под «ненормальностями» подразумевается характерный бугорок на кривой распределения в области средних частот, который Г. Я. Мартыненко квалифицирует как результат наложения одного распределения на другое (графики распределения элементов смешанной совокупности характеризуются бо- лее сложным рельефом), причем делает это уже в 1978 году [7; 67–69].
Чтобы установить неоднородность совокупности, Г. Я. Мартыненко предлагает следующие критерии: 1) величину коэффициента вариации: чем больше этот коэффициент, тем больше шансов, что совокупность неоднородна; 2) внешний вид графика эмпирического распределения: если кривая распределения многовершинна, то есть веские основания полагать, что исходная совокупность состоит из нескольких качественно однородных фрагментов [6; 137].
Для разделения совокупности на зоны можно воспользоваться методикой вычисления прироста скользящего коэффициента вариации (СКВ). Процедура расчетов с примерами подробно описана в той же работе [6; 150–153]. По данным автора статьи, на текстах достаточного объема на графике прироста СКВ явно прослеживается следующая тенденция: сначала функция монотонно убывает, потом убывание чередуется с возрастанием и, наконец, монотонно возрастает (при построении графика по оси абсцисс откладывается ln ( n ), по оси ординат – ln ( dV ), значения коэффициента вариации и его прироста см. в столбцах V и dV табл. 1).
Г. Я. Мартыненко выделяет в Н -распределе-ниях ядерную и периферическую зоны и переходную зону. В ядерные элементы попадает служебная лексика и другие единицы со стертой семантикой, на периферии – низкочастотная лексика. Правая граница монотонности на графике прироста скользящего коэффициента вариации (значения подчеркнуты в столбцах табл. 1) отграничивает ядерные элементы.
ПОДХОД И.-И. ПОПЕСКУ, Г. АЛЬТМАННА И Я. МАШУТЕКА. ТОЧКА h
Попеску, Машутек и Альтманн принимают и неоднородность, и негауссовость лингвостатистических распределений.
Так, тексты значительной длины считаются неоднородными, поскольку написаны не за один раз [15; 8]. Интересно также мнение авторов об устойчивости статистических характеристик лексических единиц в корпусе текстов: они отвергают принцип «чем больше выборка, тем устойчивее статистические характеристики», заменяя его на принцип «чем больше выборка, тем более неоднородным становится текст» [15; 8]. Такой «ход» означает фактическое признание негауссового характера лингвистических распределений. В пользу негауссовости свидетельствует и указание этих авторов на слабую пригодность традиционных критериев (χ-квадрат) для оценки качества аппроксимации распределений единиц в тексте [15; 15].
На гиперболической кривой рангового распределения Альтманн и Попеску выделяют особую точку h, для которой выполняется условие r = f (r) (где r – ранг, f (r) – частота слова с рангом r) [15; 24]. По их мнению, эту точку следует интерпретировать как границу между словами со стертой семантикой (synsemantics) и словами, значимыми для этого текста (autosemantics), но для них эта точка не является маркером неоднородности совокупности, как для Г. Я. Мартыненко. Попеску с соавторами считают, что те полнозначные слова, которые оказываются среди отграниченной точкой h служебной лексики, отражают тематику текста.
Точка перегиба h ( h -point), предложенная Дж. Хиршем в 2005 году, определяется как точка, в которой кривая рангового распределения пересекается с прямой y = x . Этот параметр мгновенно увязывается с симметрийными идеями Ю. А. Шрейдера [2] и пойнтер-точкой R Б. И. Кудрина. Б. И. Кудрин, что интересно, тоже характеризует этот введенный им параметр как «точку перегиба». Попеску и Альтманн задают точку h так:
г r,
= f (i)rj f ( j)ri h = , rj ri + f(i) f(j), если 3 r= f(r);
если 3 r= f ( r ).
В большинстве случаев в эмпирическом ряду есть точка, в которой r = f ( r ). Если такой точки нет, то берут соседние точки f ( i ) и f ( j ), такие, что f ( i ) > ri и f ( j ) < rj . Чаще всего ri + 1 = rj.
СОПОСТАВЛЕНИЕ МЕТОДИК
Несмотря на различие позиций Б. И. Кудрина и Г. Я. Мартыненко, обоих исследователей объединяет глубинный принцип сегментации кривой распределения на функциональные зоны, но картина мира, в которой описываются эти представления о сегментации, разная: Кудрин маркирует особые точки (пойнтер -точка, начало и конец распределения), а Мартыненко защищает позицию о смешанном характере итоговой совокупности, хотя обоим в итоге нужна содержательная интерпретация количественных данных. Странным кажется то обстоятельство, что в научном сообществе вовлеченных в «ципфиаду» практически не обсуждаются количественные соотношения между маркированными точками: можно ли по началу распределения предсказать его хвост, общее количество классов и т. п., в общем случае по части реконструировать целое.
Представляется небезынтересным сравнить результаты, получаемые с помощью применения всех трех параметров, на одном материале, а именно на частотных словарях лексем, построенных для 8 списков «Сказания о Мамаевом побоище»3. Для исследования статистической структуры вариативного текста были получены в электронном виде 8 списков памятника, представляющие 5 основных редакций и нетиповые и компилятивные списки. В пределах статьи приводятся статистические данные только для четырех списков: 1. Список Основной редакции РНБ O.IV.22, XVI век. 2. Список Летописной редакции СПбОИИ № 251, XVI век. 3. Список Киприановской редакции БАН 32.14.8, XVI век. 4. Список Распространенной редакции РНБ Q.IV.354, XIX век4.
Для каждого списка были построены частотные словари и произведена лемматизация. Таблица 1 содержит спектровые5 распределения лексем для частотных словарей 4 списков «Сказания» и данные о приросте скользящего коэффициента вариации и его значениях в характеристических точках распределения. Ячейка, содержащая пойнтер-точку R Б. И. Кудрина, выделена полужирным шрифтом; ячейка, содержащая точку h Хирша – Попеску, – серым фоном. Подчеркиванием выделена строка, содержащая значение точки, с которой начинается монотонное возрастание прироста коэффициента вариации (точки В). Даже визуальный анализ таблицы показывает близость или даже совпадение пойнтер-точки R и точки В. Полученные результаты подталкивают к вполне недвусмысленному выводу о равноценности сопоставляемых методов в практической деятельности. Точка h Хирша – Попеску ожидаемо располагается значительно ближе к центру распределения.
Обратимся теперь к анализу лексем, отграничиваемых с помощью рассматриваемых параметров (табл. 2). Лексика, выделенная с помощью пойнтер-точки R и правой границы монотонности графика СКВ, – это союзы, местоимения, клише или коллокаты (титул «великий князь»), а также 2 высокочастотных глагола («быти» и «глаголати») и имя и отчество великого князя. Роль Дмитрия в походе против татар, его поступки и речи постоянно подчеркиваются в тексте.
Анализ лексем, отсекаемых с помощью точки h , подтверждает выводы И.-И. Попеску с соавторами: предложенный ими параметр позволяет отделить большинство нетематических единиц для конкретного текста (что невозможно сделать с помощью параметров Г. Я. Мартыненко и Б. И. Кудрина) и имеет практическое значение. Выше точки h располагается идеологически маркированная лексика («Господь», «Бог», «святыи», «брат», «русский», «полк») и лексика, характеризующая противостоящие силы («русский» против «поганыи»).
Ни один из этих параметров не является стилеразличающим (в данном случае, списки Киприановской – БАН 32.14.8 и Летописной – СПбОИИ № 251 редакций, бытующих в составе летописных сводов, никак не маркированы по составу или количеству выделенной лексики).
Таблица 1
Совмещение параметров методик
Основная, O.IV.22 |
Летописная, СПбОИИ № 251 |
Киприановская, 32. |
14.8 |
Распространенная, Q.IV.354 |
|||||||||||
n |
f(n) |
V |
dV |
n |
f(n) |
V |
dV |
n |
f(n) |
V |
dV |
n |
f(n) |
V |
dV |
1 |
896 |
0,000 |
1 |
885 |
0,000 |
1 |
778 |
0,000 |
1 |
940 |
0,000 |
||||
2 |
318 |
0,349 |
0,349 |
2 |
308 |
0,348 |
0,348 |
2 |
289 |
0,350 |
0,350 |
2 |
279 |
0,342 |
0,342 |
3 |
172 |
0,478 |
0,129 |
3 |
140 |
0,469 |
0,121 |
3 |
142 |
0,472 |
0,122 |
3 |
149 |
0,478 |
0,136 |
4 |
92 |
0,560 |
0,083 |
4 |
75 |
0,554 |
0,085 |
4 |
88 |
0,562 |
0,090 |
4 |
115 |
0,586 |
0,108 |
5 |
59 |
0,627 |
0,067 |
5 |
53 |
0,629 |
0,075 |
5 |
59 |
0,633 |
0,071 |
5 |
65 |
0,652 |
0,067 |
6 |
43 |
0,687 |
0,060 |
6 |
44 |
0,700 |
0,071 |
6 |
31 |
0,680 |
0,047 |
6 |
40 |
0,703 |
0,051 |
7 |
23 |
0,727 |
0,040 |
7 |
25 |
0,747 |
0,047 |
7 |
31 |
0,737 |
0,057 |
7 |
25 |
0,744 |
0,041 |
8 |
25 |
0,779 |
0,052 |
8 |
29 |
0,808 |
0,061 |
8 |
33 |
0,801 |
0,064 |
8 |
26 |
0,795 |
0,051 |
9 |
24 |
0,832 |
0,054 |
9 |
18 |
0,850 |
0,041 |
9 |
13 |
0,829 |
0,028 |
9 |
9 |
0,816 |
0,021 |
10 |
15 |
0,869 |
0,037 |
10 |
12 |
0,882 |
0,032 |
10 |
19 |
0,876 |
0,047 |
10 |
20 |
0,871 |
0,055 |
11 |
16 |
0,912 |
0,043 |
11 |
8 |
0,907 |
0,025 |
11 |
12 |
0,908 |
0,032 |
11 |
15 |
0,914 |
0,043 |
12 |
9 |
0,939 |
0,027 |
12 |
8 |
0,936 |
0,029 |
12 |
15 |
0,951 |
0,043 |
12 |
17 |
0,964 |
0,050 |
13 |
13 |
0,981 |
0,042 |
13 |
9 |
0,973 |
0,037 |
13 |
7 |
0,973 |
0,022 |
13 |
17 |
1,013 |
0,049 |
14 |
9 |
1,012 |
0,031 |
14 |
10 |
1,016 |
0,043 |
14 |
9 |
1,005 |
0,031 |
14 |
11 |
1,046 |
0,032 |
15 |
8 |
1,041 |
0,029 |
15 |
7 |
1,047 |
0,031 |
15 |
7 |
1,031 |
0,026 |
15 |
10 |
1,077 |
0,031 |
16 |
4 |
1,058 |
0,016 |
16 |
6 |
1,076 |
0,029 |
16 |
7 |
1,060 |
0,028 |
16 |
13 |
1,117 |
0,041 |
17 |
6 |
1,085 |
0,027 |
17 |
5 |
1,101 |
0,026 |
17 |
9 |
1,097 |
0,038 |
17 |
5 |
1,134 |
0,016 |
18 |
6 |
1,113 |
0,029 |
18 |
5 |
1,129 |
0,027 |
18 |
7 |
1,127 |
0,030 |
18 |
3 |
1,145 |
0,011 |
19 |
5 |
1,138 |
0,025 |
19 |
5 |
1,158 |
0,029 |
19 |
5 |
1,149 |
0,022 |
19 |
5 |
1,165 |
0,021 |
20 |
2 |
1,149 |
0,011 |
20 |
4 |
1,182 |
0,024 |
20 |
3 |
1,163 |
0,014 |
20 |
3 |
1,179 |
0,014 |
21 |
8 |
1,194 |
0,045 |
21 |
2 |
1,195 |
0,013 |
21 |
5 |
1,189 |
0,026 |
21 |
3 |
1,194 |
0,015 |
22 |
6 |
1,228 |
0,033 |
22 |
4 |
1,223 |
0,028 |
22 |
5 |
1,215 |
0,026 |
22 |
2 |
1,205 |
0,011 |
23 |
8 |
1,270 |
0,043 |
23 |
7 |
1,271 |
0,048 |
23 |
1 |
1,221 |
0,006 |
23 |
3 |
1,223 |
0,018 |
24 |
4 |
1,291 |
0,021 |
24 |
5 |
1,304 |
0,033 |
24 |
2 |
1,234 |
0,013 |
24 |
3 |
1,242 |
0,019 |
25 |
1 |
1,297 |
0,006 |
25 |
1 |
1,311 |
0,007 |
25 |
4 |
1,260 |
0,026 |
25 |
4 |
1,268 |
0,026 |
26 |
2 |
1,310 |
0,013 |
26 |
7 |
1,360 |
0,049 |
26 |
2 |
1,274 |
0,014 |
26 |
2 |
1,282 |
0,014 |
27 |
3 |
1,329 |
0,020 |
27 |
2 |
1,374 |
0,014 |
27 |
6 |
1,315 |
0,041 |
27 |
2 |
1,297 |
0,015 |
28 |
1 |
1,336 |
0,007 |
28 |
1 |
1,381 |
0,007 |
28 |
1 |
1,322 |
0,007 |
28 |
3 |
1,319 |
0,023 |
29 |
1 |
1,344 |
0,008 |
29 |
1 |
1,389 |
0,008 |
29 |
5 |
1,358 |
0,036 |
29 |
2 |
1,335 |
0,016 |
30 |
1 |
1,352 |
0,008 |
30 |
3 |
1,414 |
0,025 |
30 |
2 |
1,372 |
0,014 |
30 |
1 |
1,344 |
0,008 |
31 |
2 |
1,370 |
0,017 |
31 |
1 |
1,423 |
0,009 |
31 |
1 |
1,379 |
0,008 |
31 |
3 |
1,370 |
0,026 |
32 |
4 |
1,405 |
0,035 |
32 |
1 |
1,433 |
0,009 |
32 |
3 |
1,403 |
0,024 |
32 |
2 |
1,388 |
0,018 |
33 |
2 |
1,422 |
0,017 |
35 |
5 |
1,488 |
0,055 |
33 |
2 |
1,419 |
0,016 |
33 |
2 |
1,406 |
0,018 |
34 |
3 |
1,449 |
0,027 |
37 |
1 |
1,500 |
0,012 |
34 |
1 |
1,428 |
0,008 |
36 |
1 |
1,417 |
0,011 |
35 |
3 |
1,475 |
0,026 |
38 |
3 |
1,535 |
0,035 |
35 |
4 |
1,461 |
0,034 |
37 |
2 |
1,441 |
0,023 |
38 |
1 |
1,486 |
0,011 |
40 |
1 |
1,548 |
0,013 |
37 |
1 |
1,471 |
0,009 |
38 |
2 |
1,464 |
0,024 |
39 |
2 |
1,508 |
0,022 |
42 |
1 |
1,562 |
0,014 |
38 |
1 |
1,480 |
0,010 |
39 |
4 |
1,510 |
0,045 |
43 |
1 |
1,521 |
0,014 |
43 |
1 |
1,577 |
0,015 |
39 |
5 |
1,528 |
0,047 |
40 |
1 |
1,521 |
0,011 |
44 |
1 |
1,536 |
0,014 |
44 |
1 |
1,591 |
0,015 |
41 |
2 |
1,547 |
0,020 |
42 |
2 |
1,546 |
0,025 |
47 |
2 |
1,568 |
0,032 |
45 |
1 |
1,607 |
0,015 |
42 |
2 |
1,567 |
0,020 |
43 |
1 |
1,558 |
0,012 |
48 |
1 |
1,584 |
0,016 |
48 |
1 |
1,624 |
0,018 |
43 |
3 |
1,595 |
0,029 |
46 |
1 |
1,573 |
0,015 |
49 |
1 |
1,601 |
0,016 |
52 |
1 |
1,646 |
0,021 |
45 |
1 |
1,606 |
0,010 |
47 |
2 |
1,602 |
0,029 |
53 |
2 |
1,639 |
0,038 |
54 |
1 |
1,668 |
0,022 |
46 |
1 |
1,616 |
0,011 |
49 |
1 |
1,617 |
0,015 |
54 |
3 |
1,692 |
0,053 |
56 |
1 |
1,691 |
0,023 |
47 |
1 |
1,627 |
0,011 |
50 |
1 |
1,633 |
0,016 |
56 |
1 |
1,710 |
0,018 |
57 |
2 |
1,736 |
0,045 |
49 |
1 |
1,639 |
0,012 |
54 |
2 |
1,670 |
0,037 |
57 |
1 |
1,728 |
0,018 |
58 |
1 |
1,758 |
0,022 |
50 |
2 |
1,663 |
0,024 |
56 |
2 |
1,707 |
0,037 |
60 |
2 |
1,767 |
0,039 |
64 |
1 |
1,785 |
0,027 |
56 |
1 |
1,679 |
0,016 |
57 |
2 |
1,742 |
0,035 |
62 |
1 |
1,787 |
0,020 |
65 |
1 |
1,812 |
0,027 |
57 |
2 |
1,711 |
0,031 |
58 |
1 |
1,759 |
0,017 |
66 |
1 |
1,809 |
0,023 |
67 |
1 |
1,839 |
0,027 |
58 |
1 |
1,726 |
0,015 |
60 |
1 |
1,777 |
0,018 |
69 |
1 |
1,834 |
0,024 |
74 |
2 |
1,905 |
0,065 |
59 |
1 |
1,741 |
0,015 |
62 |
1 |
1,796 |
0,019 |
73 |
1 |
1,860 |
0,027 |
80 |
1 |
1,941 |
0,036 |
60 |
1 |
1,757 |
0,015 |
63 |
1 |
1,815 |
0,019 |
81 |
1 |
1,894 |
0,034 |
85 |
2 |
2,018 |
0,077 |
61 |
1 |
1,772 |
0,015 |
64 |
2 |
1,852 |
0,037 |
82 |
1 |
1,926 |
0,032 |
87 |
2 |
2,088 |
0,070 |
63 |
2 |
1,804 |
0,032 |
69 |
1 |
1,873 |
0,021 |
83 |
1 |
1,958 |
0,031 |
97 |
2 |
2,170 |
0,082 |
67 |
1 |
1,822 |
0,018 |
76 |
1 |
1,900 |
0,027 |
84 |
1 |
1,988 |
0,030 |
112 |
2 |
2,272 |
0,102 |
68 |
1 |
1,840 |
0,018 |
86 |
1 |
1,935 |
0,035 |
87 |
1 |
2,019 |
0,031 |
120 |
2 |
2,374 |
0,102 |
70 |
1 |
1,858 |
0,018 |
87 |
1 |
1,969 |
0,034 |
89 |
1 |
2,050 |
0,031 |
123 |
1 |
2,422 |
0,047 |
86 |
1 |
1,890 |
0,032 |
93 |
1 |
2,007 |
0,038 |
90 |
1 |
2,080 |
0,030 |
158 |
1 |
2,507 |
0,085 |
89 |
1 |
1,922 |
0,033 |
94 |
1 |
2,043 |
0,036 |
97 |
1 |
2,115 |
0,035 |
165 |
1 |
2,591 |
0,084 |
93 |
1 |
1,956 |
0,034 |
100 |
1 |
2,083 |
0,040 |
104 |
2 |
2,190 |
0,075 |
173 |
1 |
2,675 |
0,084 |
96 |
1 |
1,991 |
0,035 |
101 |
1 |
2,121 |
0,038 |
114 |
1 |
2,233 |
0,043 |
184 |
1 |
2,762 |
0,087 |
105 |
1 |
2,032 |
0,041 |
107 |
1 |
2,163 |
0,041 |
141 |
1 |
2,303 |
0,070 |
196 |
1 |
2,852 |
0,090 |
106 |
1 |
2,071 |
0,039 |
110 |
1 |
2,204 |
0,041 |
144 |
1 |
2,370 |
0,067 |
246 |
1 |
2,994 |
0,142 |
175 |
1 |
2,198 |
0,127 |
113 |
1 |
2,244 |
0,041 |
148 |
1 |
2,434 |
0,064 |
281 |
1 |
3,162 |
0,167 |
182 |
1 |
2,318 |
0,120 |
115 |
1 |
2,284 |
0,040 |
153 |
1 |
2,498 |
0,063 |
690 |
1 |
4,123 |
0,962 |
187 |
1 |
2,429 |
0,111 |
132 |
1 |
2,337 |
0,053 |
174 |
1 |
2,578 |
0,080 |
188 |
1 |
2,527 |
0,097 |
139 |
1 |
2,393 |
0,056 |
||||
184 |
1 |
2,661 |
0,083 |
203 |
1 |
2,630 |
0,103 |
143 |
1 |
2,448 |
0,055 |
||||
206 |
1 |
2,759 |
0,098 |
210 |
1 |
2,728 |
0,098 |
148 |
1 |
2,503 |
0,055 |
||||
210 |
1 |
2,849 |
0,090 |
215 |
1 |
2,818 |
0,090 |
154 |
1 |
2,558 |
0,055 |
||||
269 |
1 |
2,998 |
0,149 |
227 |
1 |
2,910 |
0,091 |
187 |
2 |
2,718 |
0,159 |
||||
306 |
1 |
3,171 |
0,173 |
284 |
1 |
3,052 |
0,143 |
196 |
1 |
2,793 |
0,075 |
||||
760 |
1 |
4,173 |
1,002 |
301 |
1 |
3,191 |
0,139 |
230 |
1 |
2,896 |
0,103 |
||||
1203 |
1 |
5,162 |
1,971 |
288 |
1 |
3,053 |
0,158 |
||||||||
340 |
1 |
3,252 |
0,199 |
||||||||||||
796 |
1 |
4,246 |
0,994 |
Таблица 2
Лексемы, отсекаемые с помощью точки h (весь столбец), пойнтер-точки R (полужирный шрифт) и правой границы монотонности СКВ (серый фон)
r , ранг |
Основная, РНБ O.IV.22 |
f ( r ) |
Летописная, СПбОИИ 251 |
f ( r ) |
Киприановская, БАН 32.14.8 |
f ( r ) |
Распространенная, РНБ Q.IV.354 |
f ( r ) |
1 |
И |
760 |
И |
690 |
И |
1203 |
И |
796 |
2 |
ЖЕ |
306 |
ЖЕ |
281 |
КНЯЗЬ |
301 |
ЖЕ |
340 |
3 |
КНЯЗЬ |
269 |
КНЯЗЬ |
246 |
ОН |
284 |
КНЯЗЬ |
288 |
4 |
НА |
210 |
НА |
196 |
ВЕЛИКИИ |
227 |
ВЕЛИКИИ |
230 |
5 |
ВЕЛИКИИ |
206 |
ОН |
184 |
НА |
215 |
НА |
196 |
6 |
СВОИ |
184 |
СВОИ |
173 |
ЖЕ |
210 |
СВОИ |
187 |
7 |
БЫТИ |
174 |
ВЕЛИКИИ |
165 |
БЫТИ |
203 |
БЫТИ |
187 |
8 |
ОН |
153 |
БЫТИ |
158 |
ВЕСЬ |
188 |
ОН |
154 |
9 |
ТЪ |
148 |
НЕ |
123 |
С |
187 |
В |
148 |
10 |
В |
144 |
С |
120 |
В |
182 |
РЕЧИ |
143 |
11 |
С |
141 |
В |
120 |
СВОИ |
175 |
ОНИ |
139 |
12 |
НЕ |
114 |
ТЪ |
112 |
К |
106 |
С |
132 |
13 |
ОНИ |
104 |
ОНИ |
112 |
ОНИ |
105 |
К |
115 |
14 |
МЫ |
104 |
РЕЧИ |
97 |
СЬ |
96 |
ЯКО |
113 |
15 |
РЕЧИ |
97 |
А |
97 |
ТЪ |
93 |
НЕ |
110 |
16 |
А |
90 |
МЫ |
87 |
НЕ |
89 |
ОT |
107 |
17 |
ЯКО |
89 |
БО |
87 |
ОT |
86 |
ВЕСЬ |
101 |
18 |
ОT |
87 |
ОT |
85 |
МНОГИИ |
70 |
ТЪ |
100 |
19 |
АЗ |
84 |
НО |
85 |
ГЛАГОЛАТИ |
68 |
АЗ |
94 |
20 |
ВЕСЬ |
83 |
К |
80 |
ДМИТРИИ |
67 |
СЬ |
93 |
21 |
БО |
82 |
ЯКО |
74 |
ЯКО |
63 |
МЫ |
87 |
22 |
ГОСПОДЬ |
81 |
АЗ |
74 |
ЦАРЬ |
63 |
ДМИТРИИ |
86 |
23 |
К |
73 |
ВЕСЬ |
67 |
ПО |
61 |
А |
76 |
24 |
ЦАРЬ |
69 |
ДА |
65 |
ДА |
60 |
ЦАРЬ |
69 |
25 |
РУССКИИ |
66 |
ПО |
64 |
АЗ |
59 |
ПО |
64 |
26 |
ПО |
62 |
ГОСПОДЬ |
58 |
ГОСПОДЬ |
58 |
НАШ |
64 |
27 |
НАШ |
60 |
ЦАРЬ |
57 |
УБО |
57 |
БОГ |
63 |
28 |
БОГ |
60 |
СЬ |
57 |
МЫ |
57 |
ДА |
62 |
29 |
ТВОИ |
57 |
ДМИТРИИ |
56 |
СИЛА |
56 |
БО |
60 |
30 |
БРАТ |
56 |
БРАТ |
54 |
ПРИИТИ |
50 |
ВИДЕТИ |
58 |
31 |
СЬ |
54 |
ПОЛК |
52 |
МАМАИ |
50 |
ИВАНОВИЧ |
57 |
32 |
ПОЛК |
54 |
НАШ |
48 |
БОГ |
49 |
БРАТ |
57 |
33 |
ДА |
54 |
МНОГИИ |
45 |
СВЯТЫИ |
47 |
ТЫ |
56 |
34 |
СВЯТЫИ |
53 |
ТЫ |
44 |
ЗА |
46 |
ГОСПОДЬ |
56 |
35 |
ДМИТРИИ |
53 |
ТВОИ |
43 |
РЕЧИ |
45 |
ТВОИ |
54 |
36 |
МОИ |
49 |
БОГ |
42 |
О |
43 |
МНОГИИ |
54 |
37 |
ТЫ |
48 |
РУССКИИ |
40 |
ИВАНОВИЧ |
43 |
ПРИИТИ |
50 |
38 |
ПОГАНЫИ |
47 |
СВЯТЫИ |
38 |
А |
43 |
О |
49 |
39 |
НЫНЕ |
47 |
ТЫ |
42 |
ПОЛК |
47 |
||
40 |
АКИ |
44 |
ВИДЕТИ |
42 |
МОИ |
47 |
||
41 |
МНОГИИ |
43 |
ЗЕЛО |
41 |
НО |
46 |
||
42 |
НАЧАТИ |
39 |
ДАТИ |
43 |
||||
43 |
СВЯТЫИ |
42 |
Список литературы Концептуальные различия подходов к описанию статистической структуры текстов (на примере «Сказания о Мамаевом побоище»)
- Арапов М. В., Херц М. М. Изменение словаря во времени (опыт теории)//Информационные вопросы семиотики, лингвистики и автоматического перевода. Вып. 3. М.: ВИНИТИ, 1972. С. 3-85.
- Арапов М. В., Шрейдер Ю. А. Закон Ципфа и принцип диссимметрии системы//Семиотика и информатика. Вып. 10. М.: ВИНИТИ, 1978. С. 74-95.
- Кудрин Б. И. Математика ценозов: видовое, ранговидовое, ранговое по параметру гиперболические H-распределения и законы Лотки, Ципфа, Парето, Мандельброта//Философские основания технетики. М., 2002. С. 357-412.
- Кудрин Б. И. Мои семь отличий от Ципфа//Общая и прикладная ценология. М., 2007. № 4. С. 25-33.
- Кудрин Б. И. Распределение электрических машин по повторяемости как некоторая закономерность//Электрификация металлургических предприятий Сибири. Вып. 2. Томск, 1974. С. 31-40.
- Мартыненко Г. Я. Введение в теорию числовой гармонии текста. СПб., 2009. 252 с.
- Мартыненко Г. Я. Некоторые закономерности концентрации и рассеяния элементов в лингвистических и других сложных системах//Структурная и прикладная лингвистика. Вып. 1. Л., 1978. С. 63-80.
- Мартыненко Г. Я. Основы стилеметрии. Л., 1988. 174 с.
- Фуфаев В. В. Общеценологический метод структурно-топологического анализа самоорганизующихся систем//Общая и прикладная ценология. М., 2007. № 3. С. 23-31.
- Фуфаев В. В. Основы теории динамики структуры техноценозов. Математическое описание ценозов и закономерности технетики//Ценологические исследования. Вып. 1. Абакан, 1996. С. 156-193.
- Чебанов С. В. Концепции ранговых распределений: консенсусный анализ//Ценологические исследования. Вып. 46. М., 2012. С. 72-86.
- Чебанов С. В. Оптимальность и экстремальность в культуре, ципфиада и закон Лотмана//Ценологические исследования. Вып. 28. М., 2005. С. 411-428.
- Чебанов С. В. Распределения с неопределенными центральными моментами, размерная структура природных тел и натуральнозначные функции натуральных аргументов//Философские основания технетики. Ценологические исследования. Вып. 19. М., 2002. С. 436-444.
- Her dan G. Quantitative linguistics. London, 1964. 284 р.
- Popescu I.-I., Macutek J., Altmann G. Aspects of word frequencies. RAM-Verlag, 2009. IV + 198 р. Available at: http://www.iipopescu.com/Aspects_of_Word_Frequencies.pdf