Опыт квантитативного исследования Пантелеймонова евангелия конца XII - начала XIII в. (три статистических эксперимента)

Автор: Баранов Виктор Аркадьевич, Зуга Оксана Владимировна

Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics

Рубрика: Главная тема номера

Статья в выпуске: 6 т.19, 2020 года.

Бесплатный доступ

Цель работы - выявление степени близости Пантелеймонова Евангелия (РНБ, Соф. 1) другим Евангелиям и средневековым славянским текстам других жанров, представленным в подкорпусах исторического корпуса «Манускрипт: славянское письменное наследие». Работа выполнена с помощью специализированных модулей статистики и n-грамм. Сопоставление перечней автоматически извлеченных их рукописи одно, двух- и трехкомпонентных лингвистических единиц с соответствующими перечнями нескольких подкорпусов позволяет определить такие количественно-статистические характеристики лингвистических компонентов рукописей, которые могут быть признаны существенными. Обобщены данные трех экспериментов. Первый эксперимент показал, что наименьшие отличия частотных списков существуют между Пантелеймоновым Евангелием и полными апракосами, а наибольшие - между анализируемой рукописью и краткими апракосами. Это позволяет признать, что состав перечней, порядок следования и относительная частота форм в них являются существенными характеристиками рукописи или подкорпуса. В ходе второго эксперимента, проведенного с применением статистической меры Weirdness, из Пантелеймонова Евангелия извлечены словоформы, претендующие на роль значимых - имеющие максимально высокий вес на фоне разножанровых подкорпусов. Установлено, что объем и состав контрастного подкорпуса не влияют на результат; применение в качестве контрастных подкорпусов коллекций полных и кратких апракосов позволило уточнить список таких форм. В ходе третьего эксперимента (анализ двух- и трехкомпонентных сочетаний, извлеченных с помощью статистической меры T-score) был установлен перечень устойчивых сочетаний (неизменяемых композиционных формул, цельных грамматических структур, устойчивых семантических комплексов и их частей), свойственных всем Евангелиям, и выявлены статистически значимые последовательности, имеющие в Пантелеймоновом Евангелии статистический вес значительно выше, чем в контрастных подкорпусах.

Еще

Древнерусские рукописи, пантелеймоново евангелие, статистические методы, ключевые слова, n-граммы

Короткий адрес: https://sciup.org/149131612

IDR: 149131612   |   DOI: 10.15688/jvolsu2.2020.6.4

Текст научной статьи Опыт квантитативного исследования Пантелеймонова евангелия конца XII - начала XIII в. (три статистических эксперимента)

DOI:

Citation. Baranov V.A., Zuga O.V. Quantitative Investigation of the Panteleymon Gospel Dating from the Late 12th to the Early 13th Centuries (Three Statistical Experiments). Vestnik Volgogradskogo gosudarstvennogo universiteta. Seriya 2. Yazykoznanie [Science Journal of Volgograd State University. Linguistics], 2020, vol. 19, no. 6, pp. 43-57. (in Russian). DOI:

Цитирование. Баранов В. А., Зуга О. В. Опыт квантитативного исследования Пантелеймонова Евангелия конца XII – начала XIII в. (три статистических эксперимента) // Вестник Волгоградского государственного университета. Серия 2, Языкознание. – 2020. – Т. 19, № 6. – С. 43–57. – DOI:

Средневековые славянские тексты как объект и предмет исследования

Статистический анализ давно и продуктивно используется для решения различных задач в области русской филологии и лингвистики 2. В настоящее время необходимый материал для этого предоставляют большие текстовые коллекции и корпусы. Создание машиночитаемых копий средневековых славянских текстов, их разметка и размещение в специализированных системах хранения и обработки данных дает возможность начать статистические эксперименты и на таком материале.

Одним из интернет-ресурсов, содержащих размеченные транскрипции средневековых славянских рукописей, является текстовый корпус «Манускрипт: славянское письменное наследие», в котором размещено более 130 рукописей и отрывков X–XV вв. объемом более 3,5 млн текстовых прецедентов и который снабжен специализированными инструментами для обработки, поиска и демонстрации лингвистических данных 3.

Самой большой коллекцией корпуса является собрание Евангелий XI–XIV вв., включающее и один из ранних русских списков полного апракоса – новгородское Пантелеймоново Евангелие, не часто привлекавшее внимание лингвистов.

Общая характеристика рукописи и ее электронное издание

Пантелеймоново Евангелие (далее – ЕП) было создано в конце XII – начале XIII (?) в. [Сводный каталог..., 1984, с. 167] (другая датировка – XII в. [Марков, 2001]) и названо по имени св. Пантелеймона, изображенного на л. 224. По содержанию и композиции представляет собой полный апракос, в котором имеются евангельские чтения на субботние, воскресные и будние дни недели. Памятник хранится в отделе рукописей Российской национальной библиотеки (РНБ), в Софийском собрании (Соф.), под № 1. Рукопись содержит 224 листа; не издавалась. Вследствие ветхости памятник недоступен широкому кругу читателей.

Интерес к ЕП не случаен: в ряду древнейших церковнославянских письменных памятников русского извода у него особое место как у одной из рукописей, в которой отразились значимые для истории русского языка особенности фонетики и грамматики [Зуга, 2009; Марков, 2001]. Сравнение текстов Остромирова и Пантелеймонова Евангелий дало возможность В.М. Маркову обнаружить яркие различия, свидетельствующие о происходивших в русском языке XII в. изменениях. Одним из достижений работы ученого стала демонстрация эффективности и результативности сопоставления рукописей, содержащих одни и те же тексты: «...даже прямолинейное сопоставление текстов приводит, как кажется, к достаточно значимым результатам, коль скоро дело касается источников, разнесенных во времени и, вместе с тем, представляющих однородный языковой материал» [Марков, 2001, с. 33].

Сказанное позволяет продолжить сопоставление ЕП и других евангельских списков с помощью иных методов, например корпусных и количественно-статистических. Дает ли их применение возможность обнаружить значимые характеристики текстов, можно понять, только проведя соответствующие эксперименты. В статье представлены результаты автоматического извлечения одно-, двух- и трехкомпонентных текстовых единиц из ЕП, сопоставление их с данными других евангельских текстов, объединенных в три подкорпуса, с целью выявления степени близости ЕП последним.

Возможность выполнить эксперименты предоставляют пользовательские сервисы корпуса «Манускрипт: славянское письменное наследие», в который включена интернет-версия электронного издания рукописи 4. Оно позволяет познакомиться с археографической, текстологической, лингвистической, библиографической информацией о рукописи и тексте, получить сведения об их структуре и составе, просмотреть полный текст рукописи (машиночитаемую транскрипцию, содержащую лингвистическую и аналитическую разметку) и текст дипломатического издания (преобразованный текст), построить прямые, обратные, количественные, сравнительные указатели слов и словоформ, конкордансы.

Эти данные послужили материалом нескольких статистических экспериментов для нахождения таких количественных характеристик Пантелеймонова Евангелия, которые отличают его от других рукописей корпуса. Объектом анализа стали автоматически извлеченные одно-, двух- и трехкомпонентные сочетания текстовых форм, статистическая значимость которых устанавливается с помощью сопоставления с коллекциями полных и кратких апракосов, а также коллекциями текстов других жанров 5.

Количественный и статистический анализ Пантелеймонова Евангелия

Общие сведения об объеме данных

Объем рукописи ЕП – 68 734 текстовые формы. Базовый подкорпус русских списков Евангелий XI–XIV вв.6: количество рукописей – 9, отрывков – 2; объем – 522 793 текстовые формы, а также два старославянских списка – Ассеманиево Евангелие и Саввина книга; объем – 76 644 формы.

Эксперимент 1. Наиболее частотные словоформы

В работе [Баранов, 2019в] показаны существенные различия между составом и порядком следования первых десяти наиболее частотных слов в подкорпусе русских списков Евангелий и в подкорпусах рукописей других жанров, а также между их статистическими оценками.

Единство текстов Евангелий с точки зрения количественных характеристик подтверждается составом, порядком следования и относительным количеством наиболее частотных словоформ ЕП и трех подкорпусов Евангелий – русских списков полного апракоса, русских списков краткого апракоса и старославянских списков (см. таблицу 17).

Таблица 1. Наиболее частотные словоформы в ЕП и подкорпусах Евангелий

Table 1. The most frequent word forms in the EP and subcorps of the Gospels

R

ЕП

Евангелия (АП)

Евангелия (АК)

Евангелия (ст.-слав.)

w

F

f

w

F

f

w

F

f

w

F

f

1

н

5516

0,080

н

17281

0,079

н

12711

0,077

н

5871

0,077

2

же

2344

0,034

же

9093

0,041

же

6851

0,041

же

3099

0,040

3

къ

2186

0,032

къ

6924

0,031

къ

5118

0,031

къ

1740

0,023

4

не

1498

0,022

не

4557

0,021

са

3321

0,020

са

1579

0,021

5

са

1462

0,021

са

4475

0,020

не

3319

0,020

не

1479

0,019

6

W

1170

0,017

W

3555

0,016

W

2799

0,017

ъко

988

0,013

7

ако

1031

0,015

АКо

2959

0,013

нл

1854

0,011

на

908

0,012

8

нл

785

0,011

НА

2462

0,011

реуе

1743

0,010

ем^

755

0,010

9

реуе8

734

0,011

ре

2266

0,010

км^

1618

0,010

реуе

746

0,010

10

км^

626

0,009

км^

1941

0,009

АКО

1605

0,010

отъ

719

0,009

11

ксть

585

0,009

кго

1816

0,008

кго

1408

0,008

АА

586

0,008

12

АА

530

0,008

ксть

1795

0,008

АА

1240

0,007

его

579

0,008

13

къ

523

0,008

АА

1674

0,008

ксть

1228

0,007

се

578

0,008

14

кго

493

0,007

се

1437

0,007

се

1074

0,006

естъ

538

0,007

15

се

450

0,007

Афе

1372

0,006

къ

1028

0,006

къ

506

0,007

16

нмъ

434

0,006

нмъ

1376

0,006

кам

934

0,006

нмъ

387

0,005

17

камъ

428

0,006

кам

1299

0,006

съ

912

0,005

Афе

385

0,005

18

Афе

414

0,006

къ

1253

0,006

Афе

870

0,005

бо

363

0,005

19

БО

396

0,006

съ

1195

0,005

нмъ

870

0,005

кам

372

0,005

20

съ

363

0,005

БО

1185

0,005

а^ъ

836

0,005

о

367

0,005

21

а^ъ

292

0,004

а^ъ

911

0,004

бо

775

0,005

а^ъ

348

0,005

Примечание. Евангелия (АП) – списки полного апракоса, без ЕП (объем – 220 023); Евангелия (АК) – списки краткого апракоса (объем – 166 153); Евангелия (ст.-слав.) – два старославянских списка (объем – 76 644). R – ранг словоформы; w – словоформа; F – абсолютная частота; f – относительная частота 9. В случае вариативности текстовых прецедентов в качестве маски использовались регулярные выражения, например: ( h|i ), с ( а|а ), ( а|а|а ) к ( о|о|ш ), ( к|е|е ) с ( н|1 ), ( [oow]t.|w ), ( к|е|е ) м(оу|$|у|у|у ) и под. Различно переданные в транскрипциях корпуса са и же в постпозиции и не в препозиции, а также формы местоимения н в косвенных падежах ( км^/км^же, кго/кгоже ) в таблице приведены суммарно.

Сопоставление первых 10 наиболее частотных форм позволяет увидеть: а) полную идентичность состава ЕП и других полных апракосов и порядка следования форм в них; б) различия полных и кратких апракосов в порядке следования форм; в) отличия в порядке следования форм в старославянских списках по сравнению с русскими списками; г) заметно различную относительную частоту союза №ко в русских списках полных и кратких апракосов (0,015–0,013 vs 0,010) и предлога w/отъ в русских и старославянских списках (0,016–0,017 vs 0,009).

Перечни форм, имеющих ранги с 11-го по 21-й: а) в ЕП и полных апракосах идентичны по составу, близки по порядку следования и по относительному количеству (относительные значения 7 форм равны, 3 формы различаются на 0,001, 1 форма – на 0,002); б) в ЕП и в кратких апракосах также совпадают по составу, различаются порядком следования и относительной частотностью (относительные значения 2 форм равны, 7 форм различаются на 0,001, 2 форм – на 0,002); в) в кратких русских и старославянских апракосах различаются по составу (рус. съ, ст.-слав. о), близки по порядку следования и относительному количеству (относительные значения 6 форм не различаются, 3 форм отличаются на 0,001, 1 формы – на 0,002). Наименьшие различия находим в парах «ЕП – полные апракосы» и «краткие апракосы – старославянские списки», наи- большие – в «ЕП – краткие апракосы», что понятно: ЕП является полным апракосом.

Обнаруженные схожесть и контрастность между наиболее часто встречающимися формами, имеющими ранги с 1-го по 21-й, в ЕП, подкорпусах русских списков кратких и полных Евангелий и в старославянских рукописях позволяют сделать вывод о неслучайности существующих между подкорпусами совпадений и различий и признать, что состав, порядок следования и относительная частота форм в совокупности являются существенными характеристиками документа или подкорпуса.

Эксперимент 2. Значения наиболее частотных форм в соответствии с мерой Weirdness

Для извлечения из ЕП статистических значимых словоформ и выяснения влияния на этот перечень объема и жанра текстов в подкорпусах, привлекаемых к сопоставлению, используем меру Weirdness 10 [Ahmad, Gillam, Tostevin, 1999]. Как известно, эта мера позволяет оценить частотность словоформы в документе на фоне ее частотности в альтернативном подкорпусе.

Рассмотрим значимость («странность», контрастность) 21 наиболее частотной формы ЕП, сопоставив количество каждой с частотностью соответствующих форм в разножанровых подкорпусах разного объема и в подкорпусах полных и кратких апракосов.

В таблице 2 представлены формы ЕП, их статистический вес в соответствии с мерой

Таблица 2. Вес наиболее частотных словоформ в ЕП в соответствии с мерой Weirdness

Table 2. Weight of the most frequent word forms in the EP according to the Weirdness measure

R

w

F

f

R 1

Weirdness1

R 2

Weirdness2

R 3

Weirdness3

R 4

Weirdness4

1

н

5516

0,080

14

1,722

15

1,216

12

1,022

10

1,049

2

же

2344

0,034

12

1,934

14

1,269

21

0,825

21

0,827

3

къ

2186

0,032

13

1,750

13

1,356

15

1,011

12

1,032

4

не

1498

0,022

19

1,233

17

1,061

6

1,052

8

1,091

5

СА

1462

0,021

21

0,636

21

0,649

7

1,046

9

1,064

6

W

1170

0,017

11

2,061

8

1,834

5

1,054

16

1,010

7

ЫКО

1031

0,015

16

1,368

10

1,510

2

1,115

1

1,553

8

НА

785

0,011

18

1,252

18

0,956

13

1,021

14

1,024

9

peve

734

0,011

2

29,911

2

7,487

8

1,044

13

1,025

10

нмоу

626

0,009

6

14,702

5

3,188

10

1,032

18

0,935

11

КСТЬ

585

0,009

8

4,888

9

1,814

9

1,043

5

1,152

12

АА

530

0,008

9

3,618

11

1,507

14

1,013

11

1,033

13

къ

523

0,008

15

1,582

16

1,077

1

1,336

3

1,230

14

нго

493

0,007

10

2,161

12

1,382

20

0,869

19

0,846

15

се

450

0,007

7

5,945

6

2,120

17

1,002

15

1,013

16

нмъ

434

0,006

4

22,517

3

4,581

16

1,010

4

1,206

17

КАМЪ

428

0,006

1

174,472

1

8,409

4

1,055

7

1,108

18

Афе

414

0,006

3

27,797

7

2,073

19

0,966

6

1,150

19

БО

396

0,006

17

1,359

19

0,779

3

1,070

2

1,235

20

съ

363

0,005

20

0,877

20

0,664

18

0,972

17

0,962

21

А^Ъ

292

0,004

5

17,542

4

3,371

11

1,026

20

0,844

Примечание. R , R 1, R 2 – ранги словоформ; w – словоформа; F – абсолютная частота; f – относительная частота; Weirdness1 – вес словоформы в ЕП при сравнении ее частотности в трех подкорпусах (списков майских служебных миней, миней на другие месяцы года и стихирарей); Weirdness2 – вес словоформы в ЕП при сравнении ее частотности в семи подкорпусах (списков майских служебных миней, миней на другие месяцы года, стихирарей, Апостолов, Паренесисов, Псалтырей и летописей 11); Weirdness3 – вес словоформы в ЕП при сравнении ее частотности в подкорпусе полных апракосов; Weirdness4 – вес словоформы в ЕП при сравнении ее частотности в подкорпусе кратких апракосов.

Weirdness, полученный при сравнении абсолютной частоты употребления формы в ЕП с ее количеством в различных подкорпусах, а также ранги словоформы – номер по порядку в каждом из сопоставлений.

Представим эти данные в виде диаграмм (рис. 1–4). На рисунках 1 и 2 показаны значения в соответствии с Weirdness1 и Weirdness2, на рисунках 3 и 4 – в соответствии с Weirdness3 и Weirdness4.

Рис. 1. Значения наиболее частотных словоформ ЕП в соответствии с мерой Weirdness при сравнении с тремя и семью разножанровыми корпусами

Fig. 1. Values of the most frequent EP word forms in accordance with the Weirdness measure when compared with three and seven different-genre corpora

Рис. 2. Ранги наиболее частотных словоформ ЕП в соответствии с мерой Weirdness при сравнении с тремя и семью разножанровыми корпусами

Fig. 2. Ranks of the most frequent EP word forms according to the Weirdness measure when compared with three and seven different-genre corpora

На диаграммах хорошо видно, что изменение объема альтернативных подкорпусов и различия в их жанрах не приводят к принципиальному изменению значимости (веса, ранга) словоформ ЕП. Несмотря на то что величина меры Weirdness для некоторых форм может значительно отличаться при ее вычислении на основе различных альтернативных подкорпусов, степень значимости («странности») форм практически идентична (см. рис. 1: местоимения кдмъ , д^ъ , союз Афе , глагол peve и некоторые другие). Это демонстрируется также соответствием рангов одной и той же формы друг другу (см. рис. 2: местоимение кдмъ имеет ранги 1-1, глагол peve - 2-2 и т. д.).

Таким образом, данные диаграммы позволяют увидеть формы, характеризующие ЕП на фоне подкорпусов других жанров. В пределах 10 первых рангов находятся формы местоимений кдмъ , нмъ , д^ъ , км^ ,глагол peve , союз Афе , местоимение (союз-частица) ce .

Сравнение частотности словоформ в ЕП с их частотностью в полных и кратких апракосах демонстрирует как идентичную, так и существенно различающуюся оценку некоторых форм с помощью меры Weirdness.

Некоторая часть значений лежит в области значения 1,0 (см. рис. 3; на рис. 4 эти формы находятся на линии 0-0 – 24-24 и близко к ней), что свидетельствует об отсутствии значимых расхождений в частотности этих форм в ЕП и в двух альтернативных подкорпусах.

В то же время значения некоторых форм несколько или значительно превышают 1,0, что говорит об их большей относительной частотности в ЕП по сравнению с тем или иным подкорпусом: союз ьдко , предлог къ , частица но и имеют максимально высокий ранг (на рисунке 4 эти формы находятся в начале осей рангов). С большой долей вероятности можно считать, что частотность этих форм является особенностью именно ЕП на фоне других списков.

Одновременно видно, что оценка некоторых форм с помощью двух альтернативных подкорпусов (кратких и полных апракосов) существенно различна и даже противоположна. Так, предлог w имеет низкое значение (ранг 16) на фоне кратких апракосов и высокое (ранг 5) при сравнении с полными, и наоборот: словоформа нмъ , глагольная форма ксть , союз Афe высоко оцениваются при сравнении ЕП с краткими апракосами, но значительно ниже на фоне подкорпуса полных (см. рис. 4).

Рис. 3. Значения наиболее частотных словоформ ЕП в соответствии с мерой Weirdness при сравнении с подкорпусом полных и кратких апракосов

Fig. 3. Values of the most frequent EP word forms in accordance with the Weirdness measure when compared with the subcorpus of full and short aprakos

Таким образом, можно заключить, что союз №ко , предлог къ , частица ео , а также предлог w (на фоне других рукописей полного апракоса), местоимение нмъ , глагольная форма ксть , союз д^e (при сравнении с краткими апракосами) являются особенностью списка ЕП.

Подобные соотношения, демонстрирующие расхождения частотности служебных слов и некоторых форм местоимений и глагола еитн в ЕП и подкорпусах разного состава, позволяют говорить о значимых количественностатистических тенденциях, реализующихся в превышении средней частотности форм ЕП над средней частотностью аналогичных форм в контрастных подкорпусах.

Эксперимент 3. Извлечение статистически значимых сочетаний

Как известно, мера T-score дает возможность выявить в документе сочетания, частотность совместного использования компонентов которых выше статистически ожидаемой средней величины, иначе – найти такие сочетания, компоненты которых используются друг с другом чаще, чем с другими формами в тексте. Значение меры зависит от количества сочетаний компонентов и от количества каждого из компонентов в документе 12.

Приведем первые 20 биграмм ЕП, русских и старославянских списков (см. табл. 3 13).

Перечни близки по составу: 9 из 20 сочетаний трех выборок идентичны ( къ оно, гдк кдмъ, peve нмъ, peve гь, онъ же, peve км^, глД км^, онн же, ад не ), другие совпадают в двух группах (ЕП -др.-рус.: жe peve , съ ннмь, oyveHH^H кго ;ЕП-ст.-слав.: къ HeM^, w мдть^. глд нмъ, н peve ;др.-рус.-ст.-слав.: peve жe, жe еъ ).

Сама по себе подобная близость показательна и иллюстрирует жанровое единство сопоставляемых документов и подкорпусов.

Иная картина в начале перечней триграмм. Приведем первые 20 в ЕП, древнерусских и старославянских рукописях (см. табл. 4).

Состав статистически наиболее значимых триграмм так же, как и биграмм, безусловно, определен жанром и включает евангельские структурные, грамматические, семантические единства. Так, мерой высоко оценены композиционные формулы ^кд w мд , пдмA^"пpпEHдд%qд , по Eeлнqъ

Рис. 4. Ранги наиболее частотных словоформ ЕП в соответствии с мерой Weirdness при сравнении с подкорпусом полных и кратких апракосов

Fig. 4. Ranks of the most frequent EP word forms according to the Weirdness measure when compared with the subcorpus of full and short aprakos

дне , [реуе] гь прнтъу» сни и под.), грамматически единые структуры ( нъсте лн уьлн -Мф. 12: 3, Мф. 22: 31, Мф. 19: 4, Мк. 12: 2 ЕП; дже дллъ есн - Ин. 17: 12

и др.), устойчивые семантические комплексы или их части ( нмъ^н ^шн елышлтн [дл слышнть] - Мф. 11: 15, Мф. 13: 9, Мк. 4:9, Лк. 8:8 и др.; [дл] ливнте другъ другл - Ин15:17 и нек. др.).

Некоторые триграммы являются со- ставной частью сочетаний, включающих большее количество грамматических или се- мантическихкомпонентов: об онъ полъ -онъ полъ морд - Ин. 6: 22, 25 и др., донъдеже положи Брлгъе - положи БрлгЪ! тК0№ - тК0№ подъножнк ноглмл - подънсжнк ноглмл тбонмл, Мф. 22: 44, Мк. 12: 36, Лк. 20: 43, къ ОБь^лМ ъ пог^въшнмъ —

ОБьцлМъ

пОРЫЕЪШнМЪ

дом^

[н^дрлнлекл] - Мф. 10: 06, Мф. 15: 24,

[peve] гь прнтъуи сни - Мф. 21: 33, Мф. 22: 1, Лк. 16: 1 и др.

Перечни ЕП и русского подкорпусов частично пересекаются. Так, в список 20 наиболее частотных форм вхоодят нмъ^н оушн слышлтн [дл слмшнть] , [дл] ливнте дроугъ дроугл , триграммы фраз донъдеже положи Брлгъе ткога подъножнк ноглмл тбонмл , об онъ полъ морд / нордлнл и др.

Увеличение количества анализируемых триграмм, получивших высокое значение меры T-score, до 50 позволяет выявить и другие семантически цельные сочетания. Например, в ЕП и русских списках - [не тръБуить] съдрлкнн крлул нъ БОЛА^нн -Лк.5:31;Бндъ рн^ъе кднны [лежл^л]-Лк. 24: 12; нмуже нъсмь достоннъ [отръшнтн ремень слпогу его] -Ин. 1: 27; в русских и старославянских списках – л^ъ нсмь ло^л нстнньнл^ - Ин. 15:1.

Таблица 3. Перечень первых 20 статистически значимых биграмм (мера T-score)

Table 3. List of the first 20 statistically significant bigrams (T-score measure)

№ п/п

ЕП

Древнерусские списки

Старославянские списки

Биграмма

F

T-score

n -грамма

F

T-score

Биграмма

F

T-score

1

бъ оно

194

13.467

онъ же

597

23.640

еБгл w

157

12.497

2

гли Блмъ

129

11.247

реуе же

621

22.021

реуе же

175

11.976

3

реуе нмъ

130

11.001

гли Блмъ

469

21.469

реуе гь

122

10.724

4

реуе гь

125

10.997

бъ оно

501

21.456

онъ же

106

9.982

5

онъ же

123

10.724

оно БрЪМА

418

20.405

реуе ему

105

9.629

6

къ нему

112

10.502

реуе нмъ

431

20.007

реуе нмъ

91

9.168

7

реуе нму

93

9.062

же р*^

466

19.311

глж Блмъ

83

8.835

8

гл~л нму

77

8.557

ууеннцн нго

329

17.895

кь нему

102

8.357

9

w млть*

74

8.501

р^е нмъ

319

17.265

же П

74

7.887

10

же реуе

105

8.358

сбонмъ ууеннкомъ

292

17.062

же бъ

76

7.875

11

глл нмъ

64

7.805

онн же

306

17.025

бъ оно

63

7.758

12

w лукы

62

7.782

же бъ

367

16.846

ш'мл'”

59

7.662

13

н реуе

149

7.384

л^ъ нсмь

287

16.813

н реуе

155

7.537

14

онн же

57

7.344

дл не

384

16.465

гл~л ему

56

7.272

15

съ ннмь

54

7.303

бъ шно

280

16.216

лкоу гл^л

50

7.040

16

ууеннцн нго

53

7.191

реуе нму

299

16.180

онн же

52

7.036

17

къннмъ

48

6.866

р\ гь

266

16.155

дл не

67

6.927

18

дл не

66

6.824

гл~л нму

272

16.088

глл ему

49

6.836

19

лмннъ гли

45

6.672

съ ннмь

261

16.019

же нсъ

56

6.740

20

бъ домъ

48

6.621

ннкто же

270

16.007

глл нмъ

37

5.937

Таблица 4. Перечень первых 20 статистически значимых триграмм (мера T-score) 14

Table 4. List of the first 20 statistically significant trigrams (T-score measure)

№ п/п

ЕП

Древнерусские списки

Старославянские списки

n -грамма

F

T-score

n -грамма

F

T-score

n -грамма

F

T-score

1

нъсте АН УЬАн

7

2.402

ПрПБНАА^ОЦА нАше^

52

6.780

еБГА W МА*

53

3.626

2

нмлть жньотъ ВЪУЬНЫН

8

2.327

ПАМА^ ПрПБНАА ОЦА

57

6.700

ГЬ

ПрнтЪУЖ сн^

12

3.324

3

нмъ^н оушн САЫШАТН

5

2.206

СтрА стго МУНКА

56

6.551

по БеАнцъ дне

10

2.922

4

ОНЪ ПОАЪ морА

5

2.140

нм^^н оушн САЫШАтн

22

4.405

АМНн АМНн РАЖ

14

2.745

5

ОБ ОНЪ ПОАЪ

5

2.124

АНБнте другъ

ДруРА

22

4.303

ОБ ОНЪ ПОАЪ

8

2.698

6

ГЬ ПрнтЪУН снн

10

2.014

СтрАС стго СфНОМУНКА

23

4.248

Но А-в еБ

8

2.674

7

подъножнн

НОГАМА

ТЬОнМА

4

1.999

СтрА стуъ

МУНКЪ

18

4.148

ГЬ СБО1МЪ ууеннкОМъ

10

2.633

8

БЬсен дшек СБОеН

4

1.995

прнШедъШнмъ к нъму

21

3.835

снМОне нОНнНЪ АнБнШн

5

2.233

9

ОБЬЦАМЪ ПОГ^БЪШнМЪ

ДОМ^

4

1.994

еуА^нфн еептеМ

52

3.757

Бее нМ^нне

СБое

5

2.153

10

ТКО^ подъножнн НОГАмА

4

1.988

ПОАОжН БрАРЫ тбо^

15

3.675

АжеДААЪ еен

6

2.149

11

донъдеже

ПОАОжН БрАР'Ы

4

1.980

МЬ^ДА БАША мНОГА

15

3.579

нОНнНЪ

АнБнШн Ан

5

2.146

12

ПОАОжН БрАР'Ы тко^

4

1.979

снмоне нонннъ анбншн

12

3.436

ГЬ Пр1тУЖ С1№

5

2.114

13

АНБнте другъ

ДруРА

4

1.968

к нъму нНД^ШМЪ

20

3.428

еБГА W Ау^

13

2.107

14

бъстабъ

^АПрЪтн Б^тр^

4

1.966

А Другой ПАДе

24

3.316

еБ^ wT м^а

7

1.982

15

БЪрА тбо^ СПСе

4

1.960

ОБ ОНЪ ПОАЪ

20

3.270

ПрнтЪУЖ ен^

ПОДОБЬНО

4

1.974

16

им^же нъсмь достоннъ

4

1.940

КупнША нмь сеАО

11

3.259

уБААЖ теБЪ БЪ^ДАЖ

4

1.957

17

КЪ ОБЬЦАМЪ ПОРЫБЪШнМЪ

4

1.939

нАн нНОГО УАНМЪ

13

3.236

БеАнц^ дне м^

4

1.934

18

ДОМЪБАШЬ

п^стъ

4

1.924

ПрАБЫ тБОрнте

СтЬ^А

10

3.132

W Ау^р1

5

1.922

19

къ нему нКДЪОМЪ

6

1.903

СтрА стон МУНКОу

10

3.132

ОНЪ ПОАЪ нОрДАНА

4

1.918

20

БЪ^БеДЪ ОYH

СБОн

4

1.900

нмеНА БАША НАПнСАНА

10

3.127

а^ъ еемЬ АО^А

5

1.916

Несмотря на ожидаемое достаточно большое количество пересечений трех выборок, состав триграмм в ЕП и в русском и старославянском подкорпусах Евангелий несколько различен. Так, среди триграмм, имеющих наибольшее статистическое значение в соответствии с мерой T-score, девять не повторяются в сопоставляе- мыхподкорпусах: h^ite лн уьлн, нмдть жнкотъ k^ykh^h, гь пpнтъYK сни, кьсеи диПи своей, еъстлкъ

^дпрътн ЕЪТ

роу , върд твои спсе ,

КЪ ОЕЬЦДМЪ ПОГ^ЕЪШНМЪ, ДОМЪ

кдшь п

стъ , къ немВ нндъомъ ,

0Y

еъ^еедъ oyh ceoh. Этот факт позволяет говорить и о специфике триграмм ЕП на фоне

подкорпуса древнерусских и старославянских списков.

Заключение

Результаты трех экспериментов по сопоставлению одно-, двух- и трехкомпонентных сочетаний ЕП и других евангельских списков исторического корпуса «Манускрипт» свидетельствуют о таких количественностатистических характеристиках лингвистических компонентов каждой из рукописей, которые могут быть признаны существенными.

Результаты первого эксперимента демонстрируют идентичность или близость порядка следования и относительного количества наиболее частотных форм ЕП и других полных апракосов при одновременных диагностируемых отличиях перечней ЕП от перечней кратких апракосов и старославянских списков: наименьшие различия обнаружены в парах «ЕП – полные апракосы» и «краткие апракосы – старославянские списки», а наибольшие – в «ЕП – краткие апракосы». Это убеждает в том, что состав перечней, порядок следования и относительная частота форм в них в совокупности являются существенными характеристиками рукописи или подкорпуса.

Второй эксперимент с использованием статистической меры Weirdness позволил установить, что состав статистически значимых форм ЕП (формы местоимений едмъ, нмъ, д^ъ, км^,глагол peYe, союз д^е, местоимение (союз-частица) се), выявляемых при сопоставлении с перечнями словоформ разножанровых подкорпусов, не зависит от объема констрастного подкорпуса; а сопоставление с подкорпусами кратких и полных апракосов дало возможность выявить формы, отличающие ЕП от других списков: союз ико, предлог къ, частицу но, а также предлог w (на фоне других рукописей полного апракоса), местоимение нмъ, глагольная форма ксть, союз д^е (при сравнении с краткими апракосами).

Текстовое единство Евангелий и одновременно специфику текста ЕП демонстрирует третий эксперимент, в котором, с одной стороны, из 20 биграмм, извлеченных с помощью меры T-score, половина идентична в ЕП и подкорпусах разных изводов, а триграммы с максимальным статистическим значением – это неизменяемые композиционные формулы ( екгд w мд^ и др.), цельные грамматические структуры ( лже ддлъ есн и др.), устойчивые семантические комплексы и их части ( [дд] линнте дроугъ дроугд и др.), с другой стороны, практически половина биграмм и триграмм ЕП отсутствует в перечне значимых сочетаний сопоставляемых подкорпусов ( нъсте лн Yьлн, нмдть жнкотъ e^ykh^h и др.).

Полученные результаты носят как общий, так и частный характер, позволяют говорить о результативности применения статистических методов к лингвистическому материалу славянских средневековых письменных памятников, о возможности обнаружения их неизвестных количественных характеристик.

Список литературы Опыт квантитативного исследования Пантелеймонова евангелия конца XII - начала XIII в. (три статистических эксперимента)

  • Баранов В. А., 2019а. Создание и использование исторических корпусов славянских письменных памятников // Scripta & e-Scripta. Vol. 19. C. 33-57.
  • Баранов В. А., 20196. Модуль статистики исторического корпуса «Манускрипт»: функции и демонстрация данных. 2 // И.А. Бодуэн де Куртенэ и мировая лингвистика. В 2 т. Т. 1 : Междунар. конф.: VII Бодуэновские чтения (Казан. федер. ун-т, 28-31 окт. 2019 г.) : тр. и материалы : Казань : Изд-во казан. ун-та. С. 24-30.
  • Баранов В. А., 2019в. Опыт применения количественных и статистических методов для поиска значимых слов в историческом корпусе (на материале средневековых славянских гимнографических и евангельских кодексов) // Studia Hymnographica. Band II / hrsg. von H. Rothe, C. Schnell. Paderborn ; München ; Wien ; Zürich : Verlag Ferdinand Schoningh. P. 149-201. (Patrística Slavica ; Band 24).
  • Зуга О. В., 2009. Из наблюдений над характером языковых разночтений в славянских списках Евангелия XII-XIII вв. (на материале «Притчи о блудном сыне») // Вестник Вятского государственного гуманитарного университета. № 3 (2). С. 40-46.
  • Клышинский Э. С., Кочеткова Н. А., 2014. Метод извлечения технических терминов с использованием меры странности // Новые информационные технологии в автоматизированных системах. № 17. С. 365-370.
  • Копотев М. В., 2014. Введение в корпусную лингвистику. Прага : Animedia Company. 230 с.
  • Кочеткова Н. А., 2013. Статистические языковые методы. Коллокации и коллигации // Новые информационные технологии в автоматизированных системах. № 16. С. 301-305. URL: https://cyberleninka.ru/article/n7statisticheskie-yazykovye-metody-kollokatsii-i-kolligatsii (дата обращения: 31.05.2020).
  • Литвинова Т. А., 2016. Судебная автороведческая экспертиза текста с целью установления пола его автора: проблемы и перспективы // Современное право. № 7. С. 111-115.
  • Марков В. М., 2001. Из наблюдений над языком Пантелеймонова Евангелия (XII век) // Марков В. М. Избранные работы по русскому языка. Казань : ДАС. С. 31-56.
  • Мартыненко Г. Я., 2014. Стилеметрия: возникновение и становление в контексте междисциплинарного взаимодействия // Структурная и прикладная лингвистика. № 10. С. 3-23.
  • Мартыненко Г. Я., 2015. Стилеметрия: возникновение и становление в контексте междисциплинарного взаимодействия. Ч. 2. Первая половина XX века: расширение междисциплинарных контактов стилеметрии // Структурная и прикладная лингвистика. № 11. С. 9-28.
  • Марусенко М. А., 1990. Атрибуция анонимных и псевдонимных литературных произведений методами распознавания образов. Л. : Изд-во Ленингр. ун-та, 164 с.
  • Морозов Н. А., 1915. Лингвистические спектры : Средство для отличия плагиатов от истинных произведений того или другого известного автора : Стилеметрический этюд // Изв. Отд. рус. языка и словесности Имп. АН. СПб. Т. XX, кн. 4. С. 93-134.
  • Пивоварова Л. М., Ягунова Е. В., 2014. От коллока-ций к конструкциям // Русский язык: грамматика конструкций и лексико-семантические подходы. СПб. С. 568-617. (Acta Linguistica petropolitana ; т. 10, № 2). URL: https://www. elibrary.ru/item.asp?id=23195921 (дата обращения: 31.05.2020).
  • Прикладная и компьютерная лингвистика, 2016 / под ред. И. С. Николаева, О. В. Митрениной, Т. М. Ландо. М. : ЛАНАНД. 320 с.
  • Сводный каталог славяно-русских рукописных книг, хранящихся в СССР: XI-XIII вв., 1984. М. : Наука. 406 с.
  • Хохлова М. В., 2008. Экспериментальная проверка методов выделения коллокаций // Slavica Helsingiensia 34. Инструментарий русистики : Корпусные подходы. Хельсинки. С. 343-357. URL: https://www.elibrary. ru/item.asp?id=26581613 (дата обращения: 31.05.2020).
  • Ягунова Е. В., Пивоварова Л. М., 2010. Природа коллокаций в русском языке. Опыт автоматического извлечения и классификации на материале новостных текстов // Сб. НТИ. Серия 2. № 6. С. 30-40.
  • Ahmad K., Gillam L., Tostevin L., 1999. University of Surrey participation in Trec8: Weirdness indexing for logical documents extrapolation and retrieval // Proc. of Eighth Text Retrieval Conference (Trec-8). Gaithersburg : [s. n.]. P. 717-724.
  • Baranov V., 2018. A Text Corpus of Medieval Manuscripts as a Goal and a Tool for Linguistic Research // Editing Mediaeval Texts from a Different Angle: Slavonic and Multilingual Traditions / ed. by L. Sels, J. Fuchsbauer, V. Tomelleri, I. de Vos. P. ; Bristol : Peeters Leuven. P. 283-308.
  • Baranov V.A., Gnutikov R.M., 2019. The statistics and n-gram modules of the historical corpus "Manuscript" // Digital and Analytical Approaches to the Written Heritage : Proceedings of the 7th international conference El'Manuscript "Textual Heritage and Information Technologies" / comp. and ed. by A. Miltenova, V Baranov, H. Miklas, K. Hawkins, J. Fuchsbauer. Sofia : Gutenberg Publishing House. P. 9-28.
  • Evert S., 2004. Association Measures // Computational Approaches to Collocations. URL: http:// collocations.de/AM/index.html (date of access: 31.05.2020).
  • ЕП - Евангелие апракос полный («Пантелеймоново Евангелие») // РНБ. Соф. 1, кон. XII - нач. XIII (?) в. 224 л.
  • Коллекция славянских Евангелий корпуса «Манускрипт». URL: http://manuscripts.ru/mns/portal. main?p1=30 (дата обращения: 31.05.2020).
  • Корпус «Манускрипт: славянское письменное наследие». URL: http://manuscripts.ru/ (дата обращения: 31.05.2020).
  • Модуль статистики корпуса «Манускрипт». URL: http://manuscripts.ru/mns/!cred2.stat (дата обращения: 31.05.2020).
  • Модуль n-грамм корпуса «Манускрипт». URL: http://manuscripts. ru/mns/cred_ngr. stat (дата обращения: 31.05.2020).
  • Электронное издание Пантелеймонова Евангелия. URL: http://manuscripts.ru/mns/portal. main?p1=21&p_lid=1 (дата обращения: 31.05.2020).
Еще
Статья научная