Представление и анализ элементов структуры содержания в Санкт-Петербургском корпусе агиографических текстов (СКАТ)

Бесплатный доступ

СКАТ - электронный корпус агиографических древнерусских текстов XV-XVII вв., созданный на кафедре математической лингвистики Санкт-Петербургского государственного университета. В текстах корпуса вводится морфосинтаксическая разметка, а также активно ведется работа по разметке содержательных элементов. В статье охарактеризованы принципы разметки смысловых разделов. Представлен результат анализа входящих в корпус текстов, позволивший выявить общую для них сюжетную схему. Показано, что разметка сюжетных элементов и создание оглавлений дают возможность работать с отдельными разделами и сравнивать одинаковые разделы в разных текстах. Осуществлен поиск и разметка библейских, святоотеческих и литургических цитат в текстах корпуса. Изучение распределения цитат по текстам и сопоставление цитат с размеченными разделами позволили установить закономерности в использовании цитат и обнаружить цитаты, характерные для определенных разделов житий. Описаны принципы разметки повторяющихся фрагментов текстов. В житиях корпуса СКАТ обнаружены многочисленные текстовые фрагменты, воспроизводимые разными авторами. Такие фрагменты размечаются с указанием ссылки на первоисточник. Эта разметка позволяет постепенно накопить реестр подобных фрагментов и делает возможным их выделение в других текстах.

Еще

Лингвистический корпус, агиография, сюжетная схема, цитата, xml-разметка

Короткий адрес: https://sciup.org/149141657

IDR: 149141657   |   DOI: 10.15688/jvolsu2.2022.6.3

Текст научной статьи Представление и анализ элементов структуры содержания в Санкт-Петербургском корпусе агиографических текстов (СКАТ)

DOI:

СКАТ – электронный корпус агиографических древнерусских текстов XV–XVII вв., созданный на кафедре математической лингвистики Санкт-Петербургского государственного университета (СПбГУ). Работа над ним началась еще в 70-х гг. XX в., и на данный момент корпус содержит более 50 житий общим объемом свыше 500 тысяч словоупотреблений. Более подробную информацию о корпусе СКАТ можно найти на веб-странице, посвященной проекту skat/), где также представлены 13 житийных текстов в формате XML и PDF. Кроме того, 22 жития общим объемом порядка 185 000 словоупотреблений представлены на веб-странице текстометрической платформы TXM лионской лаборатории IHRIM: https://txm-cactus.

Помимо публикации текстов житий, в рамках проекта ведется исследование собранных материалов и работа по структурированию текста в формате XML. На сайте проекта представлен электронный словоуказатель, который позволяет осуществлять поиск словоформ по всему корпусу текстов (подробно об этой функции см.: [Азарова, Алексеева, 2008]). Для текстов корпуса также вводится морфологическая разметка с указанием не только частей речи, но и типа склонения, рода, падежа и числа для существительных и прилагательных; времени, спряжения, лица, числа для глагольных форм и т. д. Ведется работа и над синтаксической разметкой [Алексеева, Азарова, 2013]. Кроме того, вводится разметка содержательных элементов. Она осуществляется на основе международных норм оформления электронных изданий текста, в частности Text Encoding Initiative (TEI) .

Материал и методы

Занимаясь выявлением и разметкой содержательной структуры текста, следует учитывать отмеченный Д.С. Лихачевым факт, что композиция житий подчиняется определенным канонам и литературному этикету [Лихачев, 1961]. Помимо трех основных частей: зачина, рассказа о жизни святого и рассказа о совершенных им чудесах, можно выявить схему с более подробным членением, характерную для большинства житийных текстов.

Это обусловлено тем, что при создании агиографического текста зачастую использовался прием сопоставления описываемого святого с его «агиологическим образцом» (или «агиотипом») [Панченко, 2003]: автор жития выбирает одного из уже известных святых, которому и уподобляет героя своего текста. Это сопоставление может осуществляться либо в форме вербального сравнения, либо путем создания нового жития по подобию уже существующего. Готовый текст используется как своего рода шаблон, в котором имеющиеся позиции (второстепенные персонажи, элементы сюжета и т. п.) замещаются новыми образами и заполняются конкретным содержанием. Как отмечал В.О. Ключевский, «получив... образцы агиобиографии, русские слагатели житий однообразно подражали им и в литературных приемах, и в понимании исторических явлений» [Ключевский, 2003, с. 141] и таким образом «житие превратилось в стройное и сложное архитектурное здание, в однообразные формы которого стремились облекать разнообразные исторические явления» [Ключевский, 2003, с. 299]. В результате применения этого подхода сложилась каноническая схема жития, которая переходила из текста в текст.

Следует отметить, что при использовании приема уподобления агиологическому образцу заимствуется не только композиционная схема – из текста с описанием агиоти-па могут копироваться целые фрагменты. Иногда они оформляются как явные цитаты, в других случаях обнаружить их можно только при сопоставлении текстов. В текстах житий встречаются цитаты и из других источников, а также устойчивые формулы, сравнения и литературные приемы. Использование подобных топосов весьма характерно для аги- ографических текстов [Руди, 2005], и зачастую их употребление связано с композицией: те или иные цитаты и клише регулярно появляются в определенных разделах житий.

Учитывая перечисленные особенности житийных текстов, можно ввести три вида содержательной разметки: разметка композиционных элементов (глав), разметка цитат и разметка повторяющихся фрагментов.

В первую очередь для текстов житий вводится разметка композиционных элементов. Зачастую автор жития сам разбивает текст на главы, выделяет части заголовками или буквицами. Однако деление дается не всегда, и в авторской главе может содержаться несколько различных сюжетов. Чтобы обеспечить удобный поиск по текстам и возможность анализа тех или иных элементов, вводится дополнительное деление на смысловые разделы.

Тексты, входящие в корпус СКАТ, представляют собой жития преподобных, и можно было рассчитывать на наличие общих черт в их композиции, поскольку «тип подвига святого... определяет особенности композиционной структуры и поэтики его жития» [Руди, 2006, с. 431]. Характерное для житий преподобных развитие сюжета описывал В.В. Кусков: «Герой происходил, как правило, от благочестивых родителей и с момента своего рождения строго соблюдал посты, чуждаясь детских игр; быстро овладевал грамотой и предавался чтению божественных книг, уединяясь, размышлял о бренности жизни; отказывался от брака, уходил в пустынные места, становился монахом и основывал там обитель; собирал вокруг себя братию, наставлял ее; преодолевал различные бесовские искушения: злокозненные бесы являлись святому в облике диких зверей, разбойников, блудниц и т. п.; предсказывал день и час своей кончины и благочестиво умирал; после смерти тело его оставалось нетленным, а мощи оказывались чудотворными, даруя исцеление недужным» [Кусков, 1982, с. 7].

Опираясь на понимание этих принципов, мы выявили общую для корпуса схему построения сюжета житий, включающую в себя элементы трех уровней.

На первом уровне выделены наиболее крупные элементы сюжета – блоки, в кото- рых описаны основные события в жизни святого (рождение, учение, уход в монастырь и т. д.). К этому уровню отнесены также введение и заключение. Получена следующая схема:

ВСТУПЛЕНИЕ

РОДИТЕЛИ

РОЖДЕНИЕ И МЛАДЕНЧЕСТВО

УЧЕНИЕ

ВОЗДЕРЖАНИЕ

РЕШЕНИЕ УЙТИ В МОНАСТЫРЬ

МОНАСТЫРЬ

ОСНОВАНИЕ МОНАСТЫРЯ

РАСШИРЕНИЕ МОНАСТЫРЯ

КОНЧИНА

ПОХВАЛЬНОЕ СЛОВО

ЗАКЛЮЧЕНИЕ

Далеко не во всех житиях представлены все перечисленные блоки. Например, если отсутствует информация о жизни святого до пострига, то рассказ о родителях, о младенчестве и учении может опускаться.

Некоторые блоки могут повторяться в тексте несколько раз. Прежде всего это относится к той части жития, где описывается жизнь святого после пострига. Например, если святой после пострига переходил из одного монастыря в другой, то в житии может несколько раз повторяться блок «Монастырь».

Каждый из блоков подразделяется на более мелкие компоненты, которые образуют второй уровень. Приведем в качестве примера компоненты, входящие в блок «Монастырь» (см. таблицу).

Так же, как и блоки, отдельные компоненты в конкретном тексте могут опускаться или повторяться при необходимости.

На третьем уровне выделены «плавающие» модули, у которых нет фиксированного места в сюжетной схеме: они могут появляться внутри любых компонентов или блоков либо между ними. Таких модулей пять: «Наставник», «Монашеский подвиг», «Чудо», «Интермедия (риторика / летопись)» и «Быт».

НАСТАВНИК: рассказ о встрече святого с уже известным святым / наставником / архиереем и получении от него благословения; либо, наоборот, о благословении святым другого святого / монаха.

Сюжетная схема житий

Plot structure of hagiographic texts

Блоки уровня 1

Компоненты уровня 2

ВСТУПЛЕНИЕ

РОДИТЕЛИ

РОЖДЕНИЕ И МЛАДЕНЧЕСТВО

УЧЕНИЕ

ВОЗДЕРЖАНИЕ

РЕШЕНИЕ УЙТИ В МОНАСТЫРЬ

МОНАСТЫРЬ

ОСНОВАНИЕ МОНАСТЫРЯ

РАСШИРЕНИЕ МОНАСТЫРЯ

КОНЧИНА

ПОХВАЛЬНОЕ СЛОВО

ЗАКЛЮЧЕНИЕ

Приход в монастырь

Постриг

Добродетельное служение

Слава и почести

Желание уединения и уход из монастыря

МОНАШЕСКИЙ ПОДВИГ: рассказ о деяниях святого (противостояние бесовским козням / вразумление или наставление грешников на путь истинный и т. п.).

ЧУДО: описание как прижизненных (например, пророчества), так и посмертных (например, чудесные исцеления над гробом святого) чудес.

БЫТ: описание повседневной жизни монастыря, работы в поле и т. п.

ИНТЕРМЕДИЯ: этот модуль не всегда связан с жизнью святого. Выделяется два подтипа интермедий: авторские рассуждения о событиях жития (риторика) и описание исторических событий того времени, например военных походов (летопись).

Первые четыре модуля, как правило, встречаются в той части, которая повествует о монашеском служении святого. Последний модуль может встречаться в любой части текста.

XML-разметка такой трехуровневой сюжетной схемы позволяет создать для каждого размеченного жития в корпусе своего рода оглавление, с помощью которого можно, как по веб-ссылке, переходить к нужному разделу текста. Это значительно облегчает поиск. Кроме того, появляется возможность сопоставлять и анализировать аналогичные разделы в разных текстах и находить характерные для них языковые особенности, например от- слеживать использование тех или иных цитат и клише.

В житийных текстах встречается довольно много цитат из различных источников. Основную часть составляют цитаты из Библии, но есть также цитаты из сочинений Отцов Церкви (например, в размеченных текстах корпуса встретились цитаты из Иоанна Златоуста, Василия Великого) и из литургических текстов [Азарова и др., 2019].

Цитаты различаются по размеру, по характеру и по тому, как они вводятся в текст. Все эти особенности учитываются в XML-разметке.

Нами выделены три способа представления цитат в тексте. Во-первых, цитата может вводиться выражением, в котором содержится указание на источник цитаты. Например, рече господь указывает на цитату из Евангелия, а рече пророк Давид – на цитату из Псалтири. Во-вторых, цитата может быть введена общим выражением, например яко-же пишется или сказано бо есть . В третьем случае цитата формально никак не выделяется в тексте, а органично вписывается в повествование. Для всех этих случаев предусмотрены разные варианты разметки.

В ходе работы мы выделили три типа цитат: точная цитата, видоизмененная цитата и аллюзия.

Точной мы считаем цитату, в которой текст используется в том же виде, что и в пер- воисточнике. К этому типу также относятся случаи цитирования с небольшими изменениями. Например, когда изменяется время глагола или падеж существительного, чтобы адаптировать цитату и вписать ее в текст жития. Так, в строке и присно с теми сыи их же нога ста на правоте точно приводится цитата из Псалтири нога ста на правоте.

В видоизмененной цитате текст первоисточника может воспроизводиться в сокращенном виде, элементы цитируемого текста могут меняться местами, а отдельные слова могут заменяться на синонимы. Например, во фразе из жития си суть пощение молитва от чиста сердца... и любовь по Бозе нелицемерна цитата из 2-го послания к Коринфянам в любови нелицемерне адаптирована к контексту.

Третий тип цитат – аллюзия. В этом случае конкретный фрагмент текста первоисточника не цитируется, но дается отсылка к какому-либо его эпизоду. Например, во фразе но да не и мы впадем в осуждение раба оного, погребшаго в земли талант содержится отсылка к притче из Евангелия от Матфея, поэтому слова раба оного, погребшаго в земли талант мы также размечаем как цитату с указанием типа: «аллюзия».

Для обозначения начала и конца цитат используется тег , у которого есть ряд удобных для разметки атрибутов. Основным из них является атрибут «source». Он используется в разметке всех типов цитат, потому что позволяет указать «адрес» цитируемого фрагмента. Для Библии это название книги, номер главы и стиха. Например, для приведенной выше цитаты нога ста на правоте указывается источник source=“BQ:PSA25:12”. При цитате-аллюзии указывается весь диапазон стихов, в которых содержится притча, например source=“BQ:MAT25:14-30”.

Результаты и обсуждение

Совмещая разметку элементов содержания и разметку цитат, мы можем отслеживать, как цитаты распределяются по тексту жития, для каких разделов характерно обилие цитат, а в каких цитаты не используются. Можно также выявлять типичные цитаты, которые характерны для определенного раздела и повторяются из текста в текст (часть цитат размечена на основе данных работы М.К. Кузьминой [2017]).

На данный момент в корпусе СКАТ сюжетная схема и цитаты размечены в четырех текстах: житиях Димитрия Прилуцкого, Григория Пельшемского, Дионисия Глушицко-го и Корнилия Комельского. Эта разметка позволяет проводить сравнения и делать определенные выводы.

Прежде всего следует отметить, что тексты значительно различаются по объему и по количеству цитат. В Житии Димитрия Прилуцкого (ДП) зафиксировано около 5 000 словоупотреблений, в Житии Григория Пельшемского (ГП) – около 7 100 словоупотреблений, в Житии Дионисия Глушицкого (ДГ) – около 10 800 словоупотреблений, а в Житии Корнилия Комельского (КК) – около 13 200 словоупотреблений. Однако, как показывают результаты разметки, количество цитат в тексте не зависит от его объема (см. рис. 1).

Диаграмма на рисунке 1 показывает количество цитат в каждом из размеченных текстов. Для каждого жития первый столбец диаграммы демонстрирует общее число цитат в тексте, второй столбец – число цитат из Ветхого Завета (ВЗ), третий столбец – число цитат из Нового Завета (НЗ), а четвертый – число цитат из других источников.

Больше всего цитат встретилось в тексте Жития Григория Пельшемского, которое является далеко не самым большим по объему. В самом большом по количеству словоупотреблений Житии Корнилия Комельского число цитат сопоставимо с числом цитат в самом маленьком по объему Житии Димитрия Прилуцкого.

Совмещение разметки цитат с разметкой сюжетной схемы позволяет сделать некоторые выводы о распределения цитат по смысловым разделам. Использование цитат наиболее характерно для содержательных разделов «Введение» и «Интермедия (риторика)» (рассуждения автора текста), а также для разделов «Добродетельное служение» и «Монашеский подвиг» (в наставлениях преподобного к братии или мирянам часто содержатся цитаты). Реже всего цитаты встречаются в разделах «Чудо» – в них обычно только описывается последовательность событий.

Для дальнейшего анализа текстов мы используем программное обеспечение с открытым кодом TXM, разработанное лабораторией IHRIM (Institut d’Histoire des Représentations et

Рис. 1. Количество цитат в текстах житий

Fig. 1. Number of quotes in hagiographic texts

des Idées dans les Modernités) в Лионе. Эта текстометрическая платформа позволяет исследовать размеченные файлы с использованием различных инструментов для выявления закономерностей использования тех или иных элементов структуры содержания. Ознакомиться с ее возможностями можно на веб-портале: Можно также установить полную версию платформы TXM на компьютер и получить доступ ко всем функциям.

Прежде всего TXM позволяет представить текст жития с размеченными цитатами и разделами в удобном для пользователя виде; цитаты в тексте подсвечиваются (см. рис. 2).

Далее можно составить конкорданс цитат с помощью запроса на языке CQL (см. рис. 3). Слева указан адрес цитаты в тексте. Если выбрать цитату в конкордансе щелчком мыши, то отобразится визуализация фрагмента жития, в котором выделены все слова цитат.

Помимо собственно представления и поиска платформа TXM предлагает и другие инструменты анализа, такие как прогрессия, специфичность и анализ соответствий.

Прогрессия показывает увеличение числа цитат по мере чтения текста (см. рис. 4).

На графике слева показана прогрессия по первому слову в цитатах (то есть по числу цитат). По оси Х указано количество словоупотреблений. В данном случае оно начинается с цифры 84 000, потому что платформа TMX анализирует весь корпус, а Житие Дионисия Глушицкого, для которого построен этот график, не является первым в корпусе. Показатель Т = 10 827 указывает количество словоупотреблений в данном тексте. По оси Y указано количество цитат.

Программа проверяет все слова по направлению чтения текста: от первого слова до последнего. Когда встречается слово, которое является первым словом цитаты, график поднимается на одно деление вверх. Таким образом, мы двигаемся по тексту и отслеживаем, с какой «скоростью» увеличивается число цитат. В тех частях текста, где цитаты следуют одна за другой, график резко идет вверх. Там, где цитат нет, график идет горизонтально.

Вертикальные линии на графике показывают деление текста на основные содержательные разделы – блоки. Сверху рядом с линиями указаны номера этих блоков. Так можно проследить, в каких разделах цитат много, а в каких – мало или нет совсем. Первый раздел Жития Дионисия Глушицкого – это «Введение», где автор обосновывает необходимость написания жития. По графику видно, что в этом разделе довольно много цитат: график резко поднимается вверх. Второй раздел – «Основание монастыря» (в этом житии отсутствует информация о мирской жизни святого), в нем тоже много цитат. В третьем разделе график идет строго горизонтально, то есть в этом разделе (описывающем основание второго монастыря) не встретилось ни одной цитаты.

<22>

ЛХ ЦД ТЮНА ДН Ь Л ЖИТТе И ПОДВИЗИ и Фчдсти чюде нсповкдд е при бнд ку нше дТонТсТд гл!? цкд се во нм "к о сё вл женк светлый оуч тль , слдвныи пдвё въптё . иуъ жй е мд мв сё е .

ндслдж дд чювство Безверны ненд сытн? . и невТдимдР довротою видк .

дкы рдзжлкнд , рдзжлко и оулхо точТю . рд у ДСА достоинда потки npYe , ТОддиТа Tp^AW , в трКдн^ю поч? . гл тдлхо при" стТе прУе . и п^ но с тклхн сы , иуъ ногд ста нд прдвот . но овд" оу не W трж вны тб потку , на ^доврити ел?

Рис. 2. Визуализация разметки цитат в тексте Fig. 2. Visualization of quote mark-up in texts

6jDGIu$h -4 И

жня о 1Куги mtrreiA . рекше по юк твены пиаин окормитм житу * ГКО* . pt' GW ГК ЛЮКАИ МА . в ялкыгк ПМЧИПСА ДН k HW . пл же нъ чл кт. ИЖГ OnpAljlf прелк,\р П. . СГЛЛЖ* ILK ти нд ло ст ы оц ь oyiewV# . том»,* ооу послеу дх г . ст ын . н нд^’чнвыи пр»

рдсд »НОГО 11ОГр€ВША В :№МЛИ ТЛЛАНТЪ

DGlush 2210

DGIush.22^

DGlush 213

DGlush 233

DGlush 214

fit GW ГЬ ЛЮПАИ Л\А

Рис. 3. Конкорданс

Fig. 3. Concordance

б

Рис. 4. Прогрессия (для Жития Дионисия Глушицкого):

а – по первому слову в цитатах; б – по количеству слов в цитатах

Fig. 4. Progression (for Life of Dionisiy Glushitskiy):

a – by the first word in a quote; b – by the number of words in a quote

На графике справа также представлена прогрессия, но в данном случае она показывает не количество цитат, а количество слов в цитатах. Поэтому показатели на шкале Y больше – до 650 слов. В разделах 6 и 7 можно видеть, что график резче поднимается вверх: когда в тексте встречается цитата, график поднимается на столько делений, сколько слов содержится в цитате, то есть резкое движение графика вертикально вверх обозначает длинную цитату.

Таким образом, можно построить отдельные графики прогрессии для каждого текста отдельно и наглядно представить распределение цитат по разным содержательным блокам (рис. 5, 6).

Помимо построения графиков прогрессии платформа TXM позволяет создавать частотные словари. Например, можно узнать частоту употребления тех или иных словоформ в цитатах (см. рис. 7).

а

б

Рис. 5. Прогрессия цитат в житиях:

а – Житие Димитрия Прилуцкого; б – Житие Дионисия Глушицкого Fig. 5. Progression of quotes in Lives:

а – Life of Dimitriy Prilutskiy; b – Life of Dionisiy Glushitskiy

б

Рис. 6. Прогрессия цитат в житиях:

а – Житие Григория Пельшемского; б – Житие Корнилия Комельского Fig. 6. Progression of quotes in Lives:

а – Life of Grigoriy Pelshemskiy; b – Life of Korniliy Komelskiy

На рисунке 7 в виде таблицы представлены встречающиеся в цитатах словоформы в порядке убывания их частоты (служебные слова исключены из списка). Во втором столбце указывается частота вхождения словоформы во всех размеченных текстах, а в следующих столбцах указаны частоты употребления словоформы в каждом тексте отдельно. Так, можно увидеть, что оказавшееся в начале частотного словаря слово мене особенно характерно для цитат в Житии Дионисия Глушицкого: оно встретилось 15 раз. В остальных текстах оно встречается гораздо реже: в житиях Григория Пельшемского и Корнилия Комельского – по одному разу, а в Житии Димитрия Прилуцко-го – ни разу.

Основываясь на данных частотных словарей, платформа TXM оценивает специфичность употребления тех или иных словоформ (рис. 8).

Рис. 7. Частотный словарь словоформ для четырех житийных текстов

Fig. 7. Frequency dictionary of word forms in four hagiographic texts

BZ SCAT2021/CIT/texts/«[q!="nocit|author-... i'-1 *SCAT2021/CIT/dtations/@word й                                                                               ° о

Property lemma С Q

Units Frequency Т 33117 DGlush-cit t=655 ^ index DGlush-coCit t= 10172 index DmPrlc-citt=i87 index DmPrlc-noCit t=4826 index GrPelsh-cit t=929 index GrPelsh-n

Рис. 8. Специфичность

Fig. 8. Specificity

Диаграммы на рисунке 8 показывают специфичность первых шести словоформ из частотного словаря в размеченных текстах. При этом отдельно оценивается употребление словоформ в цитатах и в остальном тексте жития. Для этого рассчитывается индекс, который показывает, насколько вероятно столь частое (или редкое) употребление слова в выбранном подкорпусе относительно всего корпуса в целом. Например, индекс специфичности +4 означает, что вероятность настолько частого появления данного слова в выбранном подкорпусе равна 1/104. Значения в диапазоне от –2 до +2 (то есть 1/100) являются статистически незначимыми. Такие значения могут получиться в результате случайного распределения слов.

На рисунке 8 в верхней части приведена таблица, в которой перечислены словоформы из частотного словаря, указаны частота их употребления и индекс специфичности. Во втором столбце указано, сколько раз эти словоформы встречаются во всех четырех житиях. Далее идут значения для каждого текста отдельно. В третьем столбце указана частота употребления слова в цитатах в Житии Дионисия Глу-шицкого. В четвертом столбце указан индекс специфичности для такой частоты употребления. В пятом столбце показана частота употребления этого же слова в тексте Жития Дионисия Глушицкого без учета цитат, а в шестом столбце – индекс специфичности для этого числа словоупотреблений в тексте. Аналогичные показатели указаны для всех житий.

В нижней части изображения индексы специфичности представлены в виде столбчатых диаграмм, которые показывают, у каких текстов есть уникальные, присущие только им характеристики. Например, первый столбик в первой диаграмме показывает, что частое употребление слова мене является уникальной характеристикой цитат в Житии Дионисия Глушицкого. Индекс специфичности этого слова выше 17, то есть вероятность того, что в подкорпусе такого объема слово мене может встретиться 15 раз, крайне мала и составляет 1/1017. В остальном тексте жития (вне цитат) частота употребления этого слова оказывается в рамках статистически незначимого диапазона (вторая диаграмма), то есть такое частое использование этой словоформы является уникальной характеристикой только для цитат, содержащихся в этом житийном тексте. Другая ситуация с той же словоформой наблюдается в Житии Корнилия Комельского (две последние диаграммы). В цитатах это слово употребляется в рамках статистической нормы, но для остального текста жития это слово крайне нехарактерно – его показатель специфичности составляет –4. Отрицательное значение показывает, что слово употребляется в тексте гораздо реже, чем могло бы при статистически неспецифичном распределении.

На основе оценки специфичности отдельных слов можно провести анализ соответствий. Это многомерный анализ, который позволяет оценить употребление всех слов во всех разделах текста и определить, насколько тексты близки друг к другу или, наоборот, далеки друг от друга по лексическому составу. Приведем в качестве примера график анализа соответствий для двух житий: Жития Дионисия Глушицкого и Жития Григория Пельшемского (см. рис. 9). В данном случае также отдельно рассматривался лексический состав цитат (DGlushCit и GrPelshCit) и лексический состав остального текста (DGlushNoCit и GrPelshNoCit).

Ожидаемо, тексты двух житий оказались по разные стороны оси 2: лексический состав текстов не совпадает. Однако можно видеть, что лексический состав цитат в обоих житиях значительно отличается от лексического состава остального текста (разделы оказались по разные стороны оси 1). Это различие особенно ярко выражено в Житии Дионисия Глушицкого. Таким образом, результаты многомерного анализа подтверждают, что в цитатах сохраняются языковые особенности оригинала, которые могут не совпадать с языковыми характеристиками основного текста жития, потому что «цитате по определению естественно звучать иначе, чем основному тексту» [Запольская, 2003, с. 482].

Платформа TXM предлагает еще один вариант представления анализа соответствий, который позволяет увидеть отдельные совпадающие или специфичные слова (см. рис. 10).

№ SCAT2018-CIT: q

HZ Index: texts: []: q

HZ Index: texts: [q!="no-cit|author-speake...

P1 word

pi [мене, любы,

Propriete word ; j О ^ *4 S I? ' » ^ Axes: i(1,2)

Plan factoriel de Г analyse des correspondances de citations:word 2 / 200

  • 1.3                                                                                 .

DGIushCit

X2

XI

XO

0,9

A 0.8

Ь «,7

M

СП 0,6

  • 2                                                                      CrPelshCii

CM 0,5

V

X 0,4

0,3

0,2

0,1

0,0

CrPdshNoCit

  • ■°’1                                  PCIushNoCit

    -1,00       -0,75       -0,50       -0,25       0,00        0,25        0,50        0,75        1,00        1,25        1,50

Axe 1 (54,20%)

Рис. 9. Анализ соответствий: простое представление

Fig. 9. Correspondence analysis: simple representation

JUZ SCAT2018

Propriete

Рис. 10. Анализ соответствий: представление со специфичностью слов

Fig. 10. Correspondence analysis: representation with word specificity

Слова, имеющие одинаковую специфичность в обоих текстах, накладываются друг на друга, образуя сплошную полосу пересечений в нижней части графика. Чем дальше слово расположено от центра графика, тем более уникальным для данного подкорпуса является его употребление. Например, слово мене, которое уже рассматривалось в других примерах, оказалось в верхней части графика, далеко от основной полосы пересечений.

Такие возможности анализа текста, которые дает текстометрическая платформа TXM, позволят нам выявлять все новые особенности и закономерности житийных текстов по мере того, как разметка смысловых разделов и цитат будет вводиться в остальных текстах корпуса.

Теперь обратимся к третьему типу разметки элементов содержания – разметке повторяющихся фрагментов для отражения межтекстовых связей в корпусе.

Как уже говорилось, житийные тексты строились по определенному канону и при их написании авторы ориентировались на существующие образцы: в уже накопленном агиографическом материале подбиралось жизнеописание святого, близкого по характеру своей деятельности и чертам личности к святому, чье подвижничество предстояло описать, и автор нового жития свободно пользовался текстом предшественника, иногда только заменяя имена и топонимы, иногда адаптируя или сокращая текст или даже заимствуя целые фрагменты текста, «повторяя те же слова и выражения» [Панченко, 2003, с. 507]. Например, в качестве источников для Жития Александра Свирского И. Яхонтов приводит Жития Феодосия Печерского, Сергия Радонежского, Варлаама Хутынского и Кирилла Белозерского [Яхонтов, 1881], уже в наше время Н.В. Пак добавила к этому списку два переводных жития [Пак, 2001].

Можно по-разному относиться к такому использованию чужих сочинений. Например, И. Яхонтов очень низко оценил труд Иродио-на, автора Жития Александра Свирского, не признав за ним никакой исторической ценности [Яхонтов, 1881], в то время как Л.А. Дмитриев посмотрел на него с другой точки зрения: «Полнота наших сведений об обстоятельствах написания И<родионом> Жития Алек- сандра Свирского красноречиво свидетельствует о том, в чем прежде всего агиограф XVI в. видел задачу своего труда: рассказать о святом, имея в виду реальные факты его жизненного пути, во всяком случае хорошо зная эти факты, так, как об этом уже рассказывалось о других святых, предшественниках этого нового святого» [Дмитриев, 1988, с. 441].

Входящие в корпус СКАТ тексты северорусских житий позволяют обнаружить многочисленные текстовые фрагменты, воспроизводимые разными авторами. Поэтому мы решили ввести третий тип структурной разметки: в текстах корпуса отмечены повторяющиеся фрагменты со ссылкой на первоисточник.

Приведем фрагмент, который обнаружился в корпусе СКАТ в житиях Дионисия Глу-шицкого и Александра Куштского. Он повторяет фрагмент из вступления к Житию Иоанна Лествичника. (Текст Жития Иоанна Ле-ствичника цитируется по публикации Т.Г. Поповой [Попова, 2014].) В результате сопоставления фрагментов можно увидеть, что это один и тот же текст, который заимствуется с некоторыми изменениями (см. рис. 11).

В рамках проекта СКАТ не проводятся текстологические исследования. Решение о том, какой текст считать первоисточником того или иного повторяющегося фрагмента, принимается на основе данных из уже опубликованных работ других исследователей. Например, для фрагмента в данном примере мы указываем в качестве первоисточника Житие Иоанна Лествичника, опираясь на работы Т.Г. Поповой [Попова, 2011]. Если для каких-либо фрагментов со временем будет обнаружен более ранний источник, мы сможем скорректировать разметку и ссылки в корпусе. Выбранная схема разметки позволяет оперативно вносить подобные изменения.

При разметке повторяющихся фрагментов мы даем ссылку на первоисточник. Поскольку во многих случаях цитируемый текст не входит в корпус СКАТ и далеко не все цитируемые тексты представлены в электронном виде, было принято решение добавить оригиналы повторяющихся фрагментов в корпус. Чтобы избежать сложностей, связанных с добавлением полных текстов, мы ограничиваемся только цитируемым фрагментом, со-

Житие Иоанна Лествичника 2/part 8.pdf Житие Дионисия Глушицкого Житие Александра Куштского есть во и| сь пинга въ томь. о| нел\ьже| св'Ьтл'Ыи оу|читель сллвии. сде| н"Ькако въпига иуъ|же житие на нвсьуъ| есть. нАГЬПрдга са [ч]^вьствъл\ь. везв[е]щ[’ь]|н’ылхь. ненлсытнЕлго и не|видил\]лго добротою.| [зьрА гако л\Ъ1Сле]|нАго рлзоули [рлзоу]||лгьл\ь ТЬЧ'ЪЮ рАДОуга| СА. достойно поть Се во ни! 6 се влжен*кж светлый оучтль,! славный пдве въте . и^ъ жие мл нвсе € -| ндслдждд чюв'ство везвефны ненл|сытнд . и НеВ1ДИЛ\А ДОБРОТОЮ ВИД^*.! дкы рд^жммл^ р.цжл\о и оумо точ7ю. рЛу|дСА ДОСТОИН А А norw Сен оуво влженыи, о нелть " вгоглдны | светлый оучитель славныи| плвелъ вопиеть, иу'же жи|тТе на нвс-куъ есть. нлслаж'|дааса чювствл везв^фны ! ненАСытнАго, и невидил\Аго| довротою ВИД^ВЪ АКИ рАЗ^|л\НА рлз^молхъ, точ'|'ю рАД^Й|сА ДОСТОЙНАА по тев"6.

Рис. 11. Пример повторяющихся фрагментов

Fig. 11. Example of repeating fragments

здаем для каждого отдельный XML-файл и обязательно указываем источник текста, по которому цитируется фрагмент. Именно на этот файл и дается ссылка из текста жития.

При визуализации повторяющийся фрагмент в тексте жития выглядит как веб-ссылка с четко обозначенными границами. При нажатии на ссылку можно перейти к цитируемому оригиналу.

В качестве примера дан повторяющийся фрагмент в тексте Жития Дионисия Глу-шицкого (см. рис. 12).

Исходный фрагмент в Житии Иоанна Лествичника, представленный в отдельном файле, приведен на рисунке 13.

Приведем еще один пример перехода от повторяющегося фрагмента к первоисточнику (см. рис. 14). Слева представлена страница из Жития Антония Свирского, где также в виде веб-ссылки оформлен фрагмент, описывающий чудо об олене. Справа приведен текст цитируемого фрагмента Жития Евстафия Пла-киды. (Мы указываем его в качестве первоисточника, ориентируясь на данные работы О.В. Гладковой [Гладкова, 2013].)

Используя такую разметку, мы составляем реестр повторяющихся фрагментов, что позволит отслеживать возможные закономерности заимствований и на основе имеющихся данных находить повторяющиеся фрагменты в других текстах житий, а со временем автоматизировать их поиск.

Заключение

Таким образом, в Санкт-Петербургском корпусе агиографических текстов (СКАТ) вводится разметка элементов содержания трех типов: разметка сюжетной схемы, разметка цитат и разметка повторяющихся фрагментов. Совмещение трех типов разметки позволяет анализировать особенности построения житийных текстов. В рамках проекта планируется увеличение объема корпуса и введение разметки в большее число текстов, в том числе разметка наиболее знаковых житий, например Жития Сергия Радонежского, которое послужило образцом для многих других житийных текстов. Это позволит нам выявить общие закономерности в употреблении цитат и заимствований, что в дальнейшем облегчит работу по их поиску в новых текстах и поможет автоматизировать процесс разметки.

<22>

МЦА 1ЮНА днь а"жиле и ПОДВИЗИ и W4ACTH ЧЮДС'ИСПОВГ.Д^Е ПРАн^^НШ^ДТОНТСТА гл/ЦК д';

се бо гаА о се бЛкеяУ св!гши огАль. славный паве'выпе’ ихУжменанбсее* наслалЗаа* чювствб* бетвещны' йена сытна" и кевтдкма^ добротою вид!* акыраздмна".разжатой сумо"точйо р^1 асд достониад norw при. мдани тр/д**. (ир/дн/ю поче" на'тамо прнспе при* и прно с т!ми сы . ихь кота ста на право? ИО обГоУХС Й трлЪсы ri' пог?. и/ /добрнти ело

сказаюшее схАовосты. и нб^ое жие, о се*бсЕке А' юко да навыки? известно . млад/ сш та ковыи с Атилян вкси еда w {ерлма , или w синаа нмрё* но проси в наптырод! таковы св' пиши сего ра' и поЪсгохьна реете оГолюоно Bicтавити да то рвение сами себе приведете . но правое пом ышлаэощи . непракко могдша' ползл слышать/ сьтворити , си млъчаше' потаити но да не и мы владе" вь ocAjfeme ра ба оного. погребли*в земля талантъ се*ра и а w преслжшаки смрвти боахсд всжскыписатм попекмед , елико постиго юле о не' гр /ды е"и холЗе ни . е наоуче бы w мА мои. и мимта Ата ли вшы св ctV г.Ио же амфклохи, и дрыгаю макари . и Михаила и с* видктн с fro изв' стно и паче" свАелстжлюоы*сам!* чхкК w гроба сАо . ино же и своима м-чима вид!".

бываюшак чюдеса . и Гднвихсл к помо ши о>-бо байл проел и на м.Ав/ сАо на Аюхса дрмнл писати елика слышах юко да не забвено бжде житье сАо . е де oopiroxb ястинкаго ннемАте

Рис. 12. Визуализация жития Дионисия Глушицкого

Fig. 12. Visualization of Life of Dionisiy Glushitskiy есть бои сь ньшьа в томь. о немьже светлый оу читель слабни. еде н!како въпиу ихъ же житие на нбеьхь есть . насыщай сж чУвьствъмь . безвещь нымь . ненасытнаго и не видимаго добротою .

зьрж юко мысле наго разоума разоу мъмь тьчъю радоую сж. достойно потъ при имъ -А-данию . и троу довъ бестроудьноую чъсть . юже тамо при частие приемъ. и при сно с тЬми сы . ихь же нога ста на правы ни

Рис. 13. Исходный фрагмент в житии Иоанна Лествичника

Fig. 13. Original fragment in Life of John of the Ladder

<1> исшеЪоу до емоу въ единъ w дйш . по обычаю на ловъ свои . и съ слоугами своими и ювисж емУ стадо слеши ходкие и растрои воз и начать гонити и вид! елень болт въ всемъ стад! и красящи \<лУчи же сж елень тъ w стада \<лоучи же сж и плакыда с маломь чадно . и начать с ними гонити по немъ гонжщим же имъ изнемогоша вен плакыда же единъ начать гонити пл немъ . йлоучи же сж далече w дроужнны . долго же гонащо>’ ЕМОУ . елень тъ взыде на камень высокъ и ста на немъ . приехав же близь стратнла , не cwmej.’ ни едином с ннмь w сю>тъ . помыш-тжаше же в себ! . которым ^оразомь огловиль бы е . бй» же съдержан и о\гтроюи всжческыа почти на слеше чйкомь . тъ паче о>'лов1 ювлен!емъ своимъ . не юкоже коршлтю петромъ . но юкоже пакта гонжща . долго же стоющоч’ плакыд! и зржщоу и днвжхцоч'сж . показа ^ЮУ 6й» чюдо скцемъ и-бразомъ

Рис. 14. Фрагмент из жития Евстафия Плакиды в житии Александра Свирского

Fig. 14. Fragment from Life of Saint Eustathius in the text of Life of Alexander Svirskiy

Список литературы Представление и анализ элементов структуры содержания в Санкт-Петербургском корпусе агиографических текстов (СКАТ)

  • Азарова И. В., Алексеева Е. Л., 2008. Санкт-Петербургский корпус агиографических текстов (СКАТ): формат XML-представления лингвистической информации и организация поиска данных на сайте // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам: El’Manuscript-08: материалы Междунар. науч. конф. Казань: Изд-во Каз. ун-та. С. 3–6.
  • Азарова И. В., Алексеева Е. Л., Лаврентьев А. М., Рогозина Е. А., Сипунин К. В., 2019. Представление и анализ библейских, святоотеческих и литургических цитат в корпусе СКАТ // Корпусная лингвистика – 2019: тр. Междунар. конф. СПб.: С.-Петерб. гос. ун-т. С. 265–270.
  • Алексеева Е. Л., Азарова И. В., 2013. Особенности морфо-синтаксической разметки древнерусских агиографических текстов // Корпусная лингвистика – 2013: тр. Междунар. конф. СПб: С.-Петерб. гос. ун-т. С. 157–164.
  • Гладкова О. В., 2013. Житие Евстафия Плакиды в русской и славянской книжности и литературе IХ–ХХ веков. М.: Индрик. 910 с.
  • Дмитриев Л. А., 1988. Иродион // Словарь книжников и книжности Древней Руси. Вып. 2. Вторая пол. XIV–XVI вв. Ч. 1. Л.: Наука, ленингр. отд-ние. С. 440–442.
  • Запольская Н. Н., 2003. Библейские цитаты в текстах конфессиональной культуры: семантика, функции, адаптация // Славянский альманах. 2002. М.: Индрик. С. 482–492.
  • Ключевский В. О., 2003. Древнерусские жития святых как исторический источник. М.: АСТ: Астрель. 394 с.
  • Кузьмина М. К., 2017. Канон преподобнического жития сквозь призму библейских цитат. М.: Водолей. 399 с.
  • Кусков В. В., 1982. Литература высоких нравственных идеалов // Древнерусские предания (XI–XVI вв.). М.: Сов. Россия. С. 5–22.
  • Лихачев Д. С., 1961. Литературный этикет Древней Руси (к проблеме изучения) // Труды Отдела древнерусской литературы. Л. ; М.: Изд-во Акад. наук СССР. Т. 17. С. 5–16.
  • Пак Н. В., 2001. К проблеме источников Жития Александра Свирского // Книжные центры Древней Руси. Севернорусские монастыри. СПб.: Дмитрий Буланин. С. 145–151.
  • Панченко О. В., 2003. Поэтика уподоблений (к вопросу о «типологическом» методе в древнерусской агиографии, эпидейктике, гимнографии) // Труды Отдела древнерусской литературы. СПб.: Дмитрий Буланин Т. 54. С. 491–534.
  • Попова Т. Г., 2011. Лествица Иоанна Синайского в славянской книжности. Саарбрюкен: Lap Lambert. 457 с.
  • Руди Т. Р., 2006. О композиции и топике житий преподобных // Труды Отдела древнерусской литературы. СПб.: Дмитрий Буланин. Т. 57. С. 431–500.
  • Руди Т. Р., 2005. Топика русских житий (вопросы типологии) // Русская агиография. Исследования. Публикации. Полемика. СПб.: Дмитрий Буланин. С. 59–101.
  • Яхонтов И., 1881. Жития святых севернорусских подвижников Поморского края как исторический источник. Казань: Тип. ун-та. 377 с.
Еще
Статья научная