Параллельный корпус списков славянского паримейника: состав, структура, аналитическая разметка

Бесплатный доступ

Обоснована необходимость разметки машиночитаемых транскрипций средневековых славянских рукописей, являющихся текстовым материалом исторических корпусов, на уровне аналитических фрагментов - частей, обладающих кодикологически или текстологически значимыми характеристиками. На примере анализа состава четырех рукописей славянского паримейника (XII-XIV вв.) и разработки его структурной модели продемонстрировано решение задач идентификации аналитических единиц, сохранения традиций их описания, создания условных форматов, обеспечения поиска и представления их характеристик с помощью естественного языка. Предложен формат описания паримий, включающий сведения об отделе (подотделе) церковного года, номере паримии в этом отделе, текстовом составе в его отношении с текстами Библии, теме. Разработан формат описания дат, дней и времени чтения паримий в течение года, который включает сведения об отделе (подотделе), дате по неподвижному или неделе и дне в пределах отдела (подотдела) по подвижному календарю, о времени церковной службы, о событии, которому посвящена служба. Разметка списков паримейника (указание границ каждого фрагмента, установление связи фрагмента со словарной единицей) позволяет демонстрировать в корпусе «Манускрипт» (manuscripts.ru) параллельный корпус четырех славянских списков паримейника, выровненных по паримиям и стихам Библии.

Еще

Средневековые славянские рукописи, паримейник, структура и состав, разметка, параллельный корпус

Короткий адрес: https://sciup.org/149139449

IDR: 149139449   |   DOI: 10.15688/jvolsu2.2021.6.1

Текст научной статьи Параллельный корпус списков славянского паримейника: состав, структура, аналитическая разметка

DOI:

Исследователи исторических текстовых источников всегда исходили из понимания ограниченности анализируемого материала, обусловленной количеством рукописей, которые сохранились и доступны для анализа. Поэтому отношение текстологов и лингвистов к данным средневековых рукописей и текстов особое: важны все факты изучаемого явления в их соотношении, в том числе и количественном, друг с другом и в противопоставлении фактам альтернативного способа выражения или альтернативного значения. Это позволяет говорить о том, что традиционный исторический метод лингвистического анализа средневековых рукописных источников использует по сути корпусные методики извлечения и систематизации лингвистических данных [Баранов, 2015], а корпусное понимание текста как единственно доступного нам объекта наблюдения и изучения имеет ту же методологическую основу, что и база историко-лингвистических исследований, опирающаяся на факты дошедших до нас письменных источников.

Сегодня корпусные методы, использующие в первую очередь автоматизированные способы и приемы извлечения, количественного сопоставления и статистической оценки лингвистических форм, конструкций и их значений, активно применяются не только для решения прикладных задач поиска и анализа текстов (контекстов), их генерации, создания систем взаимодействия человека и машины на естественном языке, но и для научных це- лей – оценки текстов с точки зрения близости и контрастности, подтверждения лингвистических гипотез, нахождения в текстах неизвестных закономерностей и многих других.

До недавнего времени применение корпусных методов в работе со средневековыми славянскими рукописями было невозможным: отсутствовали машиночитаемые текстовые ресурсы достаточного объема. Но за последние десять – пятнадцать лет ситуация несколько (пока, наверно, рано использовать слова существенно , принципиально , кардинально ) изменилась: у отдельных исследователей и коллективов появились достаточно большие коллекции наборных копий (транскрипций) средневековых текстов (рукописей), которые позволяют или применить к ним простейшие автоматизированные приемы выборки, счета, сортировки, предоставляемые, в частности, текстовыми процессорами и электронными таблицами, или осуществить их обработку с помощью специализированных программ, например AntConc, Voyant, Gephy и др., для подготовки конкордансов, получения количественных и статистических сведений, визуализации текстовых закономерностей, или, создав на основе транскрипций корпус, использовать возможности корпусных менеджеров для поиска, выборки, демонстрации и анализа лингвистической информации 2.

Как известно, анализ лингвистических единиц включает в себя в том числе и этап их сопоставления друг с другом по каким-либо формальным и содержательным признакам: от текстовых (время, автор, стиль и жанр) до собственно речевых и языковых (позиция, грамматическая форма, семантика). Поэтому основой любой коллекции и корпуса является разметка – метаразметка текстов, частеречная и морфологическая разметка лингвистических единиц, синтаксическая (их грамматических связей), тематическая, семантическая (отношений слов с другими словами) и др. Наличие разметки позволяет не только найти в большой коллекции единицы с необходимыми значениями, но и сформировать выборки, единицы которых обладают наборами идентичных (аналогичных) или противопоставленных форм или значений.

В настоящее время для любой коллекции или корпуса базовыми являются мета- и грамматическая разметки. Дополнительные зависят от направленности проекта, исследовательских задач, которые решает коллектив, от наличия инструментария, позволяющего в автоматическом или автоматизированном режиме осуществлять разметку, и, конечно, от самого текстового материала.

Если для современных корпусов с их огромным количеством данных значимые наблюдения успешно осуществляются на основе временных, жанровых, авторских, гендерных, возрастных и под. противопоставлений, то для существенно меньших по объему средневековых коллекций при сохранении значимости времен-ны´х и жанровых характеристик особое внимание при анализе речевых и языковых особенностей уделяется свойствам отдельных частей рукописей и текстов. Понятно, например, что при выборке данных из кодекса, переписанного несколькими писцами, необходимо предоставить пользователю возможность получить сведения о каждой из частей отдельно 3, при наличии в рукописи нескольких текстов анализ должен осуществляться с учетом того, что лингвистические единицы принадлежат разным текстам 4, а следовательно, их границы должны быть указаны. При компилятивном характере текста информация о текстологически важных фрагментах должна быть внесена в машиночитаемую копию 5. Таким образом, учет текстологических, кодикологических и лингвистических особенностей средневековых письменных памятников при их исследовании с помощью корпусных методов должен быть обеспечен соответствующей разметкой. И чем более детальной она будет, тем больше возможностей для сопоставления материала будет предоставлено лингвисту.

Данная работа посвящена демонстрации способов решения прикладной текстологической задачи – представления структуры и состава средневекового славянского паримейни-ка в виде модели и в виде разметки четырех славянских списков XII–XIV вв. в базе данных исторического корпуса «Манускрипт»6.

Наличие в базе данных корпуса структурированных сведений о фрагментах списков позволяет формировать выборки лингвистического материала с учетом значений их частей: а) создавать подкорпусы из фрагментов одной рукописи с разными аналитическими характеристиками 7 и подкорпусы из фрагментов разных списков с идентичными значениями; б) сопоставлять подкорпусы с помощью инструментов, анализирующих количественные характеристики их лингвистических единиц; в) представлять на экране соответствующие друг другу части рукописей в виде параллельного корпуса списков одного текста.

Материал и методы

Рукописи паримейника в корпусе

Как известно, паримейник (в греческой традиции – профитологий) – сборник избранных чтений в основном из Ветхого Завета. Паримии читаются в дни Великого поста, на Страстной неделе, в дни праздников и памятных событий [Алексеев, 2008, с. 161–162]. Па-римии содержат тексты, в той или иной степени соотносимые с поминаемым в этот день событием [Алексеев, 2008, с. 163 и др.] и сгруппированные в три отдела – Рождественско-Богоявленский, Триодный и Месяцесловный, а также указания на чтения, исполняющиеся во время службы до, между или после паримий.

В настоящее время в корпусе «Манускрипт» имеется четыре списка паримейника: Лазаревский (Сковородский), XII в. (РГАДА 1988, с. 119–121; СК 2002, с. 641–643), Захарьинский 1271 г. (СК 1984, с. 205–206), Федоровский, XIII в. (СК 1984, с. 310–311) и Троицкий, XIV в. (ПС 1966, с. 229; ОР 1878, с. 3) (см. список источников; далее – Лаз, Зах, Фед, Тр соответственно) 8.

Рукописи в разной степени сохранности. Наименьшее количество утрат в Зах: утраты между 15 и 16 листами (нет одной паримии на Богоявление и конца предыдущей паримии и начала следующей) и между 195 и 196 листами (отсутствует несколько паримий Страстной пятницы и Страстной субботы) (СК 1984, с. 206). Наибольшее – в Фед: большие утраты во всех отделах – нет нескольких Рождественских паримий, паримий на Богоявление и Водосвятие, отсутствуют паримии первой недели поста и понедельника и вторника второй недели и мн. др. (СК 1984, с. 311).

Две рукописи Лаз и Зах созданы несколькими писцами. Текст Зах переписан попом церкви Св. Дмитрия в Новгороде Захарией, его сыном Олуферием и еще двумя писцами (СК 1984, с. 205–206), текст Лаз – тремя, вторым из которых был поп новгородского монастыря Св. Лазаря Домка, переписавший также бóльшую часть Милятина евангелия (РНБ, F.п.1.7) [Михеев, 2019, с. 27–37; Мольков, 2020, с. 35; и др.].

Установление состава и структуры рукописей

Паримии и их идентификация

В печатных изданиях паримейников традиционно принято в качестве идентифицирующего признака паримии указывать ее номер. Так, в [Monumenta..., 1939, p. 600–604; 1980– 1981, p. 163–170] дана сквозная нумерация па-римий в 71-й греческой рукописи IX–XIV вв. (сведения о количестве по: [Алексеев, 2008, с. 160]) от L1a до L76c (L – лат. lectio ‘чтение’). Один и тот же номер арабскими цифрами присвоен нескольким паримиям, читающимся в течение одной службы или на нескольких службах одного дня: восемь пари-мий навечерия Рождества имеют номер L1, две паримии, читающиеся в Сырную cреду, – номер L3 и т. д.; литерная нумерация используется для идентификации паримий внутри службы или дня: восемь паримий Рождества последовательно пронумерованы от L1a до L1h, паримия на 6-м часе имеет номер L3a, на вечерне – L3b и т. д.

Несколько иным способом паримии идентифицированы в обобщающем труде [Алексеев, 2008, с. 234–245]. А.А. Алексее- вым используются различные приемы: а) указание на службу определенного дня неподвижного или подвижного календаря или комментарий; б) нумерация; в) указание на соотношение с чтениями Библии; г) тема па-римии. В перечне паримий указываются отделы (Рождественско-Богоявленский, Триодный, Месяцесловный), подотделы (например, Великий пост, Лазарева суббота и Страстная неделя), день (например, Страстной понедельник, Страстной вторник и др.) и служба (например, на вечерне, на всенощном бдении, на 6-м часе и др.). Паримии на Рождество, Богоявление, Водосвятие и на вечерне Страстной субботы нумеруются по порядку следования. В другие дни идентификация осуществляется с помощью указания на стихи Библии и темы. См., например, три паримии на Вознесение:

Ис. 2.2-11 Суд Господень

Ис. 62. 10-63.3-9 Не ангел, но сам Господь спас их

Зах. 14.1-11 Живые воды потекут из Иерусалима.

А также с помощью комментария о службе паримии в 1-й Понедельник Великого поста:

Ис. 1.1-20 Омойтесь, очиститесь

Быт. 1.1-13 Три дня творения

Притч. 1.1-20 Начало премудрости – страх Господень («Прим. 1. В течение шести недель Великого поста Ис читается на 6-м часе, Быт и Притч – на вечерне» [Алексеев, 2008, с. 235]).

Удобство представления состава пари-мейников в обоих случаях бесспорно: в первом случае каждая паримия имеет уникальный номер, позволяющий соотнести ее со службой и местом в службе, во втором – паримия имеет несколько характеристик, позволяющих установить в том числе и их назначение.

В то же время и тот, и другой способ обладают недостатками с точки зрения идентификации паримий: в первом – нет указания на то, что некоторые паримии читаются несколько раз в году (для этого используются дополнительные таблицы соответствий), во втором – отсутствует единый способ обозначения паримий.

Разметка машиночитаемой транскрипции предполагает указание объекта (в данном случае – границ фрагмента) и приписывание ему значений, которые могут быть как уникальными, альтернативными, так и неуникальными, совпадающими со значениями других объектов идентичного типа. В любом случае необходим перечень параметров, значения которых позволяют: а) однозначно указать каждый из объектов; б) описать его существенные характеристики. При разработке компьютерных систем еще одно условие должно быть учтено – необходимость автоматической обработки значений, что возможно при наличии формализованных значений объектов.

Понятно, что при разметке паримий желательно сохранить связь с печатной традицией: для соотнесения пользователем результатов работы в корпусе с имеющейся в литературе информацией о составе паримейников необходимо присвоить фрагментам значения, позволяющие осуществлять поиск и формирование подкорпусов на основе идентичных и альтернативных значений, и обеспечить возможность автоматического упорядочения при выводе на экран.

В настоящее время для разметки пари-мейников в базе данных «Манускрипт» используются следующие параметры: номер паримии, сведения о соотношении текста с текстом Библии, тема паримии, дата и время ее чтения.

Основным параметром является номер, включающий по традиции указание на тип фрагмента (P – паримия), номер отдела / подотдела / дня (цифровая нумерация), порядок следования в течение дня (литерная нумерация), альтернативные паримии (дополнительная литерная нумерация), а кроме того, номер другого отдела (как отсылка к той же пари-мии, читающейся на другой службе):

P7a = P42aa, где P – паримия, 7 – 1-я Среда Великого поста, a – первая паримия Среды, = – паримия читается также на другой службе, 42 – служба на праздник Преполовения, aa – паримия, альтернативная паримии 42a.

Дополнительные параметры соотносят каждую паримию с текстами Библии и содержанием перикопы, которые даны в [Алексеев, 2008, с. 234–245]:

P7a = P42aa Ис. 2.3-11 «Перекуют мечи на орала»,

P42aa = P7a Ис. 2.3-11 «Перекуют мечи на орала».

В теме, вслед за А.А. Алексеевым, в квадратных скобках «приводится содержание некоторых опущенных пассажей книг Бытия и Притч» [Алексеев, 2008, с. 236]: P13b Быт. 5.1-24 «Родословие Адама [Рождение Ноя]», а в случае различных формулировок темы одной паримии – обе формулировки: P2i = P37b Исх. 2.5–10 «Обретение Моисея на Ниле = Дочь фараона находит Моисея».

Имеются случаи, требующие уточнения предложенной системы идентификации паримий: а) вариативность текстов паримий; б) наличие в рукописи нескольких паримий, соответствующих по тексту одной в другом списке.

В первом случае различаем:

  • а)    содержательную вариативность, при которой (частично) меняется тема текста, ср.: P1a = P2a = P5b Быт. 1.1–13 «Три дня творения» и P41b Быт. 1.1–5 «Первый день творения». Соответственно, паримии квалифицируются как разные;

  • б)    формальную вариативность, при которой содержание не меняется, ср. отсутствие контекста, соответствующего стиху Пр. 5.7, в списке Тр (20b–21b) в паримии P11c Пр. 5.1– 15 «Не приближайся к дверям блудницы», или наличие дополнительных контекстов в конце паримии P14c Пр. 6.20 – 7.1а «Опасность прелюбодеяния [Опасность от блудницы]» в Зах (68a – 69a) и др. Соответственно, признается наличие в списках одной и той же паримии;

  • в)    отсылочную вариативность, при которой в рукописи выписывается лишь заголовок и начало паримии, а также дается отсылка к полному тексту. См. 3-ю паримию на Воздвижение креста (14 сентября) P51c Ис. 60.11–16 «Будешь насыщаться молоком народов», в которой приводится только начало 11-го стиха и отсылается ко второй части второй паримии на вечерне Страстной субботы P41c Ис. 60.1–16 «Светися, / Иерусалиме, слава Господня на тебе возсияла»:

уте. / w полу •:■(Тр 116d)

Во втором случае – при наличии в рукописи нескольких паримий, соответствующих по тексту одной в другом списке, – определяющим критерием для признания фрагмента одной паримией является соотношение с соответствующими текстами в других списках. Так, в Зах на л. 42b–43с выписаны две паримии, на что указывают два заголовка – w(т) притъчь ч(т)ен и за(ч) w(т) при(т)ч . В то же время содержание этих паримий соответствует одной паримии в Тр (12b–13a), Лаз (20b–21b), а главное – и в других славянских и греческих списках, в которых текст, соотносимый с Пр. 3.1– 18 «Блажен человек, кто снискал мудрость», также является третьей паримией Четверга на первой неделе Великого поста. При разметке эти два фрагмента в Зах включены в одну па-римию P8c Пр. 3.1–18.

Компоненты паримий и их разметка

Текст паримий с точки зрения состава неоднороден. В нем может быть выделено несколько компонентов: заголовочная часть, части, содержащие отсылки и/или комментарии, сам текст – тело (или несколько тел).

Заголовочная часть может включать сведения о месяце или неделе, дате или дне недели, о событии, о службе, о порядковом номере паримии на службе и о Библейской книге:

  • •:■ МЦА ■ МАРТА / въ -kg- влговТфсник- / ст’ыд вцд • eg • Yb т •:■ / w исхода • уь • (Лаз 121b).

Компоненты заголовка характеризуются факультативностью, контактным или дистантным расположением по отношению к па-римии, содержательной связью или с одной, или с несколькими паримиями.

Все элементы заголовка факультативны. Наиболее регулярно используются указания на Библейские чтения. Сведения о дате и событии могут относиться к нескольким последующим паримиям и отделяться от них другими типами чтений. Со следующей непосредственно за заголовком паримией связаны только сведения о порядковом номере и о книге, которые могут следовать в разном порядке:

W EtlTblA VGN V - W УИСЛЪ • Yb • К • - ¥b • Г ■■ W ПррУСТВ • мих^ <■ (Зах la, 2d, 3b).

Характеристики состава и структуры заголовочной части позволяют представить их двумя способами: 1) компоненты, примыкающие к конкретной паримии, включить в нее в качестве заголовка; 2) отстоящие от нее – разметить как сведения о времени чтения и/или событии, а с учетом разного содержания и варьирующегося расположения сведений о порядковом месте и книге, присвоить им различные характеристики – нумерованный или текстовый заголовок.

Подобная разметка заголовков и тел па-римий позволяет решить несколько задач: дать возможность пользователю формировать подкорпусы с включением или исключением композиционных компонентов, демонстрировать структуру паримий при их визуализации, визуализировать соответствующие друг другу компоненты одной паримии в параллельном корпусе.

Дата и время чтений

В связи с тем, что паримейник является книгой, используемой при богослужении, расположение текстов в ней определяется последовательностью служб в течение года. В отличие от других служебных книг, которые ориентированы или на неподвижный, или на подвижный календарь, в паримейнике дата чтения текстов определяется как неподвижным, так и подвижным календарем. Так, па-римии Рождественско-Богоявленского и Месяцесловного отделов читаются всегда в одни и те же дни года, паримии Триодного отдела (чтения Великого поста, Страстной недели, Пентекостария и недель после Пятидесятницы) – в дни, определяемые Пасхальным (подвижным) календарем.

В отличие от неподвижного календаря, даты отмечаемых событий которого определяются месяцем и днем в месяце, дни в подвижном календаре, в которые совершаются богослужения, привязаны к отделам (подотделам) и неделям в отделе. При этом началом неподвижного календаря является 1 января, подвижного – день Пасхи, приходящийся на разные дни в промежутке между

22 марта и 25 апреля по Юлианскому календарю. Аналогичны и различия в пределах суток: ср. 24-часовой отсчет современных суток, которые начинаются в полночь, и порядок следования служб в течение суток церковного календаря, в котором новый день начинается вечером, до полуночи, каждая служба имеет свое наименование (1-й час, 3-й час и т. д., вечерня, повечерие, утреня и др.) и не привязана точно к конкретному часу (например, служба 1-го часа начинается около 7 часов утра, вечеря – около 9 часов вечера и др.), а первой службой нового дня является вечерня.

Все сказанное позволяет сделать вывод о том, что разметка богослужебного текста с указанием дня и времени чтения не может быть единообразной: разметка должна содержать сведения о двух годовых циклах – неподвижном и подвижном.

Согласно действующему стандарту представления дат и времени [ГОСТ Р 7.0.64-2018], идентификация дней может быть сделана на основе как календарных, так порядковых дат. В первом случае используется порядковый номер месяца в году и порядковый номер дня в календарном месяце, во втором – может быть использован порядковый номер недели и порядковый номер дня в неделе.

Расширенный формат календарной даты, предписываемый стандартом, – YYYY-MM-DD, порядковой даты – YYYY-Www-D, где YYYY – номер года, MM – номер месяца в году, DD – номер дня в месяце, Www – порядковый номер недели, D – номер дня в неделе (1 – понедельник и т. д.). Расширенный формат времени – Thh:mm:ss, где T – метка области времени: часы, минуты, секунды. Стандарт предусматривает возможность модификаций форматов по соглашению сторон, обменивающихся информацией.

Современный стандарт может быть использован для разметки текстов паримейни-ков (шире – любых богослужебных текстов) с некоторыми дополнениями и соглашениями. Так, для разметки средневековых славянских текстов целесообразно: а) использовать Юлианский календарь современного православного богослужения (при необходимости даты могут быть переведены в даты современного Григорианского календаря по новому сти- лю); б) учитывать разделение Пасхального года на отделы, подотделы (циклы, подциклы); в) порядковый номер недели исчислять от первой недели каждого из отделов и подотделов; г) начало служб условно соотнести с тем или иным временем (часом) суток; д) службы, посвященные одному событию, размечать как службы одного определенного дня (вечерняя служба Рождества Христова, совершаемая вечером 24 декабря, в связи с тем, что новый день начинается до полуночи, должна получить дату 25 декабря); е) использовать современную терминологию для обозначения церковных понятий седмица и неделя, а именно: неделя и воскресенье. Эти соглашения позволяют использовать форматы стандарта и его терминологию, иметь уникальное значение текстов с точки зрения времени их чтения в течение года, увеличивать количество уникальных значений в случае необходимости (например, использовать аналогичную разметку для других служебных текстов), осуществлять поиск текстов на основе их временных значений и др.

Проиллюстрируем сказанное примерами.

Значения даты и времени:

  • 1)    текстов, читающихся на службе Рождества Христова: Ch|--12-25T21|- , где обозначение отдела (цикла) – Ch = Christmas = Рождество; указание на дату по неподвижному календарю – |--12-25 = любой год-де-кабрь-25; сведения о службе – T21 = вечерня; указание на день по подвижному календарю – |- = значение отсутствует;

  • 2)    текстов, читающихся на одной из служб Великого поста: GL|-|--W01-1T12 , где GL = Great Lent = Великий пост, |- – дата по неподвижному календарю отсутствует, |--01-1 – понедельник 1-й недели, T12 – служба 6-го часа.

Из примеров видно, что формат имеет три части:

Div|--MM-DDThh|--Www-dThh, где Div – отдел или подотдел: Рождество (Ch – Christmas), Богоявление (Ep – Epiphany), Водосвятие (BoW – Blessing of Water), Недели перед Великим постом (PWL – Preparatory Weeks for Lent), Великий пост (GL – Great Lent), Страстная неделя (HW – Holy Week), Пентекостарий (Pnt – Pentecost), Недели после Пятидесятницы (WaP – Weeks after Pentecost), Месяцеслов (Mnl – Menologium);

|--MM-DDThh – формат даты и службы неподвижного календаря;

|--Www-dThh – формат дня и службы подвижного календаря, где Www – аббревиатура и номер недели от начала отдела, d – номер дня недели, Thh – идентификатор службы: 21 – вечерня, 22 – повечерие, 23 – всенощная, 24 – полунощница, 02 – утреня, 07 – 1-й час, 09 – 3-й час, 12 – 6-й час, 13 – литургия, 15 – 9-й час.

Таким образом, каждая служба кодируется уникальным идентификатором, присваиваемым словарной единице словаря фрагментов по времени чтения, с которыми связываются соответствующие друг другу фрагменты разных списков.

Важным условием, также определяющим точность и функциональность разметки, является необходимость указания не только дат и времени служб, но и событий, которым они посвящены. Предложенный комбинированный формат содержит сведения о некоторых праздниках, Страстной неделе, некоторых памятных событиях, но он является условной машиночитаемой аббревиатурой и не позволяет без специальной обработки предоставить пользователю возможность осуществлять поиск данных на естественном языке и выводить на экран необходимые для понимания фрагментов сведения.

В настоящее время каждая единица словаря, обеспечивающего разметку рукописей в соответствии с датой и временем чтения фрагмента, снабжается кратким комментарием, содержащим словесную информацию об отделе (подотделе), дате, времени и событии:

Ch|--12-25T21|-, комментарий: Рождество. 25 декабря. Вечерня;

GL|-|--W01-1T12, комментарий: Великий пост. 1-я неделя. Понедельник. 6-й час;

GL|-|--W06-6T23, комментарий: Великий пост. 6-я неделя. Лазарева суббота. Всенощное бдение;

Pnt|-|--W06-4T21, комментарий: Пентекоста-рий. Вознесение. 6-я неделя. Четверг. Вечерня;

WaP|-|--W01-7T21, комментарий: Недели после Пятидесятницы. 1-я неделя. Воскресенье. Неделя Всех Святых. Вечерня;

Mnl|--09-08T21|-, комментарий: Месяцеслов. 8 сентября. Рождество Богородицы. Вечерня и др.

Дублирование информации в двух способах идентификации каждой словарной едини- цы позволяет обеспечить на данном этапе поиск и демонстрацию фрагментов без создания специальных процедур перевода одного обозначения в другой. Кроме того, немаловажным является удобство поиска и редактирования словарных единиц при наличии значений в словесной форме.

Результаты и обсуждение

Применение корпусных методов для изучения славянских письменных памятников невозможно без подготовки исторических корпусов, тремя базовыми составляющими которых являются: машиночитаемые тексты, их разметка и средства обработки, поиска, демонстрации и анализа лингвистических данных.

И подготовка транскрипций, максимально близких к оригиналу, и создание лингвистической разметки предполагают создание необходимых форматов, средств и инструментов, которые позволяют передать графические, орфографические, грамматические составляющие средневекового текста в соответствии с его особенностями.

Необходимость исследовать рукописи как объекты, состоящие из частей с разными кодикологическими (например, разные писцы) и текстологическими (например, тексты разных жанров и назначения) характеристиками, без учета которых анализ лингвистических данных будет усредненным, неточным, заставляет решать задачи моделирования и разметки аналитической структуры рукописей и текстов.

Разметка списков паримейника как текстовых структур, состоящих из фрагментов с различными характеристиками, требует решения нескольких задач:

  • а)    идентификация каждой аналитической единицы;

  • б)    сохранение связи традиций их описания с машиночитаемым представлением характеристик;

  • в)    создание идентифицирующих форматов;

  • г)    обеспечение поиска и демонстрации характеристик фрагментов с помощью естественного языка.

Предложенные решения разметки пари-мий, их составных частей, комментариев, а также дат и времени чтения фрагментов обеспечивают идентификацию каждой из аналитических единиц с помощью нескольких параметров: границ в пределах списка, связью с единицами словаря, идентифицирующего формализованного значения, дополнительных характеристик.

Так, значения единицы P9c = P50b Пр. 3.19–34 «Смиренным дает благодать» указывают на ее место в традиционно принятом в паримейнике ряду паримий – это третья ( c ) паримия ( P ) службы в пятницу 1-й недели Великого поста ( 9 ), на ее текстовый состав, соответствующий 19–34-му стихам 3-й главы книги Притч, на ее тему и на то, что эта же паримия является вторым чтением ( b ) на службе 13 сентября ( 50 ).

При решении задачи идентификации фрагментов, читающихся в различные дни года и на различных службах: а) предложены решения, сохраняющие традицию; б) использованы действующие стандартные соглашения, определяющие даты и время событий; в) разработан машиночитаемый формат, совмещающий неподвижный и подвижный календари; г) применяются значения словарных единиц, обеспечивающие поиск и демонстрацию данных, понятные пользователю.

Так, идентификационное значение словарной единицы словаря дат и времени GL|-|--W01-5T21 указывает на исполнение текста на вечерне ( T21 ) в пятницу ( -5 ) первой недели ( -W01 ) Великого поста ( GL ), а значение Mnl|--09-08T21|- – на чтение текста на вечерне ( T21 ) 8-го ( -08 ) сентября ( -09 ) по неподвижному календарю ( Mnl ).

Выводы

Анализ сложных по структуре и составу текстов, разработка модели разметки данных в соответствии с особенностями текстов, а также с требованиями, которые предъявляются к формализованным описаниям, обеспечивающим обработку, поиск и демонстрацию данных, являются необходимым этапом при создании глубоко размеченных машиночитаемых текстовых ресурсов на основе средневековых славянских рукописей.

Аналитическая разметка позволяет расширить условия подготовки запросов и учиты- вать при поиске лингвистических данных в том числе и характеристики кодикологически и текстологически важных фрагментов, что обеспечивает дифференцированный анализ речевых форм и значений в пределах рукописи.

Значения единиц, выделенных при разметке, дают возможность осуществлять поиск соответствующих друг другу фрагментов различных списков, создавать выборки, обладающие идентичными или противопоставленными значениями, упорядочивать единицы выборок, выводить результаты на экран.

Наличие у аналитических фрагментов соответствующих друг другу значений позволяет выровнять их при демонстрации и предоставить пользователю возможность одновременного просмотра на уровне наиболее крупных (дата, день и время), крупных (па-римии) и небольших (стихи) фрагментов, возможность сопоставления их места в списках, обнаружения лингвистических разночтений.

Вместе с подготовкой транскрипции и разработки процедур и программ поиска и демонстрации данных описание частей рукописей и аналитическая разметка являются составными этапами создания параллельного корпуса.

Список литературы Параллельный корпус списков славянского паримейника: состав, структура, аналитическая разметка

  • Алексеев А. А., 2008. Библия в богослужении. Византийско-славянский лекционарий. СПб. : Нестор-История. 268 с.
  • Баранов В. А., 2015. Исторический корпус как цель и инструмент корпусной палеославистики // Scripta & e-Scripta. Vol. 14/15. P 39-62.
  • Баранов В. А., 2021. Параллельный корпус славянских списков паримейника: материал и постановка задачи // Корпусная лингвистика - 2021. (В печати).
  • Баранов В. А., Жолобов О. Ф., 2021. Лингвостатис-тический анализ древнерусской антологии (РНБ, Еп.1. 39) // Социально-экономическое управление: теория и практика. №№ 2 (45). С. 50-60. DOI: 10.22213/2618-9763- 2021-2-50-60.
  • Гиппиус А. А., 1989. Система формальных признаков языка древнерусской письменности как предмет лингвистического изучения // Вопросы языкознания. .№ 2. С. 93-110.
  • ГОСТ Р 7.0.64-2018. Представление дат и времени. Общие требования. М. : Стандартинформ. 40 с. URL: http://docs.cntd.ru/document/1200159341 (дата обращения: 01.06.2021).
  • Михеев С. М., 2019. Минеи двух Домок: еще раз о писцах служебных миней из новгородского Лазарева монастыря // СловЭне = Slovene. Vol. 8, №№ 2. С. 7-56. DOI: 10.31168/2305-6754. 2019.8.2.1.
  • Мольков Г. А., 2020. Формирование орфографических систем в древнерусской письменности XI - начала XIII века : дис. ... д-ра филол. наук. СПб. 494 с. URL: https://iling.spb.ru/ dissovet/theses/molkov/thesis.pdf (дата обращения: 01.06.2021).
  • Baranov V A., Zuga O. V, 2021. Correlation and Cluster Analysis of Fragments of the Earliest Slavonic Gospels // El'Manuscript 2021. 8th International Conference on Textual Heritage and Information Technologies (Freiburg im Breisgau, Germany, 12.04.2021-15.04.2021) : booklet of abstracts / ed. by J. Besters-Dilger, A. Rabus. Freiburg im Breisgau : Albert-Ludwigs-Universitat Freiburg. P. 11-12.
  • Monumenta Musicae Byzantinae. Lectionaria. Vol. I. Prophetologium. Pars. I. Lectiones Nativitatis et Epiphaniae, 1939 / Edd. C. Hoeg, G. Zuntz. Copenhagen : Hauniae : Levin & Munksgaard. 612 p.
  • Monumenta Musicae Byzantinae. Lectionaria Vol. I. Prophetologium. Pars. II. Lectiones anni Immobilis, 1980-1981 / Edd. G. Engberg. Copenhagen : Hauniae : Levin & Munksgaard. 314 p.
  • Zholobov O. F., Baranov V. A., Novak M. O., 2020. Anonymous vs. Attributed: ClusterAnalysis of Tolstovskii Sbornik Texts and Its Interpretation in Terms of Cultural Heritage // Journal of Siberian Federal University. Humanities & Social Sciences. 13 (12). P. 2056-2081. DOI: 10.17516/ 1997-1370-0704.
Еще
Статья научная