Научные статьи \ Язык. Языкознание. Лингвистика. Литература \ Языкознание и языки. Лингвистика \ Индоевропейские языки \ Славянские языки \ Южнославянские языки

Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

Автор: Баранов В.А.

Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics

Рубрика: Главная тема номера

Статья в выпуске: 6 т.22, 2023 года.

Бесплатный доступ

Представлено соотношение статистических характеристик так называемой кирилло-мефодиевской и восточноболгарской лексики в группах текстов, характеризующихся различными текстологическими и / или кодикологическими значениями: глаголический - кириллический, служебный - неслужебный, архаичный - восточноболгарский. Рассмотрены синонимические пары врѣтище - власѣница; жрътва - трѣба; ради - дѣля; тъкъмо - тъчию; вратьникъ - вратарь; оутро - заутра; яко - акы; аминъ - право; ароматъ - воня; июдѣи - жидъ. Применен метод сопоставления наблюдаемого в подкорпусе статистического значения слова с ожидаемым. В качестве статистик использованы меры Log-Likelihood, TF*ICTF и Weirdness. Компоненты синонимических пар извлечены из подкорпусов и оценены с помощью модуля статистики исторического корпуса. Сопоставление статистической предпочтительности компонентов синонимических пар в разных подкорпусах позволило подтвердить известную приуроченность каждого из компонентов противопоставленным друг другу архаичным и преславским текстам, показать различия в соотношении компонентов пар в разных подкорпусах и сделать выводы о зависимости препочтительности компонентов от лексических и лексико-словообразовательных характеристик лексем.

Еще

Кирилло-мефодиевская лексика, восточноболгарская лексика, синонимические пары, лингвистическая статистика, текстовый корпус

Короткий адрес: https://sciup.org/149145102

IDR: 149145102 | УДК: 811.163’04 | DOI: 10.15688/jvolsu2.2023.6.1

Текст научной статьи Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

DOI:

Традиционно в историко-лингвистических исследованиях при анализе материала письменных источников используют количественные сведения об анализируемых фактах, которые приводятся в абсолютных или относительных величинах или описательно: «присутствует – отсутствует», «больше – меньше», «чаще – реже», «значительно чаще – значительно реже», «преобладает – единично» и под. Однако подобного рода количественные сопоставления не учитывают, например, существенного фактора случайности отсутствия либо единичной представленности языковой единицы в некотором документе (группе документов) или отсутствия сведений о значимости (незначимости) обнаруженного различия в частоте употребления одной и той же единицы в нескольких документах. Чрезвычайно критичным отсутствие сведений о значимости (незначимости) выявленных различий становится в том случае, когда нет возможности проверить выводы на большом объеме текстового материала: например, количество рукописей начала славянской письменности, которые сохранились до настоящего времени, крайне ограничено.

Вопрос о кирилло-мефодиевских и преславских лексических элементах в древнеболгарской письменности

Одним из наиболее активно обсуждающихся на протяжении более чем ста пятидесяти лет вопросов из области кирилло-мефо-диевской проблематики является вопрос о лексической маркированности кирилло-мефо-диевских текстов, с одной стороны, и преслав-ских – с другой [Димитрова, 2016; Добрев, 1979; Желязкова, 2016а; 2016б; Илиев, 2016; Милтенов, 2008; 2020; Новикова, 2013; Славова, 1989; 2013; Станков, 2018; Шафарик, 1860/1861; Jagić, 1913; Voss, 1996; и др.] (историографию вопроса см., например, в: [Станков, 2018, с. 121–140]). Изучение древнеболгарских глаголических и кириллических рукописей показало, что переводчики, редакторы, правщики, переписчики использовали во многом разные графико-орфографические и языковые средства для создания текста. Отчетливые различия обнаружены между наиболее древними (кирилло-мефодиевскими / охридско-моравскими) или восходящими к ним письменными памятниками и рукописями, созданными в период Первого Болгарского царства. Наиболее ярко эти различия проявляются в лексике: при наличии в древнеболгарских рукописях синонимов в конкретном списке наблюдается предпочтение одних лексем другим. В работах представлены перечни таких синонимических рядов, извлеченных из различных текстов и рукописей (см., например: [Славова, 1989, с. 25–117; Станков, 2018, с. 141–153; Voss, 1996, S. 100–103]), определен круг памятников, которые ориентированы на различные переводческие и редакторские традиции, и соответственно в которых предпочитается кирилло-мефодиевский или пре-славский компонент синонимического ряда, выявлены греческие соответствия славянских лексем, предложены различные гипотезы о историко-культурных и языковых связях и отно- шениях двух болгарских книжных центров в период второй половины IX – начала XI века.

Исследователями по-разному понимается природа лексических различий: от утверждений о сознательно, последовательно и системно осуществляемой в Преславской книжной школе редакционной работе над древнейшими переводами и работе над новыми (см., например: [Мил-тенов, 2008, с. 43; Славова, 1989, с. 19]) до категорического отрицания существования особых преславских лексем: «Вывод ясен, преславской редакции как таковой нет. Это означает, что нет и преславской лексики» [Станков, 2018, с. 137], «...“преславская” лексика просто не существует и что так называемые “преславизмы” не могут быть лексическими маркерами в поисках текстов преславского происхождения» [Станков, 2018, с. 139].

Болгарский исследователь Татьяна Сла-вова указывает на наличие трех типов соотношений в синонимических рядах: оба компонента являются славянскими, славянское слово соответствует непереведенному греческому, компоненты являются словообразовательными синонимами [Славова, 1989, с. 117], Явор Милтенов к этому ряду добавляет компоненты-словосочетания [Милтенов, 2008, с. 42].

В работах последних лет медиевисты приходят к выводу о динамичности и неоднородности возникновения, существования явления, которое традиционно называют языковыми преславизмами, подчеркивают, что основой переводческого и редакторского подхода к тексту в Восточной Болгарии являлся выбор предпочитаемых языковых средств из имеющихся – лексических синонимов и грамматических вариантов, последовательное использование которых делает их маркированными [Милтенов, 2020, с. 60, 63, 65].

Другое направление исследований – выявление текстологических различий между первоначальными и преславскими переводами: исследователями показано, что в Восточной Болгарии были созданы особого типа тексты – толковые и четьи, расширившие корпус первоначальных служебных, указываются дошедшие до наших дней рукописи, сохраняющие эту редакцию [Милтенов, 2008, с. 42; Славова, 1989, с. 120–121; Станков, 2018, с. 139]. При этом ученые все чаще указывают на необходимость более активного использования лексического критерия для установления близости рукописей и текстов, созданных в рамках одной переводческой или редакторской традиции [Милте-нов, 2008, с. 48]. В работах А.А. Пичхадзе показано, что отход от традиционного, «атомистического» подхода и применение сопоставительных приемов исследования лексических особенностей группы рукописей открывает новые перспективы в изучении письменного наследия [Пичхадзе, 2011, с. 17, 53, 54].

Кирилло-мефодиевские и восточноболгарские языковые особенности в письменных памятниках Руси

Известно, что начало церковнославянской книжности на Руси было положено письменными памятниками, переписанными с южноболгарских оригиналов: «Подавляющее большинство произведений переводной древнеславянской письменности возникло у южных славян. Оригинальная письменность восточных славян на церковнославянском языке с самого начала в той или иной степени подражала южнославянским образцам, и проникновение в текст специфически восточнославянских языковых элементов допускалось в минимальной степени» [Пичхадзе, 2011, с. 7].

Это наследие неоднородно. Оно включает рукописи, восходящие к кирилло-мефодиевс-ким переводам богослужебных текстов, свидетельствующих «о преемстве книжных элементов языковой нормы, формирование которой началось одновременно с первыми переводами» [Максимович, 2000, с. 73], и рукописи Преслав-ской книжной школы – ее писцы осуществили редактуру первоначальных переводов и сделали новые переводы [Максимович, 2000, с. 75]).

Исследователями отмечается, что при возможности выбрать из нескольких синонимичных лексем русский книжник ориентируется на восточноболгарский образец: «Однако по всем этим позициям словоупотребление пре-славских памятников совпадает в древнерусским узусом» [Пичхадзе, 2011, с. 54]; и далее: «Восточноболгарская книжность, чрезвычайно популярная на Руси, своим авторитетом поддерживала включение в текст древнерусских элементов, чуждых кирилло-мефодиевскому лексикону» [Пичхадзе, 2011, с. 56].

Таким образом, разнообразие существующих выводов о соотношении кирилло-мефодиевского и симеоновского наследия, различные интерпретации одних и тех же текстологических и лингвистических данных свидетельствуют о сложности изучения истории ранней южнославянской письменной традиции и ее противоречивой судьбы на Руси.

Неоднократно указывалось, что для понимания соотношения западно- и восточноболгарских языковых особенностей, их судьбы в восточнославянской книжной традиции недостаточно исследований отдельных рукописей или использования созданных к настоящему времени лексикографических работ: необходим анализ широкого круга рукописей, анализ лексики в ее реальном, текстовом употреблении (с учетом сведений о происхождении и истории текстов), и не только с учетом ее наличия в тех или иных списках, но и отсутствия [Милтенов, 2020, с. 67, 68, 70].

Цель работы – выявить посредством количественно-статистического анализа соотношение представленности характеризующихся различными текстологическими и/или кодикологическими значениями кирилло-мефодиевских и восточноболгарских лексем в подкорпусах исторического корпуса «Манускрипт».

Материал и методы

Исходным является положение о том, что частота использования компонента синонимического ряда зависит от текстологической истории рукописей, входящих в подкорпус. Поисковым – предположение о том, что количественно-статистическое соотношение между компонентами синонимической пары в группе текстов (подкорпусе), близких своими текстологическими и кодикологическими характеристиками, носит неслучайный характер, зависит от нескольких характеристик компонентов лексической пары, в том числе лингвистических. Оно может быть в различных подкорпусах как типичным, так и индивидуальным для конкретной пары лексем.

Основными вопросами анализа являются: – существует ли корреляция между количественными и статистическими характеристикам слова, входящего в синонимический ряд, и текстологическими и/или кодикологи-ческими характеристиками текстов;

– каковы количественно-статистические отношения компонентов синонимической пары в подкорпусе;

– существует ли зависимость отношения компонентов синонимической пары в подкорпусах от их лингвистических или иных характеристик.

Синонимические пары

Синонимические пары выбраны из перечней, имеющихся в работах [Пичхадзе, 2011, с. 23, 54; Славова, 1989, с. 25–117; Станков, 2018, с. 146, 149, 153; Voss, 1996, S. 100–103], так, чтобы были представлены различные виды соотношения компонентов: разноосновные славянские ( вр h тище – влас h ница ; жрътва – тр h ба ; ради – д h ля ; тъкъмо – тъчию ), одноосновные славянские ( вратьникъ – вратарь ; оутро – заутра ; яко – акы ), греческий – славянский ( аминъ – право ; ароматъ – воня ), заимствованный – заимствованный ( июд h и – жидъ ).

Методы

Одним из методов корпусного анализа является сопоставление лингвистических данных, извлеченных из подкорпусов, противопоставленных друг другу по какой-либо характеристике – времени создания, жанру, автору и т. д. Обнаружение между подкорпусами различий в таком случае интерпретируется как существование различий в языке разного времени, жанров или авторов и т. п.

Основным приемом стала статистическая оценка встречаемости лексемы в подкорпусах в сопоставлении со статистической величиной частотности слова в контрольном корпусе (модуль статистики – !. В качестве статистических мер оценки отклонения встречаемости от ожидаемой использованы статистики Log-Likelihood [Ляшевская, Шаров, 2009; Rayson, Garside, 2000], TF*ICTF (Term Frequency * Inverse Collection Term Frequency) [Kwok, 1995; Robertson, 2004; Roelleke, 2013; Roelleke, Wang, 2006; Salton, Yang, 1973; Sparck, 1972; Wu et al., 2008], Weirdness [Бессмерт- ный и др., 2017; Бессмертный, Юй Чуцяо, Ма Пенюй, 2016; Клышинский, Кочеткова, 2014; Ahmad, Gillam, Tostevin, 1999; Gillam, Tariq, Ahmad, 2005]. Статическое значение лексемы сопоставляется с аналогичным синонимичного ему слова. Соотношение статистических значений двух лексем сопоставляется с их соотношением в нескольких подкорпусах.

Известно, что методы TF*ICTF и Weirdness присваивают слову значение тем выше, чем чаще слово встречается в анализируемом подкорпусе и реже – в контрастном корпусе [Бессмертный и др., 2017, с. 83]. Методы считаются эффективным при работе с небольшими коллекциями для извлечения часто встречающихся терминов [Бессмертный, Юй Чуцяо, Ма Пенюй, 2016, с. 1097, 1098]. Относительно Weirdness экспериментальным путем установлено, что для «обычных слов формула странности возвращает значения, близкие к 1, а для терминов – значения, намного превышающие 1, так как в этом случае знаменатель формулы близок к 0» [Бессмертный и др., 2017, с. 83]. В метрике LL используются не только относительные, но и абсолютные частоты слов [Ляшевская, Шаров, 2009, с. VIII], значения меры LL чувствительны как к редко, так и часто встречающимся словам. Для метрики также известно значение, превышение которого дает возможность отнести слово к лексемам, значимым для подкорпуса, – 15.31 [Ляшевская, Шаров, 2009, с. VIII].

Каждая из мер имеет свои диапазоны значений. Наиболее высокие значения назначает статистика LL – десятки, а то и сотни условных единиц, значения Weirdness колеблются около 1,0, величины TF*ICTF существенно меньше 1,0. Для приведения значений к сопоставимым величинам используется нормализация данных с помощью логарифмирования 2.

Текстовый материал

В качестве контрольного (контрастного) корпуса выступает коллекция рукописей корпуса «Манускрипт». Подкорпуса сформированы из текстов, характеризующихся аналогичными текстологическими и/или кодикологическими свойствами, противопоставленными по этим свойствам другим рукописям корпуса. Первым основанием для противопоставления выбрана графика списка – глаголический / кириллический алфавит (далее – Глаг 3, Кир 4).

Вторым – служебный / неслужебный тип кириллического текста (далее – КирСл 5, КирНСл 6). Особо из четырех текстов XI в., восходящих к восточноболгарской переводческой традиции, сформирован отдельный подкорпус (далее – ВБ 7).

Третий – кирилло-мефодиевский / пре-славский: подкорпус, включающий Христи-нопольский апостол XII в. (содержащий «древнюю редакцию Апостола, осложненную преславскими чтениями» [Пентковская, 2009, с. 19]) и глаголическую Псалтырь Димитрия XI в., (далее – ПсАп-ЗБ 8), и подкорпус, в который входят Толстовский апостол конца XIV в. («яркий представитель преславской редактуры» [Новак, 2015, с. 232]) и Чудовская псалтырь XI в. – представитель симеоновской книжной школы (далее – ПсАп-ВБ 9).

Инструментарий

Информационно-аналитическая система «Манускрипт» в настоящее время является одной из немногих систем хранения, обработки и демонстрации машиночитаемых транскрипций средневековых славянских письменных памятников. Корпус содержит транскрипции славянских текстов X– XV вв. общим объемом более 3,5 млн словоупотреблений, имеет мета, аналитическую и лингвистическую разметку, снабжен корпусным менеджером, обеспечивающим подготовку транскрипций, лемматизацию текстов, формирование подкорпусов, выборку лингвистических единиц и их демонстрацию (о корпусе см., например: [Baranov, 2018; Баранов, 2019а]).

Модуль статистики 10 предназначен: а) для демонстрации распределения единиц корпуса (символов, текстовых форм, лемм) в рукописи или нескольких рукописях; б) для нахождения количественных и/или статистических характеристик (соответствия или несоответствия ожидаемым статистическим характеристикам) слов в подкорпусе (подкорпусах). Модуль позволяет на основе метаданных транскрипций сформировать подкорпус, сохранить его для многократного исполь- зования, указать тип анализируемой единицы и ее маску, выбрать контрольный (контрастный) корпус, указать меру статистической оценки. Результат выводится на экран в виде таблицы со сведениями о количестве и статистическом значении лингвистических единиц в подкорпусах [Baranov, Gnutikov, 2018; Баранов, 2019б].

Возможности модуля статистики сформировать подкорпусы на основе выборок необходимых документов и извлечь из них с помощью маски регулярных выражений все текстовые формы анализируемых слов и сведения об их количественных и статистических характеристиках позволили получить информацию о соответствии или несоответствии (значимости) частотности слов их средней частоте в контрастном (контрольном) корпусе, роль которого выполнила выборка, включающая практически все транскрипции корпуса.

Результаты. Количественные и статистические данные

Синонимический ряд жрътва – тр h ба

Маски регулярных выражений: ^ж[ьъе]? р[ьъе]?т.?в.?[^н]$ – ^треб([ауъые]|о[юи]|ах[ъ]? |ам[ьъи]?)$

Слово жрътва зафиксировано во всех подкорпусах (табл. 1, 2). Относительное количество во всех подкорпусах, кроме ПсАп-ВБ, в котором оно значительно ниже, примерно одинаковое. Слово тр h ба отсутствует в глаголическом подкорпусе (см. табл. 3, 4). Максимальное относительное количество – в подкорпусе четырех восточноболгарских рукописей; минимальное – в подкорпусе кириллических служебных.

Количественные соотношения соответствуют текстологическим свойствам списков: слово жрътва не характерно для подкорпуса рукописей, восходящих к ЗБ редакции, слово тр h ба – отсутствует в подкорпусе глаголических рукописей и часто используется в рукописях, созданных в Восточной Болгарии.

Статистическая активность слова жрътва по-разному оценивается мерами: LL выделяет слово в КирНСл, ВБ, ПсАп-ВБ, Weirdness – в КирСл, ВБ, ПсАп-ЗБ. Статистическая активность слова тр h ба также различается: LL – в КирСл, КирНСл, ВБ, ПсАп-ВБ, Weirdness – в ВБ и ПсАп-ВБ. При этом оценка статистиками в двух последних подкорпусах совпадает, а в LL выше, чем в КирСл и КирНСл.

Средние логарифмированных статистических метрик (см. рис. 1) показывают су-

Таблица 1. Количественные и статистические значения слова жрътва

Table 1. Quantitative and statistical values of the word zhrъtva ‘sacrifice’

Подкорпус	Все рукописи	Глаг	Кир	КирСл	КирНСл	ВБ	ПсАп-ВБ	ПсАп-ЗБ
Объем подкорпуса	2986201	97138	2889063	1583956	1329303	262429	103908	99577
Объем выборки	629	21	608	389	197	95	4	34
Среднее	0,02106	0,02162	0,02104	0,02456	0,01482	0,03620	0,00385	0,03414
LL	–	2,01357	2,00270	7,48186	21,84683	23,06930	23,73787	8,49934
TF*ICTF	–	0,00079	0,00077	0,00090	0,00054	0,00133	0,00014	0,00126
Weirdness	–	1,02473	0,99753	1,16408	0,70246	1,71590	0,18247	1,61845

Таблица 2. Логарифмированные количественные и статистические значения слова жрътва

Table 2. Logarithmic quantitative and statistical values of the word zhrъtva ‘sacrifice’

Подкорпус	Глаг	Кир	КирСл	КирНСл	ВБ	ПсАп-ВБ	ПсАп-ЗБ
ln(LL)	0,69991	0,69450	2,01248	3,08406	3,13850	3,16707	2,13999
ln(TF*ICTF)	-7,14348	-7,16912	-7,01312	-7,52394	-6,62258	-8,87387	-6,67664
ln(Weirdness)	0,02443	-0,00247	0,15193	-0,35317	0,53994	-1,70117	0,48147
ln(средн.)	-3,83420	-3,86110	-3,70669	-4,21179	-3,31869	-5,55980	-3,37716

Таблица 3. Количественные и статистические значения слова тр h ба

Table 3. Quantitative and statistical values of the word trěba ‘sacrifice’

Подкорпус	Все рукописи	Глаг	Кир	КирСл	КирНСл	ВБ	ПсАп-ВБ	ПсАп-ЗБ
Объем подкорпуса	2986201	97138	2889063	1583956	1329303	262429	103908	99577
Объем выборки	279	0	279	78	219	105	41	13
Среднее	0,00934	0,00000	0,00966	0,00492	0,01647	0,04001	0,03946	0,01306
LL	–	0,00000	2,12333	30,27670	39,68686	126,35074	54,06898	3,23649
TF*ICTF	–	0,00000	0,00039	0,00020	0,00066	0,00161	0,00159	0,00053
Weirdness	–	0,00000	1,02993	0,52518	1,75704	4,26717	4,20821	1,39234

Таблица 4. Логарифмированные количественные и статистические значения слова тр h ба

Table 4. Logarithmic quantitative and statistical values of the word trěba ‘sacrifice’

Подкорпус	Глаг	Кир	КирСл	КирНСл	ВБ	ПсАп-ВБ	ПсАп-ЗБ
ln(LL)	–	0,75299	3,41038	3,68102	4,83906	3,99026	1,17449
ln(TF*ICTF)	–	-7,84936	-8,51719	-7,32327	-6,43152	-6,44402	-7,54263
ln(Weirdness)	–	0,02949	-0,64401	0,56363	1,45095	1,43704	0,33099
ln(средн.)	–	-4,64006	-5,31356	-4,10592	-3,21861	-3,23252	-4,33857

0,000

-0,500

— — Жрътва Трhба

-3,000

-3,500

Рис. 1. Жрътва – тр h ба . Средние логарифмических значений ln(LL), ln(TF*ICTF), ln(Weirdness)

Fig. 1. Zhrъtva – trěba ‘sacrifice’. Mean of logarithmic values ln(LL), ln(TF*ICTF), ln(Weirdness)

щественные отличия между статистической активностью слов как между собой, так и между подкорпусами: а) в Глаг и ПсАп-ЗБ преобладает жрътва , в ВБ, ПсАп-ВБ – тр h ба , в КирСл – жрътва , в КирНСл – тр h ба ; б) при большей статистической активности жрътва максимальный контраст обнаруживается в ПсАп-ЗБ, минимальный – в Кир и КирСл; в) при большей активности тр h ба – максимальная контрастность в ПсАп-ВБ, меньшая – в ВБ, еще меньшая – в КирНСл.

Аналогично были исследованы и все другие пары лексем. Приведем итоговые диаграммы.

Обсуждение

Использованная в работе методика сопоставления статистических значений слов в текстовых подкорпусах позволяет увидеть ряд закономерностей в соотношении западноболгарских и восточноболгарских компонентов синонимического ряда (см. рис. 2).

Жрътва – тр h ба	Ради – д h ля
0,000
-0,500 -1000 •	2,000 1,000
. i -- Жрътва -1,500 „ . ¹ f ' / Трhба	0,000 -1,000 ^Ч^^^-А^² Ради '-аА^ Дhля
^—₇ U U U - / 1 / Л	-2,UUU ^v
-Z,?UU	-4,000
-3,000	-4,000
Тъкъмо – тъчию	Яко – акы
2,000 1,000 0,000 / \ у , Тъкъмо -1,000 Тъчию -2,000 Г -3,000
	2,000 1,000 ^~_A 0,000 / / \\ -- Яко -1,000 ^WA ^/ Акы -2,000
	-3,000

Вр h тище – влас h ница Июд h и – жидъ

0 ООО
-0,500 -1,000 Врhтище Власhница -2,500 х '\_z -3,000	1,000 д 0,000 . ^ ^ ^ < V --Июд- -1,000 ^ч Y^ ^ч^А Жид- V .-.. .• х/ -2,000 -3,000

Ароматъ – воня	Аминъ – право

и,иии -1,000 ^" Ч^⁴ ч^ "^ , \ Ароматъ -2,000 ' \ Вопя -3,000	-0,500 -1,000 ' 4^s s^’ -1,500 Аминъ -2,000 Право -2,500 -3,000
-4,UUU

Рис. 2. Средние логарифмических значений десяти пар синонимов (см. также с. 13 )

Fig. 2. Average logarithmic values of ten pairs of synonyms (see also p. 13)

Оутро – заоутра Вратьникъ – вратарь


0,000	-2,800
-0,500	-2,850 ^ х-> ^
-1,000	-2,900 ^ ^/
— — Оутро	к - - - Вратьникъ
Заоутра /	-3,000 / . о -3,050 ¹ \ Вратарь
2,000	-3,100 / ♦
-2,500	-3,150 — —
-3,000	-3,200

Рис. 2. Окончание

Fig. 2. Final part

1. Во всех синонимических рядах статистическая активность западноболгарского компонента выше (или он единственно возможен) в подкорпусе глаголических текстов и подкорпусе ПсАп-ЗП, включающем списки, восходящие к кирилло-мефодиевской традиции. По этой особенности подкорпус глаголических текстов отчетливо противопоставлен подкорпусу, включающему все кириллические рукописи, а подкорпус ПсАп-ЗП – подкорпусу ПсАп-ВБ, содержащему списки, восходящие к восточноболгарским рукописям.
2. Отчетливая предпочтительность восточноболгарских компонентов обнаруживается в подкорпусах ВБ и ПсАп-ВБ, включающих тексты, восходящие к Преславской традиции. О преимущественном тяготении восточноболгарского компонента именно восточноболгарской книжной школе свидетельствует и последовательная его большая активность в подкорпусе неслужебных рукописей КиНСл по сравнению с текстами подкорпуса более архаичных служебных списков.
3. В парах с заимствованными словами греческий компонент в глаголическом подкорпусе и в ПсАп-ЗБ также предпочтительнее, чем негреческий, ср. пары июд h и – жидъ , ароматъ – воня , аминъ – право ( ароматъ в
4. Словообразовательные одноосновные синонимы, наряду с похожим в обоих случаях последовательно более высоким статистическим значением восточноболгарского лексического компонента в трех подкорпусах – КирСл, КирНСл и ВБ, – достаточно индивидуальны: имеют статистическое равенство обоих компонентов и несколько более высокое значение восточноболгарского в паре оутро – заоут-ра , с одной стороны, и более высокие значения восточнославянского вратарь в Кир, КирСл и ВБ при преобладании западноболгарского вратьникъ в КирНСл – с другой.
5. Пары, в которых один из компонентов в одном или нескольких подкорпусах отсут-
ствует, демонстрируют те же тенденции и соотношения компонентов синонимического ряда, что и в тех, где компоненты встречаются во всех подкорпусах: в паре врhтище – власhница активность второго компонента выше в подкорпусе КирНСл рукокописей, в паре ароматъ – воня слово ароматъ статистически более активно в подкорпусе служебных списков КирСл, а воня наименее предпочтительна в ПсАп-ЗБ, чем в КирНСл, ВБ, ПсАп-ВБ; в паре вратьникъ – вратарь второй компонент имеет стабильно высокую статистическую активность во всех кириллических подкорпусах.

Обнаруженная корреляция членов ряда и текстологических характеристик рукописей характеризует лишь славянские разноосновные синонимические ряды жрътва – тр h ба , ради – д h ля , тъкъмо – тъчию , яко – акы . В рядах, членами которых являются заимствованные слова и одноосновные словообразовательные синонимы, отношения несколько иные.

ПсАп-ЗБ отсутствует). В паре аминъ – право в КирСл, КирНСл, ВБ, ПсАп-ВБ нет отчетливого предпочтения право – статистически более активным является западноболгарское аминъ . В паре июд h и – жидъ картина аналогичная, за исключением преобладания в ПсАп-ВБ слова жидъ . Вторым отличием этой группы является иное соотношение статистической активности западноболгарского компонента между КирСл и КирНСл, с одной стороны, и ВБ и ПсАп-ВБ – с другой: если в славянских парах ( жрътва – тр h ба и др.) первый компонент был более предпочтителен в ВБ и ПсАп-ВБ, чем в КирСл и КирНСл, то в парах греческим компонентом июд h и – жидъ , аминъ – право и ароматъ – воня ситуация обратная. Особенностью соотношений компонентов в этих трех рядах является, в отличие от славянских рядов, и их существенная инидивидуальность по отношению друг к другу.

Обнаруженные закономерности демонстрируют, с одной стороны, типичность соотношения компонентов всех рассмотренных синонимических рядов в том или ином подкорпусе, с другой стороны – индивидуальность соотношения синонимов. Важным представляется существование связи между соотношением синонимов и их лексическими и лексико-словообразовательными характеристиками: заметно отличаются соотношения в группах разноосновных и одноосновных синонимов, в славянская паре синонимов и паре, одним из компонентов которой является греческое по происхождению слово.

Продемонстрированная корреляция между статистическими соотношениями западно-олгарского и восточноболгарского компонентов синонимического ряда и текстологическими и кодикологическими характеристиками текстов (глаголический – кириллический, ки-рилло-мефодиевский – восточноболгарский) ожидаема, но одновременно является дополнительной достаточно надежной характеристикой текста / рукописи или группы текстов / рукописей наряду с традиционно используемыми критериями, основанными на соотношениях «есть – нет» и на соотношениях «больше – меньше» / «чаще – реже» в абсолютном или относительном выражении.

Наличие такой корреляции позволяет с доверием относиться и к различиям в соотношении синонимических рядов, компоненты которых характеризуются отличающимися лексическими или лексико-словообразовательными свойствами, а кроме того, увидеть различия в степени устойчивости таких соотношений – последовательную, типовую про- тивопоставленность западноболгарской и восточноболгарской разноосновных славянских лексем ряда в текстологически и кодикологически противопоставленных текстах и индивидуальную конфигурацию соотношений в паре одноосновных словообразовательных синонимов или в паре, компонентом которой является греческое заимствование.

Полученные результаты позволяют сделать несколько выводов относительно вопроса о маркированности / немаркированности пре-славской лексики и о представленности кирил-ло-мефодиевских и восточноболгарских лексем в рукописях, созданных на Руси.

1. Аналогичность, а в ряде случаев и идентичность соотношений компонентов синонимических пар как в случаях представленности обоих во всех подкорпусах, так и в случаях отсутствия одного из них в некоторых из подкорпусов позволяют сделать вывод о том, что отсутствие компонента синонимической пары в подкорпусе является одним из двух аналогичных вариантов его соотношения с другим компонентом: компонент отсутствует, или его статистическая активность ниже или значительно ниже альтернативного компонента.
2. Не имеющая исключений противопоставленность компонентов исследованных синонимических рядов в глаголических и архаичных рукописях подкорпуса ПсАп-ЗБ, с одной стороны, и в текстах подкорпусов ВБ, ПсАп-ВБ – с другой, свидетельствует об устойчивых лексических предпочтениях этих текстологически противопоставленных групп текстов при использовании в них и того и другого компонентов. Статистическая предпочтительность восточноболгарских компонентов может отличаться в подкорпусах (ср. их соотношение в КирСл и КирНСл), выступая своеобразным маркером неслужебных рукописей.
3. Есть основания говорить о том, что предпочтительность того или иного компонента синонимического ряда зависит не только от того, в рамках какой писцовой школы он был переведен, создавался или редактировался, но и от собственно языковых характеристик слов пары: разноосновные славянские компоненты последовательно противопоставляются в текстологичес-
ки контрастных друг другу подкорпусах (текстах и рукописях); одноосновные славянские компоненты при аналогичном противопоставлении двух архаических подкорпусов (Глаг и ПсАп-ЗБ) не имеют подобного последовательного противопоставления в ряду кириллических; греческий и негреческий компоненты ряда конкурируют друг с другом, причем первый в ряде кириллических подкорпусов не уступает, а то и превосходит в статистической активности негреческий.
4. В восточнославянских списках, которые и составляют бóльшую часть проанализированного материала, зафиксированы как западноболгарские, так и восточноболгарские компоненты синонимических рядов. Предпочтительность того или иного компонента зависит как от текстологических и кодикологичес-ких характеристик кириллических рукописей, так и от собственно языковых свойств лексем. При общей предпочтительности восточноболгарского компонента в ряде синонимических рядов наблюдается бóльшая статистическая активность западноболгарского компонента, например, в парах яко – акы , аминъ – право , вратьникъ – вратарь .

Заключение

Исследование доказало существование корреляции между текстами, характеризующимися различными текстологическими и/ или кодикологическими свойствами, и соотношением в них компонентов синонимического ряда, а также наличие связи между соотношением компонентов ряда в различных подкорпусах и лексическими характеристиками синонимов.

Значимым результатом является доказательство результативности использования корпусных и статистических методов и приемов для анализа лингвистических данных средневековых славянских текстов и рукописей, в частности, для решения вопросов в рамках кирилло-мефодиевской проблематики.

Безусловно, полученные результаты должны быть подтверждены и уточнены в ходе анализа и других синонимических кирилло-мефодиевских – восточноболгарских лексических рядов.

Список литературы Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

Баранов В. А., 2019а. Создание и использование исторических корпусов славянских письменных памятников // Scripta & e-Scripta. Vol. 19. C. 33–57.
Баранов В. А., 2019б. Модуль статистики исторического корпуса «Манускрипт»: функции и демонстрация данных. 2 // И. А. Бодуэн де Куртенэ и мировая лингвистика. В 2 т. Т. 1: Междунар. конф.: VII Бодуэновские чтения (Казан. федер. ун-т, 28–31 окт. 2019 г.): тр. и материалы. Казань: Изд-во Казан. ун-та. С. 24–30.
Бессмертный И. А., Нугуманова А. Б., Мансурова М. Е., Байбурин Е. М., 2017. Метод контрастного извлечения редких терминов из текстов на естественном языке // Научно-технический вестник информационных технологий, механики и оптики. Т. 17, № 1. С. 81–91. URL: http://ntv.ifmo.ru/file/article/16383.pdf
Бессмертный И. А., Юй Чуцяо, Ма Пенюй, 2016. Статистический метод извлечения терминов из китайских текстов без сегментации фраз // Научно-технический вестник информационных технологий, механики и оптики. Т. 16, № 6. С. 1096–1102. URL: http://ntv.ifmo.ru/file/article/16157.pdf
Димитрова А., 2016. Златоструят в преводаческата дейност на старобългарските книжовници. София: Авалон. 456 с.
Добрев И., 1979. Текстът на Добромировото евангелие и втората редакция на старобългарските богослужебни книги // Български език. Т. 29, № 1. С. 9–21.
Желязкова В., 2016а. Паримейные чтения в четьих списках Книги Исход // Studia Ceranea. Т. 6. С. 225–240.
Желязкова В., 2016б. Книга Исход в южнославянских списках XV–XVI вв. // Studi Slavistici. Vol. 13. С. 243–256.
Илиев И., 2016. Тълкуванието на Книга на пророк Даниил от Иполит Римски в старобългарската литература: автореферат на дисертация за присъждане на образователната и научна степен «доктор». София. 67 с.
Клышинский Э. С., Кочеткова Н. А., 2014. Метод извлечения технических терминов с использованием меры странности // Новые информационные технологии в автоматизированных системах. № 17. С. 365–370. URL: https://elibrary.ru/download/elibrary_21527004_14693581.pdf
Ляшевская О. Н., Шаров С. А., 2009. Введение к частотному словарю современного русского языка // Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник. С. V–XXII. URL: http://dict.ruslang.ru/freq.pdf
Максимович К. А., 2000. Славянизмы современного русского языка и кирилло-мефодиевское наследие // Folia Slavistica: Рале Михайловне Цейтлин. М.: [б. и.]. С. 72–84.
Милтенов Я., 2008. Лексический критерий как способ атрибуции преславских текстов (на материале славянского перевода Диалогов Псевдо-Кесария) // Славяноведение. № 5. С. 41–49.
Милтенов Я., 2020. Преславските лексикални маркери. 1. Опит за въведение // Palaeobulgarica. Vol. 44, № 2. С. 54–79.
Новак М. О., 2015. Лексика древнеславянского перевода апостола: в поисках образа и смысла // Перевод как средство взаимодействия культур. № 1. С. 230–240.
Новикова А. С., 2013. К вопросу об истории создания евангельского текста Чудовской рукописи // Славянские языки и литературы в синхронии и диахронии: материалы Междунар. научн. конф. М.: [б. и.]. С. 268–273.
Пентковская Т. В., 2009. Восточнославянские и южнославянские переводы богослужебных книг XIII–XIV вв.: Чудовская и афонская редакции Нового Завета и Иерусалимский Типикон: дис. ... д-ра филол. наук. М. 497 с.
Пичхадзе А. А., 2011. Переводческая деятельность в домонгольской Руси: лингвистический аспект. М.: Рукопис. памятники Древ. Руси. 408 с.
Славова Т., 1989. Преславска редакция на Кирило-Методиевия старобългарски евангелски превод // Кирило-Методиеви студии. Кн. 6. София: Кирило-Методиевски научен център при БАН. С. 15–129.
Славова Т., 2013. Славянският превод на Посланието на патриарх Фотий до княз Борис-Михаил. София: Св. Климент Охридски. 344 с.
Станков Р., 2018. Проблема «преславской» и «кирилло-мефодиевской» лексики в древнеболгарском переводе Хроники Георгия Амартола // Преславска книжовна школа. Т. 18. С. 121–158.
Шафарик П., 1860/1861. О происхождении и родине глаголитизма // Чтения в Императорском Обществе Истории и Древностей Российских при Московском Университете. № 4. Материалы Славянские. ІІІ. М.: Унив. тип. С. 29–30.
Яцко В. А., 2014. Компьютерная лингвистика или лингвистическая информатика // Научно-техническая информация. Серия 2, Информационные процессы и системы. № 5. С. 1–10.
Ahmad K., Gillam L., Tostevin L., 1999. University of Surrey Participation in TREC8: Weirdness Indexing for Logical Document Extrapolation and Retrieval (Wilder) // Proc. 8th Text Retrieval Conference TREC. Gaithersburg: [s. n.]. P. 717–724.
Baranov V., 2018. A Text Corpus of Medieval Manuscripts as a Goal an d a Tool for Linguistic Research // Editing Mediaeval Texts from a Differ ent An gle: Slavon ic an d Multilingual Traditions. Leuven ; P. ; Bristol: Peeters. P. 283–308.
Baranov V. A., Gnutikov R. M., 2018. The Statistics and n-Gram Modules of the Historical Corpus “Manuscript” // Digital and Analytical Approaches to the Written Heritage: Proceedings of the 7th International Conference El‘Manuscript “Textual Heritage and Information Technologies”. Sofia: Gutenberg. P. 9–28.
Gilllam L., Tariq M., Ahmad K., 2005. Terminology and the Construction of Ontology // Terminology, vol. 11, iss 1. P. 55–81.
Jagić V., 1913. Entstehungsgeschichte der kirchenslavischen Sprache. Berlin: Weidmann. 540 p.
Kwok K. L., 1995. A Network Approach to Probabilistic Information Retrieval // ACM Transactions on Information Systems. Vol. 13, № 3. P. 324–353.
Rayson P., Garside R., 2000. Comparing Corpora Using Frequency Profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000.
Hong Kong. P. 1–6. URL: http://ucrel.lancs.ac.uk/people/paul/publications/rg_acl2000.pdf
Robertson S., 2004. Understanding Inverse Document Frequency: On Theoretical Arguments for Idf // Journal of Documentation. № 60. P. 503–520. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.438.2284&rep=rep1&type=pdf
Roelleke T., 2013. Information Retrieval Models: Foundations and Relationships. Cham: Springer. 141 p.
Roelleke T., Wang J., 2006. A Parallel Derivation of Probabilistic Information Retrieval Models // Proceedings of the 29th Annual ACM SIGIR Conference on Research and Development in Information Retrieval. Seattle ; N. Y.: ACM. P. 107–114.
Salton G., Yang C. S., 1973. On the Specification of Term Values in Automatic Indexing // Journal of Documentation. Vol. 29. P. 351–372.
Sparck J. K., 1972. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. Vol. 28. P. 11–21.
Voss Chr., 1996. Die Vertretung von lexikalischen textologischen Dubletten der Dichotomie Ochrid-Preslav in kirchenslavischen Abschriften der Paränesis Ephreaims des Syrers. Ein Beitrag zur Datierung der altbulgarischen Erstübersetzung // Anzeiger für slavischen Philologie. Bd. 24. S. 95–127.
Wu H. C., Luk R. W. P., Wong K. F., Kwok K. L., 2008. Interpreting TF-IDF Term Weights as Making Relevance Decisions // ACM Transactions on Information Systems. Vol. 26, № 3. Art. 13. URL: https://www.scss.tcd.ie/khurshid.ahmad/Research/Sentiments/tfidf_relevance.pdf

Еще