Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

Бесплатный доступ

Представлено соотношение статистических характеристик так называемой кирилло-мефодиевской и восточноболгарской лексики в группах текстов, характеризующихся различными текстологическими и / или кодикологическими значениями: глаголический - кириллический, служебный - неслужебный, архаичный - восточноболгарский. Рассмотрены синонимические пары врѣтище - власѣница; жрътва - трѣба; ради - дѣля; тъкъмо - тъчию; вратьникъ - вратарь; оутро - заутра; яко - акы; аминъ - право; ароматъ - воня; июдѣи - жидъ. Применен метод сопоставления наблюдаемого в подкорпусе статистического значения слова с ожидаемым. В качестве статистик использованы меры Log-Likelihood, TF*ICTF и Weirdness. Компоненты синонимических пар извлечены из подкорпусов и оценены с помощью модуля статистики исторического корпуса. Сопоставление статистической предпочтительности компонентов синонимических пар в разных подкорпусах позволило подтвердить известную приуроченность каждого из компонентов противопоставленным друг другу архаичным и преславским текстам, показать различия в соотношении компонентов пар в разных подкорпусах и сделать выводы о зависимости препочтительности компонентов от лексических и лексико-словообразовательных характеристик лексем.

Еще

Кирилло-мефодиевская лексика, восточноболгарская лексика, синонимические пары, лингвистическая статистика, текстовый корпус

Короткий адрес: https://sciup.org/149145102

IDR: 149145102   |   DOI: 10.15688/jvolsu2.2023.6.1

Текст научной статьи Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

DOI:

Традиционно в историко-лингвистических исследованиях при анализе материала письменных источников используют количественные сведения об анализируемых фактах, которые приводятся в абсолютных или относительных величинах или описательно: «присутствует – отсутствует», «больше – меньше», «чаще – реже», «значительно чаще – значительно реже», «преобладает – единично» и под. Однако подобного рода количественные сопоставления не учитывают, например, существенного фактора случайности отсутствия либо единичной представленности языковой единицы в некотором документе (группе документов) или отсутствия сведений о значимости (незначимости) обнаруженного различия в частоте употребления одной и той же единицы в нескольких документах. Чрезвычайно критичным отсутствие сведений о значимости (незначимости) выявленных различий становится в том случае, когда нет возможности проверить выводы на большом объеме текстового материала: например, количество рукописей начала славянской письменности, которые сохранились до настоящего времени, крайне ограничено.

Вопрос о кирилло-мефодиевских и преславских лексических элементах в древнеболгарской письменности

Одним из наиболее активно обсуждающихся на протяжении более чем ста пятидесяти лет вопросов из области кирилло-мефо-диевской проблематики является вопрос о лексической маркированности кирилло-мефо-диевских текстов, с одной стороны, и преслав-ских – с другой [Димитрова, 2016; Добрев, 1979; Желязкова, 2016а; 2016б; Илиев, 2016; Милтенов, 2008; 2020; Новикова, 2013; Славова, 1989; 2013; Станков, 2018; Шафарик, 1860/1861; Jagić, 1913; Voss, 1996; и др.] (историографию вопроса см., например, в: [Станков, 2018, с. 121–140]). Изучение древнеболгарских глаголических и кириллических рукописей показало, что переводчики, редакторы, правщики, переписчики использовали во многом разные графико-орфографические и языковые средства для создания текста. Отчетливые различия обнаружены между наиболее древними (кирилло-мефодиевскими / охридско-моравскими) или восходящими к ним письменными памятниками и рукописями, созданными в период Первого Болгарского царства. Наиболее ярко эти различия проявляются в лексике: при наличии в древнеболгарских рукописях синонимов в конкретном списке наблюдается предпочтение одних лексем другим. В работах представлены перечни таких синонимических рядов, извлеченных из различных текстов и рукописей (см., например: [Славова, 1989, с. 25–117; Станков, 2018, с. 141–153; Voss, 1996, S. 100–103]), определен круг памятников, которые ориентированы на различные переводческие и редакторские традиции, и соответственно в которых предпочитается кирилло-мефодиевский или пре-славский компонент синонимического ряда, выявлены греческие соответствия славянских лексем, предложены различные гипотезы о историко-культурных и языковых связях и отно- шениях двух болгарских книжных центров в период второй половины IX – начала XI века.

Исследователями по-разному понимается природа лексических различий: от утверждений о сознательно, последовательно и системно осуществляемой в Преславской книжной школе редакционной работе над древнейшими переводами и работе над новыми (см., например: [Мил-тенов, 2008, с. 43; Славова, 1989, с. 19]) до категорического отрицания существования особых преславских лексем: «Вывод ясен, преславской редакции как таковой нет. Это означает, что нет и преславской лексики» [Станков, 2018, с. 137], «...“преславская” лексика просто не существует и что так называемые “преславизмы” не могут быть лексическими маркерами в поисках текстов преславского происхождения» [Станков, 2018, с. 139].

Болгарский исследователь Татьяна Сла-вова указывает на наличие трех типов соотношений в синонимических рядах: оба компонента являются славянскими, славянское слово соответствует непереведенному греческому, компоненты являются словообразовательными синонимами [Славова, 1989, с. 117], Явор Милтенов к этому ряду добавляет компоненты-словосочетания [Милтенов, 2008, с. 42].

В работах последних лет медиевисты приходят к выводу о динамичности и неоднородности возникновения, существования явления, которое традиционно называют языковыми преславизмами, подчеркивают, что основой переводческого и редакторского подхода к тексту в Восточной Болгарии являлся выбор предпочитаемых языковых средств из имеющихся – лексических синонимов и грамматических вариантов, последовательное использование которых делает их маркированными [Милтенов, 2020, с. 60, 63, 65].

Другое направление исследований – выявление текстологических различий между первоначальными и преславскими переводами: исследователями показано, что в Восточной Болгарии были созданы особого типа тексты – толковые и четьи, расширившие корпус первоначальных служебных, указываются дошедшие до наших дней рукописи, сохраняющие эту редакцию [Милтенов, 2008, с. 42; Славова, 1989, с. 120–121; Станков, 2018, с. 139]. При этом ученые все чаще указывают на необходимость более активного использования лексического критерия для установления близости рукописей и текстов, созданных в рамках одной переводческой или редакторской традиции [Милте-нов, 2008, с. 48]. В работах А.А. Пичхадзе показано, что отход от традиционного, «атомистического» подхода и применение сопоставительных приемов исследования лексических особенностей группы рукописей открывает новые перспективы в изучении письменного наследия [Пичхадзе, 2011, с. 17, 53, 54].

Кирилло-мефодиевские и восточноболгарские языковые особенности в письменных памятниках Руси

Известно, что начало церковнославянской книжности на Руси было положено письменными памятниками, переписанными с южноболгарских оригиналов: «Подавляющее большинство произведений переводной древнеславянской письменности возникло у южных славян. Оригинальная письменность восточных славян на церковнославянском языке с самого начала в той или иной степени подражала южнославянским образцам, и проникновение в текст специфически восточнославянских языковых элементов допускалось в минимальной степени» [Пичхадзе, 2011, с. 7].

Это наследие неоднородно. Оно включает рукописи, восходящие к кирилло-мефодиевс-ким переводам богослужебных текстов, свидетельствующих «о преемстве книжных элементов языковой нормы, формирование которой началось одновременно с первыми переводами» [Максимович, 2000, с. 73], и рукописи Преслав-ской книжной школы – ее писцы осуществили редактуру первоначальных переводов и сделали новые переводы [Максимович, 2000, с. 75]).

Исследователями отмечается, что при возможности выбрать из нескольких синонимичных лексем русский книжник ориентируется на восточноболгарский образец: «Однако по всем этим позициям словоупотребление пре-славских памятников совпадает в древнерусским узусом» [Пичхадзе, 2011, с. 54]; и далее: «Восточноболгарская книжность, чрезвычайно популярная на Руси, своим авторитетом поддерживала включение в текст древнерусских элементов, чуждых кирилло-мефодиевскому лексикону» [Пичхадзе, 2011, с. 56].

Таким образом, разнообразие существующих выводов о соотношении кирилло-мефодиевского и симеоновского наследия, различные интерпретации одних и тех же текстологических и лингвистических данных свидетельствуют о сложности изучения истории ранней южнославянской письменной традиции и ее противоречивой судьбы на Руси.

Неоднократно указывалось, что для понимания соотношения западно- и восточноболгарских языковых особенностей, их судьбы в восточнославянской книжной традиции недостаточно исследований отдельных рукописей или использования созданных к настоящему времени лексикографических работ: необходим анализ широкого круга рукописей, анализ лексики в ее реальном, текстовом употреблении (с учетом сведений о происхождении и истории текстов), и не только с учетом ее наличия в тех или иных списках, но и отсутствия [Милтенов, 2020, с. 67, 68, 70].

Цель работы – выявить посредством количественно-статистического анализа соотношение представленности характеризующихся различными текстологическими и/или кодикологическими значениями кирилло-мефодиевских и восточноболгарских лексем в подкорпусах исторического корпуса «Манускрипт».

Материал и методы

Исходным является положение о том, что частота использования компонента синонимического ряда зависит от текстологической истории рукописей, входящих в подкорпус. Поисковым – предположение о том, что количественно-статистическое соотношение между компонентами синонимической пары в группе текстов (подкорпусе), близких своими текстологическими и кодикологическими характеристиками, носит неслучайный характер, зависит от нескольких характеристик компонентов лексической пары, в том числе лингвистических. Оно может быть в различных подкорпусах как типичным, так и индивидуальным для конкретной пары лексем.

Основными вопросами анализа являются: – существует ли корреляция между количественными и статистическими характеристикам слова, входящего в синонимический ряд, и текстологическими и/или кодикологи-ческими характеристиками текстов;

– каковы количественно-статистические отношения компонентов синонимической пары в подкорпусе;

– существует ли зависимость отношения компонентов синонимической пары в подкорпусах от их лингвистических или иных характеристик.

Синонимические пары

Синонимические пары выбраны из перечней, имеющихся в работах [Пичхадзе, 2011, с. 23, 54; Славова, 1989, с. 25–117; Станков, 2018, с. 146, 149, 153; Voss, 1996, S. 100–103], так, чтобы были представлены различные виды соотношения компонентов: разноосновные славянские ( вр h тище влас h ница ; жрътва тр h ба ; ради д h ля ; тъкъмо тъчию ), одноосновные славянские ( вратьникъ вратарь ; оутро заутра ; яко акы ), греческий – славянский ( аминъ право ; ароматъ воня ), заимствованный – заимствованный ( июд h и жидъ ).

Методы

Одним из методов корпусного анализа является сопоставление лингвистических данных, извлеченных из подкорпусов, противопоставленных друг другу по какой-либо характеристике – времени создания, жанру, автору и т. д. Обнаружение между подкорпусами различий в таком случае интерпретируется как существование различий в языке разного времени, жанров или авторов и т. п.

Основным приемом стала статистическая оценка встречаемости лексемы в подкорпусах в сопоставлении со статистической величиной частотности слова в контрольном корпусе (модуль статистики – !. В качестве статистических мер оценки отклонения встречаемости от ожидаемой использованы статистики Log-Likelihood [Ляшевская, Шаров, 2009; Rayson, Garside, 2000], TF*ICTF (Term Frequency * Inverse Collection Term Frequency) [Kwok, 1995; Robertson, 2004; Roelleke, 2013; Roelleke, Wang, 2006; Salton, Yang, 1973; Sparck, 1972; Wu et al., 2008], Weirdness [Бессмерт- ный и др., 2017; Бессмертный, Юй Чуцяо, Ма Пенюй, 2016; Клышинский, Кочеткова, 2014; Ahmad, Gillam, Tostevin, 1999; Gillam, Tariq, Ahmad, 2005]. Статическое значение лексемы сопоставляется с аналогичным синонимичного ему слова. Соотношение статистических значений двух лексем сопоставляется с их соотношением в нескольких подкорпусах.

Известно, что методы TF*ICTF и Weirdness присваивают слову значение тем выше, чем чаще слово встречается в анализируемом подкорпусе и реже – в контрастном корпусе [Бессмертный и др., 2017, с. 83]. Методы считаются эффективным при работе с небольшими коллекциями для извлечения часто встречающихся терминов [Бессмертный, Юй Чуцяо, Ма Пенюй, 2016, с. 1097, 1098]. Относительно Weirdness экспериментальным путем установлено, что для «обычных слов формула странности возвращает значения, близкие к 1, а для терминов – значения, намного превышающие 1, так как в этом случае знаменатель формулы близок к 0» [Бессмертный и др., 2017, с. 83]. В метрике LL используются не только относительные, но и абсолютные частоты слов [Ляшевская, Шаров, 2009, с. VIII], значения меры LL чувствительны как к редко, так и часто встречающимся словам. Для метрики также известно значение, превышение которого дает возможность отнести слово к лексемам, значимым для подкорпуса, – 15.31 [Ляшевская, Шаров, 2009, с. VIII].

Каждая из мер имеет свои диапазоны значений. Наиболее высокие значения назначает статистика LL – десятки, а то и сотни условных единиц, значения Weirdness колеблются около 1,0, величины TF*ICTF существенно меньше 1,0. Для приведения значений к сопоставимым величинам используется нормализация данных с помощью логарифмирования 2.

Текстовый материал

В качестве контрольного (контрастного) корпуса выступает коллекция рукописей корпуса «Манускрипт». Подкорпуса сформированы из текстов, характеризующихся аналогичными текстологическими и/или кодикологическими свойствами, противопоставленными по этим свойствам другим рукописям корпуса. Первым основанием для противопоставления выбрана графика списка – глаголический / кириллический алфавит (далее – Глаг 3, Кир 4).

Вторым – служебный / неслужебный тип кириллического текста (далее – КирСл 5, КирНСл 6). Особо из четырех текстов XI в., восходящих к восточноболгарской переводческой традиции, сформирован отдельный подкорпус (далее – ВБ 7).

Третий – кирилло-мефодиевский / пре-славский: подкорпус, включающий Христи-нопольский апостол XII в. (содержащий «древнюю редакцию Апостола, осложненную преславскими чтениями» [Пентковская, 2009, с. 19]) и глаголическую Псалтырь Димитрия XI в., (далее – ПсАп-ЗБ 8), и подкорпус, в который входят Толстовский апостол конца XIV в. («яркий представитель преславской редактуры» [Новак, 2015, с. 232]) и Чудовская псалтырь XI в. – представитель симеоновской книжной школы (далее – ПсАп-ВБ 9).

Инструментарий

Информационно-аналитическая система «Манускрипт» в настоящее время является одной из немногих систем хранения, обработки и демонстрации машиночитаемых транскрипций средневековых славянских письменных памятников. Корпус содержит транскрипции славянских текстов X– XV вв. общим объемом более 3,5 млн словоупотреблений, имеет мета, аналитическую и лингвистическую разметку, снабжен корпусным менеджером, обеспечивающим подготовку транскрипций, лемматизацию текстов, формирование подкорпусов, выборку лингвистических единиц и их демонстрацию (о корпусе см., например: [Baranov, 2018; Баранов, 2019а]).

Модуль статистики 10 предназначен: а) для демонстрации распределения единиц корпуса (символов, текстовых форм, лемм) в рукописи или нескольких рукописях; б) для нахождения количественных и/или статистических характеристик (соответствия или несоответствия ожидаемым статистическим характеристикам) слов в подкорпусе (подкорпусах). Модуль позволяет на основе метаданных транскрипций сформировать подкорпус, сохранить его для многократного исполь- зования, указать тип анализируемой единицы и ее маску, выбрать контрольный (контрастный) корпус, указать меру статистической оценки. Результат выводится на экран в виде таблицы со сведениями о количестве и статистическом значении лингвистических единиц в подкорпусах [Baranov, Gnutikov, 2018; Баранов, 2019б].

Возможности модуля статистики сформировать подкорпусы на основе выборок необходимых документов и извлечь из них с помощью маски регулярных выражений все текстовые формы анализируемых слов и сведения об их количественных и статистических характеристиках позволили получить информацию о соответствии или несоответствии (значимости) частотности слов их средней частоте в контрастном (контрольном) корпусе, роль которого выполнила выборка, включающая практически все транскрипции корпуса.

Результаты. Количественные и статистические данные

Синонимический ряд жрътва – тр h ба

Маски регулярных выражений: ^ж[ьъе]? р[ьъе]?т.?в.?[^н]$ – ^треб([ауъые]|о[юи]|ах[ъ]? |ам[ьъи]?)$

Слово жрътва зафиксировано во всех подкорпусах (табл. 1, 2). Относительное количество во всех подкорпусах, кроме ПсАп-ВБ, в котором оно значительно ниже, примерно одинаковое. Слово тр h ба отсутствует в глаголическом подкорпусе (см. табл. 3, 4). Максимальное относительное количество – в подкорпусе четырех восточноболгарских рукописей; минимальное – в подкорпусе кириллических служебных.

Количественные соотношения соответствуют текстологическим свойствам списков: слово жрътва не характерно для подкорпуса рукописей, восходящих к ЗБ редакции, слово тр h ба – отсутствует в подкорпусе глаголических рукописей и часто используется в рукописях, созданных в Восточной Болгарии.

Статистическая активность слова жрътва по-разному оценивается мерами: LL выделяет слово в КирНСл, ВБ, ПсАп-ВБ, Weirdness – в КирСл, ВБ, ПсАп-ЗБ. Статистическая активность слова тр h ба также различается: LL – в КирСл, КирНСл, ВБ, ПсАп-ВБ, Weirdness – в ВБ и ПсАп-ВБ. При этом оценка статистиками в двух последних подкорпусах совпадает, а в LL выше, чем в КирСл и КирНСл.

Средние логарифмированных статистических метрик (см. рис. 1) показывают су-

Таблица 1. Количественные и статистические значения слова жрътва

Table 1. Quantitative and statistical values of the word zhrъtva ‘sacrifice’

Подкорпус

Все рукописи

Глаг

Кир

КирСл

КирНСл

ВБ

ПсАп-ВБ

ПсАп-ЗБ

Объем подкорпуса

2986201

97138

2889063

1583956

1329303

262429

103908

99577

Объем выборки

629

21

608

389

197

95

4

34

Среднее

0,02106

0,02162

0,02104

0,02456

0,01482

0,03620

0,00385

0,03414

LL

2,01357

2,00270

7,48186

21,84683

23,06930

23,73787

8,49934

TF*ICTF

0,00079

0,00077

0,00090

0,00054

0,00133

0,00014

0,00126

Weirdness

1,02473

0,99753

1,16408

0,70246

1,71590

0,18247

1,61845

Таблица 2. Логарифмированные количественные и статистические значения слова жрътва

Table 2. Logarithmic quantitative and statistical values of the word zhrъtva ‘sacrifice’

Подкорпус

Глаг

Кир

КирСл

КирНСл

ВБ

ПсАп-ВБ

ПсАп-ЗБ

ln(LL)

0,69991

0,69450

2,01248

3,08406

3,13850

3,16707

2,13999

ln(TF*ICTF)

-7,14348

-7,16912

-7,01312

-7,52394

-6,62258

-8,87387

-6,67664

ln(Weirdness)

0,02443

-0,00247

0,15193

-0,35317

0,53994

-1,70117

0,48147

ln(средн.)

-3,83420

-3,86110

-3,70669

-4,21179

-3,31869

-5,55980

-3,37716

Таблица 3. Количественные и статистические значения слова тр h ба

Table 3. Quantitative and statistical values of the word trěba ‘sacrifice’

Подкорпус

Все рукописи

Глаг

Кир

КирСл

КирНСл

ВБ

ПсАп-ВБ

ПсАп-ЗБ

Объем подкорпуса

2986201

97138

2889063

1583956

1329303

262429

103908

99577

Объем выборки

279

0

279

78

219

105

41

13

Среднее

0,00934

0,00000

0,00966

0,00492

0,01647

0,04001

0,03946

0,01306

LL

0,00000

2,12333

30,27670

39,68686

126,35074

54,06898

3,23649

TF*ICTF

0,00000

0,00039

0,00020

0,00066

0,00161

0,00159

0,00053

Weirdness

0,00000

1,02993

0,52518

1,75704

4,26717

4,20821

1,39234

Таблица 4. Логарифмированные количественные и статистические значения слова тр h ба

Table 4. Logarithmic quantitative and statistical values of the word trěba ‘sacrifice’

Подкорпус

Глаг

Кир

КирСл

КирНСл

ВБ

ПсАп-ВБ

ПсАп-ЗБ

ln(LL)

0,75299

3,41038

3,68102

4,83906

3,99026

1,17449

ln(TF*ICTF)

-7,84936

-8,51719

-7,32327

-6,43152

-6,44402

-7,54263

ln(Weirdness)

0,02949

-0,64401

0,56363

1,45095

1,43704

0,33099

ln(средн.)

-4,64006

-5,31356

-4,10592

-3,21861

-3,23252

-4,33857

0,000

-0,500

— — Жрътва Трhба

-3,000

-3,500

Рис. 1. Жрътва – тр h ба . Средние логарифмических значений ln(LL), ln(TF*ICTF), ln(Weirdness)

Fig. 1. Zhrъtva – trěba ‘sacrifice’. Mean of logarithmic values ln(LL), ln(TF*ICTF), ln(Weirdness)

щественные отличия между статистической активностью слов как между собой, так и между подкорпусами: а) в Глаг и ПсАп-ЗБ преобладает жрътва , в ВБ, ПсАп-ВБ – тр h ба , в КирСл – жрътва , в КирНСл – тр h ба ; б) при большей статистической активности жрътва максимальный контраст обнаруживается в ПсАп-ЗБ, минимальный – в Кир и КирСл; в) при большей активности тр h ба – максимальная контрастность в ПсАп-ВБ, меньшая – в ВБ, еще меньшая – в КирНСл.

Аналогично были исследованы и все другие пары лексем. Приведем итоговые диаграммы.

Обсуждение

Использованная в работе методика сопоставления статистических значений слов в текстовых подкорпусах позволяет увидеть ряд закономерностей в соотношении западноболгарских и восточноболгарских компонентов синонимического ряда (см. рис. 2).

Жрътва – тр h ба

Ради – д h ля

0,000

-0,500

-1000              •

2,000

1,000

.                 i -- Жрътва

-1,500          „   .   1

f      ' /          Трhба

0,000

-1,000 ^Ч^^^-А^2       Ради

'-аА^      Дhля

7 U U U   - /         1 /

Л

-2,UUU                v

-Z,?UU

-4,000

-3,000

Тъкъмо – тъчию

Яко – акы

2,000

1,000

0,000         / \ у

,                                   Тъкъмо

  • -1,000                                Тъчию

  • -2,000                     Г

-3,000

2,000

1,000               ^~A

0,000   / / \\    -- Яко

-1,000 ^WA ^/    Акы

-2,000

-3,000

Вр h тище – влас h ница                         Июд h и – жидъ

0 ООО

-0,500

  • -1,000               

Врhтище

Власhница

  • -2,500 х    '\z

-3,000

1,000

д

0,000                          .

^ ^ ^

  • < V                   --Июд-

  • -1,000 ч Y^ ч^А       Жид-

V .-.. .• х/

-2,000

-3,000

Ароматъ – воня

Аминъ – право

и,иии

  • -1,000     ^" Ч^4 ч^ "^

,       \                         Ароматъ

  • -2,000    '

\                       Вопя

-3,000

-0,500

-1,000    ' 4s s^’

-1,500                               Аминъ

-2,000                                 Право

-2,500

-3,000

-4,UUU

Рис. 2. Средние логарифмических значений десяти пар синонимов (см. также с. 13 )

Fig. 2. Average logarithmic values of ten pairs of synonyms (see also p. 13)

Оутро – заоутра                                Вратьникъ – вратарь

0,000

-2,800

-0,500

-2,850 ^     х-> ^

-1,000

-2,900    ^ ^/

— — Оутро

к       - - - Вратьникъ

Заоутра /

  • -3,000             /  .                о

  • -3,050            1  \              Вратарь

2,000

-3,100          /        ♦

-2,500

-3,150   — —

-3,000

-3,200

Рис. 2. Окончание

Fig. 2. Final part

  • 1.    Во всех синонимических рядах статистическая активность западноболгарского компонента выше (или он единственно возможен) в подкорпусе глаголических текстов и подкорпусе ПсАп-ЗП, включающем списки, восходящие к кирилло-мефодиевской традиции. По этой особенности подкорпус глаголических текстов отчетливо противопоставлен подкорпусу, включающему все кириллические рукописи, а подкорпус ПсАп-ЗП – подкорпусу ПсАп-ВБ, содержащему списки, восходящие к восточноболгарским рукописям.

  • 2.    Отчетливая предпочтительность восточноболгарских компонентов обнаруживается в подкорпусах ВБ и ПсАп-ВБ, включающих тексты, восходящие к Преславской традиции. О преимущественном тяготении восточноболгарского компонента именно восточноболгарской книжной школе свидетельствует и последовательная его большая активность в подкорпусе неслужебных рукописей КиНСл по сравнению с текстами подкорпуса более архаичных служебных списков.

  • 3.    В парах с заимствованными словами греческий компонент в глаголическом подкорпусе и в ПсАп-ЗБ также предпочтительнее, чем негреческий, ср. пары июд h и жидъ , ароматъ воня , аминъ право ( ароматъ в

  • 4.    Словообразовательные одноосновные синонимы, наряду с похожим в обоих случаях последовательно более высоким статистическим значением восточноболгарского лексического компонента в трех подкорпусах – КирСл, КирНСл и ВБ, – достаточно индивидуальны: имеют статистическое равенство обоих компонентов и несколько более высокое значение восточноболгарского в паре оутро заоут-ра , с одной стороны, и более высокие значения восточнославянского вратарь в Кир, КирСл и ВБ при преобладании западноболгарского вратьникъ в КирНСл – с другой.

  • 5.    Пары, в которых один из компонентов в одном или нескольких подкорпусах отсут-

  • ствует, демонстрируют те же тенденции и соотношения компонентов синонимического ряда, что и в тех, где компоненты встречаются во всех подкорпусах: в паре врhтище – власhница активность второго компонента выше в подкорпусе КирНСл рукокописей, в паре ароматъ – воня слово ароматъ статистически более активно в подкорпусе служебных списков КирСл, а воня наименее предпочтительна в ПсАп-ЗБ, чем в КирНСл, ВБ, ПсАп-ВБ; в паре вратьникъ – вратарь второй компонент имеет стабильно высокую статистическую активность во всех кириллических подкорпусах.

Обнаруженная корреляция членов ряда и текстологических характеристик рукописей характеризует лишь славянские разноосновные синонимические ряды жрътва тр h ба , ради д h ля , тъкъмо тъчию , яко акы . В рядах, членами которых являются заимствованные слова и одноосновные словообразовательные синонимы, отношения несколько иные.

ПсАп-ЗБ отсутствует). В паре аминъ право в КирСл, КирНСл, ВБ, ПсАп-ВБ нет отчетливого предпочтения право – статистически более активным является западноболгарское аминъ . В паре июд h и жидъ картина аналогичная, за исключением преобладания в ПсАп-ВБ слова жидъ . Вторым отличием этой группы является иное соотношение статистической активности западноболгарского компонента между КирСл и КирНСл, с одной стороны, и ВБ и ПсАп-ВБ – с другой: если в славянских парах ( жрътва тр h ба и др.) первый компонент был более предпочтителен в ВБ и ПсАп-ВБ, чем в КирСл и КирНСл, то в парах греческим компонентом июд h и жидъ , аминъ право и ароматъ воня ситуация обратная. Особенностью соотношений компонентов в этих трех рядах является, в отличие от славянских рядов, и их существенная инидивидуальность по отношению друг к другу.

Обнаруженные закономерности демонстрируют, с одной стороны, типичность соотношения компонентов всех рассмотренных синонимических рядов в том или ином подкорпусе, с другой стороны – индивидуальность соотношения синонимов. Важным представляется существование связи между соотношением синонимов и их лексическими и лексико-словообразовательными характеристиками: заметно отличаются соотношения в группах разноосновных и одноосновных синонимов, в славянская паре синонимов и паре, одним из компонентов которой является греческое по происхождению слово.

Продемонстрированная корреляция между статистическими соотношениями западно-олгарского и восточноболгарского компонентов синонимического ряда и текстологическими и кодикологическими характеристиками текстов (глаголический – кириллический, ки-рилло-мефодиевский – восточноболгарский) ожидаема, но одновременно является дополнительной достаточно надежной характеристикой текста / рукописи или группы текстов / рукописей наряду с традиционно используемыми критериями, основанными на соотношениях «есть – нет» и на соотношениях «больше – меньше» / «чаще – реже» в абсолютном или относительном выражении.

Наличие такой корреляции позволяет с доверием относиться и к различиям в соотношении синонимических рядов, компоненты которых характеризуются отличающимися лексическими или лексико-словообразовательными свойствами, а кроме того, увидеть различия в степени устойчивости таких соотношений – последовательную, типовую про- тивопоставленность западноболгарской и восточноболгарской разноосновных славянских лексем ряда в текстологически и кодикологически противопоставленных текстах и индивидуальную конфигурацию соотношений в паре одноосновных словообразовательных синонимов или в паре, компонентом которой является греческое заимствование.

Полученные результаты позволяют сделать несколько выводов относительно вопроса о маркированности / немаркированности пре-славской лексики и о представленности кирил-ло-мефодиевских и восточноболгарских лексем в рукописях, созданных на Руси.

  • 1.    Аналогичность, а в ряде случаев и идентичность соотношений компонентов синонимических пар как в случаях представленности обоих во всех подкорпусах, так и в случаях отсутствия одного из них в некоторых из подкорпусов позволяют сделать вывод о том, что отсутствие компонента синонимической пары в подкорпусе является одним из двух аналогичных вариантов его соотношения с другим компонентом: компонент отсутствует, или его статистическая активность ниже или значительно ниже альтернативного компонента.

  • 2.    Не имеющая исключений противопоставленность компонентов исследованных синонимических рядов в глаголических и архаичных рукописях подкорпуса ПсАп-ЗБ, с одной стороны, и в текстах подкорпусов ВБ, ПсАп-ВБ – с другой, свидетельствует об устойчивых лексических предпочтениях этих текстологически противопоставленных групп текстов при использовании в них и того и другого компонентов. Статистическая предпочтительность восточноболгарских компонентов может отличаться в подкорпусах (ср. их соотношение в КирСл и КирНСл), выступая своеобразным маркером неслужебных рукописей.

  • 3.    Есть основания говорить о том, что предпочтительность того или иного компонента синонимического ряда зависит не только от того, в рамках какой писцовой школы он был переведен, создавался или редактировался, но и от собственно языковых характеристик слов пары: разноосновные славянские компоненты последовательно противопоставляются в текстологичес-

  • ки контрастных друг другу подкорпусах (текстах и рукописях); одноосновные славянские компоненты при аналогичном противопоставлении двух архаических подкорпусов (Глаг и ПсАп-ЗБ) не имеют подобного последовательного противопоставления в ряду кириллических; греческий и негреческий компоненты ряда конкурируют друг с другом, причем первый в ряде кириллических подкорпусов не уступает, а то и превосходит в статистической активности негреческий.
  • 4.    В восточнославянских списках, которые и составляют бóльшую часть проанализированного материала, зафиксированы как западноболгарские, так и восточноболгарские компоненты синонимических рядов. Предпочтительность того или иного компонента зависит как от текстологических и кодикологичес-ких характеристик кириллических рукописей, так и от собственно языковых свойств лексем. При общей предпочтительности восточноболгарского компонента в ряде синонимических рядов наблюдается бóльшая статистическая активность западноболгарского компонента, например, в парах яко акы , аминъ право , вратьникъ вратарь .

Заключение

Исследование доказало существование корреляции между текстами, характеризующимися различными текстологическими и/ или кодикологическими свойствами, и соотношением в них компонентов синонимического ряда, а также наличие связи между соотношением компонентов ряда в различных подкорпусах и лексическими характеристиками синонимов.

Значимым результатом является доказательство результативности использования корпусных и статистических методов и приемов для анализа лингвистических данных средневековых славянских текстов и рукописей, в частности, для решения вопросов в рамках кирилло-мефодиевской проблематики.

Безусловно, полученные результаты должны быть подтверждены и уточнены в ходе анализа и других синонимических кирилло-мефодиевских – восточноболгарских лексических рядов.

Список литературы Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

  • Баранов В. А., 2019а. Создание и использование исторических корпусов славянских письменных памятников // Scripta & e-Scripta. Vol. 19. C. 33–57.
  • Баранов В. А., 2019б. Модуль статистики исторического корпуса «Манускрипт»: функции и демонстрация данных. 2 // И. А. Бодуэн де Куртенэ и мировая лингвистика. В 2 т. Т. 1: Междунар. конф.: VII Бодуэновские чтения (Казан. федер. ун-т, 28–31 окт. 2019 г.): тр. и материалы. Казань: Изд-во Казан. ун-та. С. 24–30.
  • Бессмертный И. А., Нугуманова А. Б., Мансурова М. Е., Байбурин Е. М., 2017. Метод контрастного извлечения редких терминов из текстов на естественном языке // Научно-технический вестник информационных технологий, механики и оптики. Т. 17, № 1. С. 81–91. URL: http://ntv.ifmo.ru/file/article/16383.pdf
  • Бессмертный И. А., Юй Чуцяо, Ма Пенюй, 2016. Статистический метод извлечения терминов из китайских текстов без сегментации фраз // Научно-технический вестник информационных технологий, механики и оптики. Т. 16, № 6. С. 1096–1102. URL: http://ntv.ifmo.ru/file/article/16157.pdf
  • Димитрова А., 2016. Златоструят в преводаческата дейност на старобългарските книжовници. София: Авалон. 456 с.
  • Добрев И., 1979. Текстът на Добромировото евангелие и втората редакция на старобългарските богослужебни книги // Български език. Т. 29, № 1. С. 9–21.
  • Желязкова В., 2016а. Паримейные чтения в четьих списках Книги Исход // Studia Ceranea. Т. 6. С. 225–240.
  • Желязкова В., 2016б. Книга Исход в южнославянских списках XV–XVI вв. // Studi Slavistici. Vol. 13. С. 243–256.
  • Илиев И., 2016. Тълкуванието на Книга на пророк Даниил от Иполит Римски в старобългарската литература: автореферат на дисертация за присъждане на образователната и научна степен «доктор». София. 67 с.
  • Клышинский Э. С., Кочеткова Н. А., 2014. Метод извлечения технических терминов с использованием меры странности // Новые информационные технологии в автоматизированных системах. № 17. С. 365–370. URL: https://elibrary.ru/download/elibrary_21527004_14693581.pdf
  • Ляшевская О. Н., Шаров С. А., 2009. Введение к частотному словарю современного русского языка // Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник. С. V–XXII. URL: http://dict.ruslang.ru/freq.pdf
  • Максимович К. А., 2000. Славянизмы современного русского языка и кирилло-мефодиевское наследие // Folia Slavistica: Рале Михайловне Цейтлин. М.: [б. и.]. С. 72–84.
  • Милтенов Я., 2008. Лексический критерий как способ атрибуции преславских текстов (на материале славянского перевода Диалогов Псевдо-Кесария) // Славяноведение. № 5. С. 41–49.
  • Милтенов Я., 2020. Преславските лексикални маркери. 1. Опит за въведение // Palaeobulgarica. Vol. 44, № 2. С. 54–79.
  • Новак М. О., 2015. Лексика древнеславянского перевода апостола: в поисках образа и смысла // Перевод как средство взаимодействия культур. № 1. С. 230–240.
  • Новикова А. С., 2013. К вопросу об истории создания евангельского текста Чудовской рукописи // Славянские языки и литературы в синхронии и диахронии: материалы Междунар. научн. конф. М.: [б. и.]. С. 268–273.
  • Пентковская Т. В., 2009. Восточнославянские и южнославянские переводы богослужебных книг XIII–XIV вв.: Чудовская и афонская редакции Нового Завета и Иерусалимский Типикон: дис. ... д-ра филол. наук. М. 497 с.
  • Пичхадзе А. А., 2011. Переводческая деятельность в домонгольской Руси: лингвистический аспект. М.: Рукопис. памятники Древ. Руси. 408 с.
  • Славова Т., 1989. Преславска редакция на Кирило-Методиевия старобългарски евангелски превод // Кирило-Методиеви студии. Кн. 6. София: Кирило-Методиевски научен център при БАН. С. 15–129.
  • Славова Т., 2013. Славянският превод на Посланието на патриарх Фотий до княз Борис-Михаил. София: Св. Климент Охридски. 344 с.
  • Станков Р., 2018. Проблема «преславской» и «кирилло-мефодиевской» лексики в древнеболгарском переводе Хроники Георгия Амартола // Преславска книжовна школа. Т. 18. С. 121–158.
  • Шафарик П., 1860/1861. О происхождении и родине глаголитизма // Чтения в Императорском Обществе Истории и Древностей Российских при Московском Университете. № 4. Материалы Славянские. ІІІ. М.: Унив. тип. С. 29–30.
  • Яцко В. А., 2014. Компьютерная лингвистика или лингвистическая информатика // Научно-техническая информация. Серия 2, Информационные процессы и системы. № 5. С. 1–10.
  • Ahmad K., Gillam L., Tostevin L., 1999. University of Surrey Participation in TREC8: Weirdness Indexing for Logical Document Extrapolation and Retrieval (Wilder) // Proc. 8th Text Retrieval Conference TREC. Gaithersburg: [s. n.]. P. 717–724.
  • Baranov V., 2018. A Text Corpus of Medieval Manuscripts as a Goal an d a Tool for Linguistic Research // Editing Mediaeval Texts from a Differ ent An gle: Slavon ic an d Multilingual Traditions. Leuven ; P. ; Bristol: Peeters. P. 283–308.
  • Baranov V. A., Gnutikov R. M., 2018. The Statistics and n-Gram Modules of the Historical Corpus “Manuscript” // Digital and Analytical Approaches to the Written Heritage: Proceedings of the 7th International Conference El‘Manuscript “Textual Heritage and Information Technologies”. Sofia: Gutenberg. P. 9–28.
  • Gilllam L., Tariq M., Ahmad K., 2005. Terminology and the Construction of Ontology // Terminology, vol. 11, iss 1. P. 55–81.
  • Jagić V., 1913. Entstehungsgeschichte der kirchenslavischen Sprache. Berlin: Weidmann. 540 p.
  • Kwok K. L., 1995. A Network Approach to Probabilistic Information Retrieval // ACM Transactions on Information Systems. Vol. 13, № 3. P. 324–353.
  • Rayson P., Garside R., 2000. Comparing Corpora Using Frequency Profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000.
  • Hong Kong. P. 1–6. URL: http://ucrel.lancs.ac.uk/people/paul/publications/rg_acl2000.pdf
  • Robertson S., 2004. Understanding Inverse Document Frequency: On Theoretical Arguments for Idf // Journal of Documentation. № 60. P. 503–520. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.438.2284&rep=rep1&type=pdf
  • Roelleke T., 2013. Information Retrieval Models: Foundations and Relationships. Cham: Springer. 141 p.
  • Roelleke T., Wang J., 2006. A Parallel Derivation of Probabilistic Information Retrieval Models // Proceedings of the 29th Annual ACM SIGIR Conference on Research and Development in Information Retrieval. Seattle ; N. Y.: ACM. P. 107–114.
  • Salton G., Yang C. S., 1973. On the Specification of Term Values in Automatic Indexing // Journal of Documentation. Vol. 29. P. 351–372.
  • Sparck J. K., 1972. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. Vol. 28. P. 11–21.
  • Voss Chr., 1996. Die Vertretung von lexikalischen textologischen Dubletten der Dichotomie Ochrid-Preslav in kirchenslavischen Abschriften der Paränesis Ephreaims des Syrers. Ein Beitrag zur Datierung der altbulgarischen Erstübersetzung // Anzeiger für slavischen Philologie. Bd. 24. S. 95–127.
  • Wu H. C., Luk R. W. P., Wong K. F., Kwok K. L., 2008. Interpreting TF-IDF Term Weights as Making Relevance Decisions // ACM Transactions on Information Systems. Vol. 26, № 3. Art. 13. URL: https://www.scss.tcd.ie/khurshid.ahmad/Research/Sentiments/tfidf_relevance.pdf
Еще
Статья научная