Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

Бесплатный доступ

Представлено соотношение статистических характеристик так называемой кирилло-мефодиевской и восточноболгарской лексики в группах текстов, характеризующихся различными текстологическими и / или кодикологическими значениями: глаголический - кириллический, служебный - неслужебный, архаичный - восточноболгарский. Рассмотрены синонимические пары врѣтище - власѣница; жрътва - трѣба; ради - дѣля; тъкъмо - тъчию; вратьникъ - вратарь; оутро - заутра; яко - акы; аминъ - право; ароматъ - воня; июдѣи - жидъ. Применен метод сопоставления наблюдаемого в подкорпусе статистического значения слова с ожидаемым. В качестве статистик использованы меры Log-Likelihood, TF*ICTF и Weirdness. Компоненты синонимических пар извлечены из подкорпусов и оценены с помощью модуля статистики исторического корпуса. Сопоставление статистической предпочтительности компонентов синонимических пар в разных подкорпусах позволило подтвердить известную приуроченность каждого из компонентов противопоставленным друг другу архаичным и преславским текстам, показать различия в соотношении компонентов пар в разных подкорпусах и сделать выводы о зависимости препочтительности компонентов от лексических и лексико-словообразовательных характеристик лексем.

Еще

Кирилло-мефодиевская лексика, восточноболгарская лексика, синонимические пары, лингвистическая статистика, текстовый корпус

Короткий адрес: https://sciup.org/149145102

IDR: 149145102   |   УДК: 811.163’04   |   DOI: 10.15688/jvolsu2.2023.6.1

Cyril-Methodian and Eastern Bulgarian words in the manuscripts of the 10th - 15th centuries (text corpus study)

The correlation of statistical characteristics of the so-called Cyrillo-Methodian and Eastern Bulgarian words in groups of texts characterized by different textological and(or) codicological meanings is presented: Glagolitic - Cyrillic, service - non-service, archaic - Eastern Bulgarian subcorpora. Synonymous pairs of vrětishche - vlasěnitsa ‘rough (horsehair) clothes’; zhrъtva - trěba ‘sacrifice’; radi - dělya ‘because of, due to, on account of, for’; tъkъmo - tъchiyu ‘only, just, merely’; vrat’nikъ - vratar’ ‘gatekeeper, doorkeeper’; outro - zautra ‘(early) in the morning’; yako - aky ‘how, as, like’; aminъ ‘Amen’ - parvo ‘rightly’; aromatъ - vonya ‘(fragrant) spices’; iyuděi - zhidъ ‘Jew’ are analyzed. The method of comparing the statistical meaning of the word observed in the subcorpora with the expected meaning is applied. The statistics measures Log-Likelihood, TF*ICTF and Weirdness were used. The components of synonymic pairs were extracted from subcorpora and evaluated using the historical corpus statistics module. Comparison of the statistical preference of the components of synonymic pairs in different subcorpora made it possible (a) to confirm the known confinement of each of the components to archaic and Eastern Bulgarian texts opposed to each other, (b) to show a different ratio of the components of pairs in different subcorpora, and also (c) to draw conclusions about the dependence of the preference of components on the lexical and lexical-derivational characteristics of lexemes.

Еще

Текст научной статьи Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

DOI:

Традиционно в историко-лингвистических исследованиях при анализе материала письменных источников используют количественные сведения об анализируемых фактах, которые приводятся в абсолютных или относительных величинах или описательно: «присутствует – отсутствует», «больше – меньше», «чаще – реже», «значительно чаще – значительно реже», «преобладает – единично» и под. Однако подобного рода количественные сопоставления не учитывают, например, существенного фактора случайности отсутствия либо единичной представленности языковой единицы в некотором документе (группе документов) или отсутствия сведений о значимости (незначимости) обнаруженного различия в частоте употребления одной и той же единицы в нескольких документах. Чрезвычайно критичным отсутствие сведений о значимости (незначимости) выявленных различий становится в том случае, когда нет возможности проверить выводы на большом объеме текстового материала: например, количество рукописей начала славянской письменности, которые сохранились до настоящего времени, крайне ограничено.

Вопрос о кирилло-мефодиевских и преславских лексических элементах в древнеболгарской письменности

Одним из наиболее активно обсуждающихся на протяжении более чем ста пятидесяти лет вопросов из области кирилло-мефо-диевской проблематики является вопрос о лексической маркированности кирилло-мефо-диевских текстов, с одной стороны, и преслав-ских – с другой [Димитрова, 2016; Добрев, 1979; Желязкова, 2016а; 2016б; Илиев, 2016; Милтенов, 2008; 2020; Новикова, 2013; Славова, 1989; 2013; Станков, 2018; Шафарик, 1860/1861; Jagić, 1913; Voss, 1996; и др.] (историографию вопроса см., например, в: [Станков, 2018, с. 121–140]). Изучение древнеболгарских глаголических и кириллических рукописей показало, что переводчики, редакторы, правщики, переписчики использовали во многом разные графико-орфографические и языковые средства для создания текста. Отчетливые различия обнаружены между наиболее древними (кирилло-мефодиевскими / охридско-моравскими) или восходящими к ним письменными памятниками и рукописями, созданными в период Первого Болгарского царства. Наиболее ярко эти различия проявляются в лексике: при наличии в древнеболгарских рукописях синонимов в конкретном списке наблюдается предпочтение одних лексем другим. В работах представлены перечни таких синонимических рядов, извлеченных из различных текстов и рукописей (см., например: [Славова, 1989, с. 25–117; Станков, 2018, с. 141–153; Voss, 1996, S. 100–103]), определен круг памятников, которые ориентированы на различные переводческие и редакторские традиции, и соответственно в которых предпочитается кирилло-мефодиевский или пре-славский компонент синонимического ряда, выявлены греческие соответствия славянских лексем, предложены различные гипотезы о историко-культурных и языковых связях и отно- шениях двух болгарских книжных центров в период второй половины IX – начала XI века.

Исследователями по-разному понимается природа лексических различий: от утверждений о сознательно, последовательно и системно осуществляемой в Преславской книжной школе редакционной работе над древнейшими переводами и работе над новыми (см., например: [Мил-тенов, 2008, с. 43; Славова, 1989, с. 19]) до категорического отрицания существования особых преславских лексем: «Вывод ясен, преславской редакции как таковой нет. Это означает, что нет и преславской лексики» [Станков, 2018, с. 137], «...“преславская” лексика просто не существует и что так называемые “преславизмы” не могут быть лексическими маркерами в поисках текстов преславского происхождения» [Станков, 2018, с. 139].

Болгарский исследователь Татьяна Сла-вова указывает на наличие трех типов соотношений в синонимических рядах: оба компонента являются славянскими, славянское слово соответствует непереведенному греческому, компоненты являются словообразовательными синонимами [Славова, 1989, с. 117], Явор Милтенов к этому ряду добавляет компоненты-словосочетания [Милтенов, 2008, с. 42].

В работах последних лет медиевисты приходят к выводу о динамичности и неоднородности возникновения, существования явления, которое традиционно называют языковыми преславизмами, подчеркивают, что основой переводческого и редакторского подхода к тексту в Восточной Болгарии являлся выбор предпочитаемых языковых средств из имеющихся – лексических синонимов и грамматических вариантов, последовательное использование которых делает их маркированными [Милтенов, 2020, с. 60, 63, 65].

Другое направление исследований – выявление текстологических различий между первоначальными и преславскими переводами: исследователями показано, что в Восточной Болгарии были созданы особого типа тексты – толковые и четьи, расширившие корпус первоначальных служебных, указываются дошедшие до наших дней рукописи, сохраняющие эту редакцию [Милтенов, 2008, с. 42; Славова, 1989, с. 120–121; Станков, 2018, с. 139]. При этом ученые все чаще указывают на необходимость более активного использования лексического критерия для установления близости рукописей и текстов, созданных в рамках одной переводческой или редакторской традиции [Милте-нов, 2008, с. 48]. В работах А.А. Пичхадзе показано, что отход от традиционного, «атомистического» подхода и применение сопоставительных приемов исследования лексических особенностей группы рукописей открывает новые перспективы в изучении письменного наследия [Пичхадзе, 2011, с. 17, 53, 54].

Кирилло-мефодиевские и восточноболгарские языковые особенности в письменных памятниках Руси

Известно, что начало церковнославянской книжности на Руси было положено письменными памятниками, переписанными с южноболгарских оригиналов: «Подавляющее большинство произведений переводной древнеславянской письменности возникло у южных славян. Оригинальная письменность восточных славян на церковнославянском языке с самого начала в той или иной степени подражала южнославянским образцам, и проникновение в текст специфически восточнославянских языковых элементов допускалось в минимальной степени» [Пичхадзе, 2011, с. 7].

Это наследие неоднородно. Оно включает рукописи, восходящие к кирилло-мефодиевс-ким переводам богослужебных текстов, свидетельствующих «о преемстве книжных элементов языковой нормы, формирование которой началось одновременно с первыми переводами» [Максимович, 2000, с. 73], и рукописи Преслав-ской книжной школы – ее писцы осуществили редактуру первоначальных переводов и сделали новые переводы [Максимович, 2000, с. 75]).

Исследователями отмечается, что при возможности выбрать из нескольких синонимичных лексем русский книжник ориентируется на восточноболгарский образец: «Однако по всем этим позициям словоупотребление пре-славских памятников совпадает в древнерусским узусом» [Пичхадзе, 2011, с. 54]; и далее: «Восточноболгарская книжность, чрезвычайно популярная на Руси, своим авторитетом поддерживала включение в текст древнерусских элементов, чуждых кирилло-мефодиевскому лексикону» [Пичхадзе, 2011, с. 56].

Таким образом, разнообразие существующих выводов о соотношении кирилло-мефодиевского и симеоновского наследия, различные интерпретации одних и тех же текстологических и лингвистических данных свидетельствуют о сложности изучения истории ранней южнославянской письменной традиции и ее противоречивой судьбы на Руси.

Неоднократно указывалось, что для понимания соотношения западно- и восточноболгарских языковых особенностей, их судьбы в восточнославянской книжной традиции недостаточно исследований отдельных рукописей или использования созданных к настоящему времени лексикографических работ: необходим анализ широкого круга рукописей, анализ лексики в ее реальном, текстовом употреблении (с учетом сведений о происхождении и истории текстов), и не только с учетом ее наличия в тех или иных списках, но и отсутствия [Милтенов, 2020, с. 67, 68, 70].

Цель работы – выявить посредством количественно-статистического анализа соотношение представленности характеризующихся различными текстологическими и/или кодикологическими значениями кирилло-мефодиевских и восточноболгарских лексем в подкорпусах исторического корпуса «Манускрипт».

Материал и методы

Исходным является положение о том, что частота использования компонента синонимического ряда зависит от текстологической истории рукописей, входящих в подкорпус. Поисковым – предположение о том, что количественно-статистическое соотношение между компонентами синонимической пары в группе текстов (подкорпусе), близких своими текстологическими и кодикологическими характеристиками, носит неслучайный характер, зависит от нескольких характеристик компонентов лексической пары, в том числе лингвистических. Оно может быть в различных подкорпусах как типичным, так и индивидуальным для конкретной пары лексем.

Основными вопросами анализа являются: – существует ли корреляция между количественными и статистическими характеристикам слова, входящего в синонимический ряд, и текстологическими и/или кодикологи-ческими характеристиками текстов;

– каковы количественно-статистические отношения компонентов синонимической пары в подкорпусе;

– существует ли зависимость отношения компонентов синонимической пары в подкорпусах от их лингвистических или иных характеристик.

Синонимические пары

Синонимические пары выбраны из перечней, имеющихся в работах [Пичхадзе, 2011, с. 23, 54; Славова, 1989, с. 25–117; Станков, 2018, с. 146, 149, 153; Voss, 1996, S. 100–103], так, чтобы были представлены различные виды соотношения компонентов: разноосновные славянские ( вр h тище влас h ница ; жрътва тр h ба ; ради д h ля ; тъкъмо тъчию ), одноосновные славянские ( вратьникъ вратарь ; оутро заутра ; яко акы ), греческий – славянский ( аминъ право ; ароматъ воня ), заимствованный – заимствованный ( июд h и жидъ ).

Методы

Одним из методов корпусного анализа является сопоставление лингвистических данных, извлеченных из подкорпусов, противопоставленных друг другу по какой-либо характеристике – времени создания, жанру, автору и т. д. Обнаружение между подкорпусами различий в таком случае интерпретируется как существование различий в языке разного времени, жанров или авторов и т. п.

Основным приемом стала статистическая оценка встречаемости лексемы в подкорпусах в сопоставлении со статистической величиной частотности слова в контрольном корпусе (модуль статистики – !. В качестве статистических мер оценки отклонения встречаемости от ожидаемой использованы статистики Log-Likelihood [Ляшевская, Шаров, 2009; Rayson, Garside, 2000], TF*ICTF (Term Frequency * Inverse Collection Term Frequency) [Kwok, 1995; Robertson, 2004; Roelleke, 2013; Roelleke, Wang, 2006; Salton, Yang, 1973; Sparck, 1972; Wu et al., 2008], Weirdness [Бессмерт- ный и др., 2017; Бессмертный, Юй Чуцяо, Ма Пенюй, 2016; Клышинский, Кочеткова, 2014; Ahmad, Gillam, Tostevin, 1999; Gillam, Tariq, Ahmad, 2005]. Статическое значение лексемы сопоставляется с аналогичным синонимичного ему слова. Соотношение статистических значений двух лексем сопоставляется с их соотношением в нескольких подкорпусах.

Известно, что методы TF*ICTF и Weirdness присваивают слову значение тем выше, чем чаще слово встречается в анализируемом подкорпусе и реже – в контрастном корпусе [Бессмертный и др., 2017, с. 83]. Методы считаются эффективным при работе с небольшими коллекциями для извлечения часто встречающихся терминов [Бессмертный, Юй Чуцяо, Ма Пенюй, 2016, с. 1097, 1098]. Относительно Weirdness экспериментальным путем установлено, что для «обычных слов формула странности возвращает значения, близкие к 1, а для терминов – значения, намного превышающие 1, так как в этом случае знаменатель формулы близок к 0» [Бессмертный и др., 2017, с. 83]. В метрике LL используются не только относительные, но и абсолютные частоты слов [Ляшевская, Шаров, 2009, с. VIII], значения меры LL чувствительны как к редко, так и часто встречающимся словам. Для метрики также известно значение, превышение которого дает возможность отнести слово к лексемам, значимым для подкорпуса, – 15.31 [Ляшевская, Шаров, 2009, с. VIII].

Каждая из мер имеет свои диапазоны значений. Наиболее высокие значения назначает статистика LL – десятки, а то и сотни условных единиц, значения Weirdness колеблются около 1,0, величины TF*ICTF существенно меньше 1,0. Для приведения значений к сопоставимым величинам используется нормализация данных с помощью логарифмирования 2.

Текстовый материал

В качестве контрольного (контрастного) корпуса выступает коллекция рукописей корпуса «Манускрипт». Подкорпуса сформированы из текстов, характеризующихся аналогичными текстологическими и/или кодикологическими свойствами, противопоставленными по этим свойствам другим рукописям корпуса. Первым основанием для противопоставления выбрана графика списка – глаголический / кириллический алфавит (далее – Глаг 3, Кир 4).

Вторым – служебный / неслужебный тип кириллического текста (далее – КирСл 5, КирНСл 6). Особо из четырех текстов XI в., восходящих к восточноболгарской переводческой традиции, сформирован отдельный подкорпус (далее – ВБ 7).

Третий – кирилло-мефодиевский / пре-славский: подкорпус, включающий Христи-нопольский апостол XII в. (содержащий «древнюю редакцию Апостола, осложненную преславскими чтениями» [Пентковская, 2009, с. 19]) и глаголическую Псалтырь Димитрия XI в., (далее – ПсАп-ЗБ 8), и подкорпус, в который входят Толстовский апостол конца XIV в. («яркий представитель преславской редактуры» [Новак, 2015, с. 232]) и Чудовская псалтырь XI в. – представитель симеоновской книжной школы (далее – ПсАп-ВБ 9).

Инструментарий

Информационно-аналитическая система «Манускрипт» в настоящее время является одной из немногих систем хранения, обработки и демонстрации машиночитаемых транскрипций средневековых славянских письменных памятников. Корпус содержит транскрипции славянских текстов X– XV вв. общим объемом более 3,5 млн словоупотреблений, имеет мета, аналитическую и лингвистическую разметку, снабжен корпусным менеджером, обеспечивающим подготовку транскрипций, лемматизацию текстов, формирование подкорпусов, выборку лингвистических единиц и их демонстрацию (о корпусе см., например: [Baranov, 2018; Баранов, 2019а]).

Модуль статистики 10 предназначен: а) для демонстрации распределения единиц корпуса (символов, текстовых форм, лемм) в рукописи или нескольких рукописях; б) для нахождения количественных и/или статистических характеристик (соответствия или несоответствия ожидаемым статистическим характеристикам) слов в подкорпусе (подкорпусах). Модуль позволяет на основе метаданных транскрипций сформировать подкорпус, сохранить его для многократного исполь- зования, указать тип анализируемой единицы и ее маску, выбрать контрольный (контрастный) корпус, указать меру статистической оценки. Результат выводится на экран в виде таблицы со сведениями о количестве и статистическом значении лингвистических единиц в подкорпусах [Baranov, Gnutikov, 2018; Баранов, 2019б].

Возможности модуля статистики сформировать подкорпусы на основе выборок необходимых документов и извлечь из них с помощью маски регулярных выражений все текстовые формы анализируемых слов и сведения об их количественных и статистических характеристиках позволили получить информацию о соответствии или несоответствии (значимости) частотности слов их средней частоте в контрастном (контрольном) корпусе, роль которого выполнила выборка, включающая практически все транскрипции корпуса.

Результаты. Количественные и статистические данные

Синонимический ряд жрътва – тр h ба

Маски регулярных выражений: ^ж[ьъе]? р[ьъе]?т.?в.?[^н]$ – ^треб([ауъые]|о[юи]|ах[ъ]? |ам[ьъи]?)$

Слово жрътва зафиксировано во всех подкорпусах (табл. 1, 2). Относительное количество во всех подкорпусах, кроме ПсАп-ВБ, в котором оно значительно ниже, примерно одинаковое. Слово тр h ба отсутствует в глаголическом подкорпусе (см. табл. 3, 4). Максимальное относительное количество – в подкорпусе четырех восточноболгарских рукописей; минимальное – в подкорпусе кириллических служебных.

Количественные соотношения соответствуют текстологическим свойствам списков: слово жрътва не характерно для подкорпуса рукописей, восходящих к ЗБ редакции, слово тр h ба – отсутствует в подкорпусе глаголических рукописей и часто используется в рукописях, созданных в Восточной Болгарии.

Статистическая активность слова жрътва по-разному оценивается мерами: LL выделяет слово в КирНСл, ВБ, ПсАп-ВБ, Weirdness – в КирСл, ВБ, ПсАп-ЗБ. Статистическая активность слова тр h ба также различается: LL – в КирСл, КирНСл, ВБ, ПсАп-ВБ, Weirdness – в ВБ и ПсАп-ВБ. При этом оценка статистиками в двух последних подкорпусах совпадает, а в LL выше, чем в КирСл и КирНСл.

Средние логарифмированных статистических метрик (см. рис. 1) показывают су-

Таблица 1. Количественные и статистические значения слова жрътва

Table 1. Quantitative and statistical values of the word zhrъtva ‘sacrifice’

Подкорпус

Все рукописи

Глаг

Кир

КирСл

КирНСл

ВБ

ПсАп-ВБ

ПсАп-ЗБ

Объем подкорпуса

2986201

97138

2889063

1583956

1329303

262429

103908

99577

Объем выборки

629

21

608

389

197

95

4

34

Среднее

0,02106

0,02162

0,02104

0,02456

0,01482

0,03620

0,00385

0,03414

LL

2,01357

2,00270

7,48186

21,84683

23,06930

23,73787

8,49934

TF*ICTF

0,00079

0,00077

0,00090

0,00054

0,00133

0,00014

0,00126

Weirdness

1,02473

0,99753

1,16408

0,70246

1,71590

0,18247

1,61845

Таблица 2. Логарифмированные количественные и статистические значения слова жрътва

Table 2. Logarithmic quantitative and statistical values of the word zhrъtva ‘sacrifice’

Подкорпус

Глаг

Кир

КирСл

КирНСл

ВБ

ПсАп-ВБ

ПсАп-ЗБ

ln(LL)

0,69991

0,69450

2,01248

3,08406

3,13850

3,16707

2,13999

ln(TF*ICTF)

-7,14348

-7,16912

-7,01312

-7,52394

-6,62258

-8,87387

-6,67664

ln(Weirdness)

0,02443

-0,00247

0,15193

-0,35317

0,53994

-1,70117

0,48147

ln(средн.)

-3,83420

-3,86110

-3,70669

-4,21179

-3,31869

-5,55980

-3,37716

Таблица 3. Количественные и статистические значения слова тр h ба

Table 3. Quantitative and statistical values of the word trěba ‘sacrifice’

Подкорпус

Все рукописи

Глаг

Кир

КирСл

КирНСл

ВБ

ПсАп-ВБ

ПсАп-ЗБ

Объем подкорпуса

2986201

97138

2889063

1583956

1329303

262429

103908

99577

Объем выборки

279

0

279

78

219

105

41

13

Среднее

0,00934

0,00000

0,00966

0,00492

0,01647

0,04001

0,03946

0,01306

LL

0,00000

2,12333

30,27670

39,68686

126,35074

54,06898

3,23649

TF*ICTF

0,00000

0,00039

0,00020

0,00066

0,00161

0,00159

0,00053

Weirdness

0,00000

1,02993

0,52518

1,75704

4,26717

4,20821

1,39234

Таблица 4. Логарифмированные количественные и статистические значения слова тр h ба

Table 4. Logarithmic quantitative and statistical values of the word trěba ‘sacrifice’

Подкорпус

Глаг

Кир

КирСл

КирНСл

ВБ

ПсАп-ВБ

ПсАп-ЗБ

ln(LL)

0,75299

3,41038

3,68102

4,83906

3,99026

1,17449

ln(TF*ICTF)

-7,84936

-8,51719

-7,32327

-6,43152

-6,44402

-7,54263

ln(Weirdness)

0,02949

-0,64401

0,56363

1,45095

1,43704

0,33099

ln(средн.)

-4,64006

-5,31356

-4,10592

-3,21861

-3,23252

-4,33857

0,000

-0,500

— — Жрътва Трhба

-3,000

-3,500

Рис. 1. Жрътва – тр h ба . Средние логарифмических значений ln(LL), ln(TF*ICTF), ln(Weirdness)

Fig. 1. Zhrъtva – trěba ‘sacrifice’. Mean of logarithmic values ln(LL), ln(TF*ICTF), ln(Weirdness)

щественные отличия между статистической активностью слов как между собой, так и между подкорпусами: а) в Глаг и ПсАп-ЗБ преобладает жрътва , в ВБ, ПсАп-ВБ – тр h ба , в КирСл – жрътва , в КирНСл – тр h ба ; б) при большей статистической активности жрътва максимальный контраст обнаруживается в ПсАп-ЗБ, минимальный – в Кир и КирСл; в) при большей активности тр h ба – максимальная контрастность в ПсАп-ВБ, меньшая – в ВБ, еще меньшая – в КирНСл.

Аналогично были исследованы и все другие пары лексем. Приведем итоговые диаграммы.

Обсуждение

Использованная в работе методика сопоставления статистических значений слов в текстовых подкорпусах позволяет увидеть ряд закономерностей в соотношении западноболгарских и восточноболгарских компонентов синонимического ряда (см. рис. 2).

Жрътва – тр h ба

Ради – д h ля

0,000

-0,500

-1000              •

2,000

1,000

.                 i -- Жрътва

-1,500          „   .   1

f      ' /          Трhба

0,000

-1,000 ^Ч^^^-А^2       Ради

'-аА^      Дhля

7 U U U   - /         1 /

Л

-2,UUU                v

-Z,?UU

-4,000

-3,000

Тъкъмо – тъчию

Яко – акы

2,000

1,000

0,000         / \ у

,                                   Тъкъмо

  • -1,000                                Тъчию

  • -2,000                     Г

-3,000

2,000

1,000               ^~A

0,000   / / \\    -- Яко

-1,000 ^WA ^/    Акы

-2,000

-3,000

Вр h тище – влас h ница                         Июд h и – жидъ

0 ООО

-0,500

  • -1,000               

Врhтище

Власhница

  • -2,500 х    '\z

-3,000

1,000

д

0,000                          .

^ ^ ^

  • < V                   --Июд-

  • -1,000 ч Y^ ч^А       Жид-

V .-.. .• х/

-2,000

-3,000

Ароматъ – воня

Аминъ – право

и,иии

  • -1,000     ^" Ч^4 ч^ "^

,       \                         Ароматъ

  • -2,000    '

\                       Вопя

-3,000

-0,500

-1,000    ' 4s s^’

-1,500                               Аминъ

-2,000                                 Право

-2,500

-3,000

-4,UUU

Рис. 2. Средние логарифмических значений десяти пар синонимов (см. также с. 13 )

Fig. 2. Average logarithmic values of ten pairs of synonyms (see also p. 13)

Оутро – заоутра                                Вратьникъ – вратарь

0,000

-2,800

-0,500

-2,850 ^     х-> ^

-1,000

-2,900    ^ ^/

— — Оутро

к       - - - Вратьникъ

Заоутра /

  • -3,000             /  .                о

  • -3,050            1  \              Вратарь

2,000

-3,100          /        ♦

-2,500

-3,150   — —

-3,000

-3,200

Рис. 2. Окончание

Fig. 2. Final part

  • 1.    Во всех синонимических рядах статистическая активность западноболгарского компонента выше (или он единственно возможен) в подкорпусе глаголических текстов и подкорпусе ПсАп-ЗП, включающем списки, восходящие к кирилло-мефодиевской традиции. По этой особенности подкорпус глаголических текстов отчетливо противопоставлен подкорпусу, включающему все кириллические рукописи, а подкорпус ПсАп-ЗП – подкорпусу ПсАп-ВБ, содержащему списки, восходящие к восточноболгарским рукописям.

  • 2.    Отчетливая предпочтительность восточноболгарских компонентов обнаруживается в подкорпусах ВБ и ПсАп-ВБ, включающих тексты, восходящие к Преславской традиции. О преимущественном тяготении восточноболгарского компонента именно восточноболгарской книжной школе свидетельствует и последовательная его большая активность в подкорпусе неслужебных рукописей КиНСл по сравнению с текстами подкорпуса более архаичных служебных списков.

  • 3.    В парах с заимствованными словами греческий компонент в глаголическом подкорпусе и в ПсАп-ЗБ также предпочтительнее, чем негреческий, ср. пары июд h и жидъ , ароматъ воня , аминъ право ( ароматъ в

  • 4.    Словообразовательные одноосновные синонимы, наряду с похожим в обоих случаях последовательно более высоким статистическим значением восточноболгарского лексического компонента в трех подкорпусах – КирСл, КирНСл и ВБ, – достаточно индивидуальны: имеют статистическое равенство обоих компонентов и несколько более высокое значение восточноболгарского в паре оутро заоут-ра , с одной стороны, и более высокие значения восточнославянского вратарь в Кир, КирСл и ВБ при преобладании западноболгарского вратьникъ в КирНСл – с другой.

  • 5.    Пары, в которых один из компонентов в одном или нескольких подкорпусах отсут-

  • ствует, демонстрируют те же тенденции и соотношения компонентов синонимического ряда, что и в тех, где компоненты встречаются во всех подкорпусах: в паре врhтище – власhница активность второго компонента выше в подкорпусе КирНСл рукокописей, в паре ароматъ – воня слово ароматъ статистически более активно в подкорпусе служебных списков КирСл, а воня наименее предпочтительна в ПсАп-ЗБ, чем в КирНСл, ВБ, ПсАп-ВБ; в паре вратьникъ – вратарь второй компонент имеет стабильно высокую статистическую активность во всех кириллических подкорпусах.

Обнаруженная корреляция членов ряда и текстологических характеристик рукописей характеризует лишь славянские разноосновные синонимические ряды жрътва тр h ба , ради д h ля , тъкъмо тъчию , яко акы . В рядах, членами которых являются заимствованные слова и одноосновные словообразовательные синонимы, отношения несколько иные.

ПсАп-ЗБ отсутствует). В паре аминъ право в КирСл, КирНСл, ВБ, ПсАп-ВБ нет отчетливого предпочтения право – статистически более активным является западноболгарское аминъ . В паре июд h и жидъ картина аналогичная, за исключением преобладания в ПсАп-ВБ слова жидъ . Вторым отличием этой группы является иное соотношение статистической активности западноболгарского компонента между КирСл и КирНСл, с одной стороны, и ВБ и ПсАп-ВБ – с другой: если в славянских парах ( жрътва тр h ба и др.) первый компонент был более предпочтителен в ВБ и ПсАп-ВБ, чем в КирСл и КирНСл, то в парах греческим компонентом июд h и жидъ , аминъ право и ароматъ воня ситуация обратная. Особенностью соотношений компонентов в этих трех рядах является, в отличие от славянских рядов, и их существенная инидивидуальность по отношению друг к другу.

Обнаруженные закономерности демонстрируют, с одной стороны, типичность соотношения компонентов всех рассмотренных синонимических рядов в том или ином подкорпусе, с другой стороны – индивидуальность соотношения синонимов. Важным представляется существование связи между соотношением синонимов и их лексическими и лексико-словообразовательными характеристиками: заметно отличаются соотношения в группах разноосновных и одноосновных синонимов, в славянская паре синонимов и паре, одним из компонентов которой является греческое по происхождению слово.

Продемонстрированная корреляция между статистическими соотношениями западно-олгарского и восточноболгарского компонентов синонимического ряда и текстологическими и кодикологическими характеристиками текстов (глаголический – кириллический, ки-рилло-мефодиевский – восточноболгарский) ожидаема, но одновременно является дополнительной достаточно надежной характеристикой текста / рукописи или группы текстов / рукописей наряду с традиционно используемыми критериями, основанными на соотношениях «есть – нет» и на соотношениях «больше – меньше» / «чаще – реже» в абсолютном или относительном выражении.

Наличие такой корреляции позволяет с доверием относиться и к различиям в соотношении синонимических рядов, компоненты которых характеризуются отличающимися лексическими или лексико-словообразовательными свойствами, а кроме того, увидеть различия в степени устойчивости таких соотношений – последовательную, типовую про- тивопоставленность западноболгарской и восточноболгарской разноосновных славянских лексем ряда в текстологически и кодикологически противопоставленных текстах и индивидуальную конфигурацию соотношений в паре одноосновных словообразовательных синонимов или в паре, компонентом которой является греческое заимствование.

Полученные результаты позволяют сделать несколько выводов относительно вопроса о маркированности / немаркированности пре-славской лексики и о представленности кирил-ло-мефодиевских и восточноболгарских лексем в рукописях, созданных на Руси.

  • 1.    Аналогичность, а в ряде случаев и идентичность соотношений компонентов синонимических пар как в случаях представленности обоих во всех подкорпусах, так и в случаях отсутствия одного из них в некоторых из подкорпусов позволяют сделать вывод о том, что отсутствие компонента синонимической пары в подкорпусе является одним из двух аналогичных вариантов его соотношения с другим компонентом: компонент отсутствует, или его статистическая активность ниже или значительно ниже альтернативного компонента.

  • 2.    Не имеющая исключений противопоставленность компонентов исследованных синонимических рядов в глаголических и архаичных рукописях подкорпуса ПсАп-ЗБ, с одной стороны, и в текстах подкорпусов ВБ, ПсАп-ВБ – с другой, свидетельствует об устойчивых лексических предпочтениях этих текстологически противопоставленных групп текстов при использовании в них и того и другого компонентов. Статистическая предпочтительность восточноболгарских компонентов может отличаться в подкорпусах (ср. их соотношение в КирСл и КирНСл), выступая своеобразным маркером неслужебных рукописей.

  • 3.    Есть основания говорить о том, что предпочтительность того или иного компонента синонимического ряда зависит не только от того, в рамках какой писцовой школы он был переведен, создавался или редактировался, но и от собственно языковых характеристик слов пары: разноосновные славянские компоненты последовательно противопоставляются в текстологичес-

  • ки контрастных друг другу подкорпусах (текстах и рукописях); одноосновные славянские компоненты при аналогичном противопоставлении двух архаических подкорпусов (Глаг и ПсАп-ЗБ) не имеют подобного последовательного противопоставления в ряду кириллических; греческий и негреческий компоненты ряда конкурируют друг с другом, причем первый в ряде кириллических подкорпусов не уступает, а то и превосходит в статистической активности негреческий.
  • 4.    В восточнославянских списках, которые и составляют бóльшую часть проанализированного материала, зафиксированы как западноболгарские, так и восточноболгарские компоненты синонимических рядов. Предпочтительность того или иного компонента зависит как от текстологических и кодикологичес-ких характеристик кириллических рукописей, так и от собственно языковых свойств лексем. При общей предпочтительности восточноболгарского компонента в ряде синонимических рядов наблюдается бóльшая статистическая активность западноболгарского компонента, например, в парах яко акы , аминъ право , вратьникъ вратарь .

Заключение

Исследование доказало существование корреляции между текстами, характеризующимися различными текстологическими и/ или кодикологическими свойствами, и соотношением в них компонентов синонимического ряда, а также наличие связи между соотношением компонентов ряда в различных подкорпусах и лексическими характеристиками синонимов.

Значимым результатом является доказательство результативности использования корпусных и статистических методов и приемов для анализа лингвистических данных средневековых славянских текстов и рукописей, в частности, для решения вопросов в рамках кирилло-мефодиевской проблематики.

Безусловно, полученные результаты должны быть подтверждены и уточнены в ходе анализа и других синонимических кирилло-мефодиевских – восточноболгарских лексических рядов.

Список литературы Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)

  • Баранов В. А., 2019а. Создание и использование исторических корпусов славянских письменных памятников // Scripta & e-Scripta. Vol. 19. C. 33–57.
  • Баранов В. А., 2019б. Модуль статистики исторического корпуса «Манускрипт»: функции и демонстрация данных. 2 // И. А. Бодуэн де Куртенэ и мировая лингвистика. В 2 т. Т. 1: Междунар. конф.: VII Бодуэновские чтения (Казан. федер. ун-т, 28–31 окт. 2019 г.): тр. и материалы. Казань: Изд-во Казан. ун-та. С. 24–30.
  • Бессмертный И. А., Нугуманова А. Б., Мансурова М. Е., Байбурин Е. М., 2017. Метод контрастного извлечения редких терминов из текстов на естественном языке // Научно-технический вестник информационных технологий, механики и оптики. Т. 17, № 1. С. 81–91. URL: http://ntv.ifmo.ru/file/article/16383.pdf
  • Бессмертный И. А., Юй Чуцяо, Ма Пенюй, 2016. Статистический метод извлечения терминов из китайских текстов без сегментации фраз // Научно-технический вестник информационных технологий, механики и оптики. Т. 16, № 6. С. 1096–1102. URL: http://ntv.ifmo.ru/file/article/16157.pdf
  • Димитрова А., 2016. Златоструят в преводаческата дейност на старобългарските книжовници. София: Авалон. 456 с.
  • Добрев И., 1979. Текстът на Добромировото евангелие и втората редакция на старобългарските богослужебни книги // Български език. Т. 29, № 1. С. 9–21.
  • Желязкова В., 2016а. Паримейные чтения в четьих списках Книги Исход // Studia Ceranea. Т. 6. С. 225–240.
  • Желязкова В., 2016б. Книга Исход в южнославянских списках XV–XVI вв. // Studi Slavistici. Vol. 13. С. 243–256.
  • Илиев И., 2016. Тълкуванието на Книга на пророк Даниил от Иполит Римски в старобългарската литература: автореферат на дисертация за присъждане на образователната и научна степен «доктор». София. 67 с.
  • Клышинский Э. С., Кочеткова Н. А., 2014. Метод извлечения технических терминов с использованием меры странности // Новые информационные технологии в автоматизированных системах. № 17. С. 365–370. URL: https://elibrary.ru/download/elibrary_21527004_14693581.pdf
  • Ляшевская О. Н., Шаров С. А., 2009. Введение к частотному словарю современного русского языка // Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник. С. V–XXII. URL: http://dict.ruslang.ru/freq.pdf
  • Максимович К. А., 2000. Славянизмы современного русского языка и кирилло-мефодиевское наследие // Folia Slavistica: Рале Михайловне Цейтлин. М.: [б. и.]. С. 72–84.
  • Милтенов Я., 2008. Лексический критерий как способ атрибуции преславских текстов (на материале славянского перевода Диалогов Псевдо-Кесария) // Славяноведение. № 5. С. 41–49.
  • Милтенов Я., 2020. Преславските лексикални маркери. 1. Опит за въведение // Palaeobulgarica. Vol. 44, № 2. С. 54–79.
  • Новак М. О., 2015. Лексика древнеславянского перевода апостола: в поисках образа и смысла // Перевод как средство взаимодействия культур. № 1. С. 230–240.
  • Новикова А. С., 2013. К вопросу об истории создания евангельского текста Чудовской рукописи // Славянские языки и литературы в синхронии и диахронии: материалы Междунар. научн. конф. М.: [б. и.]. С. 268–273.
  • Пентковская Т. В., 2009. Восточнославянские и южнославянские переводы богослужебных книг XIII–XIV вв.: Чудовская и афонская редакции Нового Завета и Иерусалимский Типикон: дис. ... д-ра филол. наук. М. 497 с.
  • Пичхадзе А. А., 2011. Переводческая деятельность в домонгольской Руси: лингвистический аспект. М.: Рукопис. памятники Древ. Руси. 408 с.
  • Славова Т., 1989. Преславска редакция на Кирило-Методиевия старобългарски евангелски превод // Кирило-Методиеви студии. Кн. 6. София: Кирило-Методиевски научен център при БАН. С. 15–129.
  • Славова Т., 2013. Славянският превод на Посланието на патриарх Фотий до княз Борис-Михаил. София: Св. Климент Охридски. 344 с.
  • Станков Р., 2018. Проблема «преславской» и «кирилло-мефодиевской» лексики в древнеболгарском переводе Хроники Георгия Амартола // Преславска книжовна школа. Т. 18. С. 121–158.
  • Шафарик П., 1860/1861. О происхождении и родине глаголитизма // Чтения в Императорском Обществе Истории и Древностей Российских при Московском Университете. № 4. Материалы Славянские. ІІІ. М.: Унив. тип. С. 29–30.
  • Яцко В. А., 2014. Компьютерная лингвистика или лингвистическая информатика // Научно-техническая информация. Серия 2, Информационные процессы и системы. № 5. С. 1–10.
  • Ahmad K., Gillam L., Tostevin L., 1999. University of Surrey Participation in TREC8: Weirdness Indexing for Logical Document Extrapolation and Retrieval (Wilder) // Proc. 8th Text Retrieval Conference TREC. Gaithersburg: [s. n.]. P. 717–724.
  • Baranov V., 2018. A Text Corpus of Medieval Manuscripts as a Goal an d a Tool for Linguistic Research // Editing Mediaeval Texts from a Differ ent An gle: Slavon ic an d Multilingual Traditions. Leuven ; P. ; Bristol: Peeters. P. 283–308.
  • Baranov V. A., Gnutikov R. M., 2018. The Statistics and n-Gram Modules of the Historical Corpus “Manuscript” // Digital and Analytical Approaches to the Written Heritage: Proceedings of the 7th International Conference El‘Manuscript “Textual Heritage and Information Technologies”. Sofia: Gutenberg. P. 9–28.
  • Gilllam L., Tariq M., Ahmad K., 2005. Terminology and the Construction of Ontology // Terminology, vol. 11, iss 1. P. 55–81.
  • Jagić V., 1913. Entstehungsgeschichte der kirchenslavischen Sprache. Berlin: Weidmann. 540 p.
  • Kwok K. L., 1995. A Network Approach to Probabilistic Information Retrieval // ACM Transactions on Information Systems. Vol. 13, № 3. P. 324–353.
  • Rayson P., Garside R., 2000. Comparing Corpora Using Frequency Profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000.
  • Hong Kong. P. 1–6. URL: http://ucrel.lancs.ac.uk/people/paul/publications/rg_acl2000.pdf
  • Robertson S., 2004. Understanding Inverse Document Frequency: On Theoretical Arguments for Idf // Journal of Documentation. № 60. P. 503–520. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.438.2284&rep=rep1&type=pdf
  • Roelleke T., 2013. Information Retrieval Models: Foundations and Relationships. Cham: Springer. 141 p.
  • Roelleke T., Wang J., 2006. A Parallel Derivation of Probabilistic Information Retrieval Models // Proceedings of the 29th Annual ACM SIGIR Conference on Research and Development in Information Retrieval. Seattle ; N. Y.: ACM. P. 107–114.
  • Salton G., Yang C. S., 1973. On the Specification of Term Values in Automatic Indexing // Journal of Documentation. Vol. 29. P. 351–372.
  • Sparck J. K., 1972. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. Vol. 28. P. 11–21.
  • Voss Chr., 1996. Die Vertretung von lexikalischen textologischen Dubletten der Dichotomie Ochrid-Preslav in kirchenslavischen Abschriften der Paränesis Ephreaims des Syrers. Ein Beitrag zur Datierung der altbulgarischen Erstübersetzung // Anzeiger für slavischen Philologie. Bd. 24. S. 95–127.
  • Wu H. C., Luk R. W. P., Wong K. F., Kwok K. L., 2008. Interpreting TF-IDF Term Weights as Making Relevance Decisions // ACM Transactions on Information Systems. Vol. 26, № 3. Art. 13. URL: https://www.scss.tcd.ie/khurshid.ahmad/Research/Sentiments/tfidf_relevance.pdf
Еще