Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)
Автор: Баранов В.А.
Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics
Рубрика: Главная тема номера
Статья в выпуске: 6 т.22, 2023 года.
Бесплатный доступ
Представлено соотношение статистических характеристик так называемой кирилло-мефодиевской и восточноболгарской лексики в группах текстов, характеризующихся различными текстологическими и / или кодикологическими значениями: глаголический - кириллический, служебный - неслужебный, архаичный - восточноболгарский. Рассмотрены синонимические пары врѣтище - власѣница; жрътва - трѣба; ради - дѣля; тъкъмо - тъчию; вратьникъ - вратарь; оутро - заутра; яко - акы; аминъ - право; ароматъ - воня; июдѣи - жидъ. Применен метод сопоставления наблюдаемого в подкорпусе статистического значения слова с ожидаемым. В качестве статистик использованы меры Log-Likelihood, TF*ICTF и Weirdness. Компоненты синонимических пар извлечены из подкорпусов и оценены с помощью модуля статистики исторического корпуса. Сопоставление статистической предпочтительности компонентов синонимических пар в разных подкорпусах позволило подтвердить известную приуроченность каждого из компонентов противопоставленным друг другу архаичным и преславским текстам, показать различия в соотношении компонентов пар в разных подкорпусах и сделать выводы о зависимости препочтительности компонентов от лексических и лексико-словообразовательных характеристик лексем.
Кирилло-мефодиевская лексика, восточноболгарская лексика, синонимические пары, лингвистическая статистика, текстовый корпус
Короткий адрес: https://sciup.org/149145102
IDR: 149145102 | DOI: 10.15688/jvolsu2.2023.6.1
Текст научной статьи Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)
DOI:
Традиционно в историко-лингвистических исследованиях при анализе материала письменных источников используют количественные сведения об анализируемых фактах, которые приводятся в абсолютных или относительных величинах или описательно: «присутствует – отсутствует», «больше – меньше», «чаще – реже», «значительно чаще – значительно реже», «преобладает – единично» и под. Однако подобного рода количественные сопоставления не учитывают, например, существенного фактора случайности отсутствия либо единичной представленности языковой единицы в некотором документе (группе документов) или отсутствия сведений о значимости (незначимости) обнаруженного различия в частоте употребления одной и той же единицы в нескольких документах. Чрезвычайно критичным отсутствие сведений о значимости (незначимости) выявленных различий становится в том случае, когда нет возможности проверить выводы на большом объеме текстового материала: например, количество рукописей начала славянской письменности, которые сохранились до настоящего времени, крайне ограничено.
Вопрос о кирилло-мефодиевских и преславских лексических элементах в древнеболгарской письменности
Одним из наиболее активно обсуждающихся на протяжении более чем ста пятидесяти лет вопросов из области кирилло-мефо-диевской проблематики является вопрос о лексической маркированности кирилло-мефо-диевских текстов, с одной стороны, и преслав-ских – с другой [Димитрова, 2016; Добрев, 1979; Желязкова, 2016а; 2016б; Илиев, 2016; Милтенов, 2008; 2020; Новикова, 2013; Славова, 1989; 2013; Станков, 2018; Шафарик, 1860/1861; Jagić, 1913; Voss, 1996; и др.] (историографию вопроса см., например, в: [Станков, 2018, с. 121–140]). Изучение древнеболгарских глаголических и кириллических рукописей показало, что переводчики, редакторы, правщики, переписчики использовали во многом разные графико-орфографические и языковые средства для создания текста. Отчетливые различия обнаружены между наиболее древними (кирилло-мефодиевскими / охридско-моравскими) или восходящими к ним письменными памятниками и рукописями, созданными в период Первого Болгарского царства. Наиболее ярко эти различия проявляются в лексике: при наличии в древнеболгарских рукописях синонимов в конкретном списке наблюдается предпочтение одних лексем другим. В работах представлены перечни таких синонимических рядов, извлеченных из различных текстов и рукописей (см., например: [Славова, 1989, с. 25–117; Станков, 2018, с. 141–153; Voss, 1996, S. 100–103]), определен круг памятников, которые ориентированы на различные переводческие и редакторские традиции, и соответственно в которых предпочитается кирилло-мефодиевский или пре-славский компонент синонимического ряда, выявлены греческие соответствия славянских лексем, предложены различные гипотезы о историко-культурных и языковых связях и отно- шениях двух болгарских книжных центров в период второй половины IX – начала XI века.
Исследователями по-разному понимается природа лексических различий: от утверждений о сознательно, последовательно и системно осуществляемой в Преславской книжной школе редакционной работе над древнейшими переводами и работе над новыми (см., например: [Мил-тенов, 2008, с. 43; Славова, 1989, с. 19]) до категорического отрицания существования особых преславских лексем: «Вывод ясен, преславской редакции как таковой нет. Это означает, что нет и преславской лексики» [Станков, 2018, с. 137], «...“преславская” лексика просто не существует и что так называемые “преславизмы” не могут быть лексическими маркерами в поисках текстов преславского происхождения» [Станков, 2018, с. 139].
Болгарский исследователь Татьяна Сла-вова указывает на наличие трех типов соотношений в синонимических рядах: оба компонента являются славянскими, славянское слово соответствует непереведенному греческому, компоненты являются словообразовательными синонимами [Славова, 1989, с. 117], Явор Милтенов к этому ряду добавляет компоненты-словосочетания [Милтенов, 2008, с. 42].
В работах последних лет медиевисты приходят к выводу о динамичности и неоднородности возникновения, существования явления, которое традиционно называют языковыми преславизмами, подчеркивают, что основой переводческого и редакторского подхода к тексту в Восточной Болгарии являлся выбор предпочитаемых языковых средств из имеющихся – лексических синонимов и грамматических вариантов, последовательное использование которых делает их маркированными [Милтенов, 2020, с. 60, 63, 65].
Другое направление исследований – выявление текстологических различий между первоначальными и преславскими переводами: исследователями показано, что в Восточной Болгарии были созданы особого типа тексты – толковые и четьи, расширившие корпус первоначальных служебных, указываются дошедшие до наших дней рукописи, сохраняющие эту редакцию [Милтенов, 2008, с. 42; Славова, 1989, с. 120–121; Станков, 2018, с. 139]. При этом ученые все чаще указывают на необходимость более активного использования лексического критерия для установления близости рукописей и текстов, созданных в рамках одной переводческой или редакторской традиции [Милте-нов, 2008, с. 48]. В работах А.А. Пичхадзе показано, что отход от традиционного, «атомистического» подхода и применение сопоставительных приемов исследования лексических особенностей группы рукописей открывает новые перспективы в изучении письменного наследия [Пичхадзе, 2011, с. 17, 53, 54].
Кирилло-мефодиевские и восточноболгарские языковые особенности в письменных памятниках Руси
Известно, что начало церковнославянской книжности на Руси было положено письменными памятниками, переписанными с южноболгарских оригиналов: «Подавляющее большинство произведений переводной древнеславянской письменности возникло у южных славян. Оригинальная письменность восточных славян на церковнославянском языке с самого начала в той или иной степени подражала южнославянским образцам, и проникновение в текст специфически восточнославянских языковых элементов допускалось в минимальной степени» [Пичхадзе, 2011, с. 7].
Это наследие неоднородно. Оно включает рукописи, восходящие к кирилло-мефодиевс-ким переводам богослужебных текстов, свидетельствующих «о преемстве книжных элементов языковой нормы, формирование которой началось одновременно с первыми переводами» [Максимович, 2000, с. 73], и рукописи Преслав-ской книжной школы – ее писцы осуществили редактуру первоначальных переводов и сделали новые переводы [Максимович, 2000, с. 75]).
Исследователями отмечается, что при возможности выбрать из нескольких синонимичных лексем русский книжник ориентируется на восточноболгарский образец: «Однако по всем этим позициям словоупотребление пре-славских памятников совпадает в древнерусским узусом» [Пичхадзе, 2011, с. 54]; и далее: «Восточноболгарская книжность, чрезвычайно популярная на Руси, своим авторитетом поддерживала включение в текст древнерусских элементов, чуждых кирилло-мефодиевскому лексикону» [Пичхадзе, 2011, с. 56].
Таким образом, разнообразие существующих выводов о соотношении кирилло-мефодиевского и симеоновского наследия, различные интерпретации одних и тех же текстологических и лингвистических данных свидетельствуют о сложности изучения истории ранней южнославянской письменной традиции и ее противоречивой судьбы на Руси.
Неоднократно указывалось, что для понимания соотношения западно- и восточноболгарских языковых особенностей, их судьбы в восточнославянской книжной традиции недостаточно исследований отдельных рукописей или использования созданных к настоящему времени лексикографических работ: необходим анализ широкого круга рукописей, анализ лексики в ее реальном, текстовом употреблении (с учетом сведений о происхождении и истории текстов), и не только с учетом ее наличия в тех или иных списках, но и отсутствия [Милтенов, 2020, с. 67, 68, 70].
Цель работы – выявить посредством количественно-статистического анализа соотношение представленности характеризующихся различными текстологическими и/или кодикологическими значениями кирилло-мефодиевских и восточноболгарских лексем в подкорпусах исторического корпуса «Манускрипт».
Материал и методы
Исходным является положение о том, что частота использования компонента синонимического ряда зависит от текстологической истории рукописей, входящих в подкорпус. Поисковым – предположение о том, что количественно-статистическое соотношение между компонентами синонимической пары в группе текстов (подкорпусе), близких своими текстологическими и кодикологическими характеристиками, носит неслучайный характер, зависит от нескольких характеристик компонентов лексической пары, в том числе лингвистических. Оно может быть в различных подкорпусах как типичным, так и индивидуальным для конкретной пары лексем.
Основными вопросами анализа являются: – существует ли корреляция между количественными и статистическими характеристикам слова, входящего в синонимический ряд, и текстологическими и/или кодикологи-ческими характеристиками текстов;
– каковы количественно-статистические отношения компонентов синонимической пары в подкорпусе;
– существует ли зависимость отношения компонентов синонимической пары в подкорпусах от их лингвистических или иных характеристик.
Синонимические пары
Синонимические пары выбраны из перечней, имеющихся в работах [Пичхадзе, 2011, с. 23, 54; Славова, 1989, с. 25–117; Станков, 2018, с. 146, 149, 153; Voss, 1996, S. 100–103], так, чтобы были представлены различные виды соотношения компонентов: разноосновные славянские ( вр h тище – влас h ница ; жрътва – тр h ба ; ради – д h ля ; тъкъмо – тъчию ), одноосновные славянские ( вратьникъ – вратарь ; оутро – заутра ; яко – акы ), греческий – славянский ( аминъ – право ; ароматъ – воня ), заимствованный – заимствованный ( июд h и – жидъ ).
Методы
Одним из методов корпусного анализа является сопоставление лингвистических данных, извлеченных из подкорпусов, противопоставленных друг другу по какой-либо характеристике – времени создания, жанру, автору и т. д. Обнаружение между подкорпусами различий в таком случае интерпретируется как существование различий в языке разного времени, жанров или авторов и т. п.
Основным приемом стала статистическая оценка встречаемости лексемы в подкорпусах в сопоставлении со статистической величиной частотности слова в контрольном корпусе (модуль статистики – !. В качестве статистических мер оценки отклонения встречаемости от ожидаемой использованы статистики Log-Likelihood [Ляшевская, Шаров, 2009; Rayson, Garside, 2000], TF*ICTF (Term Frequency * Inverse Collection Term Frequency) [Kwok, 1995; Robertson, 2004; Roelleke, 2013; Roelleke, Wang, 2006; Salton, Yang, 1973; Sparck, 1972; Wu et al., 2008], Weirdness [Бессмерт- ный и др., 2017; Бессмертный, Юй Чуцяо, Ма Пенюй, 2016; Клышинский, Кочеткова, 2014; Ahmad, Gillam, Tostevin, 1999; Gillam, Tariq, Ahmad, 2005]. Статическое значение лексемы сопоставляется с аналогичным синонимичного ему слова. Соотношение статистических значений двух лексем сопоставляется с их соотношением в нескольких подкорпусах.
Известно, что методы TF*ICTF и Weirdness присваивают слову значение тем выше, чем чаще слово встречается в анализируемом подкорпусе и реже – в контрастном корпусе [Бессмертный и др., 2017, с. 83]. Методы считаются эффективным при работе с небольшими коллекциями для извлечения часто встречающихся терминов [Бессмертный, Юй Чуцяо, Ма Пенюй, 2016, с. 1097, 1098]. Относительно Weirdness экспериментальным путем установлено, что для «обычных слов формула странности возвращает значения, близкие к 1, а для терминов – значения, намного превышающие 1, так как в этом случае знаменатель формулы близок к 0» [Бессмертный и др., 2017, с. 83]. В метрике LL используются не только относительные, но и абсолютные частоты слов [Ляшевская, Шаров, 2009, с. VIII], значения меры LL чувствительны как к редко, так и часто встречающимся словам. Для метрики также известно значение, превышение которого дает возможность отнести слово к лексемам, значимым для подкорпуса, – 15.31 [Ляшевская, Шаров, 2009, с. VIII].
Каждая из мер имеет свои диапазоны значений. Наиболее высокие значения назначает статистика LL – десятки, а то и сотни условных единиц, значения Weirdness колеблются около 1,0, величины TF*ICTF существенно меньше 1,0. Для приведения значений к сопоставимым величинам используется нормализация данных с помощью логарифмирования 2.
Текстовый материал
В качестве контрольного (контрастного) корпуса выступает коллекция рукописей корпуса «Манускрипт». Подкорпуса сформированы из текстов, характеризующихся аналогичными текстологическими и/или кодикологическими свойствами, противопоставленными по этим свойствам другим рукописям корпуса. Первым основанием для противопоставления выбрана графика списка – глаголический / кириллический алфавит (далее – Глаг 3, Кир 4).
Вторым – служебный / неслужебный тип кириллического текста (далее – КирСл 5, КирНСл 6). Особо из четырех текстов XI в., восходящих к восточноболгарской переводческой традиции, сформирован отдельный подкорпус (далее – ВБ 7).
Третий – кирилло-мефодиевский / пре-славский: подкорпус, включающий Христи-нопольский апостол XII в. (содержащий «древнюю редакцию Апостола, осложненную преславскими чтениями» [Пентковская, 2009, с. 19]) и глаголическую Псалтырь Димитрия XI в., (далее – ПсАп-ЗБ 8), и подкорпус, в который входят Толстовский апостол конца XIV в. («яркий представитель преславской редактуры» [Новак, 2015, с. 232]) и Чудовская псалтырь XI в. – представитель симеоновской книжной школы (далее – ПсАп-ВБ 9).
Инструментарий
Информационно-аналитическая система «Манускрипт» в настоящее время является одной из немногих систем хранения, обработки и демонстрации машиночитаемых транскрипций средневековых славянских письменных памятников. Корпус содержит транскрипции славянских текстов X– XV вв. общим объемом более 3,5 млн словоупотреблений, имеет мета, аналитическую и лингвистическую разметку, снабжен корпусным менеджером, обеспечивающим подготовку транскрипций, лемматизацию текстов, формирование подкорпусов, выборку лингвистических единиц и их демонстрацию (о корпусе см., например: [Baranov, 2018; Баранов, 2019а]).
Модуль статистики 10 предназначен: а) для демонстрации распределения единиц корпуса (символов, текстовых форм, лемм) в рукописи или нескольких рукописях; б) для нахождения количественных и/или статистических характеристик (соответствия или несоответствия ожидаемым статистическим характеристикам) слов в подкорпусе (подкорпусах). Модуль позволяет на основе метаданных транскрипций сформировать подкорпус, сохранить его для многократного исполь- зования, указать тип анализируемой единицы и ее маску, выбрать контрольный (контрастный) корпус, указать меру статистической оценки. Результат выводится на экран в виде таблицы со сведениями о количестве и статистическом значении лингвистических единиц в подкорпусах [Baranov, Gnutikov, 2018; Баранов, 2019б].
Возможности модуля статистики сформировать подкорпусы на основе выборок необходимых документов и извлечь из них с помощью маски регулярных выражений все текстовые формы анализируемых слов и сведения об их количественных и статистических характеристиках позволили получить информацию о соответствии или несоответствии (значимости) частотности слов их средней частоте в контрастном (контрольном) корпусе, роль которого выполнила выборка, включающая практически все транскрипции корпуса.
Результаты. Количественные и статистические данные
Синонимический ряд жрътва – тр h ба
Маски регулярных выражений: ^ж[ьъе]? р[ьъе]?т.?в.?[^н]$ – ^треб([ауъые]|о[юи]|ах[ъ]? |ам[ьъи]?)$
Слово жрътва зафиксировано во всех подкорпусах (табл. 1, 2). Относительное количество во всех подкорпусах, кроме ПсАп-ВБ, в котором оно значительно ниже, примерно одинаковое. Слово тр h ба отсутствует в глаголическом подкорпусе (см. табл. 3, 4). Максимальное относительное количество – в подкорпусе четырех восточноболгарских рукописей; минимальное – в подкорпусе кириллических служебных.
Количественные соотношения соответствуют текстологическим свойствам списков: слово жрътва не характерно для подкорпуса рукописей, восходящих к ЗБ редакции, слово тр h ба – отсутствует в подкорпусе глаголических рукописей и часто используется в рукописях, созданных в Восточной Болгарии.
Статистическая активность слова жрътва по-разному оценивается мерами: LL выделяет слово в КирНСл, ВБ, ПсАп-ВБ, Weirdness – в КирСл, ВБ, ПсАп-ЗБ. Статистическая активность слова тр h ба также различается: LL – в КирСл, КирНСл, ВБ, ПсАп-ВБ, Weirdness – в ВБ и ПсАп-ВБ. При этом оценка статистиками в двух последних подкорпусах совпадает, а в LL выше, чем в КирСл и КирНСл.
Средние логарифмированных статистических метрик (см. рис. 1) показывают су-
Таблица 1. Количественные и статистические значения слова жрътва
Table 1. Quantitative and statistical values of the word zhrъtva ‘sacrifice’
Подкорпус |
Все рукописи |
Глаг |
Кир |
КирСл |
КирНСл |
ВБ |
ПсАп-ВБ |
ПсАп-ЗБ |
Объем подкорпуса |
2986201 |
97138 |
2889063 |
1583956 |
1329303 |
262429 |
103908 |
99577 |
Объем выборки |
629 |
21 |
608 |
389 |
197 |
95 |
4 |
34 |
Среднее |
0,02106 |
0,02162 |
0,02104 |
0,02456 |
0,01482 |
0,03620 |
0,00385 |
0,03414 |
LL |
– |
2,01357 |
2,00270 |
7,48186 |
21,84683 |
23,06930 |
23,73787 |
8,49934 |
TF*ICTF |
– |
0,00079 |
0,00077 |
0,00090 |
0,00054 |
0,00133 |
0,00014 |
0,00126 |
Weirdness |
– |
1,02473 |
0,99753 |
1,16408 |
0,70246 |
1,71590 |
0,18247 |
1,61845 |
Таблица 2. Логарифмированные количественные и статистические значения слова жрътва
Table 2. Logarithmic quantitative and statistical values of the word zhrъtva ‘sacrifice’
Подкорпус |
Глаг |
Кир |
КирСл |
КирНСл |
ВБ |
ПсАп-ВБ |
ПсАп-ЗБ |
ln(LL) |
0,69991 |
0,69450 |
2,01248 |
3,08406 |
3,13850 |
3,16707 |
2,13999 |
ln(TF*ICTF) |
-7,14348 |
-7,16912 |
-7,01312 |
-7,52394 |
-6,62258 |
-8,87387 |
-6,67664 |
ln(Weirdness) |
0,02443 |
-0,00247 |
0,15193 |
-0,35317 |
0,53994 |
-1,70117 |
0,48147 |
ln(средн.) |
-3,83420 |
-3,86110 |
-3,70669 |
-4,21179 |
-3,31869 |
-5,55980 |
-3,37716 |
Таблица 3. Количественные и статистические значения слова тр h ба
Table 3. Quantitative and statistical values of the word trěba ‘sacrifice’
Подкорпус |
Все рукописи |
Глаг |
Кир |
КирСл |
КирНСл |
ВБ |
ПсАп-ВБ |
ПсАп-ЗБ |
Объем подкорпуса |
2986201 |
97138 |
2889063 |
1583956 |
1329303 |
262429 |
103908 |
99577 |
Объем выборки |
279 |
0 |
279 |
78 |
219 |
105 |
41 |
13 |
Среднее |
0,00934 |
0,00000 |
0,00966 |
0,00492 |
0,01647 |
0,04001 |
0,03946 |
0,01306 |
LL |
– |
0,00000 |
2,12333 |
30,27670 |
39,68686 |
126,35074 |
54,06898 |
3,23649 |
TF*ICTF |
– |
0,00000 |
0,00039 |
0,00020 |
0,00066 |
0,00161 |
0,00159 |
0,00053 |
Weirdness |
– |
0,00000 |
1,02993 |
0,52518 |
1,75704 |
4,26717 |
4,20821 |
1,39234 |
Таблица 4. Логарифмированные количественные и статистические значения слова тр h ба
Table 4. Logarithmic quantitative and statistical values of the word trěba ‘sacrifice’
Подкорпус |
Глаг |
Кир |
КирСл |
КирНСл |
ВБ |
ПсАп-ВБ |
ПсАп-ЗБ |
ln(LL) |
– |
0,75299 |
3,41038 |
3,68102 |
4,83906 |
3,99026 |
1,17449 |
ln(TF*ICTF) |
– |
-7,84936 |
-8,51719 |
-7,32327 |
-6,43152 |
-6,44402 |
-7,54263 |
ln(Weirdness) |
– |
0,02949 |
-0,64401 |
0,56363 |
1,45095 |
1,43704 |
0,33099 |
ln(средн.) |
– |
-4,64006 |
-5,31356 |
-4,10592 |
-3,21861 |
-3,23252 |
-4,33857 |
0,000
-0,500


— — Жрътва Трhба
-3,000
-3,500
Рис. 1. Жрътва – тр h ба . Средние логарифмических значений ln(LL), ln(TF*ICTF), ln(Weirdness)
Fig. 1. Zhrъtva – trěba ‘sacrifice’. Mean of logarithmic values ln(LL), ln(TF*ICTF), ln(Weirdness)
щественные отличия между статистической активностью слов как между собой, так и между подкорпусами: а) в Глаг и ПсАп-ЗБ преобладает жрътва , в ВБ, ПсАп-ВБ – тр h ба , в КирСл – жрътва , в КирНСл – тр h ба ; б) при большей статистической активности жрътва максимальный контраст обнаруживается в ПсАп-ЗБ, минимальный – в Кир и КирСл; в) при большей активности тр h ба – максимальная контрастность в ПсАп-ВБ, меньшая – в ВБ, еще меньшая – в КирНСл.
Аналогично были исследованы и все другие пары лексем. Приведем итоговые диаграммы.
Обсуждение
Использованная в работе методика сопоставления статистических значений слов в текстовых подкорпусах позволяет увидеть ряд закономерностей в соотношении западноболгарских и восточноболгарских компонентов синонимического ряда (см. рис. 2).
Жрътва – тр h ба |
Ради – д h ля |
0,000 |
|
-0,500 -1000 • |
2,000 1,000 |
. i -- Жрътва -1,500 „ . 1 f ' / Трhба |
0,000 -1,000 ^Ч^^^-А^2 Ради
'- |
—7 U U U - / 1 / Л |
-2,UUU v |
-Z,?UU |
-4,000 |
-3,000 |
|
Тъкъмо – тъчию |
Яко – акы |
2,000 1,000 0,000 / \ у , Тъкъмо
-3,000 |
|
2,000 1,000 ^~A 0,000 / / \\ -- Яко -1,000 ^WA ^/ Акы -2,000 |
|
-3,000 |
Вр h тище – влас h ница Июд h и – жидъ
0 ООО |
|
-0,500
Врhтище Власhница
-3,000 |
1,000 д 0,000 . ^ ^ ^
V .-.. .• х/ -2,000 -3,000 |
Ароматъ – воня |
Аминъ – право |
и,иии
, \ Ароматъ
\ Вопя -3,000 |
-0,500 -1,000 ' 4s s^’ -1,500 Аминъ -2,000 Право -2,500 -3,000 |
-4,UUU |
Рис. 2. Средние логарифмических значений десяти пар синонимов (см. также с. 13 )
Fig. 2. Average logarithmic values of ten pairs of synonyms (see also p. 13)
Оутро – заоутра Вратьникъ – вратарь
0,000 |
-2,800 |
-0,500 |
-2,850 ^ х-> ^ |
-1,000 |
-2,900 ^ ^/ |
— — Оутро |
к - - - Вратьникъ |
Заоутра / |
|
2,000 |
-3,100 / ♦ |
-2,500 |
-3,150 — — |
-3,000 |
-3,200 |
Рис. 2. Окончание
Fig. 2. Final part
-
1. Во всех синонимических рядах статистическая активность западноболгарского компонента выше (или он единственно возможен) в подкорпусе глаголических текстов и подкорпусе ПсАп-ЗП, включающем списки, восходящие к кирилло-мефодиевской традиции. По этой особенности подкорпус глаголических текстов отчетливо противопоставлен подкорпусу, включающему все кириллические рукописи, а подкорпус ПсАп-ЗП – подкорпусу ПсАп-ВБ, содержащему списки, восходящие к восточноболгарским рукописям.
-
2. Отчетливая предпочтительность восточноболгарских компонентов обнаруживается в подкорпусах ВБ и ПсАп-ВБ, включающих тексты, восходящие к Преславской традиции. О преимущественном тяготении восточноболгарского компонента именно восточноболгарской книжной школе свидетельствует и последовательная его большая активность в подкорпусе неслужебных рукописей КиНСл по сравнению с текстами подкорпуса более архаичных служебных списков.
-
3. В парах с заимствованными словами греческий компонент в глаголическом подкорпусе и в ПсАп-ЗБ также предпочтительнее, чем негреческий, ср. пары июд h и – жидъ , ароматъ – воня , аминъ – право ( ароматъ в
-
4. Словообразовательные одноосновные синонимы, наряду с похожим в обоих случаях последовательно более высоким статистическим значением восточноболгарского лексического компонента в трех подкорпусах – КирСл, КирНСл и ВБ, – достаточно индивидуальны: имеют статистическое равенство обоих компонентов и несколько более высокое значение восточноболгарского в паре оутро – заоут-ра , с одной стороны, и более высокие значения восточнославянского вратарь в Кир, КирСл и ВБ при преобладании западноболгарского вратьникъ в КирНСл – с другой.
-
5. Пары, в которых один из компонентов в одном или нескольких подкорпусах отсут-
- ствует, демонстрируют те же тенденции и соотношения компонентов синонимического ряда, что и в тех, где компоненты встречаются во всех подкорпусах: в паре врhтище – власhница активность второго компонента выше в подкорпусе КирНСл рукокописей, в паре ароматъ – воня слово ароматъ статистически более активно в подкорпусе служебных списков КирСл, а воня наименее предпочтительна в ПсАп-ЗБ, чем в КирНСл, ВБ, ПсАп-ВБ; в паре вратьникъ – вратарь второй компонент имеет стабильно высокую статистическую активность во всех кириллических подкорпусах.
Обнаруженная корреляция членов ряда и текстологических характеристик рукописей характеризует лишь славянские разноосновные синонимические ряды жрътва – тр h ба , ради – д h ля , тъкъмо – тъчию , яко – акы . В рядах, членами которых являются заимствованные слова и одноосновные словообразовательные синонимы, отношения несколько иные.
ПсАп-ЗБ отсутствует). В паре аминъ – право в КирСл, КирНСл, ВБ, ПсАп-ВБ нет отчетливого предпочтения право – статистически более активным является западноболгарское аминъ . В паре июд h и – жидъ картина аналогичная, за исключением преобладания в ПсАп-ВБ слова жидъ . Вторым отличием этой группы является иное соотношение статистической активности западноболгарского компонента между КирСл и КирНСл, с одной стороны, и ВБ и ПсАп-ВБ – с другой: если в славянских парах ( жрътва – тр h ба и др.) первый компонент был более предпочтителен в ВБ и ПсАп-ВБ, чем в КирСл и КирНСл, то в парах греческим компонентом июд h и – жидъ , аминъ – право и ароматъ – воня ситуация обратная. Особенностью соотношений компонентов в этих трех рядах является, в отличие от славянских рядов, и их существенная инидивидуальность по отношению друг к другу.
Обнаруженные закономерности демонстрируют, с одной стороны, типичность соотношения компонентов всех рассмотренных синонимических рядов в том или ином подкорпусе, с другой стороны – индивидуальность соотношения синонимов. Важным представляется существование связи между соотношением синонимов и их лексическими и лексико-словообразовательными характеристиками: заметно отличаются соотношения в группах разноосновных и одноосновных синонимов, в славянская паре синонимов и паре, одним из компонентов которой является греческое по происхождению слово.
Продемонстрированная корреляция между статистическими соотношениями западно-олгарского и восточноболгарского компонентов синонимического ряда и текстологическими и кодикологическими характеристиками текстов (глаголический – кириллический, ки-рилло-мефодиевский – восточноболгарский) ожидаема, но одновременно является дополнительной достаточно надежной характеристикой текста / рукописи или группы текстов / рукописей наряду с традиционно используемыми критериями, основанными на соотношениях «есть – нет» и на соотношениях «больше – меньше» / «чаще – реже» в абсолютном или относительном выражении.
Наличие такой корреляции позволяет с доверием относиться и к различиям в соотношении синонимических рядов, компоненты которых характеризуются отличающимися лексическими или лексико-словообразовательными свойствами, а кроме того, увидеть различия в степени устойчивости таких соотношений – последовательную, типовую про- тивопоставленность западноболгарской и восточноболгарской разноосновных славянских лексем ряда в текстологически и кодикологически противопоставленных текстах и индивидуальную конфигурацию соотношений в паре одноосновных словообразовательных синонимов или в паре, компонентом которой является греческое заимствование.
Полученные результаты позволяют сделать несколько выводов относительно вопроса о маркированности / немаркированности пре-славской лексики и о представленности кирил-ло-мефодиевских и восточноболгарских лексем в рукописях, созданных на Руси.
-
1. Аналогичность, а в ряде случаев и идентичность соотношений компонентов синонимических пар как в случаях представленности обоих во всех подкорпусах, так и в случаях отсутствия одного из них в некоторых из подкорпусов позволяют сделать вывод о том, что отсутствие компонента синонимической пары в подкорпусе является одним из двух аналогичных вариантов его соотношения с другим компонентом: компонент отсутствует, или его статистическая активность ниже или значительно ниже альтернативного компонента.
-
2. Не имеющая исключений противопоставленность компонентов исследованных синонимических рядов в глаголических и архаичных рукописях подкорпуса ПсАп-ЗБ, с одной стороны, и в текстах подкорпусов ВБ, ПсАп-ВБ – с другой, свидетельствует об устойчивых лексических предпочтениях этих текстологически противопоставленных групп текстов при использовании в них и того и другого компонентов. Статистическая предпочтительность восточноболгарских компонентов может отличаться в подкорпусах (ср. их соотношение в КирСл и КирНСл), выступая своеобразным маркером неслужебных рукописей.
-
3. Есть основания говорить о том, что предпочтительность того или иного компонента синонимического ряда зависит не только от того, в рамках какой писцовой школы он был переведен, создавался или редактировался, но и от собственно языковых характеристик слов пары: разноосновные славянские компоненты последовательно противопоставляются в текстологичес-
- ки контрастных друг другу подкорпусах (текстах и рукописях); одноосновные славянские компоненты при аналогичном противопоставлении двух архаических подкорпусов (Глаг и ПсАп-ЗБ) не имеют подобного последовательного противопоставления в ряду кириллических; греческий и негреческий компоненты ряда конкурируют друг с другом, причем первый в ряде кириллических подкорпусов не уступает, а то и превосходит в статистической активности негреческий.
-
4. В восточнославянских списках, которые и составляют бóльшую часть проанализированного материала, зафиксированы как западноболгарские, так и восточноболгарские компоненты синонимических рядов. Предпочтительность того или иного компонента зависит как от текстологических и кодикологичес-ких характеристик кириллических рукописей, так и от собственно языковых свойств лексем. При общей предпочтительности восточноболгарского компонента в ряде синонимических рядов наблюдается бóльшая статистическая активность западноболгарского компонента, например, в парах яко – акы , аминъ – право , вратьникъ – вратарь .
Заключение
Исследование доказало существование корреляции между текстами, характеризующимися различными текстологическими и/ или кодикологическими свойствами, и соотношением в них компонентов синонимического ряда, а также наличие связи между соотношением компонентов ряда в различных подкорпусах и лексическими характеристиками синонимов.
Значимым результатом является доказательство результативности использования корпусных и статистических методов и приемов для анализа лингвистических данных средневековых славянских текстов и рукописей, в частности, для решения вопросов в рамках кирилло-мефодиевской проблематики.
Безусловно, полученные результаты должны быть подтверждены и уточнены в ходе анализа и других синонимических кирилло-мефодиевских – восточноболгарских лексических рядов.
Список литературы Кирилло-мефодиевская и восточноболгарская лексика в рукописях X-XV вв. (корпусное исследование)
- Баранов В. А., 2019а. Создание и использование исторических корпусов славянских письменных памятников // Scripta & e-Scripta. Vol. 19. C. 33–57.
- Баранов В. А., 2019б. Модуль статистики исторического корпуса «Манускрипт»: функции и демонстрация данных. 2 // И. А. Бодуэн де Куртенэ и мировая лингвистика. В 2 т. Т. 1: Междунар. конф.: VII Бодуэновские чтения (Казан. федер. ун-т, 28–31 окт. 2019 г.): тр. и материалы. Казань: Изд-во Казан. ун-та. С. 24–30.
- Бессмертный И. А., Нугуманова А. Б., Мансурова М. Е., Байбурин Е. М., 2017. Метод контрастного извлечения редких терминов из текстов на естественном языке // Научно-технический вестник информационных технологий, механики и оптики. Т. 17, № 1. С. 81–91. URL: http://ntv.ifmo.ru/file/article/16383.pdf
- Бессмертный И. А., Юй Чуцяо, Ма Пенюй, 2016. Статистический метод извлечения терминов из китайских текстов без сегментации фраз // Научно-технический вестник информационных технологий, механики и оптики. Т. 16, № 6. С. 1096–1102. URL: http://ntv.ifmo.ru/file/article/16157.pdf
- Димитрова А., 2016. Златоструят в преводаческата дейност на старобългарските книжовници. София: Авалон. 456 с.
- Добрев И., 1979. Текстът на Добромировото евангелие и втората редакция на старобългарските богослужебни книги // Български език. Т. 29, № 1. С. 9–21.
- Желязкова В., 2016а. Паримейные чтения в четьих списках Книги Исход // Studia Ceranea. Т. 6. С. 225–240.
- Желязкова В., 2016б. Книга Исход в южнославянских списках XV–XVI вв. // Studi Slavistici. Vol. 13. С. 243–256.
- Илиев И., 2016. Тълкуванието на Книга на пророк Даниил от Иполит Римски в старобългарската литература: автореферат на дисертация за присъждане на образователната и научна степен «доктор». София. 67 с.
- Клышинский Э. С., Кочеткова Н. А., 2014. Метод извлечения технических терминов с использованием меры странности // Новые информационные технологии в автоматизированных системах. № 17. С. 365–370. URL: https://elibrary.ru/download/elibrary_21527004_14693581.pdf
- Ляшевская О. Н., Шаров С. А., 2009. Введение к частотному словарю современного русского языка // Частотный словарь современного русского языка (на материалах Национального корпуса русского языка). М.: Азбуковник. С. V–XXII. URL: http://dict.ruslang.ru/freq.pdf
- Максимович К. А., 2000. Славянизмы современного русского языка и кирилло-мефодиевское наследие // Folia Slavistica: Рале Михайловне Цейтлин. М.: [б. и.]. С. 72–84.
- Милтенов Я., 2008. Лексический критерий как способ атрибуции преславских текстов (на материале славянского перевода Диалогов Псевдо-Кесария) // Славяноведение. № 5. С. 41–49.
- Милтенов Я., 2020. Преславските лексикални маркери. 1. Опит за въведение // Palaeobulgarica. Vol. 44, № 2. С. 54–79.
- Новак М. О., 2015. Лексика древнеславянского перевода апостола: в поисках образа и смысла // Перевод как средство взаимодействия культур. № 1. С. 230–240.
- Новикова А. С., 2013. К вопросу об истории создания евангельского текста Чудовской рукописи // Славянские языки и литературы в синхронии и диахронии: материалы Междунар. научн. конф. М.: [б. и.]. С. 268–273.
- Пентковская Т. В., 2009. Восточнославянские и южнославянские переводы богослужебных книг XIII–XIV вв.: Чудовская и афонская редакции Нового Завета и Иерусалимский Типикон: дис. ... д-ра филол. наук. М. 497 с.
- Пичхадзе А. А., 2011. Переводческая деятельность в домонгольской Руси: лингвистический аспект. М.: Рукопис. памятники Древ. Руси. 408 с.
- Славова Т., 1989. Преславска редакция на Кирило-Методиевия старобългарски евангелски превод // Кирило-Методиеви студии. Кн. 6. София: Кирило-Методиевски научен център при БАН. С. 15–129.
- Славова Т., 2013. Славянският превод на Посланието на патриарх Фотий до княз Борис-Михаил. София: Св. Климент Охридски. 344 с.
- Станков Р., 2018. Проблема «преславской» и «кирилло-мефодиевской» лексики в древнеболгарском переводе Хроники Георгия Амартола // Преславска книжовна школа. Т. 18. С. 121–158.
- Шафарик П., 1860/1861. О происхождении и родине глаголитизма // Чтения в Императорском Обществе Истории и Древностей Российских при Московском Университете. № 4. Материалы Славянские. ІІІ. М.: Унив. тип. С. 29–30.
- Яцко В. А., 2014. Компьютерная лингвистика или лингвистическая информатика // Научно-техническая информация. Серия 2, Информационные процессы и системы. № 5. С. 1–10.
- Ahmad K., Gillam L., Tostevin L., 1999. University of Surrey Participation in TREC8: Weirdness Indexing for Logical Document Extrapolation and Retrieval (Wilder) // Proc. 8th Text Retrieval Conference TREC. Gaithersburg: [s. n.]. P. 717–724.
- Baranov V., 2018. A Text Corpus of Medieval Manuscripts as a Goal an d a Tool for Linguistic Research // Editing Mediaeval Texts from a Differ ent An gle: Slavon ic an d Multilingual Traditions. Leuven ; P. ; Bristol: Peeters. P. 283–308.
- Baranov V. A., Gnutikov R. M., 2018. The Statistics and n-Gram Modules of the Historical Corpus “Manuscript” // Digital and Analytical Approaches to the Written Heritage: Proceedings of the 7th International Conference El‘Manuscript “Textual Heritage and Information Technologies”. Sofia: Gutenberg. P. 9–28.
- Gilllam L., Tariq M., Ahmad K., 2005. Terminology and the Construction of Ontology // Terminology, vol. 11, iss 1. P. 55–81.
- Jagić V., 1913. Entstehungsgeschichte der kirchenslavischen Sprache. Berlin: Weidmann. 540 p.
- Kwok K. L., 1995. A Network Approach to Probabilistic Information Retrieval // ACM Transactions on Information Systems. Vol. 13, № 3. P. 324–353.
- Rayson P., Garside R., 2000. Comparing Corpora Using Frequency Profiling // Proceedings of the Comparing Corpora Workshop at ACL 2000.
- Hong Kong. P. 1–6. URL: http://ucrel.lancs.ac.uk/people/paul/publications/rg_acl2000.pdf
- Robertson S., 2004. Understanding Inverse Document Frequency: On Theoretical Arguments for Idf // Journal of Documentation. № 60. P. 503–520. URL: http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.438.2284&rep=rep1&type=pdf
- Roelleke T., 2013. Information Retrieval Models: Foundations and Relationships. Cham: Springer. 141 p.
- Roelleke T., Wang J., 2006. A Parallel Derivation of Probabilistic Information Retrieval Models // Proceedings of the 29th Annual ACM SIGIR Conference on Research and Development in Information Retrieval. Seattle ; N. Y.: ACM. P. 107–114.
- Salton G., Yang C. S., 1973. On the Specification of Term Values in Automatic Indexing // Journal of Documentation. Vol. 29. P. 351–372.
- Sparck J. K., 1972. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. Vol. 28. P. 11–21.
- Voss Chr., 1996. Die Vertretung von lexikalischen textologischen Dubletten der Dichotomie Ochrid-Preslav in kirchenslavischen Abschriften der Paränesis Ephreaims des Syrers. Ein Beitrag zur Datierung der altbulgarischen Erstübersetzung // Anzeiger für slavischen Philologie. Bd. 24. S. 95–127.
- Wu H. C., Luk R. W. P., Wong K. F., Kwok K. L., 2008. Interpreting TF-IDF Term Weights as Making Relevance Decisions // ACM Transactions on Information Systems. Vol. 26, № 3. Art. 13. URL: https://www.scss.tcd.ie/khurshid.ahmad/Research/Sentiments/tfidf_relevance.pdf