Квантитативный анализ героического эпоса "Джангар": частотность лемм

Бесплатный доступ

В статье предпринята попытка квантитативного анализа языка текстов калмыцкого героического эпоса «Джангар». С помощью специальной лингвистической программы «TextАmИzer» обработан и создан частотный список, в котором эксплицированы 28 текстов эпоса «Джангар». Общий список лемм корпуса текстов эпоса «Джангар» представлен 4445 единицами. Приведены «верхушки» (50 единиц) наиболее частотных лемм, где указаны их следующие статистические показатели: ранг (RANK), абсолютная частота (Частота). Частотные списки позволяют определить границы лексической системы языка эпоса, которая имеет свое ядро и периферийные поля (т. е. частотные и нечастотные элементы) как в целом в тексте эпоса «Джангар», так и на уровне подтекстов (авторских стилей), их распределение по текстам, а также во временном континууме (записи XIX и XX вв.).

Еще

Эпос "джангар", квантитативный анализ, частотный словарь, леммы, калмыцкий язык, частотные элементы

Короткий адрес: https://sciup.org/148317668

IDR: 148317668

Текст научной статьи Квантитативный анализ героического эпоса "Джангар": частотность лемм

С развитием информационных технологий большой интерес приобретают квантитативные исследования языковых процессов. За счет автоматизации обработки текстов значительно расширяется база лексикостатистики, а одним из реальных оснований применения статистических методов в изучении языка и речи (текста) следует признать объективную присущность языку количественных признаков. Компьютерные программы позволяют создавать частотные списки определенного текста или корпуса текстов, а на этой основе уже можно количественно описать поведение различных языковых единиц.

В настоящее время остается открытой одна из чрезвычайно важных задач калмыцкой лексикологии — выяснение границ живой лексической системы современного калмыцкого языка. Мы не имеем отчетливых представлений об общей системе лексического состава языка, хотя предположение о наличии в ней общеупотребительного и периферического слоя не вызывает сомнений. Таким образом, использование квантитативных методов и составление частотных словарей, представляющих собой особым образом преобразованный текст, является крайне актуальным вопросом. Более того, частотные словари имеют важное значение для решения разных прикладных и исследовательских задач. С помощью такого рода словарей «можно попытаться ответить на вопросы: как много слов в языке (тексте), с какой интенсивностью они используются в речи, какие из них предпочтительнее в той или иной сфере коммуникации у того или иного автора и т. д.» [1, с. 285]. Не меньшую ценность имеют и словники по отдельным жанрам, которые дают интересные сведения о качественном расслоении лексики.

В настоящей статье нами предпринята попытка квантитативного анализа языка текстов калмыцкого героического эпоса «Джангар», который веками слагался в устах рапсодов-сказителей (джангарчи) и прошел сложный путь развития от архаических форм к классическому героическому эпосу, подвергаясь различным трансформациям, напластованиям и переработкам. Главная идея создания частотного списка эпоса «Джангар» заключается в том, чтобы выявить употребительность лексических единиц в тексте на уровне лемм, которые могут дать ценные сведения историко-сравнительного характера по лексике калмыцкого языка, по определению границы лексической системы языка эпоса. Эти данные могут быть использованы для создания структурно-вероятностной модели языка эпоса, а также для решения проблем полисемии и омонимии лексики калмыцкого языка.

Материалом для исследования послужили тексты разновременных записей калмыцкого героического эпоса «Джангар». Исследователи эпоса «Джангар» насчитывают 28 глав (без учета вариантов), записанных в XIX-XX вв. у джангар-чи той или иной исполнительской школы и объединенных в репертуарные циклы: Малодербетовский цикл (3 песни), Багацохуровский цикл (3 песни), репертуар Ээлян Овла (10 песен, магтал), Мукебюн Басангов (6 песен), Дава Шавалиев (4 песни, магтал), Насанка Балдыров (1 песня), Бадма Обушинов (1 песня). Все песни уникальны, т. к. записаны в разное время, у сказителей, принадлежащих разным школам исполнительского искусства и проживающих на различных территориях.

История бытования зафиксированных и сохранившихся песен калмыцкого героического эпоса «Джангар» была хронологически реконструирована и подробно изучена А. Ш. Кичиковым, который отмечал, что «Каждая исполнительская школа представлена в «Джангаре» известным количеством песен, объединенных в особый цикл, автономную версию» [2, с. 176]. Исследователь выявил основные ареалы бытования «Джангара» на территории исторического проживания родов калмыцкого этноса и связал их с бытованием основных версий (циклов) и сказительских школ:

  • 1)    I Малодербетовская версия (цикл), относимая к Барунской сказительской школе (Нойанакинский аймак Малодербетовского улуса, ныне с. Обильное Кет-ченеровского района), представителями которой был Поврам, его сын Санджи, сын Санджи Бука (1870–1920-е гг.). История записи и фиксации I Малодербетов-ской версии (цикла) связана с профессором К. Ф. Голстунским, посетившим калмыцкую степь в 1856 г. Рукопись на ясном письме «тодо бичиг» датируется 1862 г. и не содержит сведений о сказителе, от которого был зафиксирован текст. Известно, что запись организовал зайсанг (владелец) Нойанакинского аймака Джа-ва-Дорджи Кутузов [2, с. 176].

  • 2)    Багацохуровская версия (цикл), относимая к Багацохуровской сказительской школе (Багацохуровский улус, ныне Юстинский район). Имена ранних сказителей данной версии неизвестны. По мнению А. Ш. Кичикова «в калмыцкой эпической традиции Багацохуровский цикл представляет раннюю торгутскую версию» [2, с. 167]. Две главы версии были записаны Ш. Санджирхаевым по

просьбе К. Ф. Голстунского в имении хошутовских князей Тюменей, а третья глава была записана с участием сотрудника Русского географического общества Н. И. Михайлова в Багацохуровском улусе [2, с. 167].

  • 3)    II Малодербетовский цикл Ээлян Овла (1857–1920 гг.), сказителя Ики-Бухусовской школы, представителями которой в XIX — начале XX вв. были Дэлтэр, Маргаш, Овла, Чюдэд, Окон, Муутал, Бульдин (женщина) [3, с. 122–127]. А. Ш. Кичиков, отмечая сказительскую школу Ээлян Овла, писал: «Она характеризуется устойчивым репертуаром, который передавался, по крайней мере, в семи поколениях с установкой на неизменность текста и точность его усвоения, на высокий профессионализм в исполнении и веру в несомненную достоверность повествований» [2, с. 168]. Репертуар Ээлян Овла был записан летом 1908 г. студентом Восточного факультета Санкт-Петербургского университета Номто Очи-ровым, что стало поистине эпохальным событием в эпосоведении и произвело сенсацию в научных кругах того периода [4, с. 52–54].

С ареалом проживания калмыков на Дону связано имя джангарчи Бадмы Обушинова. В 1901 г. собиратель калмыцкого фольклора И. И. Попов зафиксировал у него одну главу «Об Улан Хонгоре» героического эпоса «Джангар», а также отдельные фрагменты эпического памятника. В 1940 г., в преддверии празднования 500-летия эпоса «Джангар» были открыты имена талантливых джангарчи Мукёбюна Басангова и Давы Шавалиева, а вместе с ними и новые песни эпоса «Джангар» [2, с. 174].

Еще одна песня, которая вошла в свод 28 песен, была записана от джангарчи позднего периода Насанка Балдырова, являющегося прямым последователем творчества Ээлян Овла и его школы.

Все перечисленные 28 текстов песен эпоса «Джангар» включены в базу данных Национального корпуса калмыцкого языка и обработаны в специальной лингвистической программе «TextАnalizer». Данная программа представляет собой электронный ресурс научного назначения, предназначенный для обработки текстового материала на калмыцком языке. Он выполнен в виде приложения для операционной ситемы MS Windows (.ехе) и связанной с ней Базы данных (БД), где хранится информация об автоматическом разборе текстов на калмыцком языке1.

Как известно, частотные словари составляются с опорой на различные единицы счета: словоформы, лексемы, леммы, словосочетания. «Обычно противопоставляют друг другу две методики составления частотных словарей: за единицу словника принимается либо словоформа, либо лексема» [5]. Программа «TextАnalizer» позволяет составить частотный список, выбрав в качестве единицы счета как словоформу, так и лемму (каноническую форму слова). В настоящей статье нами предпринята попытка создания частотного списка, где за элемент словника принимается лемма. Переход от словоформ к леммам осуществлен по правилам сведения графических (текстовых) слов к исходным формам слова, разработанным для Национального корпуса калмыцкого языка [6; 7]. Между тем необходимо отметить долю субъективности при создании правил

  • 1    Программа создана сотрудниками КалмНЦ РАН А. Ю. Каджиевым, В. В. Кукановой,

  • 32.

    күн

    32

    493

    3143

    человек

    33.

    келх

    33

    491

    3130

    сказать

    34.

    баатр

    34

    488

    3111

    богатырь

    35.

    оркх

    35

    486

    3098

    ставить

    36.

    көк

    36

    473

    3015

    синий, зеленый

    37.

    орн

    37

    470

    2996

    страна

    38.

    тавн

    38

    468

    2983

    пять

    39.

    күрх

    39

    450

    2869

    достигать, доходить

    40.

    күлг

    40

    430

    2741

    боевой конь

    41.

    зеерд

    41

    397

    2531

    рыжий (масть коня)

    42.

    һурвн

    42

    397

    2531

    три

    43.

    сəəхн

    42

    397

    2531

    красивый, красиво

    44.

    мөрн

    42

    395

    2518

    лошадь

    45.

    деер

    45

    393

    2505

    вверху, высоко, на

    46.

    тер

    46

    391

    2492

    тот

    47.

    һазр

    47

    384

    2448

    земля

    48.

    алдр

    48

    381

    2429

    великий

    49.

    зандн

    49

    368

    2346

    сандал, сандаловый

    50.

    тал

    50

    360

    2295

    сторона, грань

идентификации лемм калмыцкого языка, так как в настоящее время еще до конца не отработаны четкие и надежные алгоритмы преобразования текстовых слов в леммы и не составлена аналитическая грамматика современного калмыцкого языка.

Общий список лемм 28 текстов песен эпоса «Джангар» представлен 4445 единицами, включая имена собственные. Для сравнения, общий список словоформ корпуса текстов эпоса «Джангар» представлен 14366 единицами, т.е. лексем почти более чем в 3 раза меньше количества словоформ. В таблице №1 приведены «верхушки» (50 единиц) наиболее частотных лемм с показателями: каждой лемме приписан ранг (RANK), а также указана абсолютная частота (Частота) по всему тексту в целом, относительная частота (количество вхождений данной единицы на миллион словоформ (ipm) [8, с. 9].

Таблица 1

Текст

RANK

Частота

IPM

Перевод

1.

гих

1

2416

15403

говорить

2.

болх

2

1914

12202

становиться

3.

бəəх

3

1656

10557

быть

4.

һарх

4

1232

7854

выходить

5.

уг2 (уга)

5

1200

7650

нет, не

6.

ирх

6

1187

7567

приходить

7.

хойр

7

1031

6573

два

8.

улан

8

995

6343

красный

9.

авх

9

901

5744

взять

10.

хан

10

881

5616

хан, правитель

11.

бий

11

868

5534

себя

12.

йовх

12

854

5444

идти

13.

Җаңһр

13

831

5298

имя собств . Джангар

14.

одх

14

762

4858

отправляться

15.

Хоңһр

15

741

4724

имя собств . Хонгор

16.

хар

16

723

4609

черный

17.

арвн

17

686

4373

десять

18.

цаһан

18

656

4182

белый

19.

шар

19

637

4061

желтый

20.

көвүн

20

636

4054

мальчик

21.

эн

21

618

3940

этот

22.

би

22

588

3748

я

23.

долан

23

586

3736

семь

24.

мөңгн

24

574

3659

серебро, серебряный

25.

орх

25

570

3634

входить

26.

суух

26

565

3602

сидеть

27.

богд

27

528

3366

святой, император

28.

миңһн

28

523

3334

тысяча

29.

өгх

29

518

3302

давать

30.

негн

30

508

3238

один

31.

дөрвн

31

506

3226

четыре

2 Автоматический разбор приводит для слова-отрицания уга лемму уг

Из таблицы №1 мы можем наблюдать, что наиболее частотной леммой в языке эпоса «Джангар» является речевой или дицендиальный глагол гих «говорить, сказывать», что вполне закономерно. Благодаря своей полисемантичности, разнообразные формы глагола гих выступают не только в качестве элементов, соединяющих основную масса сложноподчиненных предложений, но и способны выступать в составе устойчивых выражений (фразеологизмов), в качестве изменяемых служебных слов при непроизводных глаголах с наречным значением, как утвердительная частица, подчеркивающая объективность повествования и др.

Следующими по частотности леммами в языке эпоса «Джангар» зафиксированы глаголы болх «становиться», бәәх «стать, становиться», авх «брать» . Частотность их употребления объясняется тем, что, помимо собственно функции основного глагола, они часто выступают как вспомогательные глаголы-связки при деепричастных и причастных формах. Отметим, что в список наиболее частотных единиц также попали глаголы движения һарх «выходить» и ирх «приходить».

Лемма уга (постпозиционное слово-отрицание уга ) «не, без, нет» также является наиболее употребительной единицей. В калмыцком языке отрицание уга , выражая значение отсутствия чего-либо, характеризуется весьма широким кругом употребления. Слово-отрицание уга употребляется с именами, причастиями (многократным, прошедшего времени, будущего времени), разделительным деепричастием [9, с. 293].

Отметим, что в список частотных лемм входит числительное 2 «хойр», которое помимо основного значения, выражающее понятие отвлеченного числа или количества предметов, может употребляться в функции сочинительносоединительного союза хойр ‘и’, производного путем конверсии числительного “два”.

Среди частотных единиц можно обнаружить цветообозначающую лемму улан «красный». Как справедливо отмечает профессор Г. Ц. Пюрбеев «принцип цве-тообозначения играет очень важную роль в фольклорном тексте, особенно в эпическом» [10, с. 73]. Это подтверждается тем, что все пять основных лемм ( улан “красный”, цаһан “белый”, хар “черный”, шар “желтый”, көк “синий/зеленый”), обозначающие основную цветовую гамму «в палитре этнической картины мира всех монголоязычных народов» входят в «верхушку» 50 наиболее частотных единиц [11, с. 76].

Замыкает десятку наиболее частотных единиц — лексема хан «хан, царь; царский», присущая эпическим и сказочным произведениям калмыцкого фольклора.

Таким образом, в данной работе представлены предварительные итоги распределения частотных характеристик «верхушек» (50) лемм в языке героического эпоса «Джангар». Анализ ранговых списков лемм дает сведения по лексической системе эпического памятника, выявляет границы «ядра» и периферии лексических единиц как в целом в тексте эпоса «Джангар», так и на уровне подтекстов (авторских стилей), их распределение по текстам, а также во временном континууме (записи XIX и XX вв.). В аспекте практической значимости создание частотных списков можно широко использовать в прикладных целях. К примеру, при обучении языку отдавать предпочтение наиболее частотным единицам, отмечая при этом значения многозначных и однозначных лексем, их поведение в письменном тексте, сочетаемость с другими единицами и т.п.

Список литературы Квантитативный анализ героического эпоса "Джангар": частотность лемм

  • Долинский, В. А. Квантитативная лингвистика в исследовании текста [Текст] / В. А. Долинский // Алфавит: Строение повествовательного текста. Синтагматика. Парадигматика. Смоленск: СГПУ, 2004. С. 283-324.
  • Кичиков А. Ш. Героический эпос «Джангар». Сравнительно-типологическое исследование памятника. Изд. 3-е. М.: Вост. лит., 1997. 320 с.
  • Кичиков А. Ш. Исследование героического эпоса "Джангар" (Вопросы исторической поэтики). Элиста: Калм. кн. изд-во, 1976. 156 с
  • Очиров Н.О. О записи оригинала «Джангара» // Ученые записки КНИИЯЛИ. Вып. 5. Сер. филол. Элиста, 1967. С. 52-54. (публ. А. Ш. Кичикова).
  • Частотный словарь русского языка (под редакцией Л. Н. Засориной) [Электронный ресурс] - Режим доступа: http://project.phil.spbu.ru/lib/data/slovari/zasorina/zasorina.html. - (дата обращения: 20.10.2017)
Статья научная