Монголоязычные корпуса: современное состояние
Автор: Бадмаева Любовь Дашинимаевна
Журнал: Вестник Бурятского государственного университета. Философия @vestnik-bsu
Рубрика: Языкознание
Статья в выпуске: S10, 2015 года.
Бесплатный доступ
Бурятский корпусный ресурс, получивший свой адрес в сети Интернет в 2012 г., в данный период времени полагается на оригинальные тексты, охватывающие период с середины XX в. по настоящее время, авторами которых являются как уже маститые мастера художественного слова, так и исследователи, журналисты, а также другие носители языка. Нынешняя версия Бурятского корпуса отражает все основные стили современного бурятского языка. Просмотр доступных корпусных сайтов, которые являются сложноинтегрированными информационными системами, позволяет перечислить основные направления или ответвления, по которым уже разработанные базовые корпуса получают свое дальнейшее развитие. Общность и сходства основополагающих принципов и целей организации лингвистических корпусов перевешивают их различия между собой. Подобное положение объясняется сходством предпосылок для их развития, которые обусловлены многими факторами, в первую очередь, такими, как исторические пути развития самих языков, языковая ситуация конкретного региона, в которых они функционируют. При работе над обсуждаемым проектом представляется целесообразным проведение масштабных работ по углубленному развитию Бурятского корпуса с последующим его переоформлением в Национальный корпус бурятского языка вместе с регулярным научным описанием самого процесса его составления и сугубо теоретических изысканий, включая прикладные, например, по лексикографии, лексикологии, ономастике, фоносемантике, синтаксису, экспериментальной фонетике, лингвофилософии (аксиологический аспект), социолингвистике и др.
Корпусная лингвистика, корпус, репрезентативность, модуль, сохранность языка
Короткий адрес: https://sciup.org/148183166
IDR: 148183166
Текст научной статьи Монголоязычные корпуса: современное состояние
По вопросам необходимости развития, разработки и актуальности языковых корпусных ресурсов в настоящее время, казалось бы, уже нет дополнительной надобности давать очередное обоснование. По данной теме уже многое и в неоспоримых положениях сказано на протяжении последнего десятилетия и в научных, и в популярных трудах в области российского языкознания, российской компьютерной лингвистики, которая является частью первой. Тем не менее, в своей работе мы хотели бы обратить внимание на наиболее перспективные направления усовершенствования на примере уже доступного в режиме онлайн корпусного ресурса по языку, который называют языком «среднего» мас- штаба в пределах списка языков народов России [6], а именно бурятскому. В обсуждении / дискуссии и популяризации подобных общедоступных лингвистических систем, естественно, всегда заинтересованы сами их составители, так как для их комфортного использования полезна обратная связь в форме критических замечаний, рекомендаций от различных категорий конечных пользователей.
Бурятский корпусный ресурс [4], получивший свой адрес в сети Интернет в 2012 г. как результат проектов, поддержанных грантами различных научных фондов * , в данный период времени полагается на оригинальные тексты, охватывающие период с середины ХХ в. по настоящее время, авторами которых являются как уже маститые мастера художественного слова, так и исследователи, журналисты, а также другие носители языка. С учетом жанра отдельных текстов представляется возможным проведение базовой классификации текстов, включенных в названный корпус. Подобная классификация позволяет провести подразделение данных текстов на прозу, поэзию, драматургию и т. д. Внутри прозаических произведений можно провести подразделение по их жанрам (романы, повести, рассказы, стихи). В нынешнюю версию данного ресурса включены около десятка бурятских романов, авторами которых являются Ц. Дон, Ц.-Ж. Жимбиев, Б. Мунгонов, Б. Санжин, Б. Дандарон, Ж. Туму-нов, Ч. Цыдендамбаев, Б. Шойдоков, Д. Эрдынеев. Авторами включенных в Бурятский корпус (БК) повестей являются С. Ангабаев, А. Ангархаев, З. Гомбожабай, Г.-Д. Дамбаев, Ц. Дон, А. Жамбалдор-жиев, М. Осодоев, Ц.-Д. Хамаев, К. Цыденов, С. Цырендоржиев, Ц. Шагжин, Д.-Д. Дугаров, Д. Эрдынеев. Авторами бурятских рассказов в БК выступают З. Гомбожабай, Ц. Дон, Ц.-Д. Хамаев, Ц. Шагжин, А. Жамбалдоржиев, С. Цырендоржиев, С. Доржиев. В БК включены пьесы Г. Цыденжа-пова и поэтические произведения С. Ангабаева. В 2014 г. названная текстовая база данных БК получила очередное пополнение, достигнув объема выше 2 миллионов 200 тыс. словоформ. Для повышения репрезентативности текстовой базы данных посредством названного пополнения в БК впервые были включены тексты не только художественного, но и общественно-публицистического (газетные и журнальные статьи, очерки из бурятоязычных Интернет-СМИ, популярных журналов) и учебнонаучного стилей (статьи научного сборника). Таким образом, можно сказать, что нынешняя версия БК стала отражать все основные стили современного бурятского языка, хотя их сбалансированность, соотношение между собой требует своего решения.
Вместе с тем будет интересно и полезно определить, какие предпосылки могут способствовать успешному продвижению тех направлений, которые формируются на базе того или иного языкового корпуса. Если отследить начальные этапы разработок почти любого из них, то можно увидеть, что изначально они создавались как базовые лингвистические ресурсы, представляя собой компактную, по объему достаточно ограниченную, включающую в среднем от нескольких сотен тысяч до одного ‒ двух миллионов словоупотреблений справочно-информационную систему. Путем просмотра корпусных сайтов можно перечислить основные направления или ответвления [8], по которым уже разработанные базовые корпуса получают свое дальнейшее развитие. В данном случае под направлениями / ответвлениями мы имеем в виду подкорпусные ресурсы, поскольку языковой корпус, как правило, является сложноинтегрированной информационной системой. На примере лишь одного сайта Национального корпуса русского языка (НКРЯ) можно перечислить помимо самого базового ресурса основные подкорпусные части, которые стали называть еще модулями (в литературе по корпусной лингвистике «модуль» может обозначать также и сам лингвистический инструментарий, например, словарный / грамматический). Вероятно, стали называть вслед за С. И. Ожеговым: «…3. перен. Вообще отделяемая, относительно самостоятельная часть какой-н. системы, организации» [9]. Это могут быть параллельные модули, как, например, русско-английский и др., газетный, обучающий, диалектологический, поэтический, устный, акцентологический, мультимедийный, исторический. Далее к данным модулям как бы «пристегиваются» их собственные уже ответвления, например, в историческом подкорпусе НКРЯ успешно развиваются модули по текстам отдельно XVIII, XIX вв., начала XX в.
При сравнении доступных корпусных ресурсов по разным языкам мира можно видеть между ними как сходства, так и различия. При этом степень последних не представляется кардинально противоположной. Общность и сходства основополагающих принципов и целей организации лингвистических корпусов перевешивают их различия между собой. Думается, что подобное положение можно объяснить в некоторой степени сходством предпосылок для их развития, которые обусловлены многими факторами: это и исторические пути развития самих языков, и языковая ситуация конкретного региона (будь это страна, республика, штат, округ и т. п.), в которых они функционируют. В исторических путях развития большинства языков отслеживаются, как правило, взаимные языковые контакты, которые всегда оказывали и оказывают существенное влияние на их становление, функционирование, формируя тем самым языковую ситуацию (мы понимаем, естественно, что это не единственное, что влияет на ее формирование). Перечисленные выше корпусные модули НКРЯ, которые можно встретить и на сайтах других корпусов или в самостоятельном / автономном формате условно можно назвать дублирующими друг друга с той разницей, что они представляют разные языки своих носителей и, соответственно, могут относиться к разным политическим организациям общества.
Среди подобных дублирующих модулей наблюдаются ресурсы по разговорному языку и спонтанной речи, обучающий, тематический корпуса, параллельный корпус переводов на множество языков одного единственного древнего источника, как, например, Банк данных разговорного немецкого языка, Фонетический корпус спонтанной эстонской речи, Научно-технический баскский корпус, Обучающий корпус японского языка, Параллельный корпус переводов «Слова о полку Игореве» и т. д. Интересно отметить, что только русскоязычных переводов такого древнего источника, как «Слово о полку Игореве», насчитывается более 50, более 40 ‒ на славянских языках, с преобладанием украинских, около 60 ‒ на других языках. Среди последних 60 переводов дублирующими языками выступают английский (7 переводов), немецкий (6), французский (8). По 2-3 перевода наблюдаются на испанском, итальянском, венгерском, монгольском, иврите, идише, казахском, румынском.
Вероятным представляется то, что сходство предпосылок для корпусных разработок, а также общность принципов их организации позволяют как бы «накладывать» те или иные программные менеджеры на лингвистические базы данных разноструктурных языков, например, «движок» Восточно-Армянского национального корпуса достаточно успешно используется для корпусов как флективных (албанский, новогреческий), так и агглютинативных (монгольские, тюркские) языков [5].
Несмотря на свою сложную внутреннюю организованность, языковые корпуса, благодаря своим программным менеджерам, которые перманентно совершенствуются, не требуют большого труда для выкладки от современного среднестатистического пользователя ПК, чтобы он мог извлекать необходимые ему языковые данные в различных целях: исследовательских, образовательных или каких-то иных.
Думается, что корпусные лингвисты согласятся с тем, что в деле составления языкового корпуса нет предела совершенству, в особенности при постоянном продвижении самих электронных технологий. Глубоко разработанные лингвистические базы данных корпуса позволяют проводить параллельно и абсолютно независимо друг от друга множество видов как аналитических, так и теоретических исследований языка, включая анализ квантитативных характеристик на больших по объему фактических материалах, исчисляющихся многомилионными вхождениями разного рода языковых единиц, способствуя определению закономерностей эволюции и развития тех или иных элементов языка практически во многих его аспектах и на многих уровнях как в синхронии, так и в диахронии. Также параллельно и независимо друг от друга могут совершаться различного рода процедуры извлечения из любого доступного в режиме онлайн корпуса требуемых языковых данных неограниченным множеством самих пользователей.
При работе над обсуждаемым проектом представляется целесообразным проведение масштабных работ по углубленному развитию БК [4] с последующим его переоформлением в Национальный корпус бурятского языка (НКБЯ) вместе с регулярным научным описанием самого процесса его составления и сугубо теоретических изысканий, включая прикладные: по лексикографии (составление толкового словаря), лексикологии (семантике), ономастике, фоносемантике, синтаксису, экспериментальной фонетике, лингвофилософии (аксиологический аспект), социолингвистике и другим направлениям. Новым в бурятском языкознании и в целом в монголистике является принцип данного проекта ‒ сочетание сугубо корпусных задач с исследовательскими, т. е. формирование корпуса с параллельным его использованием исполнителями для получения теоретических знаний. Само соблюдение названного принципа по мере продвижения разработок НКБЯ будет способствовать формированию двух закономерных и перспективных блоков исследований в области бурятского языкознания ‒ исследовательско-прикладного и сугубо исследовательского и, вместе с тем, укреплению интегрированной связи между ними.
Впервые для бурятского языкознания в деле составления НКБЯ предусмотрена разработка базовых принципов диахронического подкорпуса для репрезентативности исторического пути развития языка бурят как в плане выражения, так и в плане содержания. В данном направлении предусмотрена подготовка базы данных текстов периода использования латинизированного алфавита (начало ХХ в.), а также образцов письменных памятников бурят в транслитерированном виде текстов на старомонгольской графике. Достижимость решения задач видится в корпусно-ориентированном подходе, который позволяет вести множество исследований на базе одного языкового ресурса. Его полноценная форма должна ускорить в перспективе темпы теоретических исследований, актуальных направлений бурятоведения, в определенной степени запаздывающих сегодня по сравнению с уровнем развития общей лингвистики. В данном случае диахроническое направление бурятоязычного корпусного ресурса диктуется самим ходом исторического развития бурятского языка, которое справедливо делится исследователями на несколько периодов. Периодизации, определенные разными исследователями отличаются между собой, мы будем опираться на классификацию С. А. Крылова и А. В. Дыбо [7, с. 227], согласно которой развитие бурятских языков и диалектов делится на 4 периода: длительность первого ‒ более 160 лет, второго ‒ более 70, третьего ‒ 7 лет и последнего ‒ с 1938 г. по настоящее время.
Ясно, что в основе языкового корпуса лежит текст, в котором зафиксирован тот или иной язык в своем естественном употреблении. При этом текстом для подобного корпуса может служить и служит любой текст, будь то письменный, звуковой или мультимедийный, наличие которых можно рассматривать в качестве предпосылок для разработки соответствующих корпусов (письменных, звуковых, мультимедийных). Как известно, бурятский язык в ходе своего исторического развития фиксировался несколькими графическими системами, которые в корне отличаются между собой ‒ старомонгольская, латинская и кириллическая. Каждый из названных видов письменностей претерпевал видоизменения в своем совершенствовании. Кириллическая письменность для бурятского языка (БЯ) до своего официального принятия в 1939 г. уже имела попытки использования, что можно видеть, например, в библейских переводах (следует сказать ‒ малочисленных) на один из западнобурятских диалектов [10], в учебной литературе для начального образования [2]. Письменности на старомонгольской графике, получившие названия бурятского извода старомонгольского языка и старописьменного бурятского языка [7, с. 227], в целом использовались для БЯ достаточно органично и не представляли особых трудностей в осваивании и использовании носителями восточно-бурятских диалектов.
Длительность периодов развития бурятского языка, о которых говорилось выше, может свидетельствовать о наличии достаточного объема письменных памятников, отражающих свои диахронические особенности по разным аспектам языка. Наличие письменных текстов на бурятском языке с использованием названных графических систем можно отнести к предпосылкам для начала разработок диахронического подкорпуса БЯ. Бурятские тексты с использованием разных графических систем должны формировать соответствующие базы данных для названного подкорпуса. Разработанные в Unicod кодировки старомонгольских графических символов позволяют в настоящее время разрабатывать компьютерные системы для их разметок, оптического распознавания и, в целом, их корпусной обработки.
Совершенно правомерным представляется то, что НКБЯ должен быть разработан с полноценными соответствующими модулями объемом до десятка миллионов словоформ, снабжен грамматической и библиографической разметкой, на базе начальной версии БК [4]. База данных по текстам должна отражать все основные стили БЯ: художественный, общественно-публицистический, учебнонаучный. Морфологический анализатор будет включать словник лексем корпуса, грамматический словарь и другие виды сопутствующих баз данных ‒ словники с переводами, списки формантов словоизменения, таблицы омонимов и другие. Наряду с основным корпусом БЯ должны быть разработаны звуковой, параллельный** подкорпуса, начальная версия диахронического подкорпуса, а также основа диалектологического подкорпуса. Думается, что на формирование диахронического модуля влияет специфика исторического пути развития того или иного языка. Современные российские монголоведы придерживаются того мнения, что бурятский является одним из монгольских языков [11, с. 99]. Существует в то же время точка зрения акад. Ш. Лувсанвандана, считающего, вслед за монголоведами XIX ‒ начала XX в., что языки бурят, калмыков и монголов являются диалектами единого монгольского языка [11]. Не вдаваясь в подробности этой дискуссии, мы можем лишь отметить, что национальный язык бурят развивался и формировался в условиях контактирования с другими языка- ми, диалектами, говорами различных монгольских, тюркских, тунгусо-маньчжурских племенных сообществ.
Нами видится, что будущий языковой Национальный корпус будет представлять собой крупный технологический ресурс, масштабы которого позволят проводить теоретические изыскания с учетом современных лингвистических концепций и получать результаты, соответствующие мировому уровню исследований в области языкознания. Закономерным будет то, что предполагаемый ресурс будет востребован и в сфере образования ‒ в преподавании национального языка на всех этапах его обучения от средней школы до вуза. Представляется, что ожидаемые результаты будут иметь социальную значимость и в плане сохранения национального языка и культуры небольшого народа, находящегося под неизбежным влиянием глобализационных процессов, затушевывающих этническое, культурное и языковое разнообразие. Тогда как корпусное представление языков отвечает проблемам долгосрочного сохранения электронной информации. В решении актуальных проблем бурятского языкознания свою роль сыграет и доведение нынешнего объема базового корпусного ресурса до десятка миллионов словоформ.
Относительно диалектологического корпусного ресурса можно собрать достаточную подборку изданий с текстами на бурятских диалектах. Например, в изданиях бурятских сказок сохранена специфика говоров, что является ценнейшим языковым материалом для диалектологического подкорпуса [3]. А присоединенный к данным сказкам их русский перевод представляет материал для параллельного бурятско-русского подкорпуса. Издания с текстами Гэсэриады, записанными на западнобурятских диалектах, являются богатейшим материалом для формирования соответствующей базы данных для НКБЯ, если привести лишь неполный перечень изданий [1].
Перспективные пути разработки НКБЯ, которые перечислены нами, имеют под собой базу в виде уже имеющегося БК. Наше видение этих перспектив еще, думается, подвергнется редактированию и усовершенствованию, но оно необходимо, на наш взгляд, в целях уточнения будущей совместной работы специалистов, заинтересованных в создании НКБЯ.
Список литературы Монголоязычные корпуса: современное состояние
- Абай Гэсэр. Вариант П. М. Тушемилова/пер. подг. текста, предисл. и примеч. С. Ш. Чагдурова. -Улан-Удэ, 2000. -256 с.
- Абай Гэсэр: Буряад арадай γльгэр. Согсолон найруулагша Н. Балдано. Улан-Удэ, 1959. 526 н.
- Абай-Гэсэр богдо хан. Вариант А. Васильева/подг. текста М. И. Тулохонова. -Улан-Удэ, 1995. -525 с.
- Абай-Гэсэр. Вариант П. Петрова/пер., вступ. статья А. И. Уланова. -Улан-Удэ, 1960. -315 с.
- Болдонов Н. С. Русско-бурятский букварь. -СПб., 1866. -66 с.
- Бурятские волшебные сказки. -Улан-Удэ, 1996. -169 с.
- Бурятские народные сказки. -Новосибирск, 2000. -304 с.
- Бурятские народные сказки. -Улан-Удэ, 1973. -462 с.; 1976. -445 с.; 1981. -448 с.
- Бурятский корпус . -URL: http://web-corpora.net/BuryatCorpus/search/?interface_ language=ru
- Корпуса, созданные при поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика» . -URL: http://web-corpora.net
- Корпусная лингвистика. Программа фундаментальных исследований Президиума РАН . -URL: http://www.corplingran.ru
- Крылов С. А., Дыбо А В. О предмете «монгольское языкознание»//Алтайские языки и восточная филология. -М.: Восточная литература, 2005. -С. 219-229.
- НКРЯ . -URL: http://www.ruscorpora.ru/corpora-structure.html
- Ожегов С.И. . -URL: http://www.ozhegov.org/words/16118.shtml
- От Матеея Святое благовьствован1е (Иркутск, 1909)//Буряад хэлэнэй нангин бэшэг. Восточный библейский институт. С. 1-106
- От Марка Святое благовьствован1е (Иркутск, 1912)//Буряад хэлэнэй нангин бэшэг. Восточный библейский институт. С. 1-128.
- Санжеев Г.Д., Тодаева Б.Х. Монгольские языки//Языки Азии и Африки. V. Алтайские языки. -М.: Восточная литература, 1993. -С. 98-186.