Монголоязычные корпуса: современное состояние

Автор: Бадмаева Любовь Дашинимаевна

Журнал: Вестник Бурятского государственного университета. Философия @vestnik-bsu

Рубрика: Востоковедение

Статья в выпуске: 10, 2015 года.

Бесплатный доступ

Корпусная лингвистика, ставшая сегодня полноправной научной дисциплиной, развивается и на базе монгольских языков, оформляя свое направление как монголоязычная корпусная лингвистика. История составления корпусов по монгольским языкам в современном смысле началась не так давно и по времени охватывает около двух десятков лет. Формирование любой научной дисциплины идет этапами. Складывание корпусной лингвистики как научной дисциплины можно условно разделить первоначально на два основных этапа. Первый этап - период непосредственного составления самих языковых корпусов, второй - период развития лингвистики в новой научной парадигме, которая обусловлена использованием данных уже созданных корпусов. В монголистике же в данное время можно наблюдать в основном первый из названных этапов, связанный с формированием монголоязычных корпусных ресурсов - Монгольский корпус, Калмыцкий корпус, Национальный корпус калмыцкого языка, Бурятский корпус. Помимо своей научной и образовательной значимости, корпусные языковые ресурсы вносят весомый вклад в решение проблем долговременного сохранения культурного наследия монгольских народов в киберпространстве. Вместе с решением задач дальнейшего продвижения монголоязычных корпусных проектов встают задачи выработки путей их координации ввиду как территориальной, так и государственной разобщенности самих монгольских языков.

Еще

Корпусная лингвистика, монгольские языки, языковой корпус, разметка

Короткий адрес: https://sciup.org/148182655

IDR: 148182655

Текст научной статьи Монголоязычные корпуса: современное состояние

Корпусная лингвистика (далее — КЛ), начавшая свое развитие на данных английского языка в 60-е гг. ХХ в. (Брауновский корпус, У. Френсис и Г. Кучера, Брауновский университет, США; Survey of English Usage, Рандолф Квирк, Университетский колледж Лондона, Англия) стала к настоящему времени полноправной научной дисциплиной со своими научным аппаратом, терминологией, методами и технологиями в качестве ответвления компьютерной лингвистики, которая, в свою очередь, является частью прикладной лингвистики. К достижениям корпусной лингвистики можно отнести уже ряд языковых корпусных ресурсов по всем крупным языкам мира, а также языкам и диалектам, носителями которых являются народы, которые условно можно охарактеризовать по их численности как «средние» или «малые», в отличие от крупных. Если несколько лет назад языковые корпуса, доступные в режиме онлайн, исчислялись десятками, то сейчас их численность перевалила уже за сотню единиц [12] и это число с каждым годом продолжает только расти.

КЛ стала развиваться и на данных монгольских языков, оформляя свое направление как монголоязычная корпусная лингвистика. Исто- рия составления корпусов по монгольским языкам в современном смысле началась не так давно и по времени охватывает около двух десятков лет [11; 17; 18; 15; 14; 4; 1, 5]. Судя по опубликованным трудам указанных авторов, а также из бесед во время личных встреч с некоторыми из них, мы можем сказать, что первые шаги по составлению корпусов по монгольским языкам были начаты монгольскими, китайскими (внутренне-монгольскими), японскими и, соответственно, российскими исследователями. Доступные нам, т. е. опубликованные, работы данных исследователей сгруппированы между собой, что позволяет говорить о китайской, монгольской, японской и российской группах разработчиков. Мы отдаем себе отчет в том, что перечисляем здесь не всех участников корпусных проектов по монгольским языкам. Говоря о китайской группе, по данным Д. Боролзоя и Т. ПYрэвсYрэна, назовем внутренне-монгольских коллег, таких как Чойжинжав, С. Насан Урт, Хуашабу [12]. Постараемся отразить имена исследователей, являющихся, на наш взгляд, в своих группах ведущими.

Практически все начинания названных исследователей стимулированы интенсивным развитием компьютерных технологий на рубеже ХХ и XXI вв. и их главным стремлением — внедрить языковые данные в компьютерные технологии, что является уже закономерным явлением современной лингвистической парадигмы. Несмотря на схожесть основных предпосылок начинаний данных исследователей в составлении компьютерных ресурсов по монгольским языкам, их цели, задачи отличаются между собой, а значит, естественно допустить отличия в результатах работ, полученных названными группами исследователей. Вероятно, к факторам, влияющим на сходства и различия конечных результатов монголоязычных проектов в обсуждаемом нами направлении можно отнести и разные программные платформы, разрабатываемые совершенно независимо друг от друга исследователями Монголии, Японии, Китая (Внутренней Монголии), России. Различаются, например, работы по созданию машинных фондов языка, начинавшиеся во времена, когда еще не было Интернета, например, Машинный фонд русского языка [6], опыт разработки которого успешно использовали создатели Национального корпуса русского языка (далее — НКРЯ). По современному монгольскому языку следует назвать работы в схожем направлении под руководством, например, проф. Т. Тербата [18] в качестве предвестников корпусных ресурсов. Работы японской группы исследователей в обсуждаемом направлении по своим целям и задачам в преобладающей степени тяготеют к компьютерной лингвистике. То же самое можно сказать и о монгольской группе [17; 16; 15]. Мы же озадачены характеристикой ресурсов, разрабатываемых в направлении КЛ. Ввиду малодоступности для нашего анализа работ китайской группы мы можем предположительно сказать, что, по всей видимости, она развивает монголоязычную как компьютерную лингвистику, так и корпусную.

Дальнейшее описание мы хотели бы провести, исходя из основного подразделения результативности работ названных групп исследователей — доступность / недоступность разрабатываемого корпусного ресурса для заинтересованных интернет-пользователей. Под доступностью мы понимаем соответственно онлайн-представление языковых корпусов в Интернете, чем и определяется их основная научная и практическая значимость. Никто не составляет языковые корпуса объемом в сотни миллионов словоупотреблений лично для себя (исключениями могут быть небольшие учебные корпуса в несколько сот или несколько тысяч слов). Понятно, что возможность использования крупных ресурсов неограниченным множеством пользователей только повышает их значимость.

Как известно, формирование любой научной дисциплины идет поэтапно. Складывание КЛ как научной дисциплины, являющейся частью компьютерной лингвистики, можно условно (поскольку границы не так строги) разделить первоначально на два основных этапа (нельзя исключать, что данные этапы, в свою очередь, могут получить дальнейшее дробление). Первый этап — период непосредственного составления самих языковых корпусов. Второй — это период развития лингвистики в новой научной парадигме, которая обусловлена использованием различных данных языка, извлекаемых из уже созданных корпусов, которые, как правило, позволяют исследователям оперировать масштабными статистическими параметрами языковых фактов, кардинально другими, чем в докорпус-ную эпоху, что позволяет получать наряду с уточнениями ранее полученных знаний совершенно новые результаты. Наличие глубоко разработанных корпусов по крупным языкам мира, соответственно, позволяет успешно выполнять исследования на базе корпусных материалов.

Можно привести примеры крупных языковых корпусов, которые свободно или на условиях регистрации, доступны в режиме онлайн, например, Корпус современного американского английского (COCA), Британский национальный корпус (British national corpus), НКРЯ, Корпус китайского языка, Корпус языка хинди и другие. В монголистике же в данное время можно наблюдать в основном первый из названных этапов, связанный с формированием монголоязычных корпусных ресурсов, некоторые из них стали доступными в режиме онлайн, хотя по степени разработанности различаются между собой [7; 8; 3; 2], что характерно для большинства подобных ресурсов в силу как объективных, так и субъективных причин. Относительно истории исследований языковых аспектов в монголистике с использованием корпусных данных в настоящий период времени, будет справедливо сказать, что она только начинает открывать свои первые страницы [4; 5]. Здесь следует отметить то, что корпусные лингвистические исследования зачастую полагаются на масштабные объемы фактического материала, позволяющие получать более чем достоверные результаты.

При описании доступных в сети монголоязычных корпусов, не исключено, то, что какие-то ресурсы остались за пределами нашего внимания. Если подобное имеет место, то причина будет заключаться в том, что мы не располагаем их адресами ссылок. На настоящем этапе развития монголоязычной КЛ можно дать краткое описание доступных корпусов в сети Интернет по монгольским языкам.

Три монголоязычных корпуса — монгольский, калмыцкий и бурятский — располагаются на одном сервере, который представляет более десятка корпусов, разработанных при поддержке Программы фундаментальных исследований Президиума РАН «Корпусная лингвистика». Данные три монголоязычных корпуса доступны онлайн с сайта По начальным страницам с сайтов данных корпусов можно видеть то, что они используют поисковую платформу Восточно-армянского национального корпуса [13]. Ввиду того, что проекты разработки данных корпусов являются долгосрочными, при непосредственном обращении к ним можно заметить то, что коллективы их создателей продолжают постоянно работать над их усовершенствованием, отладкой лингвистического инструментария, редактированием погрешностей.

Монгольский представляет современный язык с кириллической графикой, соответственно функционирующий в Монголии. Создателем данного корпуса является С. А. Крылов (ИВ РАН, Москва, Россия), крупный специалист в области общего и монгольского языкознания, а также компьютерной и корпусной лингвистики. Объем Монгольского корпуса охватывает 1,2 млн. словоупотреблений. Тексты корпуса представляют разные жанры и типы, отражая основные стили монгольского языка, но, следует сказать, что их разметка, к сожалению, не отражается на сайте. В данном корпусе есть возможности осуществлять поиск по словоформе, лемме, переводу, граммемам и лексическим категориям с выдачей контекстов.

Калмыцкий корпус имеет объем в 800 тыс. словоупотреблений. Корпус составлен А. Э. Ванькаевой при поддержке специалистов по компьютерной и корпусной лингвистике Т. А. Архангельского и М. А. Даниэля (НИУ ВШЭ, Москва, Россия). Во вступительной статье на сайте данного корпуса сказано: «Литературные тексты на калмыцком языке — романы, повести, рассказы, очерки, газетные статьи (вторая половина ХХ — начало ХХI в.), включенные в корпус, снабжены морфологической разметкой, позволяющей осуществлять поиск по лексеме, по грамматическим характеристикам, по переводу, а также по сочетаниям словоформ на заданном расстоянии».

Второй корпус по калмыцкому языку имеет название Национальный корпус калмыцкого языка (далее — НККЯ). Он располагается на самостоятельном сервере со своей поисковой системой. Ведущим разработчиком данного корпуса является В. В. Куканова (КИГИ РАН, Элиста, Россия). В НККЯ состав, структура имеют уже углубленный характер. На страницах составных частей и подкорпусов НККЯ имеются разъясняющие статьи. Отсутствие подобных статей, судя по всему, свидетельствует о том, что данная часть находится в процессе разработки.

На наш взгляд, НККЯ в настоящее время можно назвать наиболее разработанным среди других монголоязычных корпусов как в плане лингвистических баз данных (текстотека, грамматические словники, словари переводов и др.), так и в плане лингвистических инструментариев к ним. При этом коллектив разработчиков продолжает активное продвижение своего фундаментального проекта, учитывая специфические предпосылки для составления калмыцкого языкового корпуса. Думается, что ознакомление с видением коллектива разработчиков НККЯ по части формирования его состава, структуры, готовящихся перспективных направлений будет чрезвычайно полезно для продвижения / разработки других корпусных ресурсов по языкам и диалектам монгольских народов в силу схожих путей исторического развития их языков.

Бурятский корпус с объемом в 2,2 млн. словоупотреблений включает в настоящее время тексты всех основных стилей функционирования языка — художественного, общественнопублицистического, учебно-научного, с преобладанием первого. Здесь имеются возможности поиска по словоформе, лемме и избранным текстам с выдачей всех контекстов, грамматических признаков лексических единиц на сегодняшний день к неполному объему корпуса и метаинформации к источникам. Возможность поиска по переводу и параллельный бурятско-русский подкорпус находятся на стадии подготовки. Во вступительной статье дается инструкция по использованию корпуса. Настоящая версия данного корпуса стала большим подспорьем для составителей Толкового словаря бурятского языка, давая возможность в считанные секунды находить примеры к словам, т. е. контексты, исчисляющиеся по объему от сотни до тысячи и более единиц.

Подведем краткие итоги по характеристике данных корпусов. Критерии сходства и различия таковы: наличие / отсутствие вступительных статей, разность / схожесть поисковой платформы, разность возможностей поиска, разность составных частей, наличие / отсутствие подкорпусов. Подкорпуса (начало их разработок) представлены только в НККЯ.

Помимо своей научной и образовательной значимости, корпусные языковые ресурсы вносят весомый вклад в решение проблем долговременного сохранения культурного наследия монгольских народов в киберпространстве. Вместе с решением задач дальнейшего продвижения монголоязычных корпусных проектов встают задачи выработки путей их координации ввиду как территориальной, так и государственной разобщенности носителей самих монгольских языков. Также перспективным для дальнейшего развития и взаимообогащения языков и диалектов монгольских народов в век высоких технологий представляется планирование и реализация совместных международных разработок в русле монголоязычной КЛ. В данном деле уже положено начало в виде международного проекта (Китай, Монголия, Россия) «Разработка кор- пуса монгольских языков» (2012–2013) [9; 10], который представляет собой звуковой корпус, включающий записи разговорной речи, выполненные монголистами на протяжении многолетних экспедиционных работ в местах компактного проживания носителей языков и диалектов монгольских народов. Относительно онлайн-доступности / недоступности данного проекта приходится сказать, что он не представлен в Интернете. Предположительно мы позволим себе высказаться по поводу причины онлайн-недоступности результатов данного проекта, хотя не исключены причины, отличающиеся от наших представлений. По нашему мнению, одной из возможных причин является сложность представления в интегрированном виде на единой программной платформе баз данных языков и диалектов, несмотря на их близкую родственность, функционирующих на различающихся графических системах как вертикальная письменность во Внутренней Монголии Китая, кириллица современного монгольского, калмыцкого и бурятского языков. В свою очередь, как известно, кириллические системы данных языков также имеют между собой различия в передаче их специфических букв. Другой немаловажной причиной можно предположить сложность создания единого сайта для представления совместного ресурса, подготовленного международным коллективом.

Таким образом, сейчас в сети в корпусных ресурсах доступны в письменном виде языки монгольских народов с грамматическим описанием конкретной словарной единицы. Живая же монгольская речь, например, современная монгольская, калмыцкая, дагурская или бурятская и т. д. в корпусном ресурсе с соответствующими лингвистическими комментариями в сети (как, например, корпус устной речи Восточноармянского национального корпуса) еще не получила свое представление, но если учитывать то, что работы в этом направлении ведутся группами исследователей разных стран (пусть даже и независимо друг от друга), можно сказать, что это является уже делом ближайшего будущего.

Список литературы Монголоязычные корпуса: современное состояние

  • Бадмаева Л. Д. Бурятский языковой корпус: создание, проблемы//Вестник БНЦ СО РАН. -2013. -№ 2 (10). -С. 118-122.
  • Бурятский корпус . -URL: http://web-corpora.net/BuryatCorpus/search/?interface_language=ru
  • Калмыцкий корпус . -URL: http://web-corpora.net/KalmykCorpus/search/?interface_language=ru
  • Крылов С.А. Теоретическая грамматика современного монгольского языка и смежные проблемы общей лингвистики. Ч. 2: Структурно-вероятностная модель монгольского языка (на базе Генерального корпуса современного монгольского языка). -М.: Восточная литература, 2014.
  • Куканова В. В. Словоизменительные типы в калмыцком языке в свете автоматической обработки текстов (на примере имени существительного)//Вестник Калм. ин-та гуманит. исслед. РАН. -2012. -№ 3.
  • Машинный фонд русского языка: идеи и суждения. -М.: Наука,1986.
  • Монгольский корпус . -URL: http://web-corpora.net/MongolianCorpus/search/? interface language=ru
  • Национальный корпус калмыцкого языка . -URL: http://kalmcorpora.ru/
  • Разработка корпуса монгольских языков [Электронный ресурс]. - URL: http://www.mongoloved.ru/index.php?option =com content&view=article&id=107:proekt-razrabotka-korpusa-mongolskogo-yazyka-mongol-khelnii-materialyn-kh-mr-g-baiguulakh-inzheniering-v-rossii&catid=8:novosti&Itemid=107
  • Сундуева Е. В. Проект «Разработка корпуса монгольского языка» в Бурятии//Вестник БНЦ СО РАН. -2013. -№ 3 (11). С. 189-190.
  • Bayatur Da., Djirumt Bu., Odu uye-yin Mongyul kelen-u uge-yin dabtamji-yin toil. -Ober Mongyul-un suryan kumujil-un keblel-un kuriy-e. Kuke qota, 1998. 1482 n.
  • Боролзой Д., ПYрэвсYрэн Т. Компьютер хэл шинжлэл ба дэлхийн чиг . -URL: http://borolzoi.blogmn.net/27067/kompiyutyer-hel-shinjlel-ba-tsahim-ugiin-san-(1)-baiguulah-asuudald.html
  • EANC: East Armenian National Corpus . -URL: http://www.eanc.net/ru/composition/oral discourse/
  • Khaltar B., Fujii A., Ishikawa T. Extracting loanwords from Mongolian corpora and producing a Japanese-Mongolian bilingual dictionary//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, Sydney, July 2006. Sydney, 2006. P. 657-664.
  • Менх-Учрал Э. Монгол хэлний цахим хемрегийн тухайд//Gemeinsam Stark, Verein der mongolischen Akademiker in Baden Wurttemberg e.V., Universitat Stuttgart. Stuttgart, 2010.
  • PAN Localization . -URL: http://www.panl10n.net/mongolia/
  • Purev J., Altangerel Ch. . -URL: http://www.panl10n.net/center-for-research-on-language-processing-crlp-national-university-of-mongolia-mongolia/
  • Тербат Т., Эрдэнэбатхаан Т., Монгол хэлний машинан боловсруулалтын тулгамдсан асуудал, туунийг шийдэх арга замын тухайд, Хумуунлэгийн ухааны их сургуулийн эрдэм шинжилгээний бичиг, Боть 1 (06), УБ 2004.
Еще
Статья научная