Лингвистический корпус как незаменимый инструмент в исследовании
Автор: Лабачва М.В., Черноусова О.Г.
Журнал: Форум молодых ученых @forum-nauka
Статья в выпуске: 4 (4), 2016 года.
Бесплатный доступ
В статье рассматриваются основные понятия корпусной лингвистики, методы и области ее применения. Описывается преимущество корпусов текстов в лингвистическом исследовании. Проанализированы работы, написанные на базе Национального корпуса русского языка. Сделаны выводы о том, что появление корпусов имеет большое значение в современной лингвистике.
Информационные технологии, лингвистика, исследование, корпус текстов, лингвистическая разметка
Короткий адрес: https://sciup.org/140276693
IDR: 140276693
Текст научной статьи Лингвистический корпус как незаменимый инструмент в исследовании
Labacheva Margarita Vasilyevna
2nd year student
Armavir State Pedagogical University
Institute of Russian and Foreign Philology
Russia, Armavir
Scientific supervisors: Gurova E. A., Senior Lecturer; Chernousova O. G.,
Lecturer
CORPUS LINGUISTIC AS AN INDISPENSABLE MEAN IN RESEARCH
The article outlines the main concepts of corpus linguistics, the methods and areas of its using. It describes advantages of corpora in linguistics researches. The works based on The Russian National Corpus are analyzed. There is a conclusion that the creation of corpora has a huge influence on modern linguistic.
В настоящее время благодаря быстрому развитию информационных технологий работа любого исследователя стала заметно легче, чем работа его предшественника. Лингвистам в доцифровую эпоху приходилось создавать многотысячные картотеки вручную, для того, чтобы использовать их, например, при составлении словарей, на что уходили многие годы. В. И. Даль собирал слова до конца своих дней, последние из них он добавил за несколько дней до своей смерти. Но с внедрением информационных технологий во все сферы науки, включая лингвистику, трудоемкие годы работы над

составлением таких картотек канули в Лету. На это место пришли корпусы текстов. Корпус (от лат. corpus – тело, туловище) – это собрание в электронном виде материалов в устной или письменной форме, снабженных специальной разметкой, используемые в целях изучения того или иного языка. Своё начало корпусная лингвистика берет в 60-х годах XX века. В 1967 году Н. Френсис и Г. Кучера опубликовали классическую работу «Computational Analysis of Present-Day American English», собранную из 500 текстов и содержащую более 1 млн. слов, сейчас это известно как Брауновский корпус.[6] Лингвистические базы данных стали полностью электронными только в 1980-х. Корпусы текстов служат для многих целей, как исследовательских, так и для практических, например, для выявления употребления определенных словоформ; подсчета частотности употребления языковых конструкций в различных жанрах литературы, в определенном временном периоде; также корпусы полезны при переводе текстов: например, для выявления определенных языковых клише, при подготовке к ЕГЭ, при составлении словарей – в настоящее время многие из них составляются на базе корпусов и т. д. Ими могут воспользоваться прикладные лингвисты, лингвисты-теоретики, преподаватели языков, историки, социологи и т. д. Так в чем же преимущество такой лингвистической базы данных? Во-первых, материал собирается из аутентичных источников – это книги, научные работы, газетные статьи, телепередачи и, в принципе, любой источник живого языка. Во-вторых, эти материалы делятся по стилям, что очень удобно: поиск слова может проводится в интересующем жанре, либо можно пронаблюдать частотность использования словоформы в различной среде языка. В-третьих, каждый корпус снабжен разметкой, дающей возможность распределить тексты по различным параметрам. В данный момент не существует общепризнанного стандарта разметки, но можно выделить несколько типов: [1]
Экстралингвистическая (метаразметка)
Внешняя |
Структурная |
Техническая |
Информация об авторе и тексте (н., годы жизни автора; название текста/произведения, место и год издания, тематика и др.) |
Заголовки, абзацы, предложения и языковые конструкции и др. |
Кодировка, источники электронной версии и др. |
Лингвистическая:
-
1. Морфологическая (например, часть речи, число, род, падеж для существительного, вид, время для глагола и т. д.). Это называют частеречной разметкой (POS tagging, part-of-speech tagging).
-
2. Синтаксическая (связь слов в предложении)
-
3. Семантическая (тематический класс лексемы, каузация — для глаголов и т. д.)
-
4. Анафорическая (местоименные связи и др.)
-
5. Просодическая (ударения, паузы, интонация и т. д.) и т. д.
Таким образом, корпус тестов является незаменимым средством для работы лингвистов, потому что в цифровом мире не существует аналога такой лингвистической базе данных: ни одна электронная библиотека не содержит ни лингвистической разметки, ни статистики, ни каких-либо других лингвистических сведений, ни дает возможность сортировать тексты по узконаправленным параметрам, также только корпуса составляется из отрывков письменных или устных текстов современного живого языка.
В настоящее время создано огромное количество корпусов для разных языков.[2] Существуют такие общие корпуса русского языка, как:
-
4) Национальный корпус русского языка
-
5) Упсальский и Тюбингенский корпуса
-
6) Хельсинкский аннотированный корпус русских текстов
-
7) Корпус русского литературного языка
-
4. Тестовый корпус с параллельной синтаксической разметкой (доступен для онлайн-поиска)
5.RUS-Treebank
-
14. "Рассказы о сновидениях" и другие корпуса звучащей речи
-
15. Корпус русских учебных (академических) текстов (КРУТ)
Также представлены в цифровом формате синтаксические корпуса русского языка:
Сейчас многие исследователи составляют свои собственные корпуса на базе составленных ими проектами:
Исследовательские работы на основе корпусного подхода приобрели большую популярность в последнее время. Так, Комаров Е. В. в своей работе[3] исследует метафоры современного русского языка, составляющих понятие «счастье» на базе Национального корпуса русского языка. Автор приводит статистические данные частотности употребления лексемы «счастье» совместно с другими словами, словоформами, образующими метафоры и делает выводы о том, какой смысл вкладывается в понятие «счастье» в русской лингвокультуре, а именно: метафорическая модель «Счастье – желанный объект» имеет наибольшую частотность употребления, что дает основание сделать умозаключение о том, что в российской культуре огромное значение имеет стремление найти и получить концепт «счастье».
Савчук С. О.[4] в своем исследовании вариативности родовой принадлежности определенной группы существительных получает данные из Национального корпуса русского языка и сравнивает их с данными из других источников. Автор пронаблюдав колебание в родовой принадлежности выбранных имен существительных на базе корпуса сделал вывод о том, что «среди факторов, которые способствуют адаптации слова к грамматической системе русского языка... нужно отметить соответствие формального облика слова признакам того или иного грамматического класса... [другим] является лексико-семантический фактор, который способствует ассоциативному

сближению нового слова с уже существующим и «копированию» его грамматических характеристик, в частности, родовой принадлежности.».[4]
Подводя итоги, можно сказать, что появление корпусной лингвистики стало огромным прорывом в лингвистике, как в целом. Существование корпусов текстов заметно ускорило, упростило работу лингвистов, дало возможность изучить настоящее состояние языка любому интересующемуся.
Список литературы Лингвистический корпус как незаменимый инструмент в исследовании
- Фонд знаний «Ломоносов» [Электронный ресурс] URL: http://www.lomonosov-fund.ru/enc/ru/encyclopedia:0127221:article
- Национальный корпус русского языка [Электронный ресурс] URL: http://ruscorpora.ru/corpora-other.html
- Комаров Е. В. КОРПУСНОЕ ИССЛЕДОВАНИЕ МЕТАФОР, ОБЪЕКТИВИРУЮЩИХ КОНЦЕПТ «СЧАСТЬE» В СОВРЕМЕННОМ РУССКОМ ЯЗЫКЕ // В мире науки и искусства: вопросы филологии, искусствоведения и культурологии: сб. ст. по матер. LIX междунар. науч.-практ. конф. № 4(59). - Новосибирск: СибАК, 2016. - С. 65-72.
- Савчук С.О. Корпусное исследование вариантов родовой принадлежности имен существительных в русском языке // Компьютерная лингвистика и интеллектуальные технологии: по матер. ежегодной междунар. конф. «Диалог» (Бекасово, 25-29 мая 2011 г.). № 10 (17). М.: Изд-во РГГУ, 2011. С 562-579.
- Корпусная лингвистика, основано на дипломн. работе студ. СПбГУ филологич. факультета Л.В. Северюхиной «Моделирование логико-понятийной области корпусной лингвистики»; URL: http://corpora.iling.spb.ru/theory.htm
- Wikipedia [Электр. рес.] URL https://en.wikipedia.org/wiki/Corpus_linguistics