Корпус архивных документов Войска Донского: проблемы морфологического анализа

Автор: Горбань Оксана Анатольевна, Косова Марина Владимировна, Шептухина Елена Михайловна, Светлов Андрей Владимирович

Журнал: Вестник Волгоградского государственного университета. Серия 2: Языкознание @jvolsu-linguistics

Рубрика: Главная тема номера

Статья в выпуске: 6 т.21, 2022 года.

Бесплатный доступ

В статье обобщены некоторые результаты исследования, нацеленного на создание специального аннотированного диахронического корпуса документов архивного фонда Михайловского станичного атамана Государственного архива Волгоградской области. Предложены решения лингвистических и технических задач, связанных с разметкой текстов и представлением их в электронно-поисковой среде. Для корректной работы с текстами документов, написанными скорописью XVIII в. и первой половины XIX в., группой специалистов под руководством А.В. Светлова создана надстройка над утилитой для стемминга MyStem И.В. Сегаловича. Она добавляет к возможностям утилиты выводить всю грамматическую информацию и количественные данные опцию работы с устаревшей кириллицей, удобный графический интерфейс, имеет функционал для снятия омонимии вручную, поддерживает экспорт размеченного текста во внешнюю систему хранения и обработки данных. В результате морфологического анализа части текстов О.А. Горбань и Е.М. Шептухиной установлены варианты падежных форм существительных, не отмеченные в «Российской грамматике» М.В. Ломоносова, в современных исследованиях литературных текстов XVIII в., и обоснована необходимость корректировки программных инструментов разметки текстов в плане расширения возможных вариантов грамматического разбора омонимичных форм для последующего снятия омонимии вручную. Количественный анализ выявленных фактов, проведенный М.В. Косовой, и их лингвистическая интерпретация показали в сфере грамматики, наряду с общими тенденциями развития и функционирования русского языка, особенности, характерные для деловой письменной речи в ее региональном варианте.

Еще

История русского языка, региональная деловая письменность, лингвистический корпус, морфологическая разметка, варианты падежных форм, грамматическая омонимия

Короткий адрес: https://sciup.org/149141658

IDR: 149141658   |   DOI: 10.15688/jvolsu2.2022.6.4

Список литературы Корпус архивных документов Войска Донского: проблемы морфологического анализа

  • Барсов А. А., 1981. Российская грамматика Антона Алексеевича Барсова. М.: Изд-во МГУ. 776 с.
  • Горбань О. А., Косова М. В., Шептухина Е. М., 2021. Структурная разметка деловых документов в диахроническом лингвистическом корпусе: проблемы и решения // Вестник Волгоградского государственного университета. Серия 2, Языкознание. Т. 20, № 4. С. 5–18. DOI: https://doi.org/10.15688/jvolsu2.2021.4.1
  • Горбань О. А., Косова М. В., Шептухина Е. М., Дмитриева Е. Г., Сафонова И. А., 2020. Документы Войска Донского XVIII века: лингвистическое описание и тексты. Волгоград: Изд-во ВолГУ. 464 с.
  • Еськова Н. А., 2008. Нормы русского литературного языка XVIII–XIX веков: Ударение. Грамматические формы. Варианты слов. Словарь. Пояснительные статьи. М.: Рукоп. памятники Древ. Руси, 2008. 960 с.
  • Касаткин Л. Л., 1999. Современная русская диалектная и литературная фонетика как источник для истории русского языка. М.: Наука: Шк. «Яз.рус. культуры». 526 с.
  • Комендантов А. С., Матвеев А. Г., Светлов А. В., 2019. Автоматизация морфологической разметки архивных документов // Математическая физика и компьютерное моделирование. Т. 22, № 4. С. 53–63. DOI: https://doi.org/10.15688/mpcm.jvolsu.2019.4.4
  • Ломоносов М. В., 1755. Российская грамматика Михайла Ломоносова. СПб.: Тип. Императ. Акад. наук. 210 с.
  • Ляшевская О. Н., Плунгян В. А., Сичинава Д. В., 2005. О морфологическом стандарте Национального корпуса русского языка // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М.: Индрик. C. 111–135.
  • Осипов Б. И., Гейгер Р. М., Рогожникова Т. П., 1993. Язык русских деловых памятников XV–XVIII вв.: Фонетический, орфографический и стилистический аспекты. Омск: Ом. ун-т. 96 с.
  • Савчук С. О., Сичинава Д. В., 2009. Корпус русских текстов XVIII века в составе Национального корпуса русского языка: проблемы и перспективы // Национальный корпус русского языка: 2006–2009. Новые результаты и перспективы / отв. ред. В. А. Плунгян. СПб.: Нестор-История. С. 52–69.
  • Сень Д. В., 2014. Архив Войска Донского и история войскового делопроизводства: актуальные вопросы изучения // Научное наследие профессора А.П. Пронштейна и актуальные проблемы развития исторической науки (к 95-летию со дня рождения выдающегося российского ученого): материалы Всерос. (с междунар. участием) науч.-практ. конф., г. Ростов-на-Дону, 4–5 апр. 2014 г. / отв. ред. М. Д. Розин, Д. В. Сень, Н. А. Трапш. Ростов н/Д: Фонд науки и образования. С. 484–495.
  • Тарабасова Н. И., 1986. Явления вариативности в языке московской деловой письменности XVII в. / отв. ред. С. И. Котков. М.: Наука. 164 с.
  • Филимонов Д. Ю., Светлов А. В., Горбань О. А., Косова М. В., Шептухина Е. М., 2020. Автоматизация процесса метаразметки архивных документов // Математическая физика и компьютерное моделирование. Т. 23, № 4. C. 56–68. DOI: https://doi.org/10.15688/mpcm.jvolsu.2020.4.6
  • Segalovich I., 2003. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine // Proceedings of the International Conference on Machine Learning: Models, Technologies and Applications. LasVegas: CSREAPress. P. 273–280.
Еще
Статья научная