О создании веб-сервиса для работы с корпусом архивных документов
Автор: Павлов Артур Валерьевич, Сапич Юлия Дмитриевна, Светлов Андрей Владимирович, Комендантов Анатолий Сергеевич
Журнал: Математическая физика и компьютерное моделирование @mpcm-jvolsu
Рубрика: Моделирование, информатика и управление
Статья в выпуске: 1 т.25, 2022 года.
Бесплатный доступ
Статья посвящена разработке веб-сервиса лингвистического корпуса документов архивного фонда «Михайловский станичный атаман». Компоненты сервиса позволяют производить автоматизированный морфологический анализ текстов, создавать на основе него документы, формирующие корпус, сохранять их в базе данных, производить поиск по ним и получать созданные другими пользователями документы. Также в программе предусмотрена функция для ручной коррекции ошибок, возникающих при проведении автоматизированного морфологического анализа старославянских текстов, в которых присутствуют устаревшие символы.
Лингвистический корпус документов, веб-сервис, автоматизация морфологического анализа, утилита mystem, корпусная лингвистика
Короткий адрес: https://sciup.org/149140097
IDR: 149140097 | УДК: 004.91,
On development of web application for corpus of archival documents
This work is a part of the project on creation the linguistic corpus of the fund “Mikhailovsky stanitsa ataman” documents. This fund contains historically valuable administrative documents of the Don Cossacks Army of the 18th-19th centuries, stored in the state archives of Volgograd Region. To introduce it to scientific society, a lot of preliminary work to digitize them was done by group of scientists from Volgograd State University headed by Professor O.A. Gorban. In their current form, these documents are suitable for computer processing. The only significant problem is outdated vocabulary and graphics, but it was generally solved in our previous works. At the current stage, the main task is to develop the technical and software parts of the corpus. In fact, this means the creation of an “engine” for a document corpus, that is, software for storing a database of marked-up texts, executing queries to this database, and also providing user-friendly interface that does not require special IT-skills. At the same time, in the process of working on the previous tasks, we decided to integrate the document markup tool into the general corpus software. Thus, the present work is devoted to the development of a REST service that allows you to perform automated morphological analysis of texts, save a special form of processed documents in a database, search in database by a query with morphological features of elements in the texts. The software also provides a function for manual correction of errors that occur in automated analysis of Old Slavonic texts with obsolete characters.
Список литературы О создании веб-сервиса для работы с корпусом архивных документов
- Автоматизация процесса метаразметки архивных документов / Д. Ю. Филимонов, А. В. Светлов, О. А. Горбань, М. В. Косова, Е. М. Шептухина // Математическая физика и компьютерное моделирование. — 2020. — Т. 23, № 4. — С. 56-68. — 001: https://doi.Org/10.15688/mpcm.jvolsu.2020.4.6.
- Балясова, Е. С. Региональные архивные документы XVIII века в аспекте корпусной лингвистики / Е. С. Балясова, Е. М. Шептухина // Коммуникативные аспекты современной лингвистики и лингводидактики : материалы междунар. науч. конф. — Волгоград : Изд-во ВолГУ, 2017. — С. 31-37.
- Горбань, О. А. Черновой текст как основа реконструкции речемыслитель-ной деятельности (на материале региональных документов XVIII в.) / О. А. Гор-бань, М. В. Косова, Е. М. Шептухина // Вестник Волгоградского государственного университета. Серия 2, Языкознание. — 2018. — Т. 17, № 4. — С. 40-54. — 00!: https://doi.Org/10.15688/jvolsu2.2018.4.4.
- Использование mystem. — Технологии Яндекса. — Электрон. текстовые дан. — Режим доступа: https://yandex.ru/dev/mystem/doc/index.html. — Загл. с экрана.
- Комендантов, А. С. Автоматизация морфологической разметки архивных документов / А. С. Комендантов, А. Г. Матвеев, А. В. Светлов // Математическая физика и компьютерное моделирование. — 2019. — Т. 22, № 4. — С. 53-63. — 00Г https://doi.org/10.15688/mpcm.jvolsu.2019.4A
- Светлов, А. В. Автоматизация процесса получения лингвистической информации: современные возможности / А. В. Светлов, А. С. Комендантов // Вестник Волгоградского государственного университета. Серия 2, Языкознание. — 2017. — Т. 16, № 2. — C. 39-46. — DOI: https://doi.org/10.15688/jvolsu2.2017.2.4.
- Шептухина, Е. М. Войсковые грамоты середины XVIII века в аспекте категории модальности / Е. М. Шептухина, О. А. Горбань // Вестник Волгоградского государственного университета. Серия 2, Языкознание. — 2015. — № 5 (29). — C. 7-18. — DOI: http://dx.doi.org/10.15688/jvolsu2.2015.5.1.
- Шептухина, Е. М. Этапы создания лингвистического корпуса войсковых грамот XVIII—XIX вв. архивного фонда «Михайловский станичный атаман» ГАВО / Е. М. Шептухина, О. А. Горбань // Гуманитарное образование и наука в техническом вузе : сб. докл. Всерос. науч.-практ. конф. с междунар. участием. — Ижевск : Изд-во Ижев. гос. техн. ун-та им. М.Т. Калашникова, 2017. — C. 428-431.
- Administrative documents of the Don Cossack Host in the 18th-19th centuries: the issue of the creation of a linguistic corpus / O. Gorban, M. Kosova, E. Sheptukhina, A. Svetlov, A. Komendantov, A. Matveev, D. Filimonov // Journal: Scripta & e-Scripta. — 2021. — № 21. — P. 139-150.
- Segalovich, I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine. / I. Segalovich // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. — Las Vegas : CSREA Press, 2003. — P. 273-280.
- Wilde, E. REST: From Research to Practice / E. Wilde, C. Pautasso. — New York : Springer, 2011. — 528 p. — DOI: https://doi.org/10.1007/978-1-4419-8303-9.