Автоматизация процесса метаразметки архивных документов
Автор: Филимонов Даниил Юрьевич, Светлов Андрей Владимирович, Горбань Оксана Анатольевна, Косова Марина Владимировна, Шептухина Елена Михайловна
Журнал: Математическая физика и компьютерное моделирование @mpcm-jvolsu
Рубрика: Моделирование, информатика и управление
Статья в выпуске: 4 т.23, 2020 года.
Бесплатный доступ
Работа посвящена описанию созданного авторами статьи приложения для поиска определенных заранее заданных шаблонов в обрабатываемых текстах. Данные шаблоны описываются специально разработанной системой маркеров, специфических для ряда рассматриваемых документов. Основное назначение данного приложения - подготовка метаразметки документов архивного фонда «Михайловский станичный атаман» для создания лингвистического корпуса. В ходе работы над приложением была решена задача корректного определения документов четырех типов - войсковая грамота, рапорт, доношение и известие - а также их описательных характеристик.
Автоматизация лингвистического анализа, автоматизация метаразметки, графический интерфейс, корпусная лингвистика, регулярные выражения
Короткий адрес: https://sciup.org/149131529
IDR: 149131529 | DOI: 10.15688/mpcm.jvolsu.2020.4.6
Список литературы Автоматизация процесса метаразметки архивных документов
- Антонова, А. Ю. Определение стилевых и жанровых характеристик коллекций текстов на основе частеречной сочетаемости / А. Ю. Антонова, Э. С. Клышинский, Е. В. Ягунова // Труды международной конференции «Корпусная лингвистика-2011». — СПб. : Изд-во С.-Петерб. гос. ун-та, 2011. — C. 80-85.
- Барахнин, В. Б. Сравнительный анализ методов автоматической классификации поэтических текстов на основе лексических признаков / В. Б. Барахнин, О. Ю. Кожемякина, И. С. Пастушков // Труды XIX Международной конференции «Аналитика и управление данными в областях с интенсивным использованием данных» (DAMDID/ RCDL'2017). — М. : Федеральный исследовательский центр «Информатика и управление» Российской академии наук, 2017. — C. 252-259.
- Горбань, О. А. Доношения и рапорты донских казаков в середине XVIII в.: источниковедческий анализ / О. А. Горбань // Вестник Волгоградского государственного университета. Серия 4. История. Регионоведение. Международные отношения. — 2019. — Т. 24, № 4. — C. 45-59. — DOI: https://doi.Org/10.15688/jvolsu4.2019.4.4.
- Гулин, В. В. Методы снижения размерности признакового описания документов в задаче классификации текстов / В. В. Гулин // Вестник МЭИ. — 2013. — № 2. — C. 115-121.
- Епрев, А. С. Автоматическая классификация текстовых документов / А. С. Епрев // Математические структуры и моделирование. — 2010. — Вып. 21. — C. 65-81.
- Комендантов, А. С. Автоматизация морфологической разметки архивных документов / А. С. Комендантов, А. Г. Матвеев, А. В. Светлов // Математическая физика и компьютерное моделирование. — 2019. — Т. 22, № 4. — C. 53-63. — DOI: https://doi.Org/10.15688/mpcm.jvolsu.2019.4.4.
- Косова, М. В. Параметризация текстов документов как способ жанровой идентификации / М. В. Косова // Вестник Балтийского федерального университета им. И. Канта. Сер.: Филология, педагогика, психология. — 2020. — № 1. — C. 48-55.
- Орлов, Ю. Н. Определение жанра и автора литературного произведения статистическими методами / Ю. Н. Орлов, К. П. Осминин // Прикладная информатика. — 2010. — № 2 (26). — C. 95-108.
- Светлов, А. В. Автоматизация процесса получения лингвистической информации: современные возможности / А. В. Светлов, А. С. Комендантов // Вестник Волгоградского государственного университета. Серия 2. Языкознание. — 2017. — Т. 16, № 2. — C. 39-46. — DOI: https://doi.org/10.15688/jvolsu2.2017.2.4.
- Шептухина, Е. М. Жанровые параметры сказки как документа середины XVIII века в аспекте создания лингвистического корпуса / Е. М. Шептухина // Научный диалог. — 2019. — № 11. — C. 114-129. — DOI: 10.24224/2227-1295-2019-11-114-129.
- Шептухина, Е. М. Войсковые грамоты середины XVIII века в аспекте категории модальности / Е. М. Шептухина, О. А. Горбань // Вестник Волгоградского государственного университета. Серия 2. Языкознание. — 2015. — № 5 (29). — C. 7-18. — DOI: http://dx.doi.org/10.15688/jvolsu2.2015.5.1.
- Шептухина, Е. М. Этапы создания лингвистического корпуса войсковых грамот XVIII-XIX вв. архивного фонда «Михайловский станичный атаман» ГАВО / Е. М. Шепту-хина, О. А. Горбань // Гуманитарное образование и наука в техническом вузе : сб. докл. Всерос. науч.-практ. конф. с междунар. участием. — Ижевск : Изд-во Ижев. гос. техн. ун-та им. М.Т. Калашникова, 2017. — C. 428-431.
- Cleuziou, G. On the Impact of Lexical and Linguistic Features in Genre and Domain-Based Text Categorization. / G. Cleuziou, C. Poudat // Proceedings of the Eighth International Conference on Intelligent Text Processing and Computational Linguistics. — Berlin; Heidelberg : Springer-Verlag, 2007. — P. 599-610. — DOI: https://doi.org/10.1007/978-3-540-70939-8_53.
- Cossack Military Charters of the Mid 18th Century: Genre Distinction / O. A. Gorban, E. Yu. Ilyinova, M. V. Kosova, E. M. Sheptukhina // XLinguae Journal. - 2017. - Vol. 10, iss. 3. - P. 123-136. - DOI: 10.18355/XL.2017.10.03.10. ISSN 1337-8384.
- Sebastiani, F. Text Categorization. / F. Sebastiani // Text Mining and Its Applications. - Southhampton, UK : WIT Press, 2005. - P. 109-129.