Автоматизация морфологической разметки архивных документов
Автор: Комендантов Анатолий Сергеевич, Матвеев Александр Георгиевич, Светлов Андрей Владимирович
Журнал: Математическая физика и компьютерное моделирование @mpcm-jvolsu
Рубрика: Моделирование, информатика и управление
Статья в выпуске: 4 т.22, 2019 года.
Бесплатный доступ
Работа посвящена описанию созданной авторами статьи надстройки над утилитой для стемминга MyStem И. Сегаловича. Приложение добавляет к возможностям утилиты удобный графический интерфейс, простой для освоения и интуитивно понятный пользователям, не специализирующимся в информационных технологиях. Оно перехватывает вывод утилиты MyStem, специальным образом переформатирует и анализирует его. Кроме того, приложение имеет функционал для снятия омонии вручную, если автоматическими средствами морфологические характеристики слова определены неверно. Основное назначение данного приложения - подготовка морфологической разметки документов архивного фонда «Михайловский станичный атаман» для создания лингвистического корпуса. В ходе работы над приложением была решена задача корректной обработки текстов, содержащих устаревшие кириллические символы.
Автоматизация лингвистического анализа, автоматизация морфологического анализа, утилита mystem, графический интерфейс, программная оболочка, корпусная лингвистика
Короткий адрес: https://sciup.org/149129872
IDR: 149129872 | DOI: 10.15688/mpcm.jvolsu.2019.4.4
Список литературы Автоматизация морфологической разметки архивных документов
- Балясова, Е. С. Войсковые грамоты XVIII в.: лингвистический корпус / Е. С. Балясова. // Теоретические и прикладные аспекты корпусных исследований: тез. науч. конф. - Электрон. текстовые дан. - Режим доступа: https://volsu.ru/upload/medialibrary/904/2016-konferentia-tezises-corpus.pdf. - Загл. с экрана.
- Балясова, Е. С. Региональные архивные документы XVIII века в аспекте корпусной лингвистики / Е. С. Балясова, Е. М. Шептухина // Коммуникативные аспекты современной лингвистики и лингводидактики: материалы Междунар. науч. конф. - Волгоград: Изд-во ВолГУ, 2017. - C. 31-37.
- Светлов, А. В. Автоматизация процесса получения лингвистической информации: современные возможности / А. В. Светлов, А. С. Комендантов // Вестник Волгоградского государственного университета. Серия 2, Языкознание. - 2017. - Т. 16, № 2. - C. 39-46. - DOI: 10.15688/jvolsu2.2017.2.4
- Шептухина, Е. М. Войсковые грамоты середины XVIII века в аспекте категории модальности / Е. М. Шептухина, О. А. Горбань // Вестник Волгоградского государственного университета. Серия 2, Языкознание. - 2015. - № 5 (29). - C. 7-18. - DOI: 10.15688/jvolsu2.2015.5.1
- Шептухина, Е. М. Этапы создания лингвистического корпуса войсковых грамот XVIII-XIX вв. архивного фонда "Михайловский станичный атаман" ГАВО / Е. М. Шептухина, О. А. Горбань // Гуманитарное образование и наука в техническом вузе: cб. докл. Всерос. науч.-практ. конф. с междунар. участием. - Ижевск: Изд-во Ижев. гос. техн. ун-та им. М.Т. Калашникова, 2017. - C. 428-431.
- Segalovich, I. A fast morphological algorithm with unknown word guessing inducedby a dictionary for a web search engine. / I. Segalovich // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications. - Las Vegas: CSREA Press, 2003. - P. 273-280.