Метод нахождения связанных показателей на основе анализа нормативно-правовых актов методами NLP

Автор: Аббазов Валерьян Ринатович, Балуев Владимир Александрович, Мельников Андрей Витальевич, Русанов Михаил Александрович

Журнал: Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника @vestnik-susu-ctcr

Рубрика: Управление в социально-экономических системах

Статья в выпуске: 1 т.22, 2022 года.

Бесплатный доступ

Современные методы прогнозирования временных рядов позволяют получить весьма точные и качественные прогнозы при наличии ретроспективных данных. Однако результаты работы этих методов определяются объемом и качеством обучающей выборки. Когда временной ряд отсутствует, имеет малое количество точек или вовсе не достоверен, методы прогнозирования временных рядов неэффективны. В таком случае принято использовать подходы для нахождения иных показателей, так или иначе коррелирующих с искомым, далее называемых косвенными показателями. В рамках работы над прогнозированием социально-экономических показателей возникла необходимость в формировании перечня косвенных показателей, однако имеющиеся решения для данной задачи не обеспечивают требуемой достоверности. В большинстве случаев в работах используют данные социальных сетей, форумов и других источников, которые не могут считаться объективными, так как являются выражением субъективной точки зрения и могут быть подвержены умышленным фальсификациям и искажениям. Такие риски неприемлемы при разработке системы, создаваемой для принятия управленческих решений на уровне государства. Цель исследования: разработка методов поиска косвенных показателей, основывающихся на объективных источниках информации. Данные методы позволяют сформировать перечень косвенных показателей, не привлекая экспертов и исключая риски некорректности первичных данных. Материалы и методы. Исследования проводились на основе нормативно-правовых актов Российской Федерации и ее субъектов. Данный источник был выбран по причине того, что нормативные документы являются объективными и основополагающими документами государства. Они не являются представлением субъективной точки зрения автора или группы лиц. Для эксперимента была собрана часть нормативной базы с 2016 по 2021 год, относящаяся к категориям: сельское хозяйство, медицина, социальная сфера и другие. Результаты. Определен метод нахождения косвенных показателей, разработаны и апробированы различные алгоритмы ранжирования косвенных показателей, сформированы косвенные показатели для нескольких социально-экономических показателей. Процесс выявления косвенных показателей построен на применении методов Data Mining и NLP к базе данных нормативно-правовых актов Российской Федерации. Заключение. Полученное решение позволило сформировать список N-грамм, связанных с искомым показателем. На данном этапе интерпретация N-граммы в показатель производится с помощью эксперта, однако для этого не требуется иметь компетенций в предметной области показателя.

Еще

Социально-экономические показатели, n-грамма, показатель деятельности вдл, data mining, nlp

Короткий адрес: https://sciup.org/147236517

IDR: 147236517   |   DOI: 10.14529/ctcr220107

Список литературы Метод нахождения связанных показателей на основе анализа нормативно-правовых актов методами NLP

  • Об утверждении методик расчета показателей для оценки эффективности деятельности высших должностных лиц (руководителей высших исполнительных органов государственной власти) субъектов Российской Федерации и деятельности органов исполнительной власти субъектов Российской Федерации: постановление Правительства Рос. Федерации от 03 апреля 2021 г. № 542. URL: https://docs.cntd.ru/document/560760968 (дата обращения: 21.12.2021).
  • Yancong Xie, Hongxun Jiang. Stock market forecasting based on text mining technology: A support vector machine method. 2019. URL: https://arxiv.org/abs/1909.12789 (дата обращения: 21.12.2021).
  • F. Swen Kuh, Grace S. Chiu, Anton H. Westveld. Modeling National Latent Socioeconomic Health and Examination of Policy Effects via Causal Inference. 2019. URL: https://arxiv.org/abs/1911.00512 (дата обращения: 21.12.2021).
  • Isao Yagi, Yuji Masuda, Takanobu Mizuta. Analysis of the Impact of High-Frequency Trading on Artificial Market Liquidity. 2020. URL: https://arxiv.org/abs/2010.13038 (дата обращения: 21.12.2021).
  • Qi-Qiao He, Patrick Cheong-Iao Pang, Yain-Whar Si. Multi-source Transfer Learning with Ensemble for Financial Time Series Forecasting. 2021. URL: https://arxiv.org/abs/2103.15593 (дата обращения: 21.12.2021).
  • Dilusha Weeraddana, Nguyen Lu Dang Khoa, Lachlan O Neil, Weihong Wang, Chen Cai. Energy consumption forecasting using a stacked nonparametric Bayesian approach. 2020. URL: https://arxiv.org/abs/2011.05519 (дата обращения: 21.12.2021).
  • Rajapaksha D., Bergmeir C., Hyndman R.J. LoMEF: A Framework to Produce Local Explanations for Global Model Time Series Forecasts. 2021. URL: https://arxiv.org/pdf/2111.07001.pdf (дата обращения: 21.12.2021).
  • Sonja Tilly, Giacomo Livan. Macroeconomic forecasting with statistically validated knowledgegraphs. 2021. URL: https://arxiv.org/abs/2104.10457 (дата обращения: 21.12.2021).
  • Jie Huang, Kevin Chen-Chuan Chang, Jinjun Xiong, Wen-mei Hwu. Open relation modeling: Learning to define relations between entities. 2021. URL: https://arxiv.org/abs/2108.09241 (дата обращения: 21.12.2021).
  • Madhav Nimishakavi, Uday Singh Saini, Partha Talukdar. Relation schema induction using tensor factorization with side information. 2016. URL: https://arxiv.org/abs/1605.04227 (дата обращения: 21.12.2021).
  • Yihong Yuan. Modeling Inter-country Connection from Geotagged News Reports: A Time-Series Analysis. 2017. URL: https://doi.org/10.1007/978-3-319-61845-6_19 (дата обращения: 21.12.2021).
  • Badgujar A., Chen S., Wang A., Yu K., Intrevado P., Brizan D.G. Quantum Criticism: A Tagged News Corpus Analysed for Sentiment and Named Entities. 2020. URL: https://arxiv.org/abs/2006.05267 (дата обращения: 21.12.2021).
  • Tosin P. Adewumi, Foteini Liwicki, Marcus Liwicki. Word2Vec: Optimal Hyper-Parameters and Their Impact on NLP Downstream Tasks. 2020. URL: https://arxiv.org/abs/2003.11645 (дата обращения: 21.12.2021).
  • Shuxiao Chen, Koby Crammer, Hangfeng He, Dan Roth, Weijie J. Su. Weighted Training for Cross-Task Learning. 2021. URL: https://arxiv.org/abs/2105.14095 (дата обращения: 21.12.2021).
  • Официальный интернет-портал правовой информации. URL: http://pravo.gov.ru/ (дата обращения: 21.12.2021).
  • Veselov D., Kukushkin A., Zamaraev A.N., Yarantsev D., Tihonov S. Solves basic Russian NLP tasks, API for lower level Natasha projects. 2021. URL: https://github.com/natasha/natasha/ (дата обращения: 21.12.2021).
  • Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages. 2015. URL: https://link.springer.com/chapter/10.1007%2F978-3-319-26123-2_31 (дата обращения: 21.12.2021).
  • Juan Ramos. Using TF-IDF to Determine Word Relevance in Document Queries. 2003. URL: https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.121.1424&rep=rep1&type=pdf (дата обращения: 21.12.2021).
Еще
Статья научная