Классификация определений в математических latex статьях

Автор: Огурцов Д.А.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Математика

Статья в выпуске: 1 (61) т.16, 2024 года.

Бесплатный доступ

Рассмотрено построение классификатора «определений» в математических научных статьях формата LaTeX на основе различных векторных представлений для задачи распознавания «областей интереса» и задачи MIR. Составлен корпус документов, содержащих определения. Исследованы визуальные отображения векторных представлений для данной задачи, а также качество работы классификаторов на них.

Обработка естественного языка, latex, математические тексты, векторные представления

Короткий адрес: https://sciup.org/142241779

IDR: 142241779

Список литературы Классификация определений в математических latex статьях

  • Ganesalingam M. The language of mathematics. Berlin, Heidelberg: Springer, 2013.
  • Сайт LaTeX [Электронный ресурс]. Режим доступа: https://www.latex-project.org/
  • Ohri A., Schmah T. Machine translation of mathematical text // IEEE Access. 2021. V. 9. P. 38078–38086.
  • Berlioz L. ArGoT: A Glossary of Terms extracted from the arXiv // arXiv preprint arXiv:2109.02801. 2021.
  • Feigenbaum E.A. [et al.]. Computers and thought. New York: McGraw-Hill, 1963. V. 7.
  • Bobrow D. [et al.]. Natural language input for a computer problem solving system. 1964.
  • Charniak E. Computer solution of calculus word problems // Proceedings of the 1st international joint conference on Artificial intelligence. 1969. P. 303–316.
  • Meadows J., Freitas A. A survey in mathematical language processing // arXiv preprint arXiv:2205.15231. 2022.
  • Berlioz L. WIP: Creating a Database of Definitions From Large Mathematical Corpora.
  • Guidi F., Sacerdoti Coen C. A survey on retrieval of mathematical knowledge // Mathematics in Computer Science. 2016. V. 10, N 4. P. 409–427.
  • Zanibbi R., Blostein D. Recognition and retrieval of mathematical expressions // International Journal on Document Analysis and Recognition (IJDAR). 2012. V. 15. P. 331–357.
  • Sparck Jones K. A statistical interpretation of term specificity and its application in retrieval // Journal of documentation. 1972. V. 28, N 1. P. 11–21.
  • Qaiser S., Ali R. Text mining: use of TF-IDF to examine the relevance of words to documents // International Journal of Computer Applications. 2018. V. 181, N 1. P. 25–29.
  • Harris Z.S. Distributional structure // Word. 1954. V. 10, N 2–3. P. 146–162.
  • Cer D. [et al.]. Universal sentence encoder // arXiv preprint arXiv:1803.11175. 2018.
  • Devlin J. [et al.]. BERT: Pre-training of deep bidirectional transformers for language understanding // arXiv preprint arXiv:1810.04805. 2018.
  • Peng S. [et al.]. Mathbert: A pre-trained model for mathematical formula understanding // arXiv preprint arXiv:2105.00377. 2021.
  • Van der Maaten L., Hinton G. Visualizing data using t-SNE // Journal of machine learning research. 2008. V. 9, N 11.
  • Vaswani A. [et al.]. Attention is all you need // Advances in neural information processing systems. 2017. V. 30.
  • Iyyer M. [et al.]. Deep unordered composition rivals syntactic methods for text classification // Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th International joint conference on natural language processing. 2015. V. 1. P. 1681–1691.
  • Cайт NTCIR-12 [Электронный ресурс]. Режим доступа: https://ntcirmath.nii.ac.jp/task-overview/
  • Бенджио И., Гудфеллоу Я., Курвилль А. Глубокое обучение Москва: ДМК-Пресс, 2018.
  • Cайт Brat [Электронный ресурс]. Режим доступа: https://brat.nlplab.org/
  • Чару А. Нейронные сети и глубокое обучение: учебный курс Санкт-Петербург: ООО «Диалектика», 2020.
  • Friedman J.H. Stochastic gradient boosting // Computational statistics & data analysis. 2002. V. 38, N 4. P. 367–378.
  • Chen T., Guestrin C. Xgboost: A scalable tree boosting system // Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016. P. 785–794.
  • Akiba T. [et al.]. Optuna: A next-generation hyperparameter optimization framework // Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019. P. 2623–2631.
Еще
Статья научная