Электронный корпус татарского языка на базе модели лингвистических графов знаний

Автор: Гатиатуллин А.Р., Мухамедшин Д.Р., Прокопьев Н.А., Сулейманов Д.Ш.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: Прикладные онтологии проектирования

Статья в выпуске: 4 (54) т.14, 2024 года.

Бесплатный доступ

В статье представлена новая версия электронного корпуса татарского языка, модернизированная на основе модели лингвистического графа знаний тюркских языков. Новая версия корпуса позволяет описать информацию на разных лингвистических уровнях: морфонологическом, синтаксическом и семантическом благодаря представлению лингвистической информации в виде графов знаний. Такой способ представления повышает функциональные возможности работы с корпусом, позволяет производить поиск по запросам, содержащим синтаксическую и семантическую информацию. Особенность реализации электронного корпуса заключается в том, что использованная модель в наибольшей степени соответствует структурно-функциональным особенностям тюркских языков и используется в качестве основы для создания ряда программных продуктов, связанных с семантической обработкой текста на тюркских языках. В частности, к таким продуктам относятся лингвистический портал «Тюркская морфема» и новая версия электронного корпуса татарского языка «Туган тел».

Еще

Электронный корпус, граф знаний, система управления базами данных, лингвистическая единица, тюркские языки

Короткий адрес: https://sciup.org/170207431

IDR: 170207431   |   DOI: 10.18287/2223-9537-2024-14-4-542-554

Список литературы Электронный корпус татарского языка на базе модели лингвистических графов знаний

  • Aksan M., Aksan Y. Linguistic Corpora: A View from Turkish. In: Oflazer, K., Saraçlar, M. (eds) Turkish Natural Language Processing. Theory and Applications of Natural Language Processing. 2018. Springer, Cham. DOI:10.1007/978-3-319-90165-7_14.
  • Салчак А.Я. Электронный корпус текстов тувинского языка. Новые исследования Тувы. 2012. №3. С.110-114.
  • Bazarbayeva Z.M., Zharkynbekova Sh.K., Amanbayeva A.Zh., Zhumabayeva Zh.T., Karshygayeva A.A. The National Corpus of Kazakh Language: Development of Phonetic and Prosodic Markers. Journal of Siberian Federal University. Humanities and Social Sciences. 2023. Т. 16. № 8. P.1256-1270. EDN: IVPVAN.
  • Sirazitdinov, Z. Buskunbaeva L., Ishmukhametova A. About linguistic corpora of the Bashkir language // Proceedings of the International Conference "Turkic languages processing" Turklang-2015 / Tatarstan Academy of Sciences L.N. Gumilyov Eurasian National University Ministry of Education and Science of the Republic of Kazakhstan Kazan Federal University Institute of Philology and Intercultural Communication. – Казань, Россия: Академия наук Республики Татарстан, 2015. P.269-275. EDN ZDGYTR.
  • Mukhamedshin D., Gilmullin R., Khakimov B. Search Engine Capabilities in the Corpus Data Management System // UBMK 2023 - Proceedings: 8th International Conference on Computer Science and Engineering, Burdur; Turkey; 13-15 September 2023, p.449–452. DOI: 10.1109/UBMK59864.2023.10286648.
  • Сулейманов Д.Ш., Гильмуллин Р.А., Гатиатуллин А.Р., Прокопьев Н.А. Когнитивный потенциал естественных языков агглютинативного типа в интеллектуальных технологиях // Онтология проектирования. 2023. Т.13, №4(50). С.496-506. DOI:10.18287/2223-9537-2023-13-4-496-506.
  • Hogan A, Blomqvist E, Cochez M, d’Amato C, de Melo G, Gutierrez C, Gayo JEL, Kirrane S, Neumaier S, Pollere A. Knowledge graphs. ACM Computing Surveys (CSUR). 2021; 54(4): 1-37. DOI: 10.1145/3447772.
  • Fensel D, Şimşek U, Angele K, Huaman E, Kärle E, Panasiuk O, Toma I, Umbrich J, Wahler A. Knowledge Graphs: Methodology, Tools and Selected Use Cases. Cham: Springer Cham, 2020. 164 p. DOI: 10.1007/978-3-030-37439-6.
  • Ji S, Pan S, Cambria E, Marttinen P, Yu PS. A Survey on Knowledge Graphs: Representation, Acquisition, and Applications. IEEE Transactions on Neural Networks and Learning Systems. 2021; 33(2): 494-514. DOI: 10.1109/TNNLS.2021.3070843.
  • Pan JZ, Vetere G, Gomez-Perez JM, Wu H. Exploiting Linked Data and Knowledge Graphs in Large Organizations. Cham: Springer Cham, 2017. 266 p. DOI: 10.1007/978-3-319-45654-6.
  • Гатиатуллин А.Р., Прокопьев Н.А., Сулейманов Д.Ш. Модель лингвистических графов знаний тюркских языков // Онтология проектирования. 2024. Т.14, №3(53). С.366-378. DOI: 10.18287/2223-9537-2024-14-3-366-378
  • Gatiatullin A., Suleymanov D., Prokopyev N., Khakimov B. About turkic morpheme portal // CEUR Workshop Proceedings, 2020, 2780. P.226–243. EDN: ZNIQUO.
  • Lyashevskaya, O. and Egor Kashkin, FrameBank: A Database of Russian Lexical Constructions // International Joint Conference on the Analysis of Images, Social Networks and Texts, 2015. M.Y. Khachay et al. (Eds): AIST 2015, CCIS 542. P.1–11. DOI: 10.1007/978-3-319-26123-2_34.
Еще
Статья научная