Использование лингвистически ориентированных модулей на языке Python для обработки больших текстовых массивов на восточных языках в целях эффективного сбора и обработки данных по отраслям востоковедческой тематики (на примере NLTK)
Автор: Фаткулин Булат Гилимдарович
Журнал: Вестник Южно-Уральского государственного университета. Серия: Лингвистика @vestnik-susu-linguistics
Рубрика: Прикладная лингвистика
Статья в выпуске: 1 т.12, 2015 года.
Бесплатный доступ
Проведен анализ современного лингвистически ориентированного программного обеспечения, созданного в рамках языка программирования Python. В качестве примера выбран комплекс программных модулей Natural Language Toolkit (NLTK). В статье также рассматриваются не только общие принципы работы NLTK, но и их особенности в применении к восточным языкам: фарси, арабскому и китайскому. Показано решение для работы с текстами на восточных языках в кодировке utf-8.
Восточные языки, модули python, обработка естественных языков, код, кодировка utf-8, большие данные
Короткий адрес: https://sciup.org/147153945
IDR: 147153945
Список литературы Использование лингвистически ориентированных модулей на языке Python для обработки больших текстовых массивов на восточных языках в целях эффективного сбора и обработки данных по отраслям востоковедческой тематики (на примере NLTK)
- Курбатов, С.С. Программное обеспечение для лингвистически-ориентированного пополнения онтологии: докл./С.С. Курбатов, А.П. Лобзин, Г.К. Хахалин//Четырнадцатая конференция по искусственному интеллекту с международным участием. -Казань, 2014. -Т. 3. -С. 164-172.
- Маслов, А.В. Системы автоматической обработки текстов на естественном языке: лингвистические аспекты и перспективы развития/А.В. Маслов//Вестник Московского государственного лингвистического университета. -2013. -№ 13 (699). -С. 167-170.
- Фаткулин, Б.Г. Прикладная лингвистика и обработка текстов на восточных языках: современные перспективы/Б.Г. Фаткулин//Вестник ЮУрГУ. Серия «Лингвистика». -2014. -Т. 11, № 3. -С. 15-18.
- Bird, S. Natural language processing with Python./S. Bird, E. Klein, and E. Loper. -Beijing; Cambridge; Mass: O’Reilly, 2009. Print.
- Garrette, D. An extensible toolkit for computational semantics/D. Garrette, E. Klein//Proceedings of the Eighth International Conference on Computational Semantics (IWCS-8 ’09)/H. Bunt, V. Petukhova, S. Wubben (Eds.). Association for Computational Linguistics, Stroudsburg, PA, USA, 2009. -P. 116-127.
- Perkins, J. Python text processing with NTLK 1.0 Cookbook over 80 practical recipes for using Python’s NLTK suite of libraries to maximize your natural language processing capabilities/J. Perkins. -Birmingham Mumbai: PACKT Publishing, 2010. Print.