Платформа для концептуального аннотирования многоязычных текстов
Автор: Шереметьева Светлана Олеговна, Бабина Ольга Ивановна
Журнал: Вестник Южно-Уральского государственного университета. Серия: Лингвистика @vestnik-susu-linguistics
Рубрика: Прикладная лингвистика
Статья в выпуске: 4 т.17, 2020 года.
Бесплатный доступ
В настоящей статье представлен опыт разработки программного инструмента ПАнТ - многофункциональной платформы для создания концептуально аннотированных корпусов текстов, необходимого ресурса компьютерных технологий обработки неструктурированной информации. Платформа ПАнТ разработана на основе лингвистической базы знаний, что допускает различные уровни аннотирования. Инструмент многофункционален и имеет гибкие настройки, которые обеспечивают ее адаптацию к многоязычным текстам различных предметных областей и возможность использования как для процесса аннотирования, так и для совершенствования базы знаний. В настоящей статье методология разработки платформы представлена на примере ее версии, ориентированной на концептуальное аннотирование текстов предметной области «Терроризм» на русском, английском и французском языках. Обсуждается применение альфа-версии ПАнТ в рамках реального проекта по созданию аннотационных ресурсов указанной предметной области; при этом демонстрируется сокращение общего времени на создание качественно аннотированных корпусов текстов («золотого стандарта»).
Концептуальное аннотирование, автоматизация, онтология, многоязычность, предметная область, терроризм
Короткий адрес: https://sciup.org/147234370
IDR: 147234370 | DOI: 10.14529/ling200409
Список литературы Платформа для концептуального аннотирования многоязычных текстов
- Бабина О.И., Дюмин Н.Ю. Автоматизация заполнения морфологической зоны машиночитаемого словаря // Наука ЮУрГУ: Материалы 65-й научной конференции. Челябинск, 15-17 апреля 2013 г. Челябинск, 2013, с. 227-230.
- Babina O.I., Osminin P.G. A Model for Automating the Morphological Generation of Russian Predicates for a Lexicon. Proceedings of the 10th International Technology, Education and Development Conference, Valencia, Spain, 7-9 March, 2016, pp. 1320-1328.
- Druskat S., Bierkandt L., Gast V., Rzymski Ch., Zipser F. Atomic: an open-source software platform for multi-layer corpus annotation. Proceedings of the 12th Konferenz zur Verarbeitung natürlicher Sprache (KONVENS 2014), Hildesheim, October 2014, pp. 228-234.
- Pustejovsky J. Natural Language Annotation for Machine Learning. 1st edition. O'Reilly Media, 2012, 342 p.
- Roberts A., Gaizauskas R., Hepple M., Demetriou G., Guo Y., Roberts A., Setzer A. Building a Semantically Annotated Corpus of Clinical Texts. Journal of Biomedical Informatics. 2009, vol. 42 (5), pp. 950-966.
- Sheremetyeva S.O. Linguistic Models and Tools for Processing Patent Claims. Chelyabinsk, SUSU Publishing center, 2017, 157 p.
- Sheremetyeva S., Zinovyeva A. On Modelling Domain Ontology Knowledge for Processing Multilingual Texts of Terroristic Content. Communications in Computer and Information Science, 859. Springer, Cham, 2018, pp. 368-379.
- Witt A., Heid, U., Sasaki, F., Gilles Sérasset. Multilingual Language Resources and Interoperability. Language Resources & Evaluation. 2009, March, vol. 43, issue 1, pp. 1-14. DOI: 10.1007/s10579-009-9088-x