Об использовании метода кейс-стади для создания универсальных ресурсов концептуального аннотирования многоязычных текстов
Автор: Шереметьева Светлана Олеговна, Бабина Ольга Ивановна, Зиновьева Анастасия Юрьевна, Неручева Екатерина Дмитриевна
Журнал: Вестник Южно-Уральского государственного университета. Серия: Лингвистика @vestnik-susu-linguistics
Рубрика: Прикладная лингвистика
Статья в выпуске: 4 т.17, 2020 года.
Бесплатный доступ
Создание аннотированных корпусов текстов имеет критически важное значение для разработки компьютерных технологий обработки неструктурированной информации (автоматической классификации, интеллектуального контент- и тренд-анализов, машинного обучения, машинного перевода и др.) и находится в центре внимания международных теоретических и прикладных лингвистических исследований. При этом ключевым аспектом этих исследований является автоматизация аннотационных процедур, что, в свою очередь, требует статических (лингвистических) и динамических (программных) ресурсов, с возможностью их полного или частичного многократного применения для аннотирования многоязычных текстов различных предметных областей. В настоящей статье представлен опыт применения метода кейс-стади для создания ресурсов автоматизации концептуального аннотирования, одного из самых востребованных и проблематичных видов аннотаций. Под концептуальной аннотацией понимается тип семантической аннотации, ориентированный на решение конкретных информационных задач в рамках определенной предметной области. Методология и конкретные результаты исследования представлены на основе кейс-стади корпусов текстов предметной области «Терроризм» на русском, английском и французском языках. Ресурсы, созданные в ходе исследования, включают в себя как методику их разработки, так и конкретный программный инструментарий и лингвистический материал (многоязычную онтологию и концептуально аннотированные корпусы текстов предметной области «Терроризм» на трех языках). Результаты исследования можно напрямую использовать для увеличения объема концептуально аннотированных корпусов предметной области «Терроризм», разработки метрик разрешения концептуальной многозначности, а также для автоматизации аннотирования текстов других предметных областей и языков. Результаты настоящего исследования представляют интерес и для сравнительных лингвистических исследований.
Концептуальное аннотирование, статические и динамические ресурсы, предметная область, онтология, многоязычность, независимость от естественного языка, терроризм
Короткий адрес: https://sciup.org/147234412
IDR: 147234412 | DOI: 10.14529/ling200408
Список литературы Об использовании метода кейс-стади для создания универсальных ресурсов концептуального аннотирования многоязычных текстов
- Добров А.В., Доброва Н.Л., Сомс Н.Л., Чугунов А.В. Семантический анализ новостных сообщений по теме «Электронные услуги»: опыт применения методов онтологической семантики. Труды XVIII объединенной конференции «Интернет и современное общество», Санкт-Петербург, 23-25 июня 2015 г. СПб., 2015. С. 120-125. [Do-brov Dobrova N.L., Soms N.L., Chugunov A.V. [Semantic Analysis of News Items on 'Electronic Services' Subject Domain: Experience of Applying Methods of Ontological Semantics]. Trudy 18 ob 'edinennoj konferencii "Internet i sovremennoe obshchestvo" [Proceedings of the 18th United Conference "Internet and Modern Society", Saint Petersburg, June 23-25, 2015]. Saint Petersburg, 2015, pp. 120-125. (in Russ.).]
- Загорулько М.Ю., Кононенко И.С., Сидорова Е.А. Система семантической разметки корпуса текстов в ограниченной предметной области. Материалы международной конференции «Компьютерная лингвистика и интеллектуальные технологии», Бекасово, 30 мая - 3 июня 2012. М., РГГУ, 2012, Вып. 11(18), с. 674-683. [Zagorul'ko M.Yu., Kononenko I.S., Sidorova E.A. [System for Semantic Annotation of Domain-Specific Text Corpora]. Materialy mezhdunarodnoy konferentsii "Komp'yuternaya lingvistika i intellektual'nye tekh-nologii", Bekasovo, 30 maya - 3 iyunya 2012. [Proceeding of the International Conference "Computational linguistics and intelligent technologies", Bekasovo, May 30-June 3, 2012]. Moscow, RSUH, 2012, vol. 11(18), pp. 674-683. (in Russ.).]
- Hao Wu, Jun He, Yijian Pei. Scientific Impact at the Topic Level: A Case Study in Computational Linguistics. Journal of the American Society for Information Science and Technology. 2010, November, vol. 61, issue 11, pp. 2274-2287.
- Inyaem U., Haruechaiyasak Ch., Meesad Ph., Tran D. Ontology-Based Terrorism Event Extraction. Proceedings of the 1st International Conference on Information Science and Engineering (ICISE 2009), December 2628, 2009. Nanjing, China, 2009, pp. 912-915.
- Lefever E., Macken L., Hoste V. Language-Independent Bilingual Terminology Extraction from a Multilingual Parallel Corpus. Proceedings of the 12th Conference of the European Chapter of the ACL. Athens, Greece, 2009, pp. 496-504.
- Mair C. The Corpus-based Study of Language Change in Progress: The Extra Value of Tagged Corpora. The AAA CL/ICAME Conference, May 1115. Ann Arbor, MI, 2005.
- Mannes A., Golbeck J. Building a Terrorism Ontology. Proceedings of the ISWC Workshop on Ontology Patterns for the Semantic Web, 36. 2005. http://goo.gl/WXeVVv (23.05.2020).
- Najgebauer A., Antkiewicz R., Chmielews-ki M., Kasprzyk R., Prediction of Terrorist Threat on the basis of Semantic Association Acquisition and Complex Network Evolution. The Journal of Telecommunications and Information Technology. 2008, vol. 2, pp. 14-20.
- Pustejovsky J. Natural Language Annotation for Machine Learning. 1st ed. O'Reilly Media, 2012, 342 p.
- Roberts A., Gaizauskas R., Hepple M., Demetriou G., Guo Y., Roberts A., Setzer A. Building a Semantically Annotated Corpus of Clinical Texts. Journal of Biomedical Informatics. 2009, vol. 42 (5), pp. 950-966.
- Sheremetyeva S. Automatic Extraction of Linguistic Resources in Multiple Languages. Proceedings of NLPCS 2012, 9th International Workshop on Natural Language Processing and Cognitive Science in conjunction with ICEIS 2012. Wroclaw, Poland, 2012, pp. 44-52.
- Sheremetyeva S., Zinovyeva A. On Modelling Domain Ontology Knowledge for Processing Multilingual Texts of Terroristic Content. Communications in Computer and Information Science, 859. Springer, Cham, 2018, pp. 368-379.
- Stenetorp P., Pyysalo S., Topic G., Ohta T., Ananiadou S., Jun'ichi Tsujii J. BRAT: a Web-based Tool for NLP-Assisted Text Annotation. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, April 2327, 2012. Avignon, France, 2012, pp. 102-107.
- Tenenboim L., Shapira B, Shoval P. Ontology-based Classification of News in an Electronic Newspaper. Advanced Research in Artificial Intelligence: ed. by K. Markov, K. Ivanova, I. Mitov. International Book Series "Information Science and Computing", vol. 2. Sofia, Bulgaria, 2008, pp. 89-97.
- Witschel H.F. Terminology Extraction and Automatic Indexing - Comparison and Qualitative Evaluation of Methods. Terminology and Content Development - TKE 2005: 7th International Conference on Terminology and Knowledge Engineering. Copenhagen, Denmark, 2005, pp. 363-374.
- Witt A., Heid, U., Sasaki, F., Gilles Seras-set. Multilingual Language Resources and Interoperability. Language Resources & Evaluation. 2009, March, vol. 43, issue 1, pp. 1-14. DOI: 10.1007/s10579-009-9088-x