Об использовании метода кейс-стади для создания универсальных ресурсов концептуального аннотирования многоязычных текстов

Шереметьева Светлана Олеговна; Бабина Ольга Ивановна; Зиновьева Анастасия Юрьевна; Неручева Екатерина Дмитриевна; Sheremetyeva S.O.; Babina O.I.; Zinoveva A.Yu.; Nerucheva E.D.

doi:10.14529/ling200408

Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Об использовании метода кейс-стади для создания универсальных ресурсов концептуального аннотирования многоязычных текстов

Автор: Шереметьева Светлана Олеговна, Бабина Ольга Ивановна, Зиновьева Анастасия Юрьевна, Неручева Екатерина Дмитриевна

Журнал: Вестник Южно-Уральского государственного университета. Серия: Лингвистика @vestnik-susu-linguistics

Рубрика: Прикладная лингвистика

Статья в выпуске: 4 т.17, 2020 года.

Бесплатный доступ

Создание аннотированных корпусов текстов имеет критически важное значение для разработки компьютерных технологий обработки неструктурированной информации (автоматической классификации, интеллектуального контент- и тренд-анализов, машинного обучения, машинного перевода и др.) и находится в центре внимания международных теоретических и прикладных лингвистических исследований. При этом ключевым аспектом этих исследований является автоматизация аннотационных процедур, что, в свою очередь, требует статических (лингвистических) и динамических (программных) ресурсов, с возможностью их полного или частичного многократного применения для аннотирования многоязычных текстов различных предметных областей. В настоящей статье представлен опыт применения метода кейс-стади для создания ресурсов автоматизации концептуального аннотирования, одного из самых востребованных и проблематичных видов аннотаций. Под концептуальной аннотацией понимается тип семантической аннотации, ориентированный на решение конкретных информационных задач в рамках определенной предметной области. Методология и конкретные результаты исследования представлены на основе кейс-стади корпусов текстов предметной области «Терроризм» на русском, английском и французском языках. Ресурсы, созданные в ходе исследования, включают в себя как методику их разработки, так и конкретный программный инструментарий и лингвистический материал (многоязычную онтологию и концептуально аннотированные корпусы текстов предметной области «Терроризм» на трех языках). Результаты исследования можно напрямую использовать для увеличения объема концептуально аннотированных корпусов предметной области «Терроризм», разработки метрик разрешения концептуальной многозначности, а также для автоматизации аннотирования текстов других предметных областей и языков. Результаты настоящего исследования представляют интерес и для сравнительных лингвистических исследований.

Концептуальное аннотирование, статические и динамические ресурсы, предметная область, онтология, многоязычность, независимость от естественного языка, терроризм

Короткий адрес: https://sciup.org/147234412

IDR: 147234412 | УДК: 004.82 | DOI: 10.14529/ling200408

On using the case study method to create universal resources for conceptual annotation of multilingual corpora

The development of annotated corpora is crucial for the computer technologies meant to process unstructured information (automatic classification, intellectual content and trend analysis, machine learning, machine translation, etc.). It is therefore one of the focuses of international theoretical and applied linguistic research. The key aspect here is the automation of annotation procedures, which, in turn, requires static (linguistic) and dynamic (software) resources that could be reused, at least partially, for annotating multilingual texts of various domains. This paper presents an effort to create such resources for the conceptual type of annotation, one of the most popular and problematic annotation levels, by using the case study method. Conceptual annotation is understood as a kind of semantic annotation focused on solving specific information problems within specific domains. The methodology and results of the study are worked out by applying the case study method to the “Terrorism” domain texts in Russian, English and French. The resources created during the research thus include a universal methodology for the resource development, as well as domain oriented software and linguistic material (multilingual ontology and conceptually annotated corpora in three languages), which can directly be used for augmenting the coverage of annotated corpora in the “Terrorism” domain, developing metrics to resolve conceptual ambiguity, as well as for automating text annotation in other domains and languages. The results of the current research are also of interest for contrastive linguistic studies.

Список литературы Об использовании метода кейс-стади для создания универсальных ресурсов концептуального аннотирования многоязычных текстов

Добров А.В., Доброва Н.Л., Сомс Н.Л., Чугунов А.В. Семантический анализ новостных сообщений по теме «Электронные услуги»: опыт применения методов онтологической семантики. Труды XVIII объединенной конференции «Интернет и современное общество», Санкт-Петербург, 23-25 июня 2015 г. СПб., 2015. С. 120-125. [Do-brov Dobrova N.L., Soms N.L., Chugunov A.V. [Semantic Analysis of News Items on 'Electronic Services' Subject Domain: Experience of Applying Methods of Ontological Semantics]. Trudy 18 ob 'edinennoj konferencii "Internet i sovremennoe obshchestvo" [Proceedings of the 18th United Conference "Internet and Modern Society", Saint Petersburg, June 23-25, 2015]. Saint Petersburg, 2015, pp. 120-125. (in Russ.).]
Загорулько М.Ю., Кононенко И.С., Сидорова Е.А. Система семантической разметки корпуса текстов в ограниченной предметной области. Материалы международной конференции «Компьютерная лингвистика и интеллектуальные технологии», Бекасово, 30 мая - 3 июня 2012. М., РГГУ, 2012, Вып. 11(18), с. 674-683. [Zagorul'ko M.Yu., Kononenko I.S., Sidorova E.A. [System for Semantic Annotation of Domain-Specific Text Corpora]. Materialy mezhdunarodnoy konferentsii "Komp'yuternaya lingvistika i intellektual'nye tekh-nologii", Bekasovo, 30 maya - 3 iyunya 2012. [Proceeding of the International Conference "Computational linguistics and intelligent technologies", Bekasovo, May 30-June 3, 2012]. Moscow, RSUH, 2012, vol. 11(18), pp. 674-683. (in Russ.).]
Hao Wu, Jun He, Yijian Pei. Scientific Impact at the Topic Level: A Case Study in Computational Linguistics. Journal of the American Society for Information Science and Technology. 2010, November, vol. 61, issue 11, pp. 2274-2287.
Inyaem U., Haruechaiyasak Ch., Meesad Ph., Tran D. Ontology-Based Terrorism Event Extraction. Proceedings of the 1st International Conference on Information Science and Engineering (ICISE 2009), December 2628, 2009. Nanjing, China, 2009, pp. 912-915.
Lefever E., Macken L., Hoste V. Language-Independent Bilingual Terminology Extraction from a Multilingual Parallel Corpus. Proceedings of the 12th Conference of the European Chapter of the ACL. Athens, Greece, 2009, pp. 496-504.
Mair C. The Corpus-based Study of Language Change in Progress: The Extra Value of Tagged Corpora. The AAA CL/ICAME Conference, May 1115. Ann Arbor, MI, 2005.
Mannes A., Golbeck J. Building a Terrorism Ontology. Proceedings of the ISWC Workshop on Ontology Patterns for the Semantic Web, 36. 2005. http://goo.gl/WXeVVv (23.05.2020).
Najgebauer A., Antkiewicz R., Chmielews-ki M., Kasprzyk R., Prediction of Terrorist Threat on the basis of Semantic Association Acquisition and Complex Network Evolution. The Journal of Telecommunications and Information Technology. 2008, vol. 2, pp. 14-20.
Pustejovsky J. Natural Language Annotation for Machine Learning. 1st ed. O'Reilly Media, 2012, 342 p.
Roberts A., Gaizauskas R., Hepple M., Demetriou G., Guo Y., Roberts A., Setzer A. Building a Semantically Annotated Corpus of Clinical Texts. Journal of Biomedical Informatics. 2009, vol. 42 (5), pp. 950-966.
Sheremetyeva S. Automatic Extraction of Linguistic Resources in Multiple Languages. Proceedings of NLPCS 2012, 9th International Workshop on Natural Language Processing and Cognitive Science in conjunction with ICEIS 2012. Wroclaw, Poland, 2012, pp. 44-52.
Sheremetyeva S., Zinovyeva A. On Modelling Domain Ontology Knowledge for Processing Multilingual Texts of Terroristic Content. Communications in Computer and Information Science, 859. Springer, Cham, 2018, pp. 368-379.
Stenetorp P., Pyysalo S., Topic G., Ohta T., Ananiadou S., Jun'ichi Tsujii J. BRAT: a Web-based Tool for NLP-Assisted Text Annotation. Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, April 2327, 2012. Avignon, France, 2012, pp. 102-107.
Tenenboim L., Shapira B, Shoval P. Ontology-based Classification of News in an Electronic Newspaper. Advanced Research in Artificial Intelligence: ed. by K. Markov, K. Ivanova, I. Mitov. International Book Series "Information Science and Computing", vol. 2. Sofia, Bulgaria, 2008, pp. 89-97.
Witschel H.F. Terminology Extraction and Automatic Indexing - Comparison and Qualitative Evaluation of Methods. Terminology and Content Development - TKE 2005: 7th International Conference on Terminology and Knowledge Engineering. Copenhagen, Denmark, 2005, pp. 363-374.
Witt A., Heid, U., Sasaki, F., Gilles Seras-set. Multilingual Language Resources and Interoperability. Language Resources & Evaluation. 2009, March, vol. 43, issue 1, pp. 1-14. DOI: 10.1007/s10579-009-9088-x

Еще