Комплекс программ автоматического построения семантической сети слов

Бесплатный доступ

Семантическая сеть слов - это ориентированный граф, вершины которого - лексические значения слов, а ребра - отношения между ними. В статье представлен комплекс программ SWN, предназначенный для построения семантической сети слов в автоматическом режиме путем структурирования неразмеченных словарей синонимов и словарей родо-видовых отношений с использованием векторных представлений слов,полученных на основе обработки корпуса неструктурированных текстов на естественном языке. Комплекс программ включает в себя реализацию методов обнаружения групп синонимов и построения отношений между отдельными значениями слов, основанных на обучении без учителя, а также модуля расширения отношений, основанного на обучении с учителем. Приведена модель предметной области с использованием формализма VOWL. Архитектура комплекса программ представлена в формализме UML и включает модуль обнаружения понятий, модуль построения семантических отношений между значениями слов,модуль расширения семантических отношений, модуль преобразования результатов работы в форматы Семантической паутины, и модуль построения оценочного набора данных при помощи краудсорсинга. Представленный комплекс программ является программным обеспечением с открытым исходным кодом и доступен для интеграции в различные системы интеллектуального анализа данных.

Еще

Семантическая сеть, лексическая семантика, программная инженерия, свободное программное обеспечение, семантическая паутина

Короткий адрес: https://sciup.org/147160621

IDR: 147160621   |   УДК: 004.853   |   DOI: 10.14529/cmse170205

A software system for automatic construction of a semantic word network

A semantic word network is a network that represents the semantic relations between individual words or their lexical senses. In this paper, we present a software system for automatic construction of a semantic wordnetwork. The system, called SWN, is designed for the construction for such a semantic word network and includesthe implementation of unsupervised concept discovery and semantic relation establishing methods as well as theimplementation of a supervised relation expansion method. The methods use widely available language resources,such as semantic relation dictionaries and background text corpora. The domain model has been presented usingthe VOWL notation. The system architecture is represented using the UML notation and is composed of theconcept discovery module, semantic relation construction module, the Semantic Web export module, and theevaluation dataset construction module based on microtask-based crowdsourcing. The present software system isopen source and is available for integration into third-party data mining systems.

Еще

Список литературы Комплекс программ автоматического построения семантической сети слов

  • Gon¸calo Oliveira H., Gomes P. ECO and Onto.PT: a Flexible Approach for Creating aPortuguese Wordnet Automatically. Language Resources and Evaluation. 2014. Vol. 48, No. 2. P. 373-393 DOI: 10.1007/s10579-013-9249-9
  • Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во МГУ, 2011.512 с.
  • Wong W. et al. Ontology Learning from Text: A Look Back and into the Future. ACMComputing Surveys. 2012. Vol. 44, No. 4. P. 20:1-20:36 DOI: 10.1145/2333112.2333115
  • Navigli R., Ponzetto S.P. BabelNet: The Automatic Construction, Evaluation and Applicationof a Wide-Coverage Multilingual Semantic Network. Artificial Intelligence. Vol. 193. P. 217-250 DOI: 10.1016/j.artint.2012.07.001
  • Camancho Collados J., Pilehvar M.T., Navigli R. Nasari: Integrating Explicit Knowledgeand Corpus Statistics for a Multilingual Representation of Concepts and Entities. Artificial Intelligence. Vol. 240. P. 36-64 DOI: 10.1016/j.artint.2016.07.005
  • Усталов Д.А. Обнаружение понятий в графе синонимов//Вычислительные технологии.2017. Т. 22, Специальный выпуск 1. С. 99-112. URL: http://depot.nlpub.ru/ustalov. jct2017.pdf (дата обращения: 25.04.2017)
  • Усталов Д.А. Построение семантической сети слов путем расширения иерархических контекстов//Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Москва, 31 мая -3 июня 2017 г.). М.: Изд-во РГГУ, 2017. В печати. URL: http://depot.nlpub.ru/ustalov.dialog2017.pdf (дата обращения: 06.05.2017).
  • Ustalov D.A., Arefyev N.V., Biemann C., Panchenko A.I.//Proceedings of the15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. Association for Computational Linguistics, 2017, P. 543-550. URL: https://aclweb.org/anthology/E/E17/E17-2087.pdf (дата обращения: 10.04.2017).
  • Berners-Lee T., Hendler J., Lassila O. The Semantic Web. Scientific American. 2001.Vol. 284, No. 5. P. 28-37. URL: https://www.scientificamerican.com/article/the-semantic-web/(дата обращения: 10.03.2017).
  • Lohmann S. et al. Visualizing Ontologies with VOWL. Semantic Web. 2016. Vol. 7, No. 4.P. 399-419 DOI: 10.3233/SW-150200
  • van Assem M. et al. A Method to Convert Thesauri to SKOS//3rd European SemanticWeb Conference, ESWC 2006 Budva, Montenegro, June 11-14, 2006 Proceedings. Springer Berlin Heidelberg, 2006. P. 95-109 DOI: 10.1007/11762256_10
  • McCrae J., Spohr D., Cimiano P. Linking Lexical Resources and Ontologies on the SemanticWeb with Lemon//The Semantic Web: Research and Applications: 8th Extended Semantic Web Conference, ESWC 2011, Heraklion, Crete, Greece, May 29-June 2, 2011, Proceedings, Part I. Springer Berlin Heidelberg, 2011. P. 245-259 DOI: 10.1007/978-3-642-21034-1_17
  • Усталов Д.А. Тезаурусы русского языка в виде открытых связанных данных//Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Москва, 27 -30 мая 2015 г.). М.: Изд-во РГГУ, 2015. С. 616-625. URL: http://www.dialog-21.ru/digests/dialog2015/materials/pdf/UstalovDA.pdf (дата обращения: 21.02.2017).
  • Pedregosa F. et al. Scikit-Learn: Machine Learning in Python//Journal of MachineLearning Research. 2011. Vol. 12. P. 2825-2830. URL: http://www.jmlr.org/papers/v12/pedregosa11a.html (дата обращения: 07.03.2017).
  • Biemann C. Chinese Whispers: An Efficient Graph Clustering Algorithm and Its Applicationto Natural Language Processing Problems//Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing. Association for Computational Linguistics, 2006. P. 73-80. URL: http://dl.acm.org/citation.cfm?id=1654774 (дата обращения: 15.03.2017).
  • van Dongen S. Graph Clustering by Flow Simulation. Ph.D. Thesis. University ofUtrecht, 2000. URL: https://dspace.library.uu.nl/handle/1874/848 (дата обращения: 27.03.2017).
  • ˇRehuˇrek R., Sojka P. Software Framework for Topic Modelling with Large Corpora//New Challenges for NLP Frameworks Programme: A workshop at LREC 2010. European Language Resources Association, 2010. P. 51-55. URL: https://radimrehurek.com/gensim/lrec2010_final.pdf (дата обращения: 03.04.2017).
  • Abadi M. et al. TensorFlow: A System for Large-Scale Machine Learning//12thUSENIX Symposium on Operating Systems Design and Implementation (OSDI 16). USENIX Association, 2016. P. 265-283. URL: https://www.usenix.org/conference/osdi16/technical-sessions/presentation/abadi (дата обращения: 10.04.2017).
  • Hagberg A.A., Schult D.A., Swart P.J. Exploring Network Structure, Dynamics, and Function using NetworkX//Proceedings of the 7th Python in Science Conference. 2008. P. 11-15. URL: http://conference.scipy.org/proceedings/scipy2008/paper_2/(дата обращения: 05.12.2016).
  • Beckett D. The Design and Implementation of the Redland RDF Application Framework.Computer Networks. 2002. Vol. 39, No. 5. P. 577-588 DOI: 10.1016/S1389-1286(02)00221-9
  • Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages.Analysis of Images, Social Networks and Texts: 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9-11, 2015, Revised Selected Papers. Springer International Publishing, 2015. P. 320-332 DOI: 10.1007/978-3-319-26123-2_31
  • Manning C.D., Raghavan P., Sch¨utze H. Introduction to Information Retrieval. CambridgeUniversity Press, 2008. 506 p.
  • Riedl M., Biemann C. Unsupervised Compound Splitting With Distributional SemanticsRivals Supervised Methods//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2016. P. 617-622. URL: https://aclweb.org/anthology/N/N16/N16-1075.pdf (дата обращения: 16.02.2017).
  • Fu R. et al. Learning Semantic Hierarchies via Word Embeddings. Proceedings of the 52ndAnnual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics, 2014. P. 1199-1209. URL: https://aclweb.org/anthology/P/P14/P14-1113.pdf (дата обращения: 26.04.2016).
  • dustalov/watset: Concept Discovery from Synonymy Graphs. URL: https://github.com/dustalov/watset (дата обращения: 10.04.2017).
  • dustalov/watlink: Concept Linking. URL: https://github.com/dustalov/watlink (дата обращения: 10.04.2017).
  • dustalov/projlearn: Learning Word Subsumption Projections. URL: https://github.com/dustalov/projlearn (дата обращения: 10.04.2017).
Еще