Комплекс программ автоматического построения семантической сети слов

Бесплатный доступ

Семантическая сеть слов - это ориентированный граф, вершины которого - лексические значения слов, а ребра - отношения между ними. В статье представлен комплекс программ SWN, предназначенный для построения семантической сети слов в автоматическом режиме путем структурирования неразмеченных словарей синонимов и словарей родо-видовых отношений с использованием векторных представлений слов,полученных на основе обработки корпуса неструктурированных текстов на естественном языке. Комплекс программ включает в себя реализацию методов обнаружения групп синонимов и построения отношений между отдельными значениями слов, основанных на обучении без учителя, а также модуля расширения отношений, основанного на обучении с учителем. Приведена модель предметной области с использованием формализма VOWL. Архитектура комплекса программ представлена в формализме UML и включает модуль обнаружения понятий, модуль построения семантических отношений между значениями слов,модуль расширения семантических отношений, модуль преобразования результатов работы в форматы Семантической паутины, и модуль построения оценочного набора данных при помощи краудсорсинга. Представленный комплекс программ является программным обеспечением с открытым исходным кодом и доступен для интеграции в различные системы интеллектуального анализа данных.

Еще

Семантическая сеть, лексическая семантика, программная инженерия, свободное программное обеспечение, семантическая паутина

Короткий адрес: https://sciup.org/147160621

IDR: 147160621   |   DOI: 10.14529/cmse170205

Список литературы Комплекс программ автоматического построения семантической сети слов

  • Gon¸calo Oliveira H., Gomes P. ECO and Onto.PT: a Flexible Approach for Creating aPortuguese Wordnet Automatically. Language Resources and Evaluation. 2014. Vol. 48, No. 2. P. 373-393 DOI: 10.1007/s10579-013-9249-9
  • Лукашевич Н.В. Тезаурусы в задачах информационного поиска. М.: Изд-во МГУ, 2011.512 с.
  • Wong W. et al. Ontology Learning from Text: A Look Back and into the Future. ACMComputing Surveys. 2012. Vol. 44, No. 4. P. 20:1-20:36 DOI: 10.1145/2333112.2333115
  • Navigli R., Ponzetto S.P. BabelNet: The Automatic Construction, Evaluation and Applicationof a Wide-Coverage Multilingual Semantic Network. Artificial Intelligence. Vol. 193. P. 217-250 DOI: 10.1016/j.artint.2012.07.001
  • Camancho Collados J., Pilehvar M.T., Navigli R. Nasari: Integrating Explicit Knowledgeand Corpus Statistics for a Multilingual Representation of Concepts and Entities. Artificial Intelligence. Vol. 240. P. 36-64 DOI: 10.1016/j.artint.2016.07.005
  • Усталов Д.А. Обнаружение понятий в графе синонимов//Вычислительные технологии.2017. Т. 22, Специальный выпуск 1. С. 99-112. URL: http://depot.nlpub.ru/ustalov. jct2017.pdf (дата обращения: 25.04.2017)
  • Усталов Д.А. Построение семантической сети слов путем расширения иерархических контекстов//Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Москва, 31 мая -3 июня 2017 г.). М.: Изд-во РГГУ, 2017. В печати. URL: http://depot.nlpub.ru/ustalov.dialog2017.pdf (дата обращения: 06.05.2017).
  • Ustalov D.A., Arefyev N.V., Biemann C., Panchenko A.I.//Proceedings of the15th Conference of the European Chapter of the Association for Computational Linguistics: Volume 2, Short Papers. Association for Computational Linguistics, 2017, P. 543-550. URL: https://aclweb.org/anthology/E/E17/E17-2087.pdf (дата обращения: 10.04.2017).
  • Berners-Lee T., Hendler J., Lassila O. The Semantic Web. Scientific American. 2001.Vol. 284, No. 5. P. 28-37. URL: https://www.scientificamerican.com/article/the-semantic-web/(дата обращения: 10.03.2017).
  • Lohmann S. et al. Visualizing Ontologies with VOWL. Semantic Web. 2016. Vol. 7, No. 4.P. 399-419 DOI: 10.3233/SW-150200
  • van Assem M. et al. A Method to Convert Thesauri to SKOS//3rd European SemanticWeb Conference, ESWC 2006 Budva, Montenegro, June 11-14, 2006 Proceedings. Springer Berlin Heidelberg, 2006. P. 95-109 DOI: 10.1007/11762256_10
  • McCrae J., Spohr D., Cimiano P. Linking Lexical Resources and Ontologies on the SemanticWeb with Lemon//The Semantic Web: Research and Applications: 8th Extended Semantic Web Conference, ESWC 2011, Heraklion, Crete, Greece, May 29-June 2, 2011, Proceedings, Part I. Springer Berlin Heidelberg, 2011. P. 245-259 DOI: 10.1007/978-3-642-21034-1_17
  • Усталов Д.А. Тезаурусы русского языка в виде открытых связанных данных//Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог» (Москва, 27 -30 мая 2015 г.). М.: Изд-во РГГУ, 2015. С. 616-625. URL: http://www.dialog-21.ru/digests/dialog2015/materials/pdf/UstalovDA.pdf (дата обращения: 21.02.2017).
  • Pedregosa F. et al. Scikit-Learn: Machine Learning in Python//Journal of MachineLearning Research. 2011. Vol. 12. P. 2825-2830. URL: http://www.jmlr.org/papers/v12/pedregosa11a.html (дата обращения: 07.03.2017).
  • Biemann C. Chinese Whispers: An Efficient Graph Clustering Algorithm and Its Applicationto Natural Language Processing Problems//Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing. Association for Computational Linguistics, 2006. P. 73-80. URL: http://dl.acm.org/citation.cfm?id=1654774 (дата обращения: 15.03.2017).
  • van Dongen S. Graph Clustering by Flow Simulation. Ph.D. Thesis. University ofUtrecht, 2000. URL: https://dspace.library.uu.nl/handle/1874/848 (дата обращения: 27.03.2017).
  • ˇRehuˇrek R., Sojka P. Software Framework for Topic Modelling with Large Corpora//New Challenges for NLP Frameworks Programme: A workshop at LREC 2010. European Language Resources Association, 2010. P. 51-55. URL: https://radimrehurek.com/gensim/lrec2010_final.pdf (дата обращения: 03.04.2017).
  • Abadi M. et al. TensorFlow: A System for Large-Scale Machine Learning//12thUSENIX Symposium on Operating Systems Design and Implementation (OSDI 16). USENIX Association, 2016. P. 265-283. URL: https://www.usenix.org/conference/osdi16/technical-sessions/presentation/abadi (дата обращения: 10.04.2017).
  • Hagberg A.A., Schult D.A., Swart P.J. Exploring Network Structure, Dynamics, and Function using NetworkX//Proceedings of the 7th Python in Science Conference. 2008. P. 11-15. URL: http://conference.scipy.org/proceedings/scipy2008/paper_2/(дата обращения: 05.12.2016).
  • Beckett D. The Design and Implementation of the Redland RDF Application Framework.Computer Networks. 2002. Vol. 39, No. 5. P. 577-588 DOI: 10.1016/S1389-1286(02)00221-9
  • Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages.Analysis of Images, Social Networks and Texts: 4th International Conference, AIST 2015, Yekaterinburg, Russia, April 9-11, 2015, Revised Selected Papers. Springer International Publishing, 2015. P. 320-332 DOI: 10.1007/978-3-319-26123-2_31
  • Manning C.D., Raghavan P., Sch¨utze H. Introduction to Information Retrieval. CambridgeUniversity Press, 2008. 506 p.
  • Riedl M., Biemann C. Unsupervised Compound Splitting With Distributional SemanticsRivals Supervised Methods//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2016. P. 617-622. URL: https://aclweb.org/anthology/N/N16/N16-1075.pdf (дата обращения: 16.02.2017).
  • Fu R. et al. Learning Semantic Hierarchies via Word Embeddings. Proceedings of the 52ndAnnual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Association for Computational Linguistics, 2014. P. 1199-1209. URL: https://aclweb.org/anthology/P/P14/P14-1113.pdf (дата обращения: 26.04.2016).
  • dustalov/watset: Concept Discovery from Synonymy Graphs. URL: https://github.com/dustalov/watset (дата обращения: 10.04.2017).
  • dustalov/watlink: Concept Linking. URL: https://github.com/dustalov/watlink (дата обращения: 10.04.2017).
  • dustalov/projlearn: Learning Word Subsumption Projections. URL: https://github.com/dustalov/projlearn (дата обращения: 10.04.2017).
Еще
Статья научная