Доверие к данным при пополнении онтологий и графов знаний

Автор: Серый А.С.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: Инжиниринг онтологий

Статья в выпуске: 1 (47) т.13, 2023 года.

Бесплатный доступ

Рассматривается задача оценки доверия к информации, извлекаемой из текстовых источников для пополнения онтологий или графов знаний. За единицу информации или факт, принимается минимальное знание об экземпляре предметной области, выражаемое единичным RDF -триплетом. Приведено описание вероятностной модели оценки доверия, основанной на марковских случайных процессах. При оценке модель строится на основании доступной информации об источниках с учётом ранее извлечённых данных. Предложен метод оценки доверия к информации с параллельным взвешиванием источников. Подобный подход востребован в ситуациях, когда качественные характеристики источников неизвестны или недоступны. В рамках тестирования модели были автоматически сгенерированы наборы численных данных различных объёмов, проведены эксперименты по взвешиванию источников и оценке доверия к извлекаемой из них информации. Результаты экспериментов показали, что в большинстве случаев веса источников, вычисляемые на основе предлагаемой модели, тем больше, чем меньше среднее отклонение предоставленной ими информации от истинной, доверие к фактам увеличивается с уменьшением расстояния до истинных данных. Выполнено сравнение с моделями агрегации данных. В большинстве случаев агрегация, выполненная на основе оценки доверия, демонстрировала наименьшее среднее отклонение от истинных данных среди рассмотренных моделей. Полученные результаты показывают, что предлагаемая модель эффективна в сравнении с другими аналогичными моделями и может применяться в задачах оценки доверия к фактам, представляемым вещественными числами.

Еще

Онтология, граф знаний, извлечение данных, доверие к информации, марковский процесс

Короткий адрес: https://sciup.org/170198105

IDR: 170198105   |   DOI: 10.18287/2223-9537-2023-13-1-113-124

Список литературы Доверие к данным при пополнении онтологий и графов знаний

  • Баклавски К. Онтологический Саммит 2020. Коммюнике: Графы знаний / К. Баклавски, М. Беннет, Г. Берг-Кросс, Т. Шнайдер, Р. Шарма, Д. Сингер. Перевод с англ. Д. Боргест // Онтология проектирования. 2020. Т.10, №4(38). С.540-555. БОТ: 10.18287/2223-9537-2020-10-4-540-555.
  • Simsek U., Umbrich J., Fensel D. Towards a Knowledge Graph Lifecycle: A pipeline for the population of a commercial Knowledge Graph. In: A. Paschke, C. Neudecker, G. Rehm, J.A. Qundus and L. Pintscher (eds): Proceedings of the Conference on Digital Curation Technologies Qurator-2020 (Berlin, Germany, 2020, January 20-21). CEUR Workshop Proceedings, vol. 2535, CEUR-WS.org. https://ceur-ws.org/Vol-2535/paper_10.pdf.
  • Fernandez-Canellas D. et al. Enhancing Online Knowledge Graph Population with Semantic Knowledge. In: The Semantic Web ISWC 2020. Lecture Notes in Computer Science, vol 12506. Springer, Cham. 2020. P.183-200. DOI: 10.1007/978-3-030-62419-4_11.
  • Cimmino A., Garcia-Castro R. Helio: a framework for implementing the life cycle of knowledge graphs. Semantic Web. Preprint 2022. P. 1-27. DOI: 10.3233/SW-233224.
  • Galland A., Abiteboul S., Marian A., and Senellart P. Corroborating information from disagreeing views. In: Proceedings of the third ACM international conference on Web search and data mining WSDM-2010. (New York, USA, 2010, February 4-6). 2010. P.131-140. DOI: 10.1145/1718487.1718504.
  • Li X., Dong X.L., Lyons K.B., Meng W., Srivastava D. Truth finding on the deep web: Is the problem solved? In: Proceedings of the VLDB Endowment. vol. 6(2). 2012. P.97-108. DOI: 10.14778/2535568.2448943.
  • Pochampally R. et al. Fusing data with correlations. In: Proceedings of the 2014 ACM SIGMOD international conference on Management of data SIGMOD-2014 (Snowbird, Utah, USA, 2014, June 22-27). 2014. P.433-444. DOI: 10.1145/2588555.2593674.
  • Dong X.L., Gabrilovich E., Murphy K., Dang V., Horn W., Lugaresi C., Sun S., Zhang W. Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources. In: Proceedings of the VLDB Endowment. vol. 8, 2015. P.938-949. DOI: 10.14778/2777598.2777603.
  • Li Y. et al. On the discovery of evolving truth. In: Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining KDD-2015 (Sydney, NSW, Australia, 2015, August 10-13). 2015. P.675-684. DOI: 10.1145/2783258.2783277.
  • Yao L. et al. Online truth discovery on time series data. In: Proceedings of the 2018 SIAM international Conference on Data Mining SDM-2018 (San Diego, USA, 2018, October 6-13). 2018. Society for Industrial and Applied Mathematics. P.162-170. DOI: 10.1137/1.9781611975321.19.
  • Zubiaga A., Liakata M., Procter R., Wong Sak Hoi G., Tolmie P. Analysing how people orient to and spread rumours in social media by looking at conversational threads. PLoS ONE 2016. 11(3): e0150989.DOI: 10.1371/journal.pone.0150989.
  • Kochkina E., Liakata M., Zubiaga A. All-in-one: Multi-task learning for rumour verification. In: Proceedings of 27th International Conference on Computational Linguistics COLING-2018 (Santa Fe, New-Mexico, USA, 2018, August 20-26). Association for Computational Linguistics (ACL). 2018. P.3402-3413. DOI: 10.48550/arXiv.1806.03713.
  • PHEME dataset for Rumour Detection and Veracity Classification. https://www.kaggle.com/datasets/usharengaraju/pheme-dataset.
  • Chen X., Yuan Y., Lu L., Yang J. A multidimensional trust evaluation framework for online social networks based on machine learning. IEEE Access. vol. 7, 2019. P.175499-175513. DOI: 10.1109/ACCESS.2019.2957779.
  • Vyas P., El-Gayar O. Credibility analysis of news on twitter using LSTM: An exploratory study. In: Proceedings of 26th Americas Conference on Information Systems AMCIS 2020 (Virtual conference, 2020, August 10-14). Association for Information Systems. https://scholar.dsu.edu/cgi/viewcontent.cgi?article=1150&context=bispapers.
  • Hirlekar V.V., Kumar A. Tweet Credibility Detection for COVID-19 Tweets using Text and User Content Features. International Journal of Advanced Computer Science and Applications, 13(4), 2022. P.430-439. DOI: 10.14569/IJACSA.2022.0130451.
Еще
Статья научная