Разработка предметных графов знаний на основе семантического аннотирования табличных данных

Автор: Дородных Н.О., Юрин А.Ю.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: Инжиниринг онтологий

Статья в выпуске: 4 (54) т.14, 2024 года.

Бесплатный доступ

В статье описывается подход и программное средство для автоматизированного пополнения предметно-ориентированных графов знаний новыми фактами, извлечёнными из семантически аннотированных табличных данных. Для семантического аннотирования столбцов таблиц предлагается использовать комбинацию из трёх эвристических методов, использующих результаты распознавания именованных сущностей в ячейках, лексическое сопоставление и группировку характеристик. Предлагаемый подход реализован в виде специального обработчика, входящего в состав программной платформы Talisman . Представлен пример и экспериментальная оценка предлагаемого подхода на этапе семантического аннотирования столбцов с использованием тестового набора табличных данных, который включает шесть тематических категорий: «сотрудники организации», «открытые вакансии», «рынок автомоделей», «известные учёные», «продажа книг», «рейтинг теннисистов». В качестве метрик оценки использовались точность, полнота и F -мера. Итоговая оценка по всем шести категориям составила: точности - 79%, полноты - 63%, F -меры - 70%. Полученные результаты показывают перспективность использования разработанного подхода для пополнения предметно-ориентированных графов знаний новыми фактами, извлечёнными из семантически аннотированных табличных данных. Приведены ограничения предлагаемого подхода.

Еще

Граф знаний, семантическая интерпретация таблиц, аннотирование таблиц, извлечение сущностей, пополнение графа знаний, табличные данные

Короткий адрес: https://sciup.org/170207432

IDR: 170207432   |   DOI: 10.18287/2223-9537-2024-14-4-555-568

Список литературы Разработка предметных графов знаний на основе семантического аннотирования табличных данных

  • Ji S., Pan S., Cambria E., Marttinen P., Yu P.S. A Survey on Knowledge Graphs: Representation, Acquisition and Applications // IEEE Transcations on Neural Networks and Learning Systems. 2021. Vol.33(2). P.494-514. DOI: 10.1109/TNNLS.2021.3070843.
  • Hogan A., Blomqvist E., Cochez M., d’Amato C., Melo G.D., Gutierrez C., Gayo J.E.L., Kirrane S., Neumaier S., Polleres A., Navigli R., Ngomo A.-C.N., Rashid S.M., Rula A., Schmelzeisen L., Sequeda J., Staab S., Zimmermann A. Knowledge Graphs // ACM Computing Surveys. 2021. Vol.54(4). P.1-37. DOI: 10.1145/3447772.
  • Баклавски К. Онтологический Саммит 2020. Коммюнике: Графы знаний / К. Баклавски, М. Беннет, Г. Берг-Кросс, Т. Шнайдер, Р. Шарма, Д. Сингер. Перевод с англ. Д. Боргест // Онтология проектирования. 2020. Т.10, №4(38). С.540-555. DOI: 10.18287/2223-9537-2020- 10-4-540-555.
  • Гаврилова Т.А., Страхович Э.В. Визуально-аналитическое мышление и интеллект-карты в онтологическом инжиниринге // Онтология проектирования. 2020. Т.10, №1(35). С.87-99. DOI: 10.18287/2223-9537-2020-10-1-87-99.
  • Martinez-Rodriguez J.L., Hogan A., Lopez-Arevalo I. Information Extraction meets the Semantic Web: A Survey // Semantic Web. 2020. Vol.11. P.255-335. DOI: 10.3233/SW-180333.
  • Zhang S., Balog K. Web table extraction, retrieval, and augmentation: A survey // ACM Transactions on Intelligent Systems and Technology. 2020. Vol.11(2). P.1-35. DOI: 10.1145/3372117.
  • Bonfitto S., Casiraghi E., Mesiti M. Table understanding approaches for extracting knowledge from heterogeneous tables // Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 2021. Vol.11(4). e1407. DOI: 10.1002/widm.1407.
  • Lehmberg O., Ritze D., Meusel R., Bizer C. A large public corpus of web tables containing time and context metadata // In: Proc. of the 25th Int. Conf. Companion on World Wide Web, 2016. P.75-76. DOI: 10.1145/2872518.2889386.
  • Дородных Н.О., Юрин А.Ю. Подход к автоматизированному наполнению графов знаний сущностями на основе анализа таблиц // Онтология проектирования. 2022. Т.12. №3(45). С.336-352. DOI: 10.18287/2223-9537-2022-12-3-336-352.
  • Liu J., Chabot Y., Troncy R. From tabular data to knowledge graphs: A survey of semantic table interpretation tasks and methods // Journal of Web Semantics. 2023. Vol.76. 100761. DOI: 10.1016/j.websem.2022.100761.
  • Limaye G., Sarawagi S., Chakrabarti S. Annotating and Searching Web Tables Using Entities, Types and Relationships. In: Proc. VLDB Endowment. 2010. Vol.3. P.1338-1347. DOI: 10.14778/1920841.1921005.
  • Mulwad V., Finin T., Syed Z., Joshi A. Using linked data to interpret tables. In: Proc. the First International Conference on Consuming Linked Data (COLD’10). 2010. Vol.665. P.109-120. DOI: 10.5555/2878947.2878957.
  • Bhagavatula C.S., Noraset T., Downey D. TabEL: Entity Linking in Web Tables. In: Proc. the 14th International Semantic Web Conference (ISWC’2015). 2015. P.425-441. DOI: 10.1007/978-3-319-25007-6_25.
  • Efthymiou V., Hassanzadeh O., Rodriguez-Muro M., Christophides V. Matching web tables with knowledge base entities: From entity lookups to entity embeddings. In: Proc. of the 16th Int. Semantic Web Conf. (ISWC’2017). 2017. P.260-277. DOI: 10.1007/978-3-319-68288-4_16.
  • Ritze D., Bizer C. Matching web tables to DBpedia - A feature utility study. In: Proc. of the 20th Int. Conf. on Extending Database Technology (EDBT’17). 2017. P.210-221. DOI: 10.5441/002/EDBT.2017.20.
  • Zhang Z. Effective and efficient semantic table interpretation using TableMiner+. Semantic Web. 2017. Vol.8(6). P.921-957. DOI: 10.3233/SW-160242.
  • Takeoka K., Oyamada M., Nakadai S., Okadome T. Meimei: An efficient probabilistic approach for semantically annotating tables. Proc. of the AAAI Conf. on Artificial Intelligence. 2019. Vol.33(1). P.281-288. DOI: 10.1609/aaai.v33i01.3301281.
  • Kruit B., Boncz P., Urbani J. Extracting Novel Facts from Tables for Knowledge Graph Completion. Proc. of the 18th Int. Semantic Web Conf. (ISWC’2019). Lecture Notes in Computer Science. 2019. Vol.11778. P.364-381. DOI: 10.1007/978-3-030-30793-6_21.
  • Chen J., Jimenez-Ruiz E., Horrocks I., Sutton C. ColNet: Embedding the semantics of web tables for column type prediction. Proc. of the AAAI Conf. on Artificial Intelligence. 2019. Vol.33(1). P.29-36. DOI: 10.1609/aaai.v33i01.330129.
  • Hulsebos M., Hu K., Bakker M., Zgraggen E., Satyanarayan A., Kraska T., Demiralp Ç., Hidalgo C. Sherlock: A Deep Learning Approach to Semantic Data Type Detection. In: Proc. of the 25th ACM SIGKDD Int. Conf. on Knowledge Discovery & Data Mining. 2019. P.1500-1508. DOI: 10.1145/3292500.3330993.
  • Xie J., Lu Y., Cao C., Li Z., Guan Y., Liu Y. Joint Entity Linking for Web Tables with Hybrid Semantic Matching. Proc. of the Int. Conf. on Computational Science. Lecture Notes in Computer Science. 2020. Vol.12138. P.618-631. DOI: 10.1007/978-3-030-50417-5_46.
  • Zhang D., Suhara Y., Li J., Hulsebos M., Demiralp C., Tan W.-C. Sato: Contextual semantic type detection in tables. In: Proc. the VLDB Endowment. 2020. Vol.13(11). P.1835-1848. DOI: 10.14778/3407790.3407793.
  • Deng X., Sun H., Lees A., Wu Y., Yu C. TURL: Table Understanding through Representation Learning. Proc. Of the VLDB Endowment. 2020. Vol.14(3). P.307-319. DOI: 10.14778/3430915.3430921.
  • Yin P., Neubig G., Yih W. TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data. In: Proc. The 58th Annual Meeting of the Association for Computational Linguistics. 2020. P.8413-8426. DOI: 10.18653/v1/2020.acl-main.745.
  • Iida H., Thai D., Manjunatha V., Iyyer M. TABBIE: Pretrained Representations of Tabular Data. In: Proc.the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. 2021. P.3446-3456. DOI: 10.18653/v1/2021.naacl-main.270.
  • Conneau A., Khandelwal K., Goyal N., Chaudhary V., Wenzek G., Guzmán F., Grave E., Ott M., Zettlemoyer L., Stoyanov V. Unsupervised Cross-lingual Representation Learning at Scale // In: Proc. the 58th Annual Meeting of the Association for Computational Linguistics. 2020. P.8440-8451. DOI: 10.18653/v1/2020.acl-main.747.
  • Dorodnykh N.O., Yurin A.Yu. Knowledge Graph Engineering Based on Semantic Annotation of Tables. Computation. 2023. Vol. 11(9). 175. DOI: 10.3390/computation11090175.
Еще
Статья научная