Подход к автоматизированному наполнению графов знаний сущностями на основе анализа таблиц
Автор: Дородных Н.О., Юрин А.Ю.
Журнал: Онтология проектирования @ontology-of-designing
Рубрика: Инжиниринг онтологий
Статья в выпуске: 3 (45) т.12, 2022 года.
Бесплатный доступ
Использование технологий Semantic Web , в том числе онтологий и графов знаний, является широко распространённой практикой при разработке современных интеллектуальных систем информационного поиска, рекомендательных и вопросно-ответных систем. Процесс разработки онтологий и графов знаний включает использование различных источников информации (например, баз данных, документов, концептуальных моделей). Таблицы являются одним из наиболее доступных и широко распространённых способов хранения и представления информации, а также ценным источником знаний в предметной области. В данной работе предлагается автоматизировать процесс извлечения конкретных сущностей (фактов) из табличных данных для последующего наполнения целевого графа знаний. Для этого разработан новый подход, ключевой особенностью которого является семантическая интерпретация (аннотирование) отдельных элементов таблицы. Приведено описание его основных этапов, показано применение подхода при решении практических задач создания предметных графов знаний, в том числе в области экспертизы промышленной безопасности нефтехимического оборудования и технологических комплексов. Выполнена экспериментальная оценка качества аннотирования на тестовом наборе табличных данных. Полученные результаты показали целесообразность использования предлагаемого подхода и разработанного программного обеспечения для решения задачи извлечения фактов из табличных данных для последующего наполнения целевого графа знаний.
Semantic web, граф знаний, семантическая интерпретация таблиц, аннотирование таблиц, извлечение сущностей, таблица
Короткий адрес: https://sciup.org/170195763
IDR: 170195763 | DOI: 10.18287/2223-9537-2022-12-3-336-352
Список литературы Подход к автоматизированному наполнению графов знаний сущностями на основе анализа таблиц
- Hogan A., Blomqvist E., Cochez M., d'Amato C., Melo G.D., Gutierrez C., Gayo J.E.L., Kirrane S., Neumaier S., Polleres A., Navigli R., Ngomo A.-C.N., Rashid S.M., Rula A., Schmelzeisen L., Sequeda J., Staab S., Zimmermann A. Knowledge Graphs. ACM Computing Surveys. 2021. Vol. 54(4). P.1-37.
- Villazon-Terrazas B., Garcia-Santa N., Ren Y., Srinivas K., Rodriguez-Muro M., Alexopoulos P., Pan J.Z. Construction of Enterprise Knowledge Graphs (I). Exploiting Linked Data and Knowledge Graphs in Large Organisations. Springer, Cham. 2017.
- Lehmberg O., Ritze D., Meusel R., Bizer C. A large public corpus of web tables containing time and context metadata. In: Proc. of the 25th Int. Conf. Companion on World Wide Web, 2016. P.75-76.
- Видия А.В., Дородных Н.О., Юрин А.Ю. Подход к созданию онтологий на основе преобразования электронных таблиц с произвольной компоновкой. Онтология проектирования. 2021. Т. 11. № 2(40). С.212-226. DOI: 10.18287/2223-9537-2021-11-2-212-226.
- Re C., Sadeghian A.A., Shan Z., Shin J., Wang F., Wu S., Zhang C. Feature engineering for knowledge base construction. IEEE Data Engineering Bulletin. 2014. Vol. 37. P.26-40.
- Balog K. Populating knowledge bases. In: Entity-Oriented Search. The Information Retrieval Series. Springer, Cham. 2018. Vol. 39. P.189-222.
- Zhang S., Balog K. Web table extraction, retrieval, and augmentation: A survey. ACM Transactions on Intelligent Systems and Technology. 2020. Vol. 11(2). P. 1-35.
- De Vos M., Wielemaker J., Rijgersberg H., Schreiber G., Wielinga B., Top J. Combining information on structure and content to automatically annotate natural science spreadsheets. International Journal of Human-Computer Studies. 2017. Vol. 103. P.63-76.
- Maguire E., Gonzalez-Beltran A., Whetzel P.L., Sansone S.A., Rocca-Serra P. On-toMaton: A bioportal powered ontology widget for Google Spreadsheets. Bioinformatics. 2013. Vol. 29(4). P.525-527.
- Ritze D., Bizer C. Matching web tables to DBpedia - A feature utility study. In: Proc. of the 20th Int. Conf. on Extending Database Technology (EDBT'17). 2017. P.210-221.
- ZhangZ. Effective and efficient semantic table interpretation using TableMiner+. Semantic Web. 2017. Vol. 8(6). P.921-957.
- Efthymiou V., Hassanzadeh O., Rodriguez-Muro M., Christophides V. Matching web tables with knowledge base entities: From entity lookups to entity embeddings. In: Proc. of the 16th Int. Semantic Web Conf. (ISWC'2017). 2017. P.260-277.
- Takeoka K., Oyamada M., Nakadai S., Okadome T. Meimei: An efficient probabilistic approach for semantically annotating tables. Proc. of the AAAI Conf. on Artificial Intelligence. 2019. Vol. 33(1). P.281-288.
- Chen J., Jimenez-Ruiz E., Horrocks I., Sutton C. ColNet: Embedding the semantics of web tables for column type prediction. Proc. of the AAAI Conf. on Artificial Intelligence. 2019. Vol. 33(1). P.29-36.
- Hulsebos M., Hu K., Bakker M., Zgraggen E., Satyanarayan A., Kraska T., Demiralp Q., Hidalgo C. Sherlock: A Deep Learning Approach to Semantic Data Type Detection. In: Proc. of the 25th ACM SIGKDD Int. Conf. on Knowledge Discovery & Data Mining. 2019. P.1500-1508.
- KruitB., Boncz P., Urbani J. Extracting Novel Facts from Tables for Knowledge Graph Completion. Proc. of the 18th Int. Semantic Web Conf. (ISWC'2019). Lecture Notes in Computer Science. 2019. Vol. 11778. P.364-381.
- Cremaschi M., Paoli F.D., Rula A., Spahiu B. A fully automated approach to a complete Semantic Table Interpretation // Future Generation Computer Systems. 2020. Vol. 112. P.478-500.
- Deng X., Sun H., Lees A., Wu Y., Yu C. TURL: Table Understanding through Representation Learning. Proc. of the VLDB Endowment. 2020. Vol. 14(3). P.307-319.
- Xie J., Lu Y., Cao C., Li Z., Guan Y., Liu Y. Joint Entity Linking for Web Tables with Hybrid Semantic Matching. Proc. of the Int. Conf. on Computational Science. Lecture Notes in Computer Science. 2020. Vol. 12138. P.618-631.
- Huynh V.-P., Liu J., Chabot Y., Deuze F., Labbe T., Monnin P., Troncy R. DAGOBAH: Table and Graph Contexts for Efficient Semantic Annotation of Tabular Data. Proc. of the 20th Int. Semantic Web Conf. (ISWC'2021). SemTab. 2021. P.19-31.
- Nguyen P., Yamada I., Kertkeidkachorn N., Ichise R., Takeda H. SemTab 2021: Tabular Data Annotation with MTab Tool. Proc. of the 20th Int. Semantic Web Conf. (ISWC'2021). SemTab. 2021. P.92-101.
- Vu B., Knoblock C.A., Szekely P., Pham M., Pujara J. A Graph-Based Approach for Inferring Semantic Descriptions of Wikipedia Tables. Proc. of the 20th Int. Semantic Web Conf. (ISWC'2021). Lecture Notes in Computer Science. 2021. Vol. 12922. P.304-320.
- Берман А.Ф., Кузнецов К.А., Николайчук О.А., Павлов А.И., Юрин А.Ю. Информационно-аналитическая поддержка экспертизы промышленной безопасности объектов химии, нефтехимии и нефтепереработки. Химическое и нефтегазовое машиностроение. 2018. № 8. С.30-36.