Связывание текстовых записей в задаче интеграции данных в условиях больших данных
Автор: Папоян Владимир Владимирович, Кореньков Владимир Васильевич, Кадочников Иван Сергеевич
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 3, 2019 года.
Бесплатный доступ
При интеграции данных из нескольких источников появляется проблема выявления идентичных записей, то есть относящихся к одному и тому же объекту реального окружения. Одно из решений вышеуказанной проблемы осуществляется с помощью вероятностного подхода связывания текстовых записей. В рамках настоящей статьи определено и апробировано, что для эффективной реализации вышеуказанного решения необходимо применить локально-чувствительное хеширование и представить целевой атрибут в векторной модели на этапе блокирования данных. Реализация выявленного подхода была протестирована на двух реестрах компаний Companies House и GLEIF в платформе обработки больших данных Apache Spark.
Большие данные, связывание текстовых записей, векторное представление слов, локально-чувствительное хеширование
Короткий адрес: https://sciup.org/14122702
IDR: 14122702 | УДК: 004.62,
Record linkage in data integration problem under big data conditions
The problem of identifying records refer to the same entity arises appears during the integration data from multiple sources. The application of probabilistic record linkage is one of the key to solve described problem. In this article defined and tried that application of locality-sensitive hashing and vector space model on the blocking stage allow to reach the efficient implementation of described above decision. The implementation is tested in Apache Spark on two registers of companies GLEIF and Companies House.
Список литературы Связывание текстовых записей в задаче интеграции данных в условиях больших данных
- Sayers A., Ben-Shlomo Y., Blom A. W., Steele F. Probabilistic record linkage. International Journal of Epidemiology, 2016. - Vol. 6. P. 954-964.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets.: Cambridge University Press, 2014. - Глава. 3.4.
- ZHANG Yun-tao, GONG Ling, Wang Yong-cheng. Journal of Zhejiang University SCIENCE, 2005. - Vol. 45. - Issue. 1. P. 49-55. ISSN: 1009-3095.
- William B. Canvar, John M. Trenkle. Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, US, 1994. P. 161-175.
- Companies House [Электронный ресурс] // Free Company Data Product - Режим доступа: http://download.companieshouse.gov.uk/en_output.html, свободный (дата обращения 01.07.2019).
- LEI Data [Электронный ресурс] // Download the Concatenated Files - Режим доступа: https://www.gleif.org/en/lei-data/gleif-concatenated-file/download-the-concatenated-file/, свободный (дата обращения 01.07.2019).
- Apache Spark [Электронный ресурс] // Unified analytics engine for large-scale data processing. - Режим доступа: https://spark.apache.org/, свободный (дата обращения 01.07.2019).