Связывание текстовых записей в задаче интеграции данных в условиях больших данных
Автор: Папоян Владимир Владимирович, Кореньков Владимир Васильевич, Кадочников Иван Сергеевич
Журнал: Сетевое научное издание «Системный анализ в науке и образовании» @journal-sanse
Статья в выпуске: 3, 2019 года.
Бесплатный доступ
При интеграции данных из нескольких источников появляется проблема выявления идентичных записей, то есть относящихся к одному и тому же объекту реального окружения. Одно из решений вышеуказанной проблемы осуществляется с помощью вероятностного подхода связывания текстовых записей. В рамках настоящей статьи определено и апробировано, что для эффективной реализации вышеуказанного решения необходимо применить локально-чувствительное хеширование и представить целевой атрибут в векторной модели на этапе блокирования данных. Реализация выявленного подхода была протестирована на двух реестрах компаний Companies House и GLEIF в платформе обработки больших данных Apache Spark.
Большие данные, связывание текстовых записей, векторное представление слов, локально-чувствительное хеширование
Короткий адрес: https://sciup.org/14122702
IDR: 14122702
Список литературы Связывание текстовых записей в задаче интеграции данных в условиях больших данных
- Sayers A., Ben-Shlomo Y., Blom A. W., Steele F. Probabilistic record linkage. International Journal of Epidemiology, 2016. - Vol. 6. P. 954-964.
- Jure Leskovec, Anand Rajaraman, Jeff Ullman. Mining of Massive Datasets.: Cambridge University Press, 2014. - Глава. 3.4.
- ZHANG Yun-tao, GONG Ling, Wang Yong-cheng. Journal of Zhejiang University SCIENCE, 2005. - Vol. 45. - Issue. 1. P. 49-55. ISSN: 1009-3095.
- William B. Canvar, John M. Trenkle. Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, US, 1994. P. 161-175.
- Companies House [Электронный ресурс] // Free Company Data Product - Режим доступа: http://download.companieshouse.gov.uk/en_output.html, свободный (дата обращения 01.07.2019).
- LEI Data [Электронный ресурс] // Download the Concatenated Files - Режим доступа: https://www.gleif.org/en/lei-data/gleif-concatenated-file/download-the-concatenated-file/, свободный (дата обращения 01.07.2019).
- Apache Spark [Электронный ресурс] // Unified analytics engine for large-scale data processing. - Режим доступа: https://spark.apache.org/, свободный (дата обращения 01.07.2019).