Фокусированный сбор и обработка открытых данных социальных медиа

Автор: Датьев И.О., Фдоров А.М., Ревякин А.А.

Журнал: Онтология проектирования @ontology-of-designing

Рубрика: Инжиниринг онтологий

Статья в выпуске: 4 (54) т.14, 2024 года.

Бесплатный доступ

Рассматривается развитие технологий сбора данных и осложняющие этот процесс особенности. Представлены методы фокусировки различного уровня: от управления границами сканирования до использования различных свойств веб-страниц. В данной работе термин «фокусировка» используется для более точной передачи специфических особенностей процесса целенаправленного сбора и обработки открытых данных социальных медиа. Описываемый процесс является многоступенчатым, и для его организации используются механизмы адаптивного управления, которые относительно заданной цели имеют разнонаправленный характер. В процессе управления задаваемые ограничения сужаются или расширяются, т.е. фокусируются на заданной цели. Представлен опыт проектирования архитектуры и программной реализации функций информационной системы, позволяющей производить автоматизированный фокусированный сбор и обработку открытых данных социальных медиа.

Еще

Фокусированный веб-сканер, социальная сеть, информационная система, интеллектуальный анализ, методы фокусировки сбора данных

Короткий адрес: https://sciup.org/170207433

IDR: 170207433   |   DOI: 10.18287/2223-9537-2024-14-4-569-581

Список литературы Фокусированный сбор и обработка открытых данных социальных медиа

  • Boeing G., Waddell P. New Insights into Rental Housing Markets across the United States: Web Scraping and Analyzing Craigslist Rental Listings // Journal of Planning Education and Research. 2016. DOI:10.1177/0739456X16664789. arXiv:1605.05397.
  • Кулешов С.В., Зайцева А.А., Левашкин С.П. Технологии и принципы сбора и обработки неструктурированных распределенных данных с учетом современных особенностей предоставления медиа-контента // Информатизация и связь. 2020. № 5. С.22-28. DOI 10.34219/2078-8320-2020-11-5-22-28. EDN FMQNTT.
  • Кулешов С.В., Зайцева А.А. Феноменологическое описание процессов сбора и обработки интернет-документов // Изв. вузов. Приборостроение. 2023. Т.66, № 12. С.1002-1010. DOI:10.17586/0021-3454-2023-66-12-1002-1010.
  • Москаленко А.А., Лапонина О.Р., Сухомлин В.А. Разработка приложения веб-скрапинга с возможностями обхода блокировок // Современные информационные технологии и ИТ-образование. 2019. Т.15, №2. С.413-420. DOI: 10.25559/SITITO.15.201902.413-420.
  • Soumen Chakrabarti. Focused Web Crawling, in the Encyclopedia of Database Systems. Dynamic topic models // In: ICML '06: Proceedings of the 23rd International Conference on Machine Learning. New York, NY, USA, ACM, 2006. P.113–120. DOI:10.1145/1143844.1143859.
  • Soumen Chakrabarti, Martin van den Berg, Byron Dom. Focused crawling: a new approach to topic-specific Web resource discovery // Computer Networks, Volume 31, Issues 11–16, 1999, P.1623-1640. DOI: 10.1016/S1389-1286(99)00052-3.
  • Using Reinforcement Learning to Spider the Web Efficiently / Jason Rennie and Andrew McCallum. ICML 1999.
  • Diligenti M., Coetzee F., Lawrence S., Giles C.L., and Gori M. (2000). Focused crawling using context graphs Archived 2008-03-07 at the Wayback Machine // In Proceedings of the 26th International Conference on Very Large Databases (VLDB). P.527-534, Cairo, Egypt.
  • Taylan D., Poyraz M., Akyokuş S. and Ganiz M.C. Intelligent focused crawler: Learning which links to crawl // 2011 International Symposium on Innovations in Intelligent Systems and Applications, Istanbul, Turkey. 2011. P.504-508. DOI: 10.1109/INISTA.2011.5946150.
  • Tianjun Fu, Ahmed Abbasi, Daniel Zeng, and Hsinchun Chen. 2012. Sentimental Spidering: Leveraging Opinion Information in Focused Crawlers // ACM Trans. Inf. Syst. 30, 4, Article 24 (November 2012), 30 pages. DOI: 10.1145/2382438.2382443.
  • Yu Y.B., Huang S.L., Tashi N., Zhang H., Lei F., Wu L.Y. A Survey about Algorithms Utilized by Focused Web Crawler // J. Electron. Sci. Technol. 2018, 16, 129. DOI:10.11989/JEST.1674-862X.70116018.
  • Kohlschütter C., Nejdl W. A densitometric approach to web page segmentation // Proceedings of the 17th ACM conference on Information and knowledge management, New York. 2008. P.1173-1182.
  • Sun Y., Jin P., Yue L. A Framework of a Hybrid Focused Web Crawler // Future Generation Communication and Networking Symposia, 2008. FGCNS '08. Second International Conference, Sanya, 2008. P.50-53.
  • Hassan T., Cruz C., Bertaux A. Ontology-based Approach for Unsupervised and Adaptive Focused Crawling // In Proceedings of the International Workshop on Semantic Big Data, Chicago, IL, USA, 19 May 2017. ACM: New York, NY, USA, 2017. P.21–26.
  • Boukadi K., Rekik M., Rekik M., Ben-Abdallah H. FC4CD: A new SOA-based Focused Crawler for Cloud service Discovery // Computing 2018, 100, P.1081-1107. DOI:10.1007/s00607-018-0600-2.
  • Dong H., Hussain F.K. SOF: A semi-supervised ontology-learning-based focused crawler // Concurrency and Computation: Practice and Experience. 25(12). (August 2013). P.1623-1812.
  • Hernandez J., Marin-Castro H.M., Morales-Sandoval M. A Semantic Focused Web Crawler Based on a Knowledge Representation Schema // Applied Sciences. 2020; 10(11):3837. DOI:10.3390/app10113837.
  • Krótkiewicz M., Wojtkiewicz K., Jodłowiec M. Towards Semantic Knowledge Base Definition // In Biomedical Engineering and Neuroscience / Hunek, W.P., Paszkiel, S., Eds.; Springer International Publishing: Cham, Switzerland, 2018. P.218–239.
  • Датьев И.О., Федоров А.М. Аддитивная регуляризация при тематическом моделировании текстов сообществ онлайновых социальных сетей. Онтология проектирования. 2022. Т.12, №2(44). С.186-199. DOI:10.18287/2223-9537-2022-12-2-186-199.
Еще
Статья научная