Применение инструментов машинного обучения и интеллектуальный анализ данных в отношении баз данных с небольшим количеством записей

Бесплатный доступ

Использование инструментов интеллектуального анализа данных и машинного обучения становится все более распространенным явлением. Их полезность особенно заметна в случае больших наборов данных, когда информация, которую необходимо найти, или новые взаимосвязи извлекаются из информационного шума. Развитие этих инструментов означает, что исследуются наборы данных с гораздо меньшим количеством записей, обычно связанных с конкретными явлениями. Такая специфика чаще всего приводит к невозможности увеличения количества случаев, а это может облегчить поиск зависимостей в изучаемых явлениях. В статье рассмотрены особенности применения выбранных инструментов к небольшим наборам данных. Предприняты попытки представить методы подготовки данных, методы расчета производительности инструментов с учетом специфики баз данных с небольшим количеством записей. Предложены избранные автором методики, которые помогли выйти из тупика в расчетах, т. е. получить результаты, намного хуже ожидаемых. Необходимость применения методов повышения точности прогнозов и точности классификации была вызвана небольшим количеством анализируемых данных. Эта статья не является обзором популярных методов машинного обучения и интеллектуального анализа данных, тем не менее собранный и представленный материал поможет читателю сократить путь к получению удовлетворительных результатов при применении описанных вычислительных методов.

Еще

Машинное обучение, интеллектуальный анализ данных, искусственные нейронные сети, ассоциативный анализ, автоматическая классификация

Короткий адрес: https://sciup.org/142231895

IDR: 142231895   |   DOI: 10.23947/2687-1653-2021-21-4-346-363

Список литературы Применение инструментов машинного обучения и интеллектуальный анализ данных в отношении баз данных с небольшим количеством записей

  • Lissowski, G. Podstawy statystyki dla socjologow. Opis statystyczny. Tom 1 / G. Lissowski, J. Haman, M. Jasinski. — Warszawa: Wydawnictwo Naukowe Scholar, 2011. — 223 p.
  • Stanislawek J. Podstawy statystyki: opis statystyczny, korelacja i regresja, rozklady zmiennej losowej, wnioskowanie statystyczne / J. Stanislawek. — Warszawa: Oficyna Wydawnicza Politechniki Warszawskiej, 2010. — 212 p.
  • Larose, D. T. Discovering Knowledge in Data: An Introduction to Data Mining. 2nd ed. / D. T. Larose, C.D. Larose. — Hoboken, NJ, USA: Wiley-IEEE Press, 2016. — 309 p.
  • Larose, D. T. Metody I modele eksploracji danych / D.T. Larose. Warszaw: PWN, 2012. — 337 p.
  • Hand, D. Principles of Data Mining / D. Hand, H. Mannila, P. Smyth. — Cambridge, MA, USA: MIT Press, 2001. — 322 p.
  • Morzy, T. Eksploracja danych. Metody i algorytmy / T. Morzy. — Warszawa: PWN, 2013. — 533 p.
  • Bartkiewicz, W. Sztuczne sieci neuronowe. W: Zielinski JS. (red), Inteligentne systemy w zarz^dzaniu. Teoria i praktyka / W. Bartkiewicz. — Warszawa: PWN, 2000. — 348 p.
  • Rutkowski, L. Metody i techniki sztucznej inteligencji / L. Rutkowski. — Warszawa: PWN, 2012. — 449 p.
  • Doroshenko, A. Applying Artificial Neural Networks In Construction / A. Doroshenko // In: Proceedings of 2nd International Symposium on ARFEE 2019. — 2020. — Vol. 143. — P. 01029. https://doi.org/10.1051/e3sconf/202014301029
  • Feature Importance of Stabilised Rammed Earth Components Affecting the Compressive Strength Calculated with Explainable Artificial Intelligence Tools / H. Anysz, L. Brzozowski, W. Kretowicz, P. Narloch // Materials. — 2020. — Vol. 13. — P. 2317. https://doi.org/10.3390/ma13102317
  • Artificial Neural Networks in Classification of Steel Grades Based on Non-Destructive Tests / A. Beskopylny, A. Lyapin, H. Anysz, et al. // Materials. — 2020. — Vol. 13. — P. 2445. https://doi.org/10.3390/ma13112445
  • Anysz, H. Wykorzystanie sztucznych sieci neuronowych do oceny mozliwosci wyst^pienia opoznien w realizacji kontraktow budowlanych / H. Anysz. — Warszawa: Oficyna Wydawnicza Politechniki Warszawskiej, 2017. — 280 p.
  • Rabiej, M. Statystyka z programem Statistica / M. Rabiej. — Poland: Helion, Gliwice, 2012. — 344 p.
  • Mrowczynska, M. Compression of results of geodetic displacement measurements using the PCA method and neural networks / M. Mrowczynska, J. Sztubecki, A. Greinert // Measurement. — 2020. — Vol. 158. — P. 107693. https://doi.org/10.1016/j.measurement.2020.107693
  • Mohamad-Saleh, J. Improved Neural Network Performance Using Principal Component Analysis on Matlab / J. Mohamad-Saleh, B. C. Hoyle // International Journal of the Computer, the Internet and Management. — 2008. — Vol. 16. — P. 1-8.
  • Juszczyk, M. Application of PCA-based data compression in the ANN-supported conceptual cost estimation of residential buildings / M. Juszczyk // AIP Conference Proceedings. — 2016. — Vol. 1738. — P. 200007. https://doi.org/10.1063/1.4951979
  • Anysz, H. Neuro-fuzzy predictions of construction site completion dates / H. Anysz, N. Ibadov // Technical о Transactions. Civil Engineering. — 2017. — Vol. 6. — P. 51-58. https://doi.org/10.4467/2353737XCT.17.086.6562
  • Rogalska, M. Wieloczynnikowe modele w prognozowaniu czasu procesow budowlanych / M. Rogalska. — Lublin: Politechniki Lubelskiej, 2016. — 154 p.
  • Kaftanowicz, M. Multiple-criteria analysis of plasterboard systems / M. Kaftanowicz, M. Krzeminski // Procedia Engineering. — 2015. — Vol. 111. — P. 351-355. https://doi.org/10.1016/j.proeng.2015.07.102
  • Anysz, H. The influence of input data standardization method on prediction accuracy of artificial neural networks / H. Anysz, A. Zbiciak, I. Ibadov // Procedia Engineering. — 2016. — Vol. 153. — P. 66-70. https://doi.org/10.1016/j.proeng.2016.08.081
  • Nical, A. The quality management in precast concrete production and delivery processes supported by association analysis / A. Nical, H. Anysz // International Journal of Environmental Science and Technology. — 2020. — Vol. 17. — P. 577-590. https://doi.org/10.1007/s13762-019-02597-9
  • Anysz, H. The association analysis for risk evaluation of significant delay occurrence in the completion date of construction project / H. Anysz, B. Buczkowski // International Journal of Environmental Science and Technology. — 2019. — Vol. 16. — P. 5396-5374. https://doi.org/10.1007/s13762-018-1892-7
  • Zelias, A. Prognozowanie ekonomiczne. Teoria, przyklady, zadania / A. Zelias, B. Pawelek, S. Wanat. — Warszawa: PWN, 2013. — 380 p.
  • Juszczyk, M. Modelling Construction Site Cost Index Based on Neural Network Ensembles/ M. Juszczyk, A. Lesniak // Symmetry. — 2019. — Vol. 11. — P. 411. https://doi.org/10.3390/sym11030411
  • Anysz, H. Comparison of ANN Classifier to the Neuro-Fuzzy System for Collusion Detection in the Tender Procedures of Road Construction Sector / H. Anysz, A. Foremny, J. Kulejewski // IOP Conference Series: Materials Science and Engineering. — 2019. — Vol. 471. — P. 112064. https://doi.org/10.1088/1757-899X/471/11/112064
  • Piegorsch, W. W. Confusion Matrix. In: Wiley StatsRef: Statistics Reference Online. — 2020. — P. 1-4. https://doi.org/10.1002/9781118445112.stat08244
  • Kot, S. M. Statystyka / S. M. Kot, J. Jakubowski, A. Sokolowski. — Warszawa: DIFIN, 2011. — 528 p.
  • Aczel, A. D. Statystyka w zarz^dzaniu / A. D. Aczel, J. Saunderpandian. — Warszawa: PWN, 2000. — 977 p.
  • Narloch, P. Predicting Compressive Strength of Cement-Stabilized Rammed Earth Based on SEM Images Using Computer Vision and Deep Learning / P. Narloch, A. Hassanat, A. S. Trawneh, et al. // Applied Sciences, 2019. — Vol. 9. — P. 5131. https://doi.org/10.3390/app9235131
  • Tadeusiewicz, R. Sieci neuronowe / R. Tadeusiewicz. — Kraków: Akademicka Oficyna Wydawnicza, 1993. — 130 p.
  • Anysz, H. Designing the Composition of Cement Stabilized Rammed Earth Using Artificial Neural Networks / H. Anysz, P. Narloch // Materials. — 2019. — Vol. 12. — P. 1396. https://doi.org/10.3390/ma12091396
  • Zadeh, L. A. Fuzzy Sets / L. A. Zadeh // Information and Control. — 1965. — Vol. 8. — P. 338-353. https://doi.org/10.1016/S0019-9958(65)90241-X
  • Yagang Zhang. A hybrid prediction model for forecasting wind energy resources / Yagang Zhang, Guifang Pan // Environmental Science and Pollution Research. — 2020. — Vol. 27. — P. 19428-19446. https://doi.org/10.1007/s11356-020-08452-6
  • Eugene, E.A. Learning and Optimization with Bayesian Hybrid Models. 2020 American Control Conference (ACC) / E. A. Eugene, Xian Gao, A. W. Dowling. — IEEE. — 2020. https://doi.org/10.23919/ACC45564.2020.9148007 S
  • Neural Network Design / M. T. Hagan, H. B. Demuth, M. H. Beale, O. De Jesús. — Martin Hagan: « Lexington, KY, USA, 2014. — 1012 p.
  • Osowski, S. Sieci neuronowe do przetwarzania informacji / S. Osowski. —Warszawa: Oficyna Wydawnicza PW, 2006. — 419 p.
Еще
Статья научная