Об одной функции потерь для обучения нейросетевых моделей восстановления временных рядов

Бесплатный доступ

В статье рассмотрена проблема выбора функции потерь для обучения нейросетевых моделей восстановления пропущенных значений многомерных временных рядов и предложена новая функция потерь, названная MPDE (Mean Profile Distance Error, средняя ошибка профиля расстояния). MPDE для истинной и восстановленной подпоследовательностей ряда, имеющих длину m, вычисляется как среднее значение расстояний между всеми парами окон (непрерывных промежутков) этих подпоследовательностей, имеющими длину ℓ, где ℓ m и окна имеют одинаковые начальные индексы. Расстояние между двумя окнами представляет собой модификацию меры схожести MPdist (расстояние матричного профиля) и определяется как взвешенная сумма евклидова и z-нормированного евклидова расстояний между данными окнами. Веса слагаемых берутся из отрезка [0,1] и являются параметрами функции потерь. Функция MPDE позволяет при обучении нейросетевой модели учитывать поведенческое сходство сравниваемых подпоследовательностей, учитывая наличие в них сходных окон независимо от мест взаимного расположения этих окон. Функция потерь MPDE имеет высокую вычислительную сложность, поэтому для ее внедрения в фреймворки глубокого обучения разработан параллельный алгоритм, вычисляющий MPDE на графическом процессоре. Алгоритм реализован с помощью фреймворка PyTorch, который позволяет имплементировать MPDE как последовательность автоматически распараллеливаемых операций с многомерными тензорами. Эксперименты на многомерных временных рядах из различных предметных областей показали, что в 78% случаев передовые нейросетевые модели достигают наиболее высокой точности восстановления (по метрике RMSE) при использовании предложенной функции потерь; при этом модели демонстрируют точность восстановления на 40% выше среднего значения, достигнутого при использовании других функций потерь.

Еще

Временной ряд, восстановление пропущенных значений, функция потерь, нейронные сети, pytorch

Короткий адрес: https://sciup.org/147247569

IDR: 147247569   |   DOI: 10.14529/cmse240404

Список литературы Об одной функции потерь для обучения нейросетевых моделей восстановления временных рядов

  • Majumdar S., Laha A.K. Clustering and classification of time series using topological data analysis with applications to finance // Expert Syst. Appl. 2020. Vol. 162. P. 113868. DOI: 10.1016/j.eswa.2020.113868.
  • Lara-Benıtez P., Carranza-Garcıa M., Luna-Romera J.M., Riquelme J.C. Temporal convolutional networks applied to energy-related time series forecasting // applied sciences. 2020. Vol. 10, no. 7. P. 2322. DOI: 10.3390/app10072322.
  • Gratius N., Wang Z., Hwang M.Y., et al. Digital Twin Technologies for Autonomous Environmental Control and Life Support Systems // J. Aerosp. Inf. Syst. 2024. Vol. 21, no. 4. P. 332–347. DOI: 10.2514/1.I011320.
  • Zhou Z., Tang W., Li M., et al. A Novel Hybrid Intelligent SOPDEL Model with Comprehensive Data Preprocessing for Long-Time-Series Climate Prediction // Remote. Sens. 2023. Vol. 15, no. 7. P. 1951. DOI: 10.3390/RS15071951.
  • Kazijevs M., Samad M.D. Deep imputation of missing values in time series health data: A review with benchmarking // J. Biomed. Informatics. 2023. Vol. 144. P. 104440. DOI: 10.1016/J.JBI.2023.104440.
  • Fang C., Wang C. Time Series Data Imputation: A Survey on Deep Learning Approaches // CoRR. 2020. Vol. abs/2011.11347. arXiv: 2011.11347. URL: https://arxiv.org/abs/2011.11347.
  • Cao W.,Wang D., Li J., et al. BRITS: Bidirectional Recurrent Imputation for Time Series // Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, December 3-8, 2018, Montréal, Canada / ed. by S. Bengio, H.M. Wallach, H. Larochelle, et al. 2018. P. 6776–6786. URL: https://proceedings.neurips.cc/paper/2018/hash/734e6bfcd358e25ac1db0a4241b95651-Abstract.html.
  • Yoon J., Zame W.R., Schaar M. van der Estimating Missing Data in Temporal Data Streams Using Multi-Directional Recurrent Neural Networks // IEEE Trans. Biomed. Eng. 2019. Vol. 66, no. 5. P. 1477–1490. DOI: 10.1109/TBME.2018.2874712.
  • Fortuin V., Baranchuk D., Rätsch G., Mandt S. GP-VAE: Deep Probabilistic Time Series Imputation // The 23rd International Conference on Artificial Intelligence and Statistics, AISTATS 2020, 26-28 August 2020, Online [Palermo, Sicily, Italy]. Vol. 108 / ed. by S. Chiappa, R. Calandra. PMLR, 2020. P. 1651–1661. Proceedings of Machine Learning Research. URL: http://proceedings.mlr.press/v108/fortuin20a.html.
  • Du W., Côté D., Liu Y. SAITS: Self-attention-based imputation for time series // Expert Syst. Appl. 2023. Vol. 219. P. 119619. DOI: 10.1016/J.ESWA.2023.119619.
  • Oh E., Kim T., Ji Y., Khyalia S. STING: Self-attention based Time-series Imputation Networks using GAN. 2021. DOI: 10.1109/ICDM51629.2021.00155.
  • Kaya M., Bilge H.S. Deep Metric Learning: A Survey // Symmetry. 2019. Vol. 11, no. 9. P. 1066. DOI: 10.3390/SYM11091066.
  • Wang Q., Ma Y., Zhao K., Tian Y. A comprehensive survey of loss functions in machine learning // Annals of Data Science. 2022. Vol. 9. P. 187–212. DOI: 10.1007/s40745-020-00253-5.
  • Ciampiconi L., Elwood A., Leonardi M., et al. A survey and taxonomy of loss functions in machine learning // CoRR. 2023. Vol. abs/2301.05579. DOI: 10.48550/ARXIV.2301.05579.arXiv: 2301.05579.
  • Netrapalli P. Stochastic gradient descent and its variants in machine learning // Journal of the Indian Institute of Science. 2019. Vol. 99, no. 2. P. 201–213. DOI: 10.1007/s41745-019-0098-4.
  • Xu J., Ren X., Lin J., Sun X. Diversity-Promoting GAN: A Cross-Entropy Based Generative Adversarial Network for Diversified Text Generation // Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, October 31 - November 4, 2018 / ed. by E. Riloff, D. Chiang, J. Hockenmaier, J. Tsujii. Association for Computational Linguistics, 2018. P. 3940–3949. DOI: 10.18653/V1/D18-1428.
  • Chang Y., Wang X., Wang J., et al. A Survey on Evaluation of Large Language Models // ACM Trans. Intell. Syst. Technol. 2024. Vol. 15, no. 39. P. 1–45. DOI: 10.1145/3641289.
  • Chen W., Huang H., Peng S., et al. YOLO-face: a real-time face detector // Vis. Comput. 2021. Vol. 37, no. 4. P. 805–813. DOI: 10.1007/S00371-020-01831-7.
  • Paszke A., Gross S., Massa F., et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library // Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, December 8-14, 2019, Vancouver, BC, Canada / ed. by H.M. Wallach, H. Larochelle, A. Beygelzimer, et al. 2019. P. 8024–8035. URL: https://proceedings.neurips.cc/paper/2019/hash/bdbca288fee7f92f2bfa9f7012727740-Abstract.html.
  • Jadon A., Patil A., Jadon S. A Comprehensive Survey of Regression-Based Loss Functions for Time Series Forecasting // International Conference on Data Management, Analytics & Innovation. Springer. 2024. P. 117–147. DOI: 10.1007/978-981-97-3245-6_9.
  • Qi J., Du J., Siniscalchi S.M., et al. On Mean Absolute Error for Deep Neural Network Based Vector-to-Vector Regression // IEEE Signal Process. Lett. 2020. Vol. 27. P. 1485–1489. DOI: 10.1109/LSP.2020.3016837.
  • Chen X., Liu W., Mao X., Yang Z. Distributed High-dimensional Regression Under a Quantile Loss Function // J. Mach. Learn. Res. 2020. Vol. 21, no. 182. P. 1–43. URL: http://jmlr.org/papers/v21/20-297.html.
  • Saleh R.A., Saleh A.K.M.E. Statistical Properties of the log-cosh Loss Function Used in Machine Learning // CoRR. 2022. Vol. abs/2208.04564. DOI: 10.48550/ARXIV.2208.04564. arXiv: 2208.04564.
  • Sun Q., Zhou W.-X., Fan J. Adaptive Huber regression // Journal of the American Statistical Association. 2020. Vol. 115, no. 529. P. 254–265. DOI: 10.1080/01621459.2018.1543124.
  • Cuturi M., Blondel M. Soft-DTW: a Differentiable Loss Function for Time-Series // Proceedings of the 34th International Conference on Machine Learning. Vol. 70 / ed. by D. Precup, Y.W. Teh. PMLR, June 2017. P. 894–903. Proceedings of Machine Learning Research. URL: https://proceedings.mlr.press/v70/cuturi17a.html.
  • Berndt D.J., Clifford J. Using Dynamic Time Warping to find patterns in time series // KDD Workshop. 1994. P. 359–370. URL: https://cdn.aaai.org/Workshops/1994/WS-94-03/WS94-03-031.pdf.
  • Gharghabi S., Imani S., Bagnall A.J., et al. Matrix Profile XII: MPdist: A Novel Time Series Distance Measure to Allow Data Mining in More Challenging Scenarios // IEEE International Conference on Data Mining, ICDM 2018, Singapore, November 17-20, 2018. IEEE Computer Society, 2018. P. 965–970. DOI: 10.1109/ICDM.2018.00119.
  • Zhuang J., Tang T., Ding Y., et al. AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients // Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual / ed. by H. Larochelle, M. Ranzato, R. Hadsell, et al. 2020. URL: https://proceedings.neurips.cc/paper/2020/hash/d9d4f495e875a2e075a1a4a6e1b9770f-Abstract.html.
  • Baydin A.G., Pearlmutter B.A., Radul A.A., Siskind J.M. Automatic Differentiation in Machine Learning: a Survey // J. Mach. Learn. Res. 2017. Vol. 18, no. 153. P. 1–43. URL: https://jmlr.org/papers/v18/17-468.html.
  • Биленко Р.В., Долганина Н.Ю., Иванова Е.В., Рекачинский А.И. Высокопроизводительные вычислительные ресурсы Южно-Уральского государственного университет // Вычислительные методы и программирование. 2022. Т. 11, № 1. C. 15–30. DOI: 10.14529/cmse220102.
  • Trindade A. Electricity Load Diagrams 2011–2014. 2015. DOI: 10.24432/C58C86. UCI Machine Learning Repository.
  • Laña I., Olabarrieta I., Vélez M., Del Ser J. On the imputation of missing data for road traffic forecasting: New insights and novel techniques // Transportation Research Part C: Emerging Technologies. 2018. Vol. 90. P. 18–33. DOI: 10.1016/j.trc.2018.02.021.
  • Sheppy M., Beach A., Pless S. NREL RSF Measured Data 2011. Nov. 2014. Accessed: 2023-09-03 DOI: 10.25984/1845288.
  • Reiss A. PAMAP2 Physical Activity Monitoring. 2012. Accessed: 2023-09-03 DOI: 10.24432/C5NW2H. UCI Machine Learning Repository.
  • Юртин А.А. Восстановление многомерных временных рядов на основе выявления поведенческих шаблонов и применения автоэнкодеров // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. 2024. Т. 13, № 2. C. 39–55. DOI: 10.14529/cmse240203.
  • BundesAmt Für Umwelt – Swiss Federal Office for the Environment. Accessed: 2023-09-03. https://www.hydrodaten.admin.ch/.
  • Lozano A.C., Li H., Niculescu-Mizil A., et al. Spatial-temporal causal modeling for climate change attribution // Proceedings of the 15th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Paris, France, June 28 - July 1, 2009 / ed. by J.F. Elder, F. Fogelman-Soulié, P.A. Flach, M.J. Zaki. ACM, 2009. P. 587–596. DOI: 10.1145/1557019.1557086.
  • MeteoSwiss: Federal Office of Meteorology and Climatology. 2023. Accessed: 2023-09-03. https://www.meteoswiss.admin.ch/services- and- publications/service/opengovernment-data.html.
  • Weather Station Saaleaue, Max Planck Institute for Biogeochemistry, Germany. Accessed: 2023-09-03. https://www.bgc-jena.mpg.de/wetter/weather_data.html.
  • Khayati M., Lerner A., Tymchenko Z., Cudré-Mauroux P. Mind the Gap: An Experimental Evaluation of Imputation of Missing Values Techniques in Time Series // Proc. VLDB Endow. 2020. Vol. 13, no. 5. P. 768–782. DOI: 10.14778/3377369.3377383.
  • Minor B.D., Doppa J.R., Cook D.J. Learning Activity Predictors from Sensor Data: Algorithms, Evaluation, and Applications // IEEE Trans. Knowl. Data Eng. 2017. Vol. 29, no. 12. P. 2744–2757. DOI: 10.1109/TKDE.2017.2750669.
  • Цымблер М.Л., Полонский В.А., Юртин А.А. Об одном методе восстановления пропущенных значений потокового временного ряда в режиме реального времени // Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. 2021. Т. 10, № 4. C. 5–25. DOI: 10.14529/cmse210401.
  • Pontes F.J., F. de Amorim G. da, Balestrassi P.P., et al. Design of experiments and focused grid search for neural network parameter optimization // Neurocomputing. 2016. Vol. 186. P. 22–34. DOI: 10.1016/J.NEUCOM.2015.12.061.
Еще
Статья научная