Series Temporales, Op. 3: LSTM
Las redes neuronales artificiales se inspiraron en el cerebro humano. ¿Sabías que LSTM posee memoria a corto y a largo plazo similares al modelo Atkinson–Shiffrin para el almacenamiento de recuerdos?
Series Temporales, Op. 3: LSTM
Por Rocío B. Ayala Meza
Recurrent Neural Networks (RNN) es una red neuronal artificial diseñada para datos secuenciales, cuya arquitectura le otorga una memoria artificial. Esto permite que al recibir nuevos datos, pueda relacionarlos con la información que tiene almacenada. Sin embargo, esta memoria es limitada (de corto plazo). Para ello se creó la red Long-Short Term Memory (LSTM), cuya arquitectura la hace capaz de aprender dependencias en los datos a largo plazo [1].
En este artículo, una continuación de [2][3], se va a explicar la arquitectura de LSTM la cual pertenece a los métodos Deep Learning (DL). Estos son capaces de identificar estructuras y patrones en los datos. Finalmente, se mostrará una tabla con ideas de aplicación (para series temporales de este algoritmo y sus variantes.
LSTM
Es un tipo de red RNN que a diferencia de esta reutiliza 2 vectores (ver Figura 1): C (memoria a largo plazo) y H (memoria a corto plazo) con diferentes sellos de tiempo [1]. Por ejemplo:
Ht-1 = datos antiguos en la memoria a corto plazo
Ct = datos actuales en la memoria a largo plazo
Para solucionar el problema de memoria a corto plazo presente en la redes RNN, su arquitectura tiene un grupo de compuertas para regular cuánto de información debe olvidarse, actualizarse y entregarse (ver Figura 2) [5]. Todas emplean una función sigmoide (regresión logística) con un rango de cero (0 = bloquear todo) a uno (1 = dejar pasar todo) que describe la cantidad de información a dejar pasar. Solamente dos compuertas utilizan la función tanh para cambiar la escala de datos entre -1 y 1.
Compuerta de Olvido: decide cuánto de la información almacenada (datos pasados) en la memoria a largo plazo debe olvidarse [4][5].
Compuerta de Entrada: cuantifica la importancia de información nueva para actualizar la memoria a largo plazo [4][5].
Compuerta de Salida: controla qué información en la memoria a largo plazo (datos actuales) se hacen visibles [4][5].
Ideas de aplicación para Perú
LSTM, al igual que con los métodos estadísticos [2] y Machine Learning (ML) [3], puede emplearse en el sistema de telecomunicaciones y en infraestructuras de Tecnologías de la Información de cualquier empresa para optimizar el tráfico de red, implementar mantenimiento predictivo, predecir el consumo energético y mejorar la seguridad informática (ver Tabla 1). Pero a diferencia de ellos, generalmente será superior si el conjunto de datos consiste principalmente de anomalías contextuales [1][6]. Sin embargo, su optimización es más compleja porque posee más hiperparámetros y el tiempo de cálculo durante el entrenamiento va a ser mayor [1].
Conclusiones
LSTM es un método DL diseñado para series secuenciales, cuya arquitectura le otorga una memoria a largo plazo. Es decir puede conectar información pasada con la presente en secuencias más largas que RNN. Algunos estudios han encontrado que los métodos estadísticos son superiores en detección de anomalías y pronóstico [1][12], por lo que se recomienda su empleo al inicio de los análisis.
Referencias
[1] M. Braei and S. Wagner, “Anomaly Detection in Univariate Time-series: A Survey on the State-of-the-Art,” Apr. 2020, Accessed: Nov. 09, 2021. [Online]. Available: http://arxiv.org/abs/2004.00433.
[2] R. Ayala Meza, “Series Temporales, Op. 1: ARIMA”, Data Science Research Peru, 2021. https://datasciencepe.substack.com/p/series-temporales-op-1-arima (accessed Nov. 14, 2021).
[3] R. Ayala Meza, “Series Temporales, Op. 2: DBSCAN,” Data Science Research Peru, 2021. https://datasciencepe.substack.com/p/series-temporales-op-2-dbscan (accessed Dec. 09, 2021).
[4] “Machine Learning/Deep Learning/NLP-5-RNN, LSTM, GRU - Programmer Sought.” https://programmersought.com/article/78575166382/ (accessed Dec. 09, 2021).
[5] “Understanding LSTM Networks -- colah’s blog.” https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (accessed Dec. 09, 2021).
[6] R. Ayala Meza, “Rápidos y Furiosos: detección de anomalías en aceleradores de Machine Learning,” DSRP, 2021. https://datasciencepe.substack.com/p/rapidos-y-furiosos-deteccion-de-anomalias (accessed Dec. 09, 2021).
[7] L. Gunn, P. Smet, E. Arbon, and M. D. McDonnell, “Anomaly Detection in Satellite Communications Systems using LSTM Networks,” in 2018 Military Communications and Information Systems Conference (MilCIS), 2018, pp. 1–6, doi: 10.1109/MilCIS.2018.8574109.
[8] P. Malhotra, A. Ramakrishnan, G. Anand, L. Vig, P. Agarwal, and G. Shroff, “LSTM-based Encoder-Decoder for Multi-sensor Anomaly Detection,” CoRR, vol. abs/1607.0, 2016, [Online]. Available: http://arxiv.org/abs/1607.00148.
[9] M. Zhang, J. Guo, X. Li, and R. Jin, “Data-Driven Anomaly Detection Approach for Time-Series Streaming Data,” Sensors, vol. 20, no. 19, 2020, doi: 10.3390/s20195646.
[10] A. C. Onal, O. Berat Sezer, M. Ozbayoglu, and E. Dogdu, “MIS-IoT: Modular Intelligent Server Based Internet of Things Framework with Big Data and Machine Learning,” in 2018 IEEE International Conference on Big Data (Big Data), 2018, pp. 2270–2279, doi: 10.1109/BigData.2018.8622247.
[11] Y. Liu et al., “Deep Anomaly Detection for Time-Series Data in Industrial IoT: A Communication-Efficient On-Device Federated Learning Approach,” IEEE Internet Things J., vol. 8, no. 8, pp. 6348–6358, 2021, doi: 10.1109/JIOT.2020.3011726.
[12] S. Makridakis, E. Spiliotis, and V. Assimakopoulos, “Statistical and Machine Learning forecasting methods: Concerns and ways forward,” PLoS One, vol. 13, no. 3, p. e0194889, Mar. 2018, [Online]. Available: https://doi.org/10.1371/journal.pone.0194889.