Gradient Exploding (Explosión de Gradiente)

Es un problema que ocurre durante el entrenamiento de redes neuronales profundas cuando los valores de los gradientes crecen exponencialmente a medida que se propagan hacia atrás a través de las capas de la red.
Este fenómeno puede causar que los pesos de la red se actualicen con valores extremadamente grandes, lo que resulta en una inestabilidad del modelo.
Como consecuencia, el proceso de aprendizaje puede fracasar, ya que los parámetros del modelo divergen y no logran converger hacia una solución óptima.
Es especialmente común en redes profundas o en aquellas que utilizan funciones de activación no lineales como tanh o sigmoid, donde las derivadas tienden a amplificarse.
Para mitigar este problema, se pueden emplear técnicas como la normalización de gradientes, la inicialización adecuada de los pesos o el uso de optimizadores avanzados como Adam o RMSProp.
En algunos casos, se aplican funciones de activación diseñadas específicamente para evitar estos efectos, como ReLU, que ayuda a estabilizar la magnitud de los gradientes.
Otra alternativa es recurrir al gradiente truncado, que establece un límite máximo en el valor de los gradientes durante el proceso de cálculo del retropropagado.