Bellman Equation (Ecuación de Bellman)
Es un principio fundamental en el ámbito del aprendizaje por refuerzo, desarrollado por Richard Bellman, que descompone problemas de optimización en subproblemas más simples, resolviéndolos de manera recursiva.
Sirve para modelar la relación entre el estado actual, las acciones posibles, las recompensas inmediatas y los valores futuros esperados, facilitando la toma de decisiones óptima en un entorno secuencial.
Su base se encuentra en el concepto de optimalidad, donde una política óptima maximiza el valor acumulado esperado a largo plazo desde cualquier estado inicial.
Se expresa comúnmente como una ecuación recursiva que liga el valor de un estado al valor de los estados futuros alcanzables, esencial en algoritmos clave como Q-Learning y métodos basados en políticas.
Proporciona las bases matemáticas para calcular funciones de valor, tanto en sus versiones determinísticas como estocásticas.
Entradas Relacionadas