Definición - ¿Qué significa aprendizaje por refuerzo (RL)?
El aprendizaje por refuerzo, en el contexto de la inteligencia artificial, es un tipo de programación dinámica que entrena algoritmos mediante un sistema de recompensa y castigo.
Un algoritmo de aprendizaje por refuerzo, o agente, aprende interactuando con su entorno. El agente recibe recompensas por desempeñarse correctamente y sanciones por desempeñarse incorrectamente. El agente aprende sin la intervención de un humano maximizando su recompensa y minimizando su penalización.
Techinfo explica el aprendizaje por refuerzo (RL)
El aprendizaje por refuerzo es un enfoque del aprendizaje automático inspirado en la psicología conductista. Es similar a cómo un niño aprende a realizar una nueva tarea. El aprendizaje por refuerzo contrasta con otros enfoques de aprendizaje automático en que al algoritmo no se le dice explícitamente cómo realizar una tarea, sino que resuelve el problema por sí solo.
Cuando un agente, que podría ser un automóvil autónomo o un programa que juega al ajedrez, interactúa con su entorno, recibe un estado de recompensa en función de su desempeño, como conducir hasta el destino de manera segura o ganar una partida. Por el contrario, el agente recibe una penalización por actuar incorrectamente, como salirse de la carretera o ser jaque mate.
Con el tiempo, el agente toma decisiones para maximizar su recompensa y minimizar su penalización mediante la programación dinámica. La ventaja de este enfoque de la inteligencia artificial es que permite que un programa de inteligencia artificial aprenda sin que un programador explique cómo debe realizar la tarea un agente.