jueves, 9 de octubre de 2008

APRENDIZAJE POR REFORZAMIENTO Y SU FUNCION


Aprendizaje por reforzamiento
Define la manera de comportarse de un agente a un tiempo dado en un tiempo exacto. Puede verse como un mapeo entre los estados del ambiente que el agente percibe y las acciones que toma, cuando se encuentra en esos estados. Corresponde a lo que en psicología se conoce como reglas estimulo-respuesta o asociaciones. Este elemento es central ya que por si sólo es suficiente para determinar el comportamiento. Por lo general, las políticas deben ser estocásticas.

Función de reforzamiento
Define la meta en un problema de RL, al mapear cada percepción del agente (estado del ambiente o par estado, acción) a un número (recompensa) que indica que tan deseable es ese estado. El objetivo del agente es maximizar la recompensa recibida a largo plazo. De esta forma, la función define qué eventos son buenos y malos para el agente, por lo que la función es necesariamente inalterable por las acciones del agente. Debe, sin embargo, servir como base para alterar la política, por ej., si una acción elegida por la política recibe una recompensa muy baja, la política debe cambiarse para elegir una acción diferente en esa situación. Una función de reforzamiento por lo general es estocástica.es un fortalecimiento del se humano para poder comprender de la mejor manera cualquier lectura.

No hay comentarios: