A Aprendizagem por Reforço preocupa-se com o como um agente deve agir num ambiente de forma que maximize alguma noção de recompensa a longo tempo. Os algoritmos de Aprendizagem por Reforço tentam encontrar a política que mapeia os estados do mundo às ações que o agente deve ter nesses estados. Aprendizagem por Reforço distingue-se do problema de Aprendizagem Supervisionada no sentido em que pares de input/output corretos nunca são apresentados, nem as ações sub-ótimas são explicitamente corrigidas.