Ho letto il libro di Sutton and Barto e ho seguito le lezioni di David Silver su youtube. I principi di base hanno molto senso per me e ho costruito un labirinto (una griglia arbitraria in cui l'agente può spostarsi su, giù, a sinistra a meno che non sia bloccato da un muro) agente risolutivo che impara a caso percorsi di campionamento e come impara pesi la sua scelta "casuale" in base alla quantità di ricompensa ricevuta.
Poiché l'agente può solo assegnare un valore allo stato (la sua scelta di direzione quando si passa al quadrato successivo) una volta raggiunto l'obiettivo, la ricompensa viene ritardata. Quando l'agente raggiunge l'obiettivo, ho una serie di scelte che l'hanno portato.
Il mio primo pensiero è stato quello di scontare la ricompensa assegnata a ogni casella di quella catena di una percentuale pari al 90% per ogni casella di distanza dall'obiettivo. Quindi
GOAL = 1
GOAL-1 = 1 * 0.9
GOAL-2 = 1 * 0.9^2
...
Tuttavia questo si traduce in una ricompensa così piccola da essere priva di significato in una griglia qualsiasi più grande di circa 5x5.
I premi devono differire ovviamente per le scelte che hanno avuto minore influenza sul raggiungimento dell'obiettivo, ma non riesco a capire come assegnarli sensibilmente.