La variante base di MCTS non richiede una gestione speciale per gli stati dei terminali.
Aggiorna solo il punteggio / numero di visite a seconda del risultato (vinci / perdi) e procede con la propagazione del back.
È una sorta di playout / simulazione istantanea e non può essere saltato (consentendo a MCTS di convergere al valore teorico del gioco).
L'algoritmo può essere migliorato (ad esempio, MONTE-CARLO TREE SEARCH SOLVER) utilizzando i punteggi di grandi dimensioni (ad esempio + ∞ / -∞) e ad hoc di backpropagation / selezione:
Aspecialprovisionisthentakenwhenbackingsuchprovenvaluesupthetree.TherearethreecasestoconsiderasshowninFig.(weusethenegamaxformulation,alternatingsignsbetweenlevels).
First,whenasimulationbacksupaprovenloss(−∞)fromachildc
toaparentp
,theparentnodep
becomes,andislabelledas,aprovenwin(∞),thatis,thepositioniswonfortheplayeratp
becausethemoveplayedleadstoawin(leftbackupdiagraminthefigure).
Whenbackingupaprovenwin(∞)fromc
top
,onemust,however,alsolookattheotherchildrenofp
todeterminep
’svalue.Inthesecondcase,whenallchildnodesofp
arealsoaprovenwin(∞),thenthevalueofp
becomesaprovenloss(-∞),becauseallmovesleadtoapositionlostforp
(middlebackupdiagraminthefigure).
However,thethirdcaseoccursifthereexistsatleastonechildwithavaluedifferentvaluefromaprovenwin.Thenwecannotlabelp
asaprovenloss.Insteadp
getsupdatesasifasimulationwin(insteadofaprovenwin)werebeingbackedupfromnodec
(rightbackupdiagraminthefigure;v
andu
indicatenon-provenvalues).Non-provenvaluesarebackedupasinregularMCTS.
1)Ulterioridettagliin Ricerca dell'albero Monte-Carlo in Linee di azione di Mark H.M. Winands, Yngvi Bjornsson e Jahn-Takeshi Saito.