Q-learning

Q-Learning este o tehnică de învățare automată care asociază o utilitate pentru fiecare pereche stare-acțiune. Elementele de bază sunt : agent, stare, acțiune, recompensă. La orice moment, agentul se află într-o anumită stare și decide asupra uneia dintre mai multe acțiuni. Pentru acțiunea sa, agentul primește o recompensă.

Scopul agentului este de a obține o recompensă totală maximă. Agentul lucrează cu o funcție de calitate (quality), pe care și-o adaptează pe măsură ce explorează mediul: : $Q:S\times A\to \mathbb {R}$ .

Actualizarea Q se face după alegerea unei acțiuni a_t în starea s_t, care duce agentul în starea s_t+1, ținând cont de:

fosta valoare a lui Q

α - rata de învățare

γ - factorul de atenuare

R_t+1 - recompensa primită după realizarea acțiunii a_t

valorile Q pentru starea s_t+1 și acțiunile posibile a_t+1 din s_t+1 : Q(s_t, a_t ) = (1 - α) * Q(s_t, a_t) + α * R_t+1 + γ * max Q(s_t+1, a_t+1)