Dilema prizonierului

Dilema prizonierului este un paradox, componentă centrală a teoriei jocurilor. În cazul dilemei este vorba despre un joc de tip sumă non-zero care a fost formulat de către angajați ai companiei RAND Corporation. Merrill Flood și Melvin Drescher descriu o dilemă socială ca pe un joc între două persoane, care arată cum pot conduce hotărârile raționale individuale la rezultate colective neoptime. Termenul dilema prizonierului a fost formulat de Albert Tucker de la Universitatea Princeton.

Vor coopera cei doi prizonieri pentru a minimaliza pierderea totală a libertăţii sau unul dintre ei, având încredere că celălalt va coopera, îl va trăda pentru a fi eliberat?

Descrierea situației

Doi prizonieri sunt bănuiți că au săvârșit o infracțiune. Pedeapsa maximă pentru această infracțiune este de cinci ani. Celor doi prizonieri li se face o propunere pe care cei doi o cunosc. Dacă unul dintre ei mărturisește și astfel își împovărează partenerul, atunci scapă nepedepsit – celălalt trebuie să ispășească o pedeapsă de cinci ani. Dacă cei doi decid să nu mărturisească, rămân doar dovezi prezumptive care le vor aduce o pedeapsă de doi ani. Dacă amândoi mărturisesc, pe fiecare îl așteaptă o pedeapsă de patru ani. Prizonierii sunt chestionați separat unul de celălalt, astfel încât nici unul dintre ei nu va cunoaște nici înainte și nici după chestionare intenția celuilalt.

Această dilemă poate fi numită paradox, deoarece decizia prizonierilor luată individual și conștient (aceea de a mărturisi) și decizia colectivă (aceea de a tăinui) sunt divergente.

Matricea recompenselor arată în felul următor:

	B tăinuiește	B mărturisește
A tăinuiește	A:−2 / B:−2	A:−5 / B:0
A mărturisește	A:0 / B:−5	A:−4 / B:−4

Semnificația rezultatelor:

0...„temptation” – Recompensă pentru trădare unilaterală (libertate)
−2...„reward” – Recompensă pentru cooperarea lui A cu B (doar pedeapsă de doi ani)
−4...„punishment” – Pedeapsă pentru trădare bilaterală (patru ani de pedeapsă)
−5...„sucker's payoff” – Pedeapsă pentru înșelarea încrederii

Cele patru modalități de combinare existente nu depind numai de propria decizie, ci și de deciziile complicilor (interdependență comportamentală).

În mod individual, pare să fie pentru fiecare avantajos să coopereze. Prizonierul se gândește astfel: Dacă celălalt cooperează, îmi pot reduce pedeapsa la patru ani, dacă cooperez și eu; însă dacă celălalt tăinuiește faptele săvârșite: pot să-mi reduc pedeapsa de la doi ani la zero prin declarația mea! Deci trebuie să mărturisesc faptele orice s-ar întâmpla!. Decizia de a mărturisi faptele săvârșite nu depinde de comportamentul celuilalt și pare să fie întotdeauna avantajos să mărturisească. O astfel de strategie care este aleasă fără a ține cont de decizia oponentului este denumită strategie dominantă.

Cum arată și matricea, cei doi prizonieri ar fi totuși mai avantajați dacă amândoi s-ar decide să tăinuiască faptele. Atunci ar primi fiecare doar câte doi ani de detenție. Locul de desfășurare a jocului împiedică înțelegerea dintre cei doi prizonieri și provoacă astfel o trădare unilaterală prin care trădătorul speră să obțină pentru sine cel mai bun rezultat achitarea (dacă celălalt prizonier tăinuiește faptele) sau să primească o pedeapsă de patru ani în loc de cinci (dacă celălalt prizonier mărturisește). Dacă amândoi fac acest lucru, își înrăutățesc astfel și individual situația, deoarece acum fiecare primește câte patru ani în loc de câte doi ani.

Dilema prizonierului constă din această divergență a strategiilor posibile. Presupusa analiză progresivă, rațională a situației induce pe cei doi prizonieri la mărturisire, ceea ce conduce la un rezultat prost (alocare care nu este optimă). Rezultatul mai bun ar fi atins prin cooperare, însă acesta este susceptibil de trădarea încrederii. Jucătorii raționali se întâlnesc într-un punct care în acest caz este denumit echilibru Nash pareto-ineficient.

Jocuri și strategii

Jocul unic

Conform analizei clasice a jocului, în dilema prizonierului jucată o singură dată, singura strategie rațională pentru individul interesat de binele propriu este aceea de a nu coopera cu celălalt prizonier, ci să mărturisească și astfel să-l trădeze pe celălalt. Prin decizia sa prizonierul nu poate influența comportamentul celuilalt prizonier și independent de decizia luată de celălalt se plasează într-o poziție mai bună dacă nu cooperează (mărturisește). Această analiză condiționează faptul că jucătorii se întâlnesc o singură dată, iar hotărârile lor nu pot influența interacțiunile de mai târziu. Deoarece este vorba despre o dilemă autentică, din această analiză nu reiese nici o instrucțiune clară (concluzie prescriptivă) pentru interacțiuni reale corespunzătoare unei dileme a prizonierului.

Într-un joc unic trebuie precizat că este indiferent dacă cele două părți s-au înțeles între ele. Situația rămâne la fel după o eventuală discuție!

Jocul repetat (finit)

Situația se schimbă, dacă jocul este jucat în mai multe runde (așa numitele turnee iterate). În acest caz o înșelare a încrederii este răzbunată în jocul următor sau într-un joc de mai târziu, iar cooperarea este răsplătită.

Numărul rundelor nu trebuie să fie cunoscut dinainte, ci trebuie să fie necunoscut. În caz contrar s-ar putea ca pentru strategii de fapt cooperante să fie profitabil ca în ultima rundă să intervină trădarea, deoarece pentru aceasta nu mai este posibilă o recompensă. Astfel, penultima rundă devine ultima, pentru care rezultă din nou aceeași situație. Din aceasta reiese o soluțe neoptimă. Problema ultimei runde se aplanează dacă jocul este jucat ca un - presupus sau actual - turneu nesfârșit.

Cât de benefică este o anumită strategie într-un astfel de turneu, depinde întotdeauna de strategiile concurente pe care aceasta le influențează și nu poate fi declarată în mod absolut.

Jocul infinit

Jocul se repetă, fără ca jucătorii să știe când va avea loc ultima rundă. Dacă jucătorii se află în această dilemă, atunci poate exista o lipsă de cooperare în jocul următor. Faptul de a nu coopera nu este răsplătit (în mod inevitabil), deoarece pentru trădare (în mod direct) se va primi pedeapsă în jocul următor, în timp ce cooperarea este răsplătită (în mod constant). Tit-for-tat (Ochi pentru ochi) înseamnă pedeapsă pentru trădare în perioada următoare. În acest caz se vorbește despre încredere calculată.

Politologul american Robert Axelrod a organizat la începutul anilor '80 un concurs pe calculator, pe tema dilemei prizonierului repetată. El făcea ca programele de calculator să concureze între ele pe baza a diferite strategii. Cea mai de succes strategie și în același timp una dintre cele mai ușoare a fost Strategia ochi pentru ochi, dezvoltată de Anatol Rapoport. Aceasta însemna cooperare (renunțare la trădare), atâta timp cât și celălalt coopera. Dacă celălalt încerca să-și creeze un avantaj (trădare), atunci și cealaltă parte trăda.

Competiții dinamico-evolutive

O dezvoltare a jocului pe mai multe runde este jocul pe mai multe generații. Dacă toate strategiile apar în mai multe runde unele împotriva celorlalte și una împotriva celeilalte, rezultatele obținute vor fi numărate împreună, pentru fiecare strategie. Pentru o rundă următoare, strategiile de succes le înlocuiesc pe cele cu mai puțin succes. Strategia cea mai de succes apare cu o densitate mai mare în generația următoare. Și această variantă a competiției a fost implementată de Axelrod.

Strategiile care au tendința de a înșela, au obținut aici la început rezultate relativ bune – atâta timp cât au venit în contact cu alte strategii care aveau tendința de a coopera lăsându-se exploatate. Dacă strategiile înșelătoare sunt de succes, atunci strategiile cooperative se vor rări de la o generație la alta – strategiile înșelătoare reușind să anuleze chiar și fundamentul succesului. Dacă două strategii înșelătoare se întâlnesc, se obțin rezultate mai proaste decât în cazul în care s-ar întâlni două strategii cooperante. Strategiile înșelătoare se pot dezvolta doar prin exploatarea partenerilor de joc. Pe de altă parte, strategiile cooperante se dezvoltă cel mai bine, dacă vin în contact unele cu altele. O minoritate de strategii cooperante, cum ar fi Tit-for-tat (ochi pentru ochi) poate pretinde astfel a se afla chiar într-o majoritate de strategii înșelătoare. Astfel de strategii care se pot stabili prin generații și care sunt rezistente invaziilor altor strategii se numesc strategii evolutive stabile.

Strategia Tit-for-tat a putut fi întrecută în anul 2004 de o strategie nouă, propusă de Universitatea Southampton și care în cazul unei întâlniri față în față și după un schimb inițial recurge la două roluri de exploatator și respectiv de victimă, pentru a permite exploatatorului o poziție de conducere (master-and-servant). În acest caz este necesară o anumită marime critică, și anume strategia master-and-servant nu poate fi stabilită dintr-o populație incipientă. Deoarece partenerii de joc comunică codat despre comportamenul lor de început, există obiecția că strategia master-and-servant încalcă regulile jocului, despre care partenerii de joc sunt chestionați izolati unii de ceilalți. Strategia amintește de populațiile de insecte unde insectele lucrătoare renunță total la reproducție și își dedică forța de muncă pentru bunăstarea reginei prolifice.

Condițiile necesare răspândirii strategiilor cooperative sunt: a) se joacă în mai multe runde; b) jucătorii se pot recunoaște între ei de la o rundă la alta, pentru ca în caz de nevoie să poată fi recompensați; c) nu se știe când se vor întâlni jucătorii pentru ultima oară.

Câteva strategii selectate

Pentru dilema prizonierului jucată în mai multe runde există mai multe strategii diferite. Pentru anumite strategii s-au încetățenit anumite nume (traducerea din paranteză):

tit-for-tat (ochi pentru ochi): Cooperează în prima rundă și copiază în runda următoare mutarea anterioară a partenerului de joc. Această strategie este în principiu deschisă înspre cooperare, practicând însă despăgubire în caz de trădare. Pentru încă o cooperare a partenerului de joc nu este neiertătoare, ci reacționează cooperând.
mistrust (neîncredere): Trădează în prima rundă și copiază în rundele următoare (ca și ochi pentru ochi) mutarea anterioară a partenerului de joc. Nu este deschisă înspre cooperare.
spite (ciudă): Cooperează până când partenerul de joc trădează primul. Mai apoi trădează tot timpul. Cooperează până la primul semn de înșelare a încrederii. Este foarte răzbunătoare.
pavlov: Cooperează în prima rundă și trădează, dacă mutarea partenerului de joc a fost diferită de propria mutare. Cooperează, dacă în runda precedentă ambii jucători au cooperat sau ambii au trădat. Aceasta conduce la o schimbare a comportamentului, dacă câștigul din runda precedentă a fost mic, însă conduce la menținerea comportamentului, dacă câștigul a fost mare.
gradual (gradual): Cooperează până când partenerul de joc trădează primul. Trădează o singură dată și cooperează de două ori. Dacă partenerul de joc trădează încă o dată după această secvență, atunci el trădează strategia graduală de două ori și cooperează de două ori. Dacă partenerul de joc trădează încă o dată, atunci el trădează strategia de trei ori și cooperează de două ori. Această strategie cooperează strict, pedepsește însă orice încercare de exploatare cu mai multă intransigență.
prober (probant): joacă primele trei mutări cooperare, trădare, trădare și trădează mai departe, dacă oponentul a cooperat la a doua și la a treia mutare, joacă de altfel tit-for-tat. Testează dacă partenerul de joc este exclus fără răzbunare. Exclude partenerii de joc nerăzbunători. Se adaptează însă la răzbunare.
master-and-servant („Domn și servitor” sau și „Strategie Southampton”): Joacă în timpul primelor cinci până la zece runde un comportament codat, servind recunoașterii. Strategia se asigură dacă partenerii de joc acționează după modelul Master-and-servant. Dacă este cazul, partenerul de joc devine exploatator, cel care trădează întotdeauna, celălalt devine excepție, cel care cooperează necondiționat. Dacă partenerul de joc nu se conformează strategiei master-and-servant, atunci se trădează, în dauna combatanților ce iau parte la competiție. Această strategie conduce la faptul că o parte dintre jucătorii ce iau parte la ea fac un lucru bun, deoarece ei primesc în mod neobișnuit numărul maxim posibil de puncte pentru o trădare unilaterală. Partea exploatată a jucătorilor strategiei Master-and-servant „dispare“, ceea ce se compensează prin succesiunea părții de succes.
always defect (trădează întotdeauna): Trădează întotdeauna, indiferent de ce face partenerul de joc.
always cooperate (cooperează întotdeauna): Cooperează întotdeauna, indiferent de ce face partenerul de joc.
random (aleator): Trădează sau cooperează pe baza unei hotărâri aleatorii 50:50.
per kind (periodic sau amical): Joacă periodic seria cooperează/cooperează/trădează. Această strategie încearcă să-l pună pe jucător în siguranță printr-o dublă cooperare, pentru a-l exclude o singură dată.
per nasty (periodic și neamical): Joacă periodic seria trădează/trădează/cooperează.
go by majority (decide conform majorității): Cooperează în prima rundă și joacă apoi mutarea cea mai utilizată de către partenerul de joc. În caz de egalitate se cooperează.

Strategia optimă

Singura strategie tit-for-tat simplă, însă foarte eficientă și de succes pe termen lung prezintă totuși desfigurări, deoarece amândoi jucătorii se pot bloca într-o confruntare de durată, dacă după o anumită perioadă amândoi jucătorii aleg pe termen lung această strategie denumită Vendetta (ital.: răzbunare).

Bibliografie

Anatol Rapoport, Albert M. Chammah: Prisoner's dilemma: a study in conflict and cooperation. University of Michigan Press, 1965
Robert Axelrod: Die Evolution der Kooperation. Oldenbourg Verlag, 2000, ISBN 3-486-53995-7
Eggebrecht, Winfried; Manhart, Klaus: Fatale Logik: Egoismus oder Kooperation in der Computersimulation, c't 6/1991