Szukaj na tym blogu

wtorek, 12 czerwca 2012

Dylemat więźnia – problem w teorii gier

Jest oparty na dwuosobowej grze o niezerowej sumie,
 w której każdy z graczy może zyskać oszukując przeciwnika, 
ale obaj stracą jeśli obaj będą oszukiwać.
 Dylemat ten jest więc niekooperacyjną (o częściowym konflikcie)
 grą o sumie niezerowej, ponieważ 
strategia konfliktu przeważa nad strategią pokojową: 
najwięcej można zyskać oszukując, 
a najwięcej stracić idąc na współpracę. 
W odróżnieniu jednak od dylematu kurczaków 
w tej grze istnieje większe pole do współpracy, 
która może zaistnieć 
w strategiach wielokrotnego dylematu więźnia[1].
Dylemat więźnia został wymyślony przez 
dwóch pracowników RAND Corporation
Melvin Dreshera i Merrill Flood w 1950 roku.
Albert W. Tucker sformalizował jego zasady 
i jako pierwszy użył nazwy dylemat więźnia (Poundstone, 1992). 
W klasycznej formie jest przedstawiany następująco:

Dwóch  podejrzanych zostało zatrzymanych.

Policja nie ma wystarczających dowodów
na postawienie zarzutów.

Rozdziela więźniów  i każdemu oddzielnie
przedstawia te sama ofertę:

-„Jeśli będziesz zeznawać przeciw niemu
A on będzie milczeć
to wyjdziesz na wolność,
a on dostanie dziesięć lat.”

-„Jeśli obaj będziecie milczeć
dostaniecie po 6 miesięcy
za inne przewinienia.”

-„ Jeśli obaj będziecie mówić (zeznawać)
dostaniecie po pięć lat.”

Umawiamy się z tobą i z nim
oddzielnie.  
On nie będzie wiedział jak ty zeznajesz

Jeśli założymy, 
że każdy z więźniów woli krótszy wyrok niż dłuższy 
i że żadnemu nie zależy na niskim wyroku drugiego, 
możemy opisać ten dylemat w terminach teorii gier. 
Więźniowie grają wtedy w grę, 
w której dopuszczalne strategie to:
współpracuj (milcz) i oszukuj (zeznawaj). 
Celem każdego gracza jest maksymalizacja swoich zysków, 
czyli uzyskanie jak najkrótszego wyroku.
W tej grze oszukuj 
jest strategią ściśle dominującą
niezależnie od tego co robi przeciwnik, 
zawsze bardziej opłaca się oszukiwać 
niż współpracować. 
Jeśli współwięzień milczy, 
oszukiwanie skróci wyrok z sześciu miesięcy do zera. 
Jeśli współwięzień zeznaje, 
oszukiwanie skróci wyrok z dziesięciu lat do pięciu. 
Każdy gracz racjonalny będzie zatem oszukiwał 
i jedyną równowagą Nasha 
jest sytuacja, gdy obaj gracze oszukują. 
W efekcie obaj zyskają mniej, 
niż gdyby obaj współpracowali.
Iterowany dylemat więźnia (patrz niżej) 
polega na rozgrywaniu tej samej gry wielokrotnie. 
Wtedy każdy gracz ma możliwośćukarania drugiego gracza 
za oszukiwanie w poprzedniej rundzie. 
W tej sytuacji, jeśli straty wynikające z ukarania 
będą większe niż zyski z oszukiwania, 
współpraca obu graczy może utworzyć stan równowagi. 
Taka gra może mieć też wiele innych stanów równowagi.
Przy wielokrotnych rozgrywkach, 
egoistyczne strategie dawały średnio bardzo małe wygrane 
w porównaniu z bardziej altruistycznymi.
 Axelrod pokazał w ten sposób możliwość ewolucyjnego wykształcenia się 
zachowań altruistycznych 
z nastawionych na własny zysk, 
wyłącznie za pomocą selekcji naturalnej.
Najlepszą deterministyczną strategią w tym turnieju okazała się 
strategia wet za wet (strategia coś za coś), 
którą zgłosił Anatol Rapoport
Była ona jednocześnie najprostszą zgłoszoną 
– jej cały program w języku BASIC zajmował cztery linie. 
Strategia polegała na współpracy w pierwszej rundzie, 
a w każdej kolejnej robieniu tego co przeciwnik robił w poprzedniej.
W niektórych sytuacjach lepsza była lekko zmodyfikowana 
strategia wet za wet z wybaczaniem
W strategii tej, jeśli przeciwnik oszukiwał, 
z małym prawdopodobieństwem (1%-5%) gracz wybaczał 
i w kolejnej rundzie dalej współpracował. 
Pozwalało to na przerwanie ciągu wzajemnych zdrad, 
w którym dwie strategie wet za wet mogły 
ciągnąć się  w nieskończoność.
Analizując najlepsze strategie, 
Axelrod przedstawił kilka cech którymi się one wyróżniały:
Przyjazność
nie oszukiwać  
dopóki przeciwnik tego nie zrobił
Mściwość
reagować  na zdradę przeciwnika,
bo przeciwnik bezlitośnie   wykorzysta 
gdybyś pozostał  przy  strategii Zawsze Współpracuj.
Wybaczyć
po okresie zemsty za oszustwo.  Daje to lepsze wyniki  niż ciągłe wzajemne mszczenie się.
Brak zazdrości
nie starać się o lepszy wynik  niż przeciwnik.
Axelrod wywnioskował, 
na podstawie tego eksperymentu, 
że dbanie wyłącznie o własne zyski 
można często najlepiej realizować 
będąc przyjaznym i wybaczającym.
W jednorazowym dylemacie więźnia, 
oszukiwanie 
jest zawsze najlepszym rozwiązaniem, 
niezależnie od tego co robi przeciwnik. 
W iterowanym, 
optymalna strategia zależy od tego 
jak grają przeciwnicy 
i jak reagują na współpracę i zdradę. 



Brak komentarzy: