Dylemat więźnia – problem w teorii gier.
Jest oparty na dwuosobowej grze o niezerowej sumie,
w której każdy z graczy może zyskać oszukując przeciwnika,
ale obaj stracą jeśli obaj będą oszukiwać.
Dylemat ten jest więc niekooperacyjną (o częściowym konflikcie)
grą o sumie niezerowej, ponieważ
strategia konfliktu przeważa nad strategią pokojową:
najwięcej można zyskać oszukując,
a najwięcej stracić idąc na współpracę.
W odróżnieniu jednak od dylematu kurczaków
w tej grze istnieje większe pole do współpracy,
która może zaistnieć
w strategiach wielokrotnego dylematu więźnia[1].
w której każdy z graczy może zyskać oszukując przeciwnika,
ale obaj stracą jeśli obaj będą oszukiwać.
Dylemat ten jest więc niekooperacyjną (o częściowym konflikcie)
grą o sumie niezerowej, ponieważ
strategia konfliktu przeważa nad strategią pokojową:
najwięcej można zyskać oszukując,
a najwięcej stracić idąc na współpracę.
W odróżnieniu jednak od dylematu kurczaków
w tej grze istnieje większe pole do współpracy,
która może zaistnieć
w strategiach wielokrotnego dylematu więźnia[1].
Dylemat więźnia został wymyślony przez
dwóch pracowników RAND Corporation:
Melvin Dreshera i Merrill Flood w 1950 roku.
Albert W. Tucker sformalizował jego zasady
i jako pierwszy użył nazwy dylemat więźnia (Poundstone, 1992).
W klasycznej formie jest przedstawiany następująco:
dwóch pracowników RAND Corporation:
Melvin Dreshera i Merrill Flood w 1950 roku.
Albert W. Tucker sformalizował jego zasady
i jako pierwszy użył nazwy dylemat więźnia (Poundstone, 1992).
W klasycznej formie jest przedstawiany następująco:
Dwóch podejrzanych zostało zatrzymanych.
Policja nie ma wystarczających dowodów
na postawienie zarzutów.
Rozdziela więźniów i każdemu oddzielnie
przedstawia te sama ofertę:
-„Jeśli będziesz zeznawać przeciw niemu
A on będzie milczeć
to wyjdziesz na wolność,
a on dostanie dziesięć lat.”
-„Jeśli obaj będziecie milczeć
dostaniecie po 6 miesięcy
za inne przewinienia.”
-„ Jeśli obaj będziecie mówić (zeznawać)
dostaniecie po pięć lat.”
Umawiamy się z tobą i z nim
oddzielnie.
On nie będzie wiedział jak ty zeznajesz- Jeśli założymy,
że każdy z więźniów woli krótszy wyrok niż dłuższy
i że żadnemu nie zależy na niskim wyroku drugiego,
możemy opisać ten dylemat w terminach teorii gier.
Więźniowie grają wtedy w grę,
w której dopuszczalne strategie to:
współpracuj (milcz) i oszukuj (zeznawaj).
Celem każdego gracza jest maksymalizacja swoich zysków,
czyli uzyskanie jak najkrótszego wyroku.
i że żadnemu nie zależy na niskim wyroku drugiego,
możemy opisać ten dylemat w terminach teorii gier.
Więźniowie grają wtedy w grę,
w której dopuszczalne strategie to:
współpracuj (milcz) i oszukuj (zeznawaj).
Celem każdego gracza jest maksymalizacja swoich zysków,
czyli uzyskanie jak najkrótszego wyroku.
W tej grze oszukuj
jest strategią ściśle dominującą:
niezależnie od tego co robi przeciwnik,
zawsze bardziej opłaca się oszukiwać
niż współpracować.
Jeśli współwięzień milczy,
oszukiwanie skróci wyrok z sześciu miesięcy do zera.
Jeśli współwięzień zeznaje,
oszukiwanie skróci wyrok z dziesięciu lat do pięciu.
Każdy gracz racjonalny będzie zatem oszukiwał
i jedyną równowagą Nasha
jest sytuacja, gdy obaj gracze oszukują.
W efekcie obaj zyskają mniej,
niż gdyby obaj współpracowali.
jest strategią ściśle dominującą:
niezależnie od tego co robi przeciwnik,
zawsze bardziej opłaca się oszukiwać
niż współpracować.
Jeśli współwięzień milczy,
oszukiwanie skróci wyrok z sześciu miesięcy do zera.
Jeśli współwięzień zeznaje,
oszukiwanie skróci wyrok z dziesięciu lat do pięciu.
Każdy gracz racjonalny będzie zatem oszukiwał
i jedyną równowagą Nasha
jest sytuacja, gdy obaj gracze oszukują.
W efekcie obaj zyskają mniej,
niż gdyby obaj współpracowali.
Iterowany dylemat więźnia (patrz niżej)
polega na rozgrywaniu tej samej gry wielokrotnie.
Wtedy każdy gracz ma możliwośćukarania drugiego gracza
za oszukiwanie w poprzedniej rundzie.
W tej sytuacji, jeśli straty wynikające z ukarania
będą większe niż zyski z oszukiwania,
współpraca obu graczy może utworzyć stan równowagi.
Taka gra może mieć też wiele innych stanów równowagi.
Przy wielokrotnych rozgrywkach,
egoistyczne strategie dawały średnio bardzo małe wygrane
w porównaniu z bardziej altruistycznymi.
Axelrod pokazał w ten sposób możliwość ewolucyjnego wykształcenia się
zachowań altruistycznych
z nastawionych na własny zysk,
wyłącznie za pomocą selekcji naturalnej.
polega na rozgrywaniu tej samej gry wielokrotnie.
Wtedy każdy gracz ma możliwośćukarania drugiego gracza
za oszukiwanie w poprzedniej rundzie.
W tej sytuacji, jeśli straty wynikające z ukarania
będą większe niż zyski z oszukiwania,
współpraca obu graczy może utworzyć stan równowagi.
Taka gra może mieć też wiele innych stanów równowagi.
Przy wielokrotnych rozgrywkach,
egoistyczne strategie dawały średnio bardzo małe wygrane
w porównaniu z bardziej altruistycznymi.
Axelrod pokazał w ten sposób możliwość ewolucyjnego wykształcenia się
zachowań altruistycznych
z nastawionych na własny zysk,
wyłącznie za pomocą selekcji naturalnej.
Najlepszą deterministyczną strategią w tym turnieju okazała się
strategia wet za wet (strategia coś za coś),
którą zgłosił Anatol Rapoport.
Była ona jednocześnie najprostszą zgłoszoną
– jej cały program w języku BASIC zajmował cztery linie.
Strategia polegała na współpracy w pierwszej rundzie,
a w każdej kolejnej robieniu tego co przeciwnik robił w poprzedniej.
strategia wet za wet (strategia coś za coś),
którą zgłosił Anatol Rapoport.
Była ona jednocześnie najprostszą zgłoszoną
– jej cały program w języku BASIC zajmował cztery linie.
Strategia polegała na współpracy w pierwszej rundzie,
a w każdej kolejnej robieniu tego co przeciwnik robił w poprzedniej.
W niektórych sytuacjach lepsza była lekko zmodyfikowana
strategia wet za wet z wybaczaniem.
W strategii tej, jeśli przeciwnik oszukiwał,
z małym prawdopodobieństwem (1%-5%) gracz wybaczał
i w kolejnej rundzie dalej współpracował.
Pozwalało to na przerwanie ciągu wzajemnych zdrad,
w którym dwie strategie wet za wet mogły
ciągnąć się w nieskończoność.
strategia wet za wet z wybaczaniem.
W strategii tej, jeśli przeciwnik oszukiwał,
z małym prawdopodobieństwem (1%-5%) gracz wybaczał
i w kolejnej rundzie dalej współpracował.
Pozwalało to na przerwanie ciągu wzajemnych zdrad,
w którym dwie strategie wet za wet mogły
ciągnąć się w nieskończoność.
Analizując najlepsze strategie,
Axelrod przedstawił kilka cech którymi się one wyróżniały:
Axelrod przedstawił kilka cech którymi się one wyróżniały:
- Przyjazność
- nie oszukiwać
- dopóki przeciwnik tego nie zrobił
- Mściwość
- reagować na zdradę przeciwnika,
- bo przeciwnik bezlitośnie wykorzysta
- gdybyś pozostał przy strategii Zawsze Współpracuj.
- Wybaczyć
- po okresie zemsty za oszustwo. Daje to lepsze wyniki niż ciągłe wzajemne mszczenie się.
- Brak zazdrości
- nie starać się o lepszy wynik niż przeciwnik.
Axelrod wywnioskował,
na podstawie tego eksperymentu,
że dbanie wyłącznie o własne zyski
można często najlepiej realizować
będąc przyjaznym i wybaczającym.
na podstawie tego eksperymentu,
że dbanie wyłącznie o własne zyski
można często najlepiej realizować
będąc przyjaznym i wybaczającym.
W jednorazowym dylemacie więźnia,
oszukiwanie
jest zawsze najlepszym rozwiązaniem,
niezależnie od tego co robi przeciwnik.
W iterowanym,
optymalna strategia zależy od tego
jak grają przeciwnicy
i jak reagują na współpracę i zdradę.
oszukiwanie
jest zawsze najlepszym rozwiązaniem,
niezależnie od tego co robi przeciwnik.
W iterowanym,
optymalna strategia zależy od tego
jak grają przeciwnicy
i jak reagują na współpracę i zdradę.
Brak komentarzy:
Prześlij komentarz