Prírodou inšpirované algoritmyštudijné materiály pre projekt mobilnej triedy umelej inteligencie |
|||||||||||||||||||||||
StratégieAk sa väzenská dilema hrá iterovane znova a znova, hráč si môže vybrať z viac ako dvoch stratégií. Kým v klasickej jednoťahovej hre možnosť výberu obsahoval len stratégie spolupracuj a zraď, pri iterovanej hre je počet stratégií omnoho širší, lebo hráč si môže ľubovoľne kombinovať spoluprácu a zradu. a.) náhodná stratégia Hráč si môže jednoducho hodiť v každom kole mincu. Táto stratégia sa ľahko implementuje, ale veľký zisk neprinesie. Časté nevyprovokované zrady popletú a frustrujú protihráča a motivujú ho k zrade. b.) vždy spolupracuj Pri tejto stratégii hráč vždy spolupracuje, nezávisle od voľby protihráča. Táto stratégia sa nazýva aj stratégiou "ukáž druhé líce". Zástancovia tejto stratégie tvrdia, že tým, že hráč demonštruje, že nezradí protihráča, zníži alebo eliminuje jeho obavy z hlupákovej odmeny. Ak je protihráč presvedčený, že ho nezradia, bude viac ochotný spolupracovať. Kľúčovým nedostatkom tejto stratégie je, že ak protihráč naozaj verí tomu, že hráč bude vždy spolupracovať, môže maximalizovať svoj zisk tým, že zneužije hráčovu "láskavosť". V takejto situácii hráč získa hlupákovu odmenu v každom kroku, kým protihráč získa vždy maximálnu odmenu. c.) vždy podvádzaj
Pri tejto stratégii hráč vždy podvádza, nezávisle od správania sa protihráča. Má dvojaké
nevýhody. Po prvé, eliminuje možnosť získania vyššieho spolupracuj-spolupracuj Axelrodove súťaže
Rober Axelrod v roku 1979 zorganizoval súťaž, v rámci ktorej vyzval niekoľko významných
vedcov (viacerí už publikovali v oblasti väzenskej dilemy), aby mu poslali tú stratégiu,
ktorá podľa nich najlepšie obstojí v iterovnej hre. Stratégie mali vo forme programov odohrať
turnaj každý s každým. Víťazom turnaja sa mala stať stratégia, ktorá dosiahla najlepšie skóre.
Takýto turnaj simuluje tento applet. Na súťaži sa zúčastnilo 14 stratégií, medzi ktorými boli aj nesmierne zložité, ako aj veľmi
jednoduché programy. Ako 15-ta súťažila stratégia, ktorá náhodne vyberala medzi
Rapaport pomenoval túto stratégiu Titfor-Tat, čo približne znamená "Oko za oko". Čo je také geniálne v tejto stratégii, že zvíťazila nad všetkými ostatnými stratégiami, medzi ktorými sa objavili aj také skvosty umelej inteligencie, ktoré sa snažili spoznať svojho protihráča rafinovanými metódami?
Axelrod štúdiom súťažiacich programov skúmal ich vlastnosti z psychologického hľadiska. Program
pracuje deterministicky, takže izolovanie tendencií správať sa istým spôsobom bolo jednoduchšie
a jednoznačnejšie ako u ľudí. Cieľom bolo popísať vlastnosti, ktoré mali úspešné stratégie v
prístupných psychologických pojmoch. Identifikoval dve také vlastnosti, ktoré vykazoval každý pomerne úspešný program.
Úspešný program by mal byť milý, to znamená, že nemal by sám bezdôvodne zradiť. Táto vlastnosť
umožňuje nadviazanie vzájomnej spolupráce V roku 1982 Axelrod vypísal druhú súťaž. Súťažiaci už poznali výsledky prvej súťaže, aj Axelrodove analýzy. Chystal sa zaujímavý zápas, keďže každý vedel, že sa oplatí byť milým a odpúšťať, no práve toto je možné vo väzenskej dileme zneužiť. Ale to tiež všetci vedeli... Na druhú súťaž prišlo 62 programov zo šiestich krajín, od vedcov z najmenej ôsmich vedných disciplín. Anatol Rapaport znovu poslal svoj Tit-for-Tat a znovu zvíťazil ! Množstvo programov, ktoré mal Axelrod možnosť preskúmal sa rozrástol. Zase boli úspešné priateľské a odpúšťajúce programy. Z prvých 15 programov až 14 a pädesiat percent všetkých malo tieto vlastnosti. Axelrod našiel ešte tri také vlastnosti, ktoré prevládali medzi úspešnými programami:
Stratégia Tit-for-Tat má všetky tieto dôležité vlastnosti. Významnosť spomínaných vlastností však nedokazoval program Tit-for-Tat, ale veľké množstvo úspešných programov s týmito vlastnosťami. Rapaport však varuje, aby sa stratégia Tit-for-Tat príliš nepreceňovala. Podľa neho Tit-for-Tat napríklad príliš silno potrestá protihráča v prípade, že nespolupracoval. V živote je množstvo takých sociopsychologických situácií, keď sa táto vlastnosť prejaví negatívne. Napríklad po protihráčovej nespolupráci môže spustiť tzv. echo effect.
Tento efekt môže byť minimalizovaný napr. použitím zovšeobecnenej verzie stratégie Tit-for-Tat, tzv. 90% Tit-for-Tat. Táto stratégia sa líši od originálu tým, že nespoluprácu protihráča trestá nespoluprácou len s 90%-nou pravdepodobnosťou. Ďalšou nevýhodou tejto stratégie je, že aj veľmi malé množstvo neurčitosti môže zrútiť vzájomnú spoluprácu. Toto samozrejme platí skôr pre reálne podmienky, kde šum môže zahmliť pôvodný zámer hráča. V súťaži sa objavili aj také programy, ktoré hrali podľa Tit-for-Tat, priebežne však analyzovali správanie sa protihráča a v prípade, že protihráč nereagoval na jeho kroky (napríklad používal náhodnú stratégiu), tak prepli na stratégiu "vždy podvádzaj", lebo oproti nereagujúcemu protihráčovi je to najlepšia stratégia. Aj keď sa zdá, že sa jedná o vylepšenie stratégie Tit-for-Tat, tieto programy nedosiahli dobré výsledky, nie sú totiž ani milé ani vypočitatelné. Dnes už nie je prekvapujúce, že neboli úspešné, ale je čudné, že v hre väzenská dilema rafinovaná inteligencia tohto druhu nevedie k takým dobrým výsledkom, než tých päť vlastností, na ktoré poukázal Axelrod. |
|||||||||||||||||||||||
Kontakt: Marek Bundzel |