דילמת האסיר – Yotam's Blog

דמיינו את הסיטואציה הבאה:
אתם מוזמנים למשחק בו תתמודדו מול אדם זר. המטרה שלכם היא להרוויח כמה שיותר מטבעות.
אופי המשחק הוא כזה: בלי לדעת שום דבר על האדם השני (ובלי יכולת לתקשר איתו!) אתם נדרשים להחליט אם אתם משתפים פעולה או בוגדים.
האדם השני באותו האופן גם כן יחליט את אותה החלטה.

אם שניכם משתפים פעולה, שניכם מקבלים 3 מטבעות. אם שניכם בוגדים, שניכם מקבלים מטבע אחד. אבל אם אחד מיכם בוגד והשני משתף פעולה, הבוגד מקבל 5 מטבעות!
כלומר:

בגידה	שיתוף פעולה
5 לבוגד	3 לכל אחד	שיתוף פעולה
1 לכל אחד	5 לבוגד	בגידה

אז בהינתן המידע הזה, ובהנחה שאנחנו משחקים משחק אחד עם אותו אדם, מה הבחירה הכי טובה שאנחנו יכולים לעשות?
זה אולי לא הכי ברור בהתחלה, אבל בתנאים האלו לבגוד תמיד יהיה הכי טוב.
למה? בואו נשקול את שתי האופציות העיקריות:

אם היריב שלנו החליט לשתף פעולה – נרצה לבגוד כדי לקבל את הכמות המקסימלית של מטבעות (5).
אם היריב שלנו החליט לבגוד – נרצה לבגוד גם כן כדי שנוכל לקבל לפחות מטבע אחד.

בגלל שהיריב שלנו בהכרח יבחר אחת משתי האופציות הללו, תמיד יהיה עדיף לבגוד!

אבל בכנות, המסר פה קצת מדכא וכל הסימולציה הזאת דיי משעממת ולא עליה אני רוצה לדבר כאן. אני רוצה לדבר על ניסוי שבחור בשם רוברט אקסלרוד ביצע בשנות ה-80.

אקסלרוד הוא פרופסור למדעי המדינה, והוא רצה לבדוק את ההשלכות של ביצוע ניסוי דילמת האסיר בפורמט של כמה סיבובים.
כלומר הפעם, אתם עומדים לשחק מול הזר מספר פעמים. למה זה משנה משהו? כי עכשיו יש לכם את ההזדמנות ללמוד את דפוס ההתנהגות שלו. למשל אם תראו שהוא תמיד משתף פעולה, אולי שווה לכם תמיד לבגוד וככה לקבל את כל המטבעות.

אקסלרוד רצה לבדוק האם במצב כזה, האסטרטגיה הטובה ביותר תהיה לבגוד כל הזמן, כמו שקורה כשמבצעים את הניסוי עם סיבוב אחד.
בשביל לבדוק את זה, אקסלרוד פנה למספר מדענים העוסקים בתורת המשחקים, וביקש מהם לכתוב תוכנות מחשב (להם הוא קרא "אסטרטגיות"), שישחקו בסיבובים של הניסוי שלו.

האסטרטגיות בעצם יוכלו להחליט אם לבגוד או לשתף פעולה, והן יכולות לראות מה היריב שלהן מחליט בכל סיבוב. המטרה היחידה של האסטרטגיות היא לנסות להרוויח כמה שיותר מטבעות.

אקסלרוד יצר טורניר בו כל האסטרטגיות משחקות אחת נגד השנייה (כך שכל אסטרטגיה משחקת מול כל אסטרטגיה אחרת), ולאחר מיכן אסף את הנתונים לגבי האסטרטגיות המצליחות ביותר.
בואו נסתכל על כמה מהאסטרטגיות שהוגשו לטורניר של 100 סיבובים לכל משחק בידי כל מיני מדענים:

Tit For Tat – האסטרטגיה הזו מתחילה בשיתוף פעולה, ולאחר מיכן עושה מה שהיריב עושה. אם היא שיתפה פעולה והיריב בגד, בסיבוב הבא היא תבגוד. אם היריב שיתף פעולה, בסיבוב הבא גם היא תשתף פעולה, וכן הלאה.
Grudger – בהתחלה, פשוט משתף פעולה. אבל אם היריב בוגד בכל נקודה כלשהיא, Grudger ימשיך לבגוד עד סוף המשחק.
Grasskamp – אסטרטגיה זו מתחילה בכך שהיא משחקת כמו Tit For Tat בחמישים הסיבובים הראשונים, אבל בסיבוב ה-51 היא בוגדת. אחרי זה, היא מבצעת בדיקה סטטיסטית בשביל לנסות להבין אם היריב שלה משחק באופן רנדומלי לחלוטין. אם זה אכן המצב, היא בוגדת עד סוף הטורניר. אם לא, היא ממשיכה עם Tit For Tat.
Feld – מתחילה כמו Tit For Tat, אבל לאט לאט מורידה את הסיכויים לשיתוף פעולה בכל סיבוב (מתחילה לבגוד יותר ויותר ככל שהמשחק מתקדם).
Random – כשמה כן היא, משחקת מהלך רנדומלי בכל סיבוב.

בטורניר היו עוד כמה אסטרטגיות שלא ציינתי כאן, אבל הרעיון דיי דומה לאלו.

איזו אסטרטגיה אתם חושבים שלקחה מקום ראשון?
מרגיש באופן טבעי שהאסטרטגיה המנצחת תהיה אחת שמנסה להבין את היריב ולמקסם את המטבעות שהיא מקבלת, למשל כמו Grasskamp. אבל באופן מפתיע, זה לא המצב.

האסטרטגיה המנצחת כל פעם, הייתה Tit For Tat. בגלל התופעה הזו, ניסחו המדענים "תכונות" שמאפיינות את האסטרטגיות הטובות ביותר:

נחמדה – אסטרטגיה נחמדה היא אסטרטגיה שלא בוגדת ראשונה. היא אולי תבגוד אם היריב בגד, אבל לעולם לא תהיה הראשונה לעשות זאת.
סלחנית – אסטרטגיה סלחנית לא תזכור ליריב בגידה להמשך המשחק. היא אולי תגיב עליה, אבל לא "תנטור לו טינה".
מרדנית – אסטרטגיה מרדנית לא תיתן לאסטרטגיות אחרות לבגוד בה ללא תגובה. אם היריב בוגד, היא תבגוד באופן כזה או אחר בתגובה.
ברורה – אסטרטגיה ברורה היא לא מסובכת מידי. היא מאפשרת ליריב להבין את הכוונות שלה, ולא עוקבת אחרי דפוסי התנהגות לא ברורים.

ובאמת Tit For Tat מתאימה לכל ארבעת התכונות האלו!

השלכות לחיים האמיתיים

תורת המשחקים היא תחום מרתק שמנסה ליצור היגיון וחוקים בתופעות שהן לכאורה "כאתיות" בטבע. דילמת האסיר לדוגמה, יכולה לשמש כהדמיה למירוץ חימוש גרעיני.

במלחמה הקרה, ארצות הברית וברית המועצות השקיעו כמויות אסטרונומיות של משאבים בפיתוח פצצות גרעיניות. אבל מן הסתם ששימוש בפצצות כאלה לא היה מועיל לאף מדינה, כיוון שאם אחת מהן תשתמש בהן, שניהן יושמדו. אם זו המציאות, לא היה משתלם יותר לשתי המעצמות פשוט לא להשקיע בפיתוח של הפצצות הללו? להימנע מהפיתוח זה בעצם מה שאנחנו קראנו לו "שיתוף פעולה".

המסקנה הבאה שאולי ננסה להסיק, היא שאולי גם בחיים שווה להיות אסטרטגיה "נחמדה". לצערנו זה קצת יותר טריקי. אסטרטגיה נחמדה משגשגת רק אם יש בטורניר עוד אסטרטגיות נחמדות שמצליחות לבנות אחת על השנייה. בטורניר שבו רק האסטרטגיות הן לא נחמדות, אסטרטגיה נחמדה לא תצליח.

תודה שקראתם 🙂

המידע כאן מבוסס על סרטון דילמת האסיר של ערוץ היוטיוב Veritasium . ממליץ בחום למי שלא מכיר.

השלכות לחיים האמיתיים

כתיבת תגובה לבטל