Эмоции в повторяющейся дилемме заключенного

В.О. · 08.09.2011, 12:20

Дилемма заключенного описана в http://ru.wikipedia.org/wiki/%D0%94%D0% ... 0%B3%D0%BE Два заключенных А и В одновременно могут выбрать два способа поведения: «сотрудничество» $A = 1$ или «предательство» $A = -1$ Таблица выигрышей каждого в четырех возможных вариантах приведена по ссылке. Выигрыши $D > C > d > c$ подобраны так, что в одной игре всегда выгодно предать. (При таком подборе выигрышей дилемма заключенного не эквивалентна дилемме фермеров). Но если игра повторяется, то суммарный выигрыш $S_n = s_1 + s_2 +… +s_n$ (где выигрыш на каждом шаге $s_k = D , C , d , c.$ ,) может быть больше, чем при стратегии предательства на каждом шаге.
Некоторые стратегии можно назвать эмоциями. Я сейчас немного формализую и приведу в систему то, что написано по ссылке.
1.Если тебе сделали хорошо $A_k = 1$ , то и ты сделай хорошо в ответ $B_{k+1} = 1$ -благодарность (доброта).
2.Если тебе сделали хорошо $A_k = 1$ , то сделай в ответ плохо $B_{k+1} = -1$ - подлость.
3.Если тебе сделали плохо $A_k = -1$ , то сделай в ответ плохо $B_{k+1} = -1$ - месть.
4.Если тебе сделали плохо $A_k = -1$ , то сделай в ответ хорошо $B_{k+1} = 1$ - благородство (альтруизм, самопожертвование).
Эти четыре стратегии исчерпывают все одношаговые стратегии.
Упоминается еще эмоция прощения – если тебе сделали плохо, то отомсти, но если не последовало ответной мести, то сделай в ответ хорошо - $A_k = -1, B_{k+1} = -1, A_{k+2} = 1, B_{k+3} = 1$ . Ясно, что такая стратегия является последовательным проявлением мести и благодарности. Условно запишем
Прощение = месть + благодарность.

Зачем все это нужно?
1.Уже давно психологи пытаются разложить сложные эмоции в сумму более простых http://www.sai.vstu.edu.ru/wp-content/u ... %c9%ca.pdf. Но все эти попытки основаны только на интуитивных представлениях. Такой подход дает возможность формальных доказательств.
2. Какой алгоритм поведения является оптимальным?
Любой одношаговый алгоритм поведения описывается двумя эмоциями (их сейчас можно назвать чертами личности алгоритма). Одна указывает как реагировать на добро, другая – на зло. Итого возможны 4 одношаговых алгоритма:
Благодарность + месть
Благодарность + благородство
Подлость + месть
Подлость + благородство.
Если дополнительно варьировать первый шаг, то возможны 64 парных сочетания. Результат встречи двух алгоритмов легко вычисляется. Какой алгоритм выиграет в соревновании двух (трех, нескольких) заданных алгоритмов?
3. Как ведут себя люди?
Очень по-разному. Один может решить, что за добро будет благодарить, а за зло мстить. И будет придерживаться этого принципа несмотря ни на что. Это волевое решение об алгоритмическом поведении.
Кроме ситуационных эмоций могут возникать суммарные эмоции к противнику. Например, если противник выигрывает в сумме по очкам, то возникает зависть и все решения становятся отрицательными, независимо от предыдущего хода противника. Если же противник начнет проигрывать, то может возникнуть благодушие и все решения становятся положительными. Это более сложные алгоритмы, но тоже детерминированные и однозначно просчитываемые.
Поведение может быть и случайным. Сначала случайно выбрал одну стратегию. Потом в случайный момент выбрал другую стратегию и т.д. Случайное поведение тоже регулируется эмоциями и можно предложить некую модель случайного выбора алгоритма, зависящую от силы различных эмоций возникающих в ситуации. Все это можно сравнивать с реальным поведением.

В.О. · 11.09.2011, 20:33

В течение многих лет проводились чемпионаты алгоритмов по ДЗ http://www.prisoners-dilemma.com/ Алгоритмы представлялись в виде компьютерных программ. Каждый алгоритм встречался с каждым. Лидер определялся по суммарному количеству набранных очков. Матрица исходов $T=5, R = 3, P =1,S =0$ см. How to Enter
Рассмотрим все 4 возможных одношаговых алгоритма и аналитически подсчитаем результаты чемпионата между ними при произвольной матрице исходов $T > R > P >S$ .
1) Белый и пушистый.
$A_k = 1 \Rightarrow B_{k+1} = 1$ -благодарность, $A_k = -1 \Rightarrow B_{k+1} = 1$ - благородство.
2) Око за око.
$A_k = 1 \Rightarrow B_{k+1} = 1$ -благодарность, $A_k = -1 \Rightarrow B_{k+1} = -1$ -месть.
3) Благородный разбойник.
$A_k = 1 \Rightarrow B_{k+1} = -1$ -подлость, $A_k = -1 \Rightarrow B_{k+1} = 1$ - благородство.
4) Абсолютный злодей.
$A_k = 1 \Rightarrow B_{k+1} = -1$ -подлость, $A_k = -1 \Rightarrow B_{k+1} = -1$ - месть.
Результат зависит еще и от первого выбора. Но это влияние распространяется только на второй и третий ход. Дальше ходы не зависят от первого выбора. При большом числе ходов первый выбор роли не играет. Будем всегда выбирать $A_1 =B_1 = 1$
Число ходов будем считать бесконечным. Исходом матча будем считать предел среднего (по количеству ходов) количества очков. Т.е. если на $k$ -м ходу игрок А получил $s_k$ очков, то будем считать, что он в этом матче получил $S(A, AvsB) = \lim \frac 1 n (s_1 + s_2 + …+ s_n)$ очков.
1)vs2) :
1) 1 1 1…S(1, 1vs2) = R
2) 1 1 1…S(2, 1vs2) = R
Аналогично считаем
1)vs3) : S(1, 1vs3) = S, S(3, 1vs3) = T
1)vs4) : S(1, 1vs4) = S, S(4, 1vs4) = T
2)vs3) : S(2, 2vs3) = ¼(T +R + P +S), S(3, 2vs3) = ¼(T +R + P +S)
2)vs4) : S(2, 2vs4) = P, S(4, 2vs4) = P
3)vs4) : S(3, 3vs4) = S, S(4, 3vs4) = T
Суммарное количество очков:
S(1) = S(1, 1vs2) + S(1, 1vs3) + S(1, 1vs4) = R +2S
S(2) = R + ¼(T +R + P +S) + P
S(3) = T + ¼(T +R + P +S) + S
S(4) = 2T + P
Можно показать, что при выполнении неравенств $T > R > P >S$ первое место всегда будет занимать 4). Зло побеждает.
Непонятно, почему в аналитическом виде это не проделано раньше.

Если теперь рассматривать большие группы с разными долями разных стратегий, то лидером может стать кто-то другой. Это задачи т.н. эволюционной динамики. Вот ее типичная задача «Ястребы и голуби» http://ru.wikipedia.org/wiki/%D0%98%D0% ... 0%B8%C2%BB

Научный форум dxdy

Эмоции в повторяющейся дилемме заключенного