В книге "Эгоистичный ген" описан эксперимент Роберта Аксельрода, с которым парадокс можно сформулировать более чётко. Я накидаю цитат из книги, извиняюсь что многатекста, без этого суть не понять:
(Оффтоп)
Добрые парни финишируют последними. Это выражение, по-видимому, впервые родилось в мире бейсбола, хотя некоторые авторитеты настаивают, что противоположное утверждение появилось еще раньше. Американский биолог Гаррет Хардин (Garret Hardin) воспользовался этой фразой, чтобы кратко сформулировать идею о том, что можно было бы назвать «социобиологией» или «эгоистичным генным механизмом». Уместность такого использования очевидна. Если перевести общепринятый смысл слов «добрый парень» его дарвиновским эквивалентом, то «добрый парень» — это индивидуум, который помогает другим представителям своего вида, в ущерб самому себе, передавать их гены следующему поколению. Таким образом, число «добрых парней» неизбежно будет сокращаться: доброта гибнет дарвинистской смертью. Существует, однако, и другая, техническая, интерпретация слова «добрый». Если мы примем это определение, которое не слишком далеко отходит от разговорного смысла, то добрые парни могут кончать первыми . Именно этому более оптимистичному заключению и посвящена данная глава.
Вспомните Злопамятных из гл. 10. Это были птицы, которые помогали друг другу, очевидно из альтруистичных побуждений, но Злопамятные при этом отказывали в помощи индивидуумам, которые ранее отказывались помочь им самим. Злопамятные в конечном счете заняли доминирующее положение, потому что они передавали последующим поколениям больше генов, чем Простаки (помогавшие всем без разбора и сами подвергавшиеся эксплуатации) и Плуты (которые стремились безжалостно эксплуатировать всех и в конечном счете уничтожали друг друга). История Злопамятных иллюстрирует важный принцип, который Роберт Трайверс назвал «реципрокным альтруизмом». Как мы видели на примере рыб-чистильщиков, в реципрокном альтруизме могут участвовать и представители разных видов. Он присутствует во всех взаимоотношениях, называемых симбиотическими, как, например, взаимоотношения между муравьями и их «коровами» — тлями, которых они доят (с. 169). После того как гл. 10 была написана, американский политолог Роберт Аксельрод (Robert Axelrod) при участии У. Гамильтона, имя которого упоминается на столь многих страницах этой книги, использовал идею реципрокного альтруизма в новых очень интересных направлениях. Именно Аксельрод определил техническое значение слова «добрый», о чем я упоминал во вступительном абзаце этой главы.
Аксельрод, подобно многим политологам, экономистам и психологам, был восхищен простой азартной игрой, получившей название «Парадокс заключенных». Она так проста, что я знаю умных людей, которые, не допуская такой простоты, совершенно неправильно ее понимали и пытались искать в ней что-то еще. Но простота обманчива. Целые полки в библиотеках отведены вариантам этой увлекательной игры. Многие влиятельные люди полагают, что в ней содержится ключ к планированию стратегической обороны и что нам следует изучать ее, если мы хотим предотвратить третью мировую войну. Как биолог я согласен с Аксельродом и Гамильтоном, что многие дикие животные и растения заняты бесконечной игрой в Парадокс заключенных, происходящей в эволюционных масштабах времени.
В своем первоначальном, человеческом, варианте эта игра состоит в следующем. Имеется «банкомет», который судит игру и выплачивает выигрыши двум игрокам. Допустим, что я играю против вас (хотя, как мы увидим, «против» — это как раз то, чего нам не следует делать). На руках у каждого игрока только по две карты с надписями Кооперируюсь и Отказываюсь. Каждый из нас выбирает одну из двух своих карт и кладет ее на стол рубашкой вверх, с тем чтобы ни один из игроков не знал, как пошел другой; собственно говоря, оба они ходят одновременно. Далее игроки напряженно ожидают, пока банкомет перевернет карты. Напряженность связана с тем, что выигрыш зависит не только от собственного хода (каждый игрок знает, какую карту положил он сам), но и от хода противника (что остается неизвестным, пока банкомет не перевернет карты).
Поскольку в игре участвуют 2x2 карты, то имеется четыре возможных исхода (из уважения к северо-американскому происхождению игры выигрыши приводятся в долларах):
Исход I. Мы оба сыграли КООПЕРИРУЮСЬ. Банкомет выплачивает каждому из нас по 300 долларов. Эта почтенная сумма называется «Награда за взаимное кооперирование».
Исход II. Мы оба сыграли ОТКАЗЫВАЮСЬ. Банкомет штрафует каждого из нас на 10 долларов. Это называется «Наказание за взаимный отказ».
Исход III. Вы сыграли КООПЕРИРУЮСЬ, а я ОТКАЗЫВАЮСЬ. Банкомет выплачивает мне 500 долларов (Плата за риск) и штрафует вас (Простака) на 100 долларов.
Исход IV. Вы сыграли ОТКАЗЫВАЮСЬ, а я КООПЕРИРУЮСЬ. Банкомет выплачивает вам за риск 500 долларов и штрафует меня (Простака) на 100 долларов.
Совершенно очевидно, что исходы III и IV представляют собой зеркальные отражения один другого: один игрок выигрывает, а другой проигрывает. При исходах I и II оба оказываются в равном положении, но исход I обоим выгоднее, чем исход II. Точная сумма выигрыша не имеет значения. Не играет также роли и то, сколько исходов оказываются положительными (выплаты), а сколько — отрицательными (штрафы). Самое главное условие для того, чтобы игра стала настоящим Парадоксом заключенных, — это относительный ранг (цена) исходов. «Табель о рангах» должен быть следующим: Плата за риск, Награда за взаимное кооперирование. Наказание за взаимный отказ. Штраф Простаку. (Строго говоря, есть еще одно условие, соблюдение которого необходимо для признания игры настоящим Парадоксом заключенных: среднее между Платой за риск и Штрафом Простаку не должно превышать Награды. Основания для этого дополнительного условия станут понятны позднее.)
При чем же тут «Парадокс»? Чтобы понять это, посмотрите на платежную матрицу и попытайтесь представить себе мысли, проходящие через мою голову, когда я играю против вас. Я знаю, что имеются только две карты, с которых вы можете пойти: Кооперируюсь и Отказываюсь. Обсудим их по порядку. Если вы пошли Отказываюсь (это означает, что нам надо смотреть на правую сторону матрицы), то лучшее, что я могу сделать, это также сыграть Отказываюсь. Правда, мне при этом придется заплатить штраф за взаимный отказ, но если бы я пошел Кооперируюсь, то был бы оштрафован как Простак, что еще хуже. Обратимся теперь к левой половине матрицы, т. е. допустим, что вы пошли с карты Кооперируюсь. И снова мне лучше всего играть Отказываюсь. Если бы я сыграл Кооперируюсь, то мы оба получили бы довольно высокий куш — по 300 долларов. Если же я играю Отказываюсь, то получаю даже еще больше — 500 долларов. Отсюда следует вывод, что независимо от того, с какой карты вы пошли, моей лучшей тактикой будет Всегда отказываюсь .
Итак, я путем безупречных логических рассуждений установил, что независимо от ваших действий, я должен отказаться. С помощью столь же безупречной логики придете к точно такому же выводу и вы. Таким образом, когда встречаются два разумных игрока, они оба будут отказываться и оба в конечном счете либо заплатят штраф, либо получат небольшую выплату. При этом каждый из них прекрасно знает, что если бы только они оба играли Кооперируюсь, то каждый получил бы довольно высокую Награду за взаимное кооперирование (в нашем случае 300 долларов). Поэтому-то игра и называется Парадоксом, причем она так парадоксальна, что может довести до исступления, и поэтому раздавались голоса за то, чтобы издать закон о ее запрещении…
Число стратегий, возможных в итеративной игре, ограничено, очевидно, лишь нашей изобретательностью. Можно ли установить, какая из них лучше всех? Эту задачу поставил перед собой Аксельрод. У него возникла увлекательная идея провести конкурс и он пригласил специалистов по теории игр представить свои стратегии. В данном случае стратегии — это заранее составленные программы действия, и соответственно соперники представили свои заявки на языке программирования. Было предложено четырнадцать стратегий. Аксельрод добавил к ним пятнадцатую, назвав ее Случайной, которая просто без всякой системы играла то Кооперируюсь, то Отказываюсь и служила своего рода базовой «анти-стратегией»: стратегию, дававшую худшие результаты, чем Случайная, следовало признать очень плохой.
Аксельрод описал все 15 стратегий на одном общем языке программирования. Каждая стратегия сравнивалась по эффективности поочередно с каждой из остальных (в том числе и с собственной копией) в игре Итерированный Парадокс заключенных. Поскольку стратегий было 15, то компьютер сыграл 15 х 15, или 225, отдельных игр. После того, как каждая пара сделала по 200 ходов, все выигрыши были суммированы и был объявлен победитель.
Нас здесь не интересует, какая именно стратегия вышла победителем в игре против каждого отдельного противника. Нам важно установить, какая стратегия выиграла больше всего «денег» за все свои 15 вариантов. «Деньги» — это просто «очки», присуждаемые по следующей схеме: взаимное Кооперирование — 3 очка; Риск — 5 очков; Наказание за взаимный отказ — 1 очко (эквивалент небольшого штрафа в игре, описанной ранее); Штраф Простаку — 0 очков (эквивалент большого штрафа в игре, описанной ранее).
Максимально возможный выигрыш, который могла бы получить та или иная стратегия, составляет 15 000 очков (200 партий по 5 очков за партию с каждым из 15 противников). Минимальный результат составляет 0. Излишне говорить, что ни один из этих крайних результатов на самом деле не наблюдался. Наибольший выигрыш, на который может реально надеяться данная стратегия в среднем из своих 15 турниров, не может сколько-нибудь значительно превысить 600 очков. Это все, что мог бы получить каждый из двух игроков, если бы они оба все время играли Кооперируюсь, зарабатывая по 3 очка за каждую из 200 сыгранных партий. Если бы один из них поддался искушению отказаться, то число его очков, вероятно, оказалось бы меньше 600, так как другой игрок отплатил бы ему тем же (в большей части представленных стратегий было заложено в той или иной форме стремление к ответному удару). Мы можем использовать число 600 в качестве своего рода точки отсчета для данной игры и выражать результаты в процентах от этого числа. По такой шкале оценок теоретически можно довести выигрыш до 166% (1000 очков), но практически ни одна стратегия не заработала в среднем больше 600 очков.
Не забывайте, что «игроками» в турнире были не люди, а программы, точнее — запрограммированные стратегии. Их авторы, т. е. люди, выступали в той же роли, что и гены, программирующие тела (вспомните гл. 4 — компьютер, играющий в шахматы, и компьютер, созданный по инструкциям с Андромеды). Стратегии, о которых идет речь, можно рассматривать как доверенных лиц их авторов. На самом деле кто-то из авторов мог бы представить не одну, а несколько программ (хотя было бы жульничеством — которого Аксельрод, вероятно, не допустил бы, — если бы тот или другой автор «забил» весь турнир своими стратегиями, и одна из них воспользовалась бы плодами жертвенного кооперирования со стороны других).
Было предложено несколько очень хитроумных стратегий, хотя они были, конечно, далеко не столь хитроумными, как их авторы. Интересно, что победившая стратегия была проще всех других и на первый взгляд наименее хитроумной. Она называлась «Око за око» и была представлена проф. Анатолем Рапопортом (Anatol Rapoport), известным психологом и специалистом по теории игр из Торонто. По этой стратегии первым ходом должно быть Кооперируюсь, а в дальнейшем следует просто повторять предыдущий ход другого игрока.
Аксельрод объявил о втором турнире. Он получил 62 заявки на участие и снова добавил к ним Случайную стратегию, что в сумме составило 63 стратегии. На этот раз по причине, о которой я скажу позднее, точное число ходов за партию — 200 — не было оговорено заранее. Мы снова можем выражать в процентах оценки от точки отсчета или же от результатов, получаемых при условии «Всегда кооперируйся», несмотря на то, что определение этой точки отсчета требует более сложных вычислений и она уже не всегда равна 600 очкам.
Всем программистам, участвовавшим во втором турнире, были представлены результаты первого турнира, а также проведенный Аксельродом анализ того, почему Око за око и другие добропорядочные и способные к прощению стратегии получили такие хорошие результаты. Разумеется, участники турнира тем или иным образом должны были учесть эту информацию. На самом деле они разбились на две группы. Одни считали, что добропорядочность и способность к прощению, очевидно, давали шансы на выигрыш, и соответственно предложили добропорядочные способные к прощению стратегии. Джон Мэйнард Смит зашел так далеко, что представил всепрощающую стратегию Око за два ока. Другая группа исходила из того, что многие участники, прочитав анализ Аксельрода, предложат теперь добропорядочные способные к прощению стратегии. Они поэтому представили недобропорядочные стратегии, пытаясь использовать в своих интересах этих предполагаемых придурков!
Однако недобропорядочность опять оказалась невыгодной. Снова стратегия Око за око, представленная Анатолем Раппопортом, вышла победителем, и результат составил целых 96% от 600. И еще раз добропорядочные стратегии в общем оказались более эффективными, чем непорядочные. Все 15 более эффективных стратегий, за исключением одной, были добропорядочными, а из 15, набравших меньше очков, все, за исключением одной, были непорядочными. Но хотя праведная стратегия Око за два ока выиграла бы в первом турнире, если бы в нем участвовала, она не вышла победителем из второго. Это объясняется тем, что во втором турнире участвовали более коварные стратегии, способные безжалостно наброситься на столь откровенного придурка.
Однако все это реализуется лишь в случае итерированной игры . Игроки должны знать (или знать в кавычках), что происходящая между ними в данной момент игра — не последняя для них. «Тень будущего», о которой говорил Аксельрод, должна быть длинной. Но насколько длинной? Не может же она быть бесконечной. С теоретической точки зрения продолжительность игры не имеет значения; важно лишь, чтобы ни один из игроков не знал, когда она закончится. Допустим, что мы с вами играем друг против друга и нам обоим известно, что в этой игре должно быть сыграно 100 партий. Разумеется, мы оба понимаем, что 100-я партия, будучи последней, будет равносильна простой одноразовой игре Парадокс заключенного. Поэтому единственной разумной стратегией для любого из нас в 100-й партии должна быть Отказываюсь, и каждый из нас может допустить, что другой игрок вычислит это и твердо решит в последней партии тоже отказаться. Поэтому последнюю партию можно списать со счета как предсказуемую. Но теперь эквивалентом одноразовой игры становится 99-я партия и единственным разумным выбором для каждого игрока в этой предпоследней игре также будет Отказываюсь. К тому же решению им придется прибегнуть в 98-й партии и так далее в обратном направлении. Два совершенно рационально мыслящих игрока, каждый из которых предполагает, что другой строго рационален, могут лишь отказываться, если оба они знают, сколько партий им предстоит играть. Поэтому специалисты по теории игр, рассуждая об Итерированном или Повторяющемся Парадоксе заключенных, всегда исходят из допущения, что конец игры непредсказуем или известен только банкомету.
Кратко: игроки играют в повторяющуюся дилемму заключённого, и если они играют известное число партий, например 100, то каждый знает, что на сотой партии выгоднее принять эгоистичную стратегию. Но после того как это ясно, выходит что и на 99-й партии надо выбрать эгоистичную стратегию, и так далее. Здесь работает "самосбывающееся пророчество" - если мы знаем что все выбирают эгоистичную стратегию, то и нам надо тоже.