Дилемма заключенного

Матрица выплат дилеммы заключенного
B А	B молчит	B предает
Остается молчать	-1 -1	0 -3
А предает	-3 0	-2 -2

В Дилемма заключенного стандартный пример игры анализировались в теории игр , которая показывает , почему два совершенно рациональные люди не могли бы сотрудничать, даже если кажется , что это в их интересах , чтобы сделать это. Первоначально она была создана Мерриллом Флудом и Мелвином Дрешером во время работы в RAND в 1950 году. Альберт У. Такер формализовал игру с помощью награды за тюремное заключение и назвал ее «дилеммой заключенного» ^[1], представив ее следующим образом:

Два члена преступной группировки арестованы и заключены в тюрьму. Каждый заключенный находится в одиночном заключении, не имея возможности общаться друг с другом. У прокуратуры нет достаточных доказательств, чтобы осудить эту пару по основному обвинению, но у них есть достаточно, чтобы осудить обоих по менее серьезному обвинению. Одновременно прокуратура предлагает каждому заключенному выгодную сделку. Каждому заключенному предоставляется возможность либо предать другого, дав показания о том, что другой совершил преступление, либо сотрудничать с другим, сохраняя молчание. Возможные результаты:
Если A и B предают друг друга, каждый из них отбывает по два года тюрьмы.
Если A предаст B, но B будет хранить молчание, A будет освобожден, а B отсидит три года в тюрьме.
Если A будет молчать, но B предаст A, A будет отсидеть три года в тюрьме, а B будет освобожден
Если A и B оба будут молчать, они оба отсидят только один год тюрьмы (по меньшему обвинению).

Подразумевается, что у заключенных не будет возможности вознаградить или наказать своего партнера, кроме приговоров к тюремному заключению, которые они получат, и что их решение не повлияет на их репутацию в будущем. Поскольку предательство партнера предлагает большую награду, чем сотрудничество с ним, все чисто рациональные эгоистичные заключенные предают друг друга, а это означает, что единственный возможный исход для двух чисто рациональных заключенных - это предать друг друга. ^[2] На самом деле люди демонстрируют системную предвзятость в отношении кооперативного поведения в этой и подобных играх, несмотря на то, что предсказывают простые модели «рациональных» эгоистических действий. ^[3]^[4]^[5]^[6] Эта склонность к сотрудничеству была известна с тех пор, как испытание было впервые проведено в RAND; секретари доверяли друг другу и работали вместе для достижения наилучшего общего результата. ^[7] Дилемма заключенного стала предметом обширных экспериментальных исследований. ^[8]^[9]

Также существует расширенная «повторная» версия игры. В этой версии классическая игра многократно разыгрывается между одними и теми же заключенными, у которых постоянно есть возможность наказать другого за предыдущие решения. Если игрокам известно, сколько раз будет сыграна игра, то (путем обратной индукции ) два классически рациональных игрока будут многократно предавать друг друга по тем же причинам, что и вариант с одиночным выстрелом. В игре с бесконечной или неизвестной продолжительностью не существует фиксированной оптимальной стратегии, и были проведены турниры по дилемме заключенного, чтобы соревноваться и проверять алгоритмы для таких случаев. ^[10]

Игра «Дилемма заключенного» может использоваться в качестве модели для многих ситуаций реального мира, связанных с совместным поведением. При случайном использовании ярлык «дилемма заключенного» может применяться к ситуациям, не строго соответствующим формальным критериям классических или итеративных игр: например, те, в которых два объекта могут получить важные выгоды от сотрудничества или пострадать от его отказа. , но им сложно или дорого - не обязательно невозможно - координировать свою деятельность.

Стратегия дилеммы заключенного

Двое заключенных разделены по отдельным комнатам и не могут общаться друг с другом. Обычная игра показана ниже:

Заключенный B Заключенный А	Заключенный B молчит ( сотрудничает )	Заключенный B предает ( дефекты )
Заключенный А молчит ( сотрудничает )	Каждый обслуживает 1 год	Заключенный A: 3 года Заключенный B: выходит на свободу
Узник А предает ( пороки )	Заключенный A: выходит на свободу Заключенный B: 3 года	Каждый служит 2 года

Предполагается, что оба заключенных понимают природу игры, не лояльны друг к другу и не будут иметь возможности для возмездия или вознаграждения вне игры. Независимо от того, что решит другой, каждый заключенный получает более высокую награду, предав другого («дезертирство»). Рассуждение включает аргумент дилеммой : B будет либо сотрудничать, либо отступать. Если B сотрудничает, A должен уйти, потому что переходить бесплатно лучше, чем служить 1 год. Если дефект B, то A также должен дефект, потому что служить 2 года лучше, чем служить 3. Так что в любом случае A должен дефектить. Параллельное рассуждение покажет, что B должен уйти.

Поскольку отступничество всегда приносит больше выгоды, чем сотрудничество, независимо от выбора другого игрока, это доминирующая стратегия . Взаимное отступление - единственное сильное равновесие по Нэшу в игре (то есть единственный результат, из-за которого каждый игрок может сделать только хуже, изменив стратегию в одностороннем порядке). Таким образом, дилемма состоит в том, что взаимное сотрудничество дает лучший результат, чем взаимное отступничество, но не является рациональным результатом, потому что выбор сотрудничества с эгоистической точки зрения иррационален.

Обобщенная форма

Структуру традиционной дилеммы заключенного можно обобщить, исходя из исходной ситуации с заключенным. Предположим, что два игрока представлены красным и синим цветами, и что каждый игрок выбирает либо «сотрудничать» (молчать), либо «отступить» (предать).

Если оба игрока сотрудничают, они оба получают вознаграждение R за сотрудничество. Если оба игрока дефект, они оба получают наказание выигрыша P . Если Синие дефекты в то время как Red сотрудничает, то синий получают соблазн выигрыша Т , в то время как Red получает «неудачник» выигрыш, S . Аналогичным образом , если в то время как синие взаимодействует красные дефекты, а затем Синий получает неудачник выигрыша S , в то время как красный получает соблазн выигрыша Т .

Это можно выразить в нормальной форме :

Каноническая матрица выигрыша PD
красный Синий	Сотрудничать	Дефект
Сотрудничать	р р	Т S
Дефект	S Т	п п

и чтобы быть игрой-дилеммой заключенного в строгом смысле слова, для выплат должно выполняться следующее условие:

{\ displaystyle T> R> P> S}

Отношения вознаграждения ${\ displaystyle R> P}$ подразумевает, что взаимное сотрудничество превосходит взаимное отступничество, в то время как отношения компенсации ${\ displaystyle T> R}$ а также ${\ displaystyle P> S}$ подразумевают, что дезертирство является доминирующей стратегией для обоих агентов.

Особый случай: игра с пожертвованиями

«Игра в пожертвования» ^[11] представляет собой форму дилеммы заключенного, в которой сотрудничество соответствует предложению другому игроку выгоды b за личную цену c при b > c . Отклонение означает ничего не предлагать. Таким образом, матрица выплат имеет вид

красный Синий	Сотрудничать	Дефект
Сотрудничать	б - в б - в	б - с
Дефект	- с б	0 0

Обратите внимание, что ${\ displaystyle 2R> T + S}$ (т.е. ${\ displaystyle 2 (bc)> bc}$ ), который квалифицирует игру с пожертвованиями как повторяющуюся игру (см. следующий раздел).

Игра в пожертвования может применяться к рынкам. Предположим, X выращивает апельсины, Y выращивает яблоки. Предельная полезность яблока к оранжево-ростовому X является Ь , что выше предельной полезности ( гр ) апельсина, так как Х имеет избыток апельсинов и без каких - либо яблок. Точно так же для производителя яблок Y предельная полезность апельсина равна b, а предельная полезность яблока - c . Если X и Y заключают договор об обмене яблоком и апельсином, и каждый выполняет свою часть сделки, то каждый получает выплату b - c . Если один «дефект» и не доставит, как обещал, перебежчик получит выплату b , а кооператор проиграет c . Если оба ошибаются, то ни один из них ничего не приобретает и не теряет.

Повторяющаяся дилемма заключенного

Если два игрока играют в дилемму заключенного более одного раза подряд и помнят предыдущие действия своего противника и соответственно меняют свою стратегию, игра называется повторной дилеммой заключенного.

В дополнение к общей форме, приведенной выше, итеративная версия также требует, чтобы ${\ displaystyle 2R> T + S}$ , чтобы предотвратить чередование сотрудничества и отступничества, дающее большую награду, чем взаимное сотрудничество.

Повторяющаяся игра «дилемма заключенного» является фундаментальной для некоторых теорий человеческого сотрудничества и доверия. Исходя из предположения, что игра может моделировать транзакции между двумя людьми, требующими доверия, совместное поведение популяций может быть смоделировано многопользовательской повторяющейся версией игры. Следовательно, на протяжении многих лет он очаровывал многих ученых. В 1975 году Грофман и Пул подсчитали, что количество научных статей, посвященных этой теме, превысило 2000. Повторяющаяся дилемма заключенного также упоминается как « игра мир-война ». ^[12]

Если игра проводится ровно N раз, и оба игрока знают об этом, то оптимальным вариантом будет отказать во всех раундах. Единственное возможное равновесие по Нэшу - всегда отклоняться. Доказательство носит индуктивный характер : с таким же успехом можно отступить на последнем ходу, так как у оппонента не будет шанса нанести ответный удар. Следовательно, оба дезертируют в последний ход. Таким образом, игрок может также дезертировать на предпоследнем ходу, так как противник отступит на последнем, что бы ни было сделано, и так далее. То же самое применимо, если продолжительность игры неизвестна, но имеет известный верхний предел.

В отличие от стандартной дилеммы заключенного, в повторной дилемме заключенного стратегия отступничества противоречит интуиции и плохо предсказывает поведение игроков-людей. Однако в рамках стандартной экономической теории это единственно правильный ответ. Сверхрациональный стратегия в дилемме Итерированного заключенной с фиксированным N является сотрудничество против сверхрационального противника, и в пределе больших N , экспериментальные результаты по стратегии согласуются с сверхрациональными версиями, а не теоретико-игровой рациональным.

Чтобы возникло сотрудничество между теоретически рациональными игроками, игрокам должно быть неизвестно общее количество раундов N. В этом случае «всегда дефект» может больше не быть строго доминирующей стратегией, а только равновесием по Нэшу. Среди результатов, показанных Робертом Ауманом в статье 1959 года, рациональные игроки, неоднократно взаимодействующие в течение бесконечно длинных игр, могут поддерживать совместный исход.

По данным 2019 экспериментального исследования в American Economic Review , который испытанные какие стратегии реальных предметов , используемых в дилемме ситуациях Итерированных заключенных с совершенным мониторингом, большинство выбранных стратегий всегда было дефект, око за око , и мрачного триггер . Выбор стратегии зависел от параметров игры. ^[13]

Стратегия решения повторяющейся дилеммы заключенного

Интерес к повторной дилемме заключенного (IPD) пробудил Роберт Аксельрод в его книге «Эволюция сотрудничества» (1984). В нем он сообщает о организованном им турнире по дилемме заключенного N-го шага (с фиксированным N ), в котором участники должны снова и снова выбирать свою общую стратегию и помнить о своих предыдущих встречах. Аксельрод пригласил академических коллег со всего мира разработать компьютерные стратегии для участия в турнирах IPD. Программы, которые были введены, сильно различались по алгоритмической сложности, начальной враждебности, способности прощать и так далее.

Аксельрод обнаружил, что, когда эти встречи повторялись в течение длительного периода времени со многими игроками, каждый из которых имел свою стратегию, жадные стратегии, как правило, очень плохо работали в долгосрочной перспективе, в то время как более альтруистические стратегии работали лучше, если судить по чисто личным интересам. Он использовал это, чтобы показать возможный механизм эволюции альтруистического поведения из механизмов, которые изначально были чисто эгоистичными, путем естественного отбора .

Выигрышная детерминированная стратегия была «око за око», которую Анатолий Рапопорт разработал и принял участие в турнире. Это была самая простая программа, содержащая всего четыре строки BASIC , и она выиграла конкурс. Стратегия состоит в том, чтобы просто сотрудничать на первой итерации игры; после этого игрок делает то же, что и его противник на предыдущем ходу. В зависимости от ситуации немного лучшей стратегией может быть «око за око с прощением». Когда противник отступает, на следующем ходу игрок иногда все равно сотрудничает с небольшой вероятностью (около 1–5%). Это позволяет время от времени выздоравливать, чтобы не попасть в цикл дезертирства. Точная вероятность зависит от состава противников.

Анализируя стратегии, набравшие наибольшее количество очков, Аксельрод сформулировал несколько условий, необходимых для успеха стратегии.

Хороший: Самым важным условием является то, что стратегия должна быть «хорошей», то есть не допускать ошибок раньше, чем это сделает оппонент (это иногда называют «оптимистическим» алгоритмом). Практически все стратегии, получившие наибольшее количество очков, были хороши; следовательно, чисто эгоистичная стратегия не будет «обманывать» своего оппонента, прежде всего из чисто корыстных соображений.
Мстительный: Однако, утверждал Аксельрод, успешная стратегия не должна быть слепым оптимистом. Иногда ему приходится принимать ответные меры. Пример стратегии невозмездия - «Всегда сотрудничать». Это очень плохой выбор, так как «противные» стратегии будут безжалостно эксплуатировать таких игроков.
Прощение: Успешные стратегии также должны прощать. Хотя игроки будут принимать ответные меры, они снова вернутся к сотрудничеству, если противник не будет продолжать отступать. Это останавливает длительные периоды мести и контр-мести, увеличивая количество очков.
Не завистливый: Последнее качество - отсутствие зависти, то есть не стремление набрать больше очков, чем соперник.

Оптимальная стратегия (максимизация очков) для одноразовой игры PD - это просто отступничество; как объяснялось выше, это верно независимо от состава оппонентов. Однако в игре с итеративным PD оптимальная стратегия зависит от стратегий вероятных противников и от того, как они будут реагировать на отступничество и сотрудничество. Например, представьте себе популяцию, в которой каждый раз сбегает, за исключением одного человека, который следует стратегии «око за око». Этот человек находится в небольшом невыгодном положении из-за проигрыша на первом ходу. В такой популяции оптимальная стратегия для этого человека - каждый раз дезертировать. В популяции с определенным процентом постоянных перебежчиков и остальными игроками за око оптимальная стратегия для отдельного человека зависит от процента и продолжительности игры.

В стратегии под названием «Павлов» « выиграть - остаться, проиграть - переключиться» , столкнувшись с отказом от сотрудничества, игрок меняет стратегию на следующем ходу. ^[14] В определенных обстоятельствах ^{[ указать ]} Павлов превосходит все другие стратегии, отдавая предпочтение товарищам по игре, использующим аналогичную стратегию.

Получение оптимальной стратегии обычно осуществляется двумя способами:

Байесовское равновесие по Нэшу : если можно определить статистическое распределение противостоящих стратегий (например, 50% противников, 50% всегда взаимодействуют), оптимальная контрстратегия может быть получена аналитически. ^[а]
Было выполнено моделирование популяций методом Монте-Карло , при котором особи с низкими показателями умирают, а особи с высокими показателями воспроизводятся ( генетический алгоритм для поиска оптимальной стратегии). Сочетание алгоритмов в конечной популяции обычно зависит от состава исходной популяции. Введение мутации (случайное изменение во время размножения) снижает зависимость от исходной популяции; эмпирические эксперименты с такими системами имеют тенденцию давать «око за око» (см., например, Chess 1988) ^{[ требуется пояснение ],} но не существует аналитических доказательств того, что это всегда будет происходить. ^[16]

Хотя «око за око» считается самой надежной базовой стратегией, команда из Саутгемптонского университета в Англии представила новую стратегию на повторном соревновании «дилемма заключенного», посвященном 20-летию, которое оказалось более успешным, чем «око за око». Эта стратегия основывалась на сговоре между программами для достижения максимального количества баллов за одну программу. Университет представил на конкурс 60 программ, которые были разработаны так, чтобы узнавать друг друга через серию из пяти-десяти ходов на старте. ^[17] После того, как это признание было сделано, одна программа всегда будет сотрудничать, а другая всегда будет давать сбой, обеспечивая максимальное количество баллов для перебежчика. Если бы программа понимала, что играет игрок, не являющийся игроком Саутгемптона, она бы постоянно нарушала правила, пытаясь минимизировать счет конкурирующей программы. В результате результаты турнира 2004 года «Дилемма заключенных» показывают, что стратегии Саутгемптонского университета занимают первые три места, несмотря на меньшее количество побед и намного больше поражений, чем стратегия GRIM. (В турнире PD цель игры не в том, чтобы «выиграть» матчи - этого легко добиться частым дезертирством). Кроме того, даже без неявного сговора между стратегиями программного обеспечения (используемого командой Саутгемптона) «око за око» не всегда является абсолютным победителем любого данного турнира; точнее было бы сказать, что его долгосрочные результаты по серии турниров превосходят его соперников. (В любом случае данная стратегия может быть немного лучше приспособлена к соревнованиям, чем «око за око», но «око за око» более надежна). То же самое относится к варианту «око за око» с вариантом прощения и другим оптимальным стратегиям: в любой конкретный день они могут не «выиграть» против определенного набора контр-стратегий. Альтернативный способ выразить это - использовать симуляцию Дарвина ESS . В такой симуляции принцип «око за око» почти всегда будет преобладать, хотя неприятные стратегии будут приходить и уходить из популяции, потому что популяция «око за око» проницаема для хороших стратегий без ответных действий, которые, в свою очередь, становятся легкой добычей для противных. стратегии. Ричард Докинз показал, что здесь никакое статическое сочетание стратегий не формирует устойчивого равновесия, и система всегда будет колебаться между границами. В итоге эта стратегия заняла три верхних позиции в конкурсе, а также несколько позиций в нижней части.

Стратегия Саутгемптона использует тот факт, что в этом конкретном соревновании было разрешено несколько участников и что производительность команды измерялась показателем игрока, набравшего наибольшее количество очков (это означает, что использование самоотверженных игроков было формой минимизации ) . В соревновании, где есть контроль только над одним игроком, «око за око», безусловно, лучшая стратегия. Из-за этого нового правила это соревнование также имеет небольшое теоретическое значение при анализе стратегий одного агента по сравнению с основополагающим турниром Аксельрода. Тем не менее, это послужило основой для анализа того, как достичь кооперативных стратегий в многоагентных средах, особенно в присутствии шума. Фактически, задолго до того, как был проведен этот турнир по новым правилам, Докинз в своей книге «Эгоистичный ген» указал на возможность выигрыша таких стратегий, если бы было разрешено несколько входов, но он заметил, что, скорее всего, Аксельрод не позволил бы их, если бы они был отправлен. Он также основан на обходе правил в отношении дилеммы заключенного в том смысле, что между двумя игроками не разрешается общаться, что, возможно, сделали программы Саутгемптона с их открывающим «танцем из десяти движений», чтобы узнавать друг друга; это только подтверждает, насколько ценным может быть общение для изменения баланса в игре.

Стохастическая повторная дилемма заключенного

В стохастической повторяющейся игре «дилемма заключенного» стратегии задаются в терминах «вероятностей сотрудничества». ^[18] В столкновении между игроком в X и игрока Y , X Стратегия «ы определяется набором вероятностей P взаимодействующих с Y . P является функцией результатов их предыдущих встреч или некоторого их подмножества. Если P является функцией только их последних n встреч, это называется стратегией «памяти n». Тогда стратегия памяти-1 определяется четырьмя вероятностями сотрудничества: ${\ Displaystyle P = \ {P_ {cc}, P_ {cd}, P_ {dc}, P_ {dd} \}}$ , где ${\ displaystyle P_ {ab}}$ это вероятность того, что X будет сотрудничать в данной встрече, учитывая, что предыдущая встреча характеризовалась (ab). Например, если в предыдущем столкновении X сотрудничал, а Y дезертировал, то ${\ displaystyle P_ {cd}}$ вероятность того, что X будет сотрудничать в данной встрече. Если каждая из вероятностей равна 1 или 0, стратегия называется детерминированной. Примером детерминированной стратегии является стратегия «око за око», записанная как P = {1,0,1,0}, в которой X отвечает так же, как Y в предыдущем столкновении. Другой вариант - это стратегия « выиграть - остаться, проиграть - переключиться» , записанная как P = {1,0,0,1}, в которой X отвечает, как и в предыдущем столкновении, если это была «победа» (т.е. cc или dc), но изменения стратегия, если это была потеря (например, cd или dd). Было показано, что для любой стратегии памяти-n существует соответствующая стратегия памяти-1, которая дает те же статистические результаты, поэтому необходимо рассматривать только стратегии памяти-1. ^[18]

Если мы определим P как приведенный выше 4-элементный вектор стратегии X и ${\ Displaystyle Q = \ {Q_ {cc}, Q_ {cd}, Q_ {dc}, Q_ {dd} \}}$ как 4-элементный вектор стратегии Y , матрица перехода M может быть определена для X , ij- я запись которого представляет собой вероятность того, что результатом конкретной встречи между X и Y будет j, учитывая, что предыдущая встреча была i , где i и j - один из четырех индексов результата: cc , cd , dc или dd . Например, с точки зрения X , вероятность того, что исход данной встречи будет cd, при условии, что предыдущая встреча была cd , равна ${\ Displaystyle M_ {cd, cd} = P_ {cd} (1-Q_ {dc})}$ . (Индексы для Q взяты с точки зрения Y : результат cd для X является результатом dc для Y. ) В соответствии с этими определениями повторяющаяся дилемма заключенного квалифицируется как стохастический процесс, а M - это стохастическая матрица , допускающая все теория случайных процессов. ^[18]

Одним из результатов стохастической теории является то, что существует стационарный вектор v для матрицы M такой, что ${\ Displaystyle v \ cdot M = v}$ . Без ограничения общности можно указать, что v нормализована так, что сумма его четырех компонентов равна единице. IJ й записи в ${\ displaystyle M ^ {n}}$ даст вероятность того, что исход столкновения между X и Y будет j, учитывая, что предыдущее столкновение на n шагов равно i . В пределе, когда n приближается к бесконечности, M будет сходиться к матрице с фиксированными значениями, давая долгосрочные вероятности встречи, производящей j, которая не будет зависеть от i . Другими словами, ряды ${\ Displaystyle M ^ {\ infty}}$ будут идентичны, давая долгосрочные равновесные вероятности результата повторяющейся дилеммы заключенных без необходимости явно оценивать большое количество взаимодействий. Видно, что v - стационарный вектор для ${\ displaystyle M ^ {n}}$ и особенно ${\ Displaystyle M ^ {\ infty}}$ , так что каждая строка ${\ Displaystyle M ^ {\ infty}}$ будет равно v . Таким образом, стационарный вектор определяет равновесный исход вероятность для X . Определение ${\ Displaystyle S_ {x} = \ {R, S, T, P \}}$ а также ${\ Displaystyle S_ {y} = \ {R, T, S, P \}}$ в качестве векторов краткосрочных выплат для результатов {cc, cd, dc, dd} ( с точки зрения X ), равновесные выплаты для X и Y теперь могут быть определены как ${\ displaystyle s_ {x} = v \ cdot S_ {x}}$ а также ${\ Displaystyle s_ {y} = v \ cdot S_ {y}}$ , позволяя сравнить две стратегии P и Q на предмет их долгосрочной отдачи.

Нулевые детерминантные стратегии

Взаимосвязь между стратегиями нулевого детерминанта (ZD), сотрудничества и отказа в повторяющейся дилемме заключенного (IPD), проиллюстрированная на диаграмме Венна . Стратегии сотрудничества всегда взаимодействуют с другими стратегиями сотрудничества, а стратегии отклонения всегда противоречат другим стратегиям отклонения. Оба содержат подмножества стратегий, которые устойчивы при строгом отборе, что означает, что никакая другая стратегия памяти-1 не выбрана для вторжения в такие стратегии, когда они являются резидентными в популяции. Только взаимодействующие стратегии содержат подмножество, которое всегда является устойчивым, что означает, что никакая другая стратегия памяти-1 не выбрана для вторжения и замены таких стратегий как при сильном, так и при слабом отборе . Пересечение между ZD и хорошими стратегиями сотрудничества - это набор щедрых ZD-стратегий. Стратегии вымогательства - это пересечение ZD и ненадежных дефектных стратегий. «Око за око» лежит на пересечении стратегий сотрудничества, отказа и ZD.

В 2012 году Уильям Х. Пресс и Фримен Дайсон опубликовали новый класс стратегий для решения стохастической повторяющейся дилеммы заключенного, названный стратегиями «нулевого детерминанта» (ZD). ^[18] Долгосрочные выигрыши от встреч между X и Y могут быть выражены как определитель матрицы, которая является функцией двух стратегий и векторов краткосрочных выигрышей: ${\ displaystyle s_ {x} = D (P, Q, S_ {x})}$ а также ${\ displaystyle s_ {y} = D (P, Q, S_ {y})}$ , в которых не участвует стационарный вектор v . Поскольку детерминантная функция ${\ displaystyle s_ {y} = D (P, Q, f)}$ линейна по f , отсюда следует, что ${\ displaystyle \ alpha s_ {x} + \ beta s_ {y} + \ gamma = D (P, Q, \ alpha S_ {x} + \ beta S_ {y} + \ gamma U)}$ (где U = {1,1,1,1}). Любые стратегии, для которых ${\ Displaystyle D (P, Q, \ альфа S_ {x} + \ бета S_ {y} + \ gamma U) = 0}$ по определению является стратегией ZD, и долгосрочные выплаты подчиняются соотношению ${\ displaystyle \ alpha s_ {x} + \ beta s_ {y} + \ gamma = 0}$ .

Око за око - это стратегия ZD, которая «справедлива» в том смысле, что не получает преимущества над другим игроком. Тем не менее, пространство ZD также содержит стратегии, которые в случае двух игроков могут позволить одному игроку в одностороннем порядке установить счет другого игрока или, в качестве альтернативы, заставить эволюционирующего игрока достичь выигрыша на несколько процентов ниже, чем его собственный. Вымогаемый игрок может дезертировать, но тем самым причинит себе вред, получив меньший выигрыш. Таким образом, решения о вымогательстве превращают повторяющуюся дилемму заключенного в своего рода игру в ультиматум . В частности, X может выбрать стратегию, для которой ${\ Displaystyle D (P, Q, \ бета S_ {y} + \ gamma U) = 0}$ , в одностороннем порядке устанавливающий ${\ displaystyle s_ {y}}$ к определенному значению в определенном диапазоне значений, независимо от стратегии Y , предлагая X возможность «вымогать» игрока Y (и наоборот). (Оказывается, что если X пытается установить ${\ displaystyle s_ {x}}$ Для конкретной ценности диапазон возможностей намного меньше, они состоят только из полного сотрудничества или полного отступничества. ^[18] )

Расширением IPD является эволюционный стохастический IPD, в котором относительное количество конкретных стратегий может изменяться, при этом более успешные стратегии относительно увеличиваются. Этот процесс может быть осуществлен за счет того, что менее успешные игроки имитируют более успешные стратегии, или путем исключения менее успешных игроков из игры при умножении более успешных. Было показано, что несправедливые стратегии ZD не являются эволюционно устойчивыми . Ключевая интуиция состоит в том, что эволюционно стабильная стратегия должна не только иметь возможность вторгаться в другую популяцию (что могут делать стратегии вымогательства ZD), но также должна хорошо работать против других игроков того же типа (которые игроки-вымогатели ZD делают плохо, потому что они уменьшают каждый чужой излишек). ^[19]

Теория и моделирование подтверждают, что за пределами критического размера популяции вымогательство ZD проигрывает в эволюционной конкуренции против более совместных стратегий, и в результате средний выигрыш в популяции увеличивается, когда популяция становится больше. Кроме того, в некоторых случаях вымогатели могут даже стимулировать сотрудничество, помогая вырваться из противостояния между единообразными перебежчиками и агентами, которые побеждают, а потом проигрывают . ^[11]

В то время как стратегии вымогательства ZD нестабильны в больших популяциях, другой класс ZD, называемый «щедрыми» стратегиями, является одновременно стабильным и надежным. Фактически, когда популяция не слишком мала, эти стратегии могут вытеснить любую другую стратегию ZD и даже хорошо работать с широким набором общих стратегий для повторяющейся дилеммы заключенного, в том числе «победить - остаться, проиграть - переключиться». Это было специально доказано Александром Стюартом и Джошуа Плоткиным в 2013 году для игры с пожертвованиями . ^[20] Щедрые стратегии будут взаимодействовать с другими игроками, которые сотрудничают друг с другом, и перед лицом отступничества щедрый игрок теряет больше полезности, чем его соперник. Щедрые стратегии - это пересечение стратегий ZD и так называемых «хороших» стратегий, которые были определены Akin (2013) ^[21] как те, для которых игрок реагирует на прошлое взаимное сотрудничество будущим сотрудничеством и делит ожидаемые выплаты поровну, если он получает, по крайней мере, ожидаемую отдачу кооператива. Среди хороших стратегий подмножество щедрых (ZD) хорошо работает, когда популяция не слишком мала. Если популяция очень мала, преобладают стратегии дезертирства. ^[20]

Непрерывная повторяющаяся дилемма заключенного

Большая часть работ по повторной дилемме заключенного сосредоточена на дискретном случае, когда игроки либо сотрудничают, либо отступают, потому что эту модель относительно просто анализировать. Тем не менее, некоторые исследователи рассмотрели модели постоянно повторяющейся дилеммы заключенного, в которой игроки могут вносить переменный вклад в пользу другого игрока. Ле и Бойд ^[22] обнаружили, что в таких ситуациях развивать сотрудничество намного сложнее, чем в дискретной повторяющейся дилемме заключенного. Основная интуиция для этого результата проста: в постоянной дилемме заключенного, если популяция начинается в некооперативном равновесии, игроки, которые лишь незначительно более склонны к сотрудничеству, чем не сотрудничающие, получают небольшую выгоду от сортировки друг с другом. Напротив, в дилемме дискретного заключенного, кооператоры «око за око» получают большую выгоду от сортировки друг с другом в некооперативном равновесии по сравнению с теми, кто не сотрудничает. Поскольку природа, возможно, предлагает больше возможностей для разнообразного сотрудничества, чем строгую дихотомию сотрудничества или отступничества, постоянная дилемма заключенного может помочь объяснить, почему реальные примеры сотрудничества, похожего на око за око, чрезвычайно редки в природе (например, Hammerstein ^[23]). ) даже при том, что око за око кажется надежным в теоретических моделях.

Появление стабильных стратегий

Кажется, что игроки не могут координировать взаимное сотрудничество, поэтому часто попадают в низшую, но стабильную стратегию отступничества. Таким образом, повторяющиеся раунды способствуют развитию стабильных стратегий. ^[24] Повторяющиеся раунды часто приводят к новым стратегиям, которые имеют последствия для сложного социального взаимодействия. Одна из таких стратегий - беспроигрышный вариант - оставаться проигрышным. Эта стратегия превосходит простую стратегию «око за око» - то есть, если вам удается уйти от жульничества, повторите это поведение, однако, если вас поймают, переключитесь. ^[25]

Единственная проблема этой стратегии «око за око» состоит в том, что они уязвимы для ошибки сигнала. Проблема возникает, когда один человек обманывает в отместку, а другой интерпретирует это как обман. В результате второй человек теперь обманывает, а затем начинает цепную реакцию обмануть по схеме качелей.

Примеры из реальной жизни

Обстановка заключенного может показаться надуманной, но на самом деле существует множество примеров человеческого взаимодействия, а также взаимодействия в природе, которые имеют одинаковую матрицу выигрыша. Таким образом, дилемма заключенного представляет интерес для социальных наук, таких как экономика , политика и социология , а также для биологических наук, таких как этология и эволюционная биология . Многие естественные процессы были абстрагированы в модели, в которых живые существа участвуют в бесконечных играх с дилеммой заключенного. Такая широкая применимость PD придает игре существенное значение.

Экологические исследования

В экологических исследованиях ЧР проявляется в кризисных ситуациях, таких как глобальное изменение климата . Утверждается, что от стабильного климата выиграют все страны, но ни одна страна в отдельности часто не решается сдерживать выбросы CO.2выбросы. Непосредственная выгода для любой страны от сохранения текущего поведения ошибочно воспринимается как большая, чем предполагаемая конечная выгода для этой страны, если поведение всех стран изменится, что объясняет тупик, связанный с изменением климата в 2007 году. ^[26]

Важное различие между политикой в области изменения климата и дилеммой заключенного - неопределенность; степень и скорость, с которой загрязнение может изменить климат, неизвестны. Таким образом, дилемма, стоящая перед правительством, отличается от дилеммы заключенного тем, что отдача от сотрудничества неизвестна. Это различие предполагает, что государства будут сотрудничать в гораздо меньшей степени, чем в реальной повторяющейся дилемме заключенного, так что вероятность избежать возможной климатической катастрофы намного меньше, чем предполагает теоретико-игровой анализ ситуации с использованием реальной повторяющейся дилеммы заключенного. ^[27]

Осанг и Нанди (2003) предоставляют теоретическое объяснение с доказательствами беспроигрышной ситуации, основанной на регулировании , в соответствии с гипотезой Майкла Портера , в которой государственное регулирование конкурирующих фирм является существенным. ^[28]

Животные

Кооперативное поведение многих животных можно рассматривать как пример дилеммы заключенного. Часто животные вступают в долгосрочные партнерские отношения, что более конкретно можно смоделировать как повторяющуюся дилемму заключенного. Например, гуппи совместно осматривают хищников группами и, как считается, наказывают инспекторов, не сотрудничающих с ними.

Летучие мыши-вампиры - социальные животные, которые участвуют во взаимном обмене пищей. Объяснить такое поведение можно, применяя выплаты из дилеммы заключенного: ^[29]

Сотрудничать / сотрудничать: «Награда: в мои неудачные ночи я проливаю кровь, что спасает меня от голода. Я должен сдавать кровь в счастливые ночи, что мне не стоит слишком дорого».
Дефект / сотрудничество: «Искушение: вы спасли мою жизнь в мою плохую ночь. Но тогда я получаю дополнительное преимущество, так как мне не нужно оплачивать небольшую стоимость кормления вас в мою спокойную ночь».
Сотрудничать / Дефект: «Расплата за присоски: я плачу за спасение вашей жизни в мою спокойную ночь. Но в мою плохую ночь вы меня не кормите, и я рискую умереть от голода».
Дефект / Дефект: «Наказание: мне не нужно оплачивать небольшие расходы на то, чтобы кормить вас в мои спокойные ночи. Но я рискую умереть с голоду в свои плохие ночи».

Психология

В наркомании исследований / поведенческой экономике , Джордж Эйнсли указует ^[30] , что зависимость может быть брошена как межвременные проблемы PD между настоящим и будущим самих наркомана. В этом случае, дезертировать средства рецидивирующий , и легко видеть , что не дезертировать и сегодня , и в будущем, безусловно, лучший результат. Случай, когда человек воздерживается сегодня, но возвращается в будущем, является наихудшим исходом - в некотором смысле дисциплина и самопожертвование, связанные с воздержанием сегодня, были «потрачены впустую», потому что будущий рецидив означает, что наркоман вернулся туда, откуда они начали, и будет приходится начинать заново (что довольно деморализует и затрудняет начало работы). Рецидив сегодня и завтра - это немного «лучший» результат, потому что, хотя наркоман все еще остается зависимым, он не прилагает усилий, чтобы попытаться остановиться. Последний случай, когда человек проявляет аддиктивное поведение сегодня, воздерживаясь от «завтра», будет знаком каждому, кто боролся с зависимостью. Проблема здесь в том, что (как и в других ВД) существует очевидная выгода от отказа «сегодня», но завтра вы столкнетесь с тем же самым ВД, и тогда будет присутствовать такая же очевидная выгода, что в конечном итоге приведет к бесконечной череде дезертирства.

Джон Готтман в своем исследовании, описанном в «Науке о доверии», определяет хорошие отношения как отношения, в которых партнеры знают, что они не должны входить в (D, D) ячейку или, по крайней мере, не застревать там динамически в петле. В когнитивной нейробиологии быстрая передача сигналов в мозг, связанная с обработкой различных раундов, может указывать на выбор в следующем раунде. Результаты взаимного сотрудничества влекут за собой изменения активности мозга, которые позволяют прогнозировать, насколько быстро человек будет сотрудничать в натуральном выражении при следующей возможности; ^[31] эта деятельность может быть связана с основными гомеостатическими и мотивационными процессами, возможно, увеличивая вероятность кратчайшего пути к ячейке (C, C) игры.

Экономика

Дилемма заключенного получила название кишечной палочки социальной психологии, и она широко использовалась для исследования различных тем, таких как олигополистическая конкуренция и коллективные действия для создания коллективного блага. ^[32]

Рекламу иногда приводят как реальный пример дилеммы заключенного. Когда реклама сигарет была законной в Соединенных Штатах, конкурирующие производители сигарет должны были решать, сколько денег потратить на рекламу. Эффективность рекламы фирмы A частично определялась рекламой, проводимой фирмой B. Аналогичным образом, прибыль, полученная от рекламы для фирмы B, зависит от рекламы, проводимой фирмой A. Если и фирма A, и фирма B решили размещать рекламу в течение заданного периода времени. периода, то реклама одной фирмы отрицает рекламу другой, выручка остается неизменной, а расходы увеличиваются из-за стоимости рекламы. Обе фирмы выиграют от сокращения рекламы. Однако, если фирма B решит не рекламировать, фирма A может получить большую выгоду от рекламы. Тем не менее, оптимальный объем рекламы одной фирмы зависит от того, сколько рекламы берет на себя другая. Поскольку лучшая стратегия зависит от того, что выберет другая фирма, доминирующей стратегии не существует, что немного отличает ее от дилеммы заключенного. Однако результат схож: обеим фирмам было бы лучше, если бы они рекламировали меньше, чем в состоянии равновесия. Иногда в деловых ситуациях проявляется кооперативное поведение. Например, производители сигарет одобрили принятие законов, запрещающих рекламу сигарет, понимая, что это снизит затраты и увеличит прибыль во всей отрасли. ^{[ необходима цитата ]}^[b] Этот анализ, вероятно, будет уместен во многих других бизнес-ситуациях, связанных с рекламой. ^{[ необходима цитата ]}

Без обязательных соглашений члены картеля также оказываются вовлеченными в дилемму заключенного (многопользовательской). ^[33] «Сотрудничество» обычно означает поддержание цен на заранее согласованном минимальном уровне. «Отклонение от ответственности» означает продажу ниже этого минимального уровня, мгновенно отнимая бизнес (и прибыль) у других членов картеля. Антимонопольные органы хотят, чтобы потенциальные участники картеля взаимно дезертировали, обеспечивая потребителям максимально низкие цены .

Спорт

Допинг в спорте приводился как пример дилеммы заключенного. ^[34]

Два соревнующихся спортсмена имеют возможность использовать запрещенные и / или опасные препараты для повышения своих результатов. Если ни один из спортсменов не принимает препарат, ни один из них не получает преимущества. Если это сделает только один, то этот спортсмен получает значительное преимущество перед своим конкурентом, уменьшенное за счет юридических и / или медицинских опасностей, связанных с приемом препарата. Однако, если оба спортсмена принимают препарат, преимущества отменяются, и остаются только опасности, что ставит их обоих в худшее положение, чем если бы ни один из них не принимал допинг. ^[34]

Международная политика

В международной политической теории дилемма заключенного часто используется для демонстрации последовательности стратегического реализма , согласно которому в международных отношениях все государства (независимо от их внутренней политики или декларируемой идеологии) будут действовать в своих рациональных личных интересах в условиях международной анархии. . Классический пример - гонка вооружений, подобная холодной войне и подобным конфликтам. ^[35] Во время холодной войны у противостоящих альянсов НАТО и Варшавского договора был выбор: вооружиться или разоружиться. С точки зрения каждой стороны, разоружение, пока их противник продолжал вооружаться, привело бы к военному проигрышу и возможному уничтожению. И наоборот, вооружение, в то время как их противник разоружен, привело бы к превосходству. Если бы обе стороны предпочли вооружиться, ни одна из них не могла позволить себе атаковать другую, но обе понесли высокие затраты на создание и поддержание ядерного арсенала. Если бы обе стороны решили разоружиться, войны можно было бы избежать и не было бы никаких затрат.

Хотя «лучший» общий результат - разоружение для обеих сторон, рациональным курсом для обеих сторон является вооружение, и именно это действительно произошло. Обе стороны вложили огромные ресурсы в военные исследования и вооружения в войне на истощение в течение следующих тридцати лет, пока Советский Союз не смог противостоять экономическим издержкам. ^[36] Та же самая логика может быть применена в любом подобном сценарии, будь то экономическая или технологическая конкуренция между суверенными государствами.

Дилеммы многопользовательской игры

Многие дилеммы реальной жизни связаны с несколькими игроками. ^[37] Несмотря на метафоричность, трагедию Хардина с общим достоянием можно рассматривать как пример многопользовательского обобщения PD: каждый сельский житель делает выбор в пользу личной выгоды или сдержанности. Коллективная награда за единодушное (или даже частое) дезертирство - очень низкие выплаты (представляющие собой уничтожение «общего»). Дилемма общего пользования, с которой может столкнуться большинство людей, - это мытье посуды в общем доме. Не мыть посуду, человек может сэкономить свое время, но если это поведение будет принято каждым жителем, коллективные издержки - это не чистые тарелки для кого-либо.

Общественное достояние не всегда эксплуатируется: Уильям Паундстон в книге о дилемме заключенного описывает ситуацию в Новой Зеландии, где коробки с газетами остаются незапертыми. Люди могут взять бумагу, не заплатив ( дефект ), но очень немногие это делают, чувствуя, что если они не заплатят, то и другие тоже не будут, разрушая систему. ^[38] Последующее исследование Элинор Остром , лауреата Нобелевской премии по экономическим наукам 2009 г. , выдвинуло гипотезу о том, что трагедия общества слишком упрощена, а отрицательный результат зависит от внешних влияний. Не усложняя давления, группы общаются и управляют обществом между собой для их взаимной выгоды, обеспечивая соблюдение социальных норм для сохранения ресурсов и достижения максимальной пользы для группы, что является примером достижения наилучшего результата для PD. ^[39]^[40]

Связанные игры

Обмен закрытых сумок

Дилемма заключенного как обмен портфелем

Дуглас Хофштадтер ^[41] однажды предположил, что люди часто находят такие проблемы, как проблема частичного разряда, более понятной, когда она проиллюстрирована в форме простой игры или компромисса. Одним из нескольких примеров, которые он использовал, был «закрытый обмен сумок»:

Два человека встречаются и обмениваются закрытыми мешками, при этом понимая, что в одном из них лежат деньги, а в другом - покупка. Любой игрок может выполнить сделку, положив в свою сумку то, что он или она согласился, или он или она может отказаться, передав пустой мешок.

Дефект всегда дает теоретически более предпочтительный исход. ^[42]

Друг или враг?

Друг или враг? это игровое шоу, которое транслировалось с 2002 по 2003 год на Game Show Network в США. Это пример игры-дилеммы заключенного, проверенной на реальных людях, но в искусственной обстановке. На игровом шоу соревнуются три пары людей. Когда пара выбывает, они играют в игру, похожую на дилемму заключенного, чтобы определить, как делятся выигрыши. Если они оба сотрудничают (Друг), они делят выигрыш 50–50. Если один сотрудничает, а другой отказывает (Враг), перебежчик получает весь выигрыш, а кооператор ничего не получает. Если оба неисправны, оба уходят ни с чем. Обратите внимание, что матрица вознаграждений немного отличается от стандартной, приведенной выше, поскольку вознаграждения в случаях «оба дефекта» и «сотрудничать, пока оппонент ошибается» идентичны. Это делает случай «оба дефекта» слабым равновесием по сравнению со строгим равновесием в стандартной дилемме заключенного. Если участник знает, что его противник проголосует «за врага», то его собственный выбор не влияет на его собственный выигрыш. В определенном смысле « Друг или враг » использует модель вознаграждения между дилеммой заключенного и игрой «Курица» .

Матрица вознаграждений:

Пара 2 Пара 1	«Друг» (сотрудничать)	«Враг» (дефект)
«Друг» (сотрудничать)	1 1	2 0
«Враг» (дефект)	0 2	0 0

Эта матрица выплат также использовалась в британских телевизионных программах Trust Me , Shafted , The Bank Job и Golden Balls и в американских игровых шоу Take It All , а также для пары победителей в реалити-шоу шоу Bachelor Pad . Игровые данные из серии Golden Balls были проанализированы группой экономистов, которые обнаружили, что сотрудничество было «на удивление высоким» для денежных сумм, которые могли бы иметь важное значение в реальном мире, но были сравнительно низкими в контексте игры. ^[43]

Итерированный сугроб

Исследователи из Лозаннского и Эдинбургского университетов предположили, что «Итерационная игра в снежный занос» может более точно отражать реальные социальные ситуации. Хотя эта модель на самом деле представляет собой игру про цыплят , здесь она будет описана. В этой модели риск эксплуатации через дезертирство ниже, и люди всегда выигрывают от совместного выбора. В игре «Сугроб» изображены два водителя, застрявшие по разные стороны сугроба , и каждому из них предоставляется возможность расчистить лопатой снег, чтобы расчистить путь, или остаться в машине. Самый высокий выигрыш для игрока - это предоставление противнику возможности самостоятельно очистить весь снег, но противник все равно номинально награждается за свою работу.

Это может лучше отражать сценарии реального мира: исследователи приводят пример двух ученых, сотрудничающих над отчетом, и оба выиграют, если другой будет работать усерднее. «Но когда ваш соавтор не выполняет никакой работы, вам, вероятно, лучше делать всю работу самому. У вас все равно будет завершенный проект». ^[44]

Пример выплаты сугроба (A, B)
B А	Сотрудничает	Дефекты
Сотрудничает	200, 200	100, 300
Дефекты	300, 100	0, 0

Пример выплат PD (A, B)
B А	Сотрудничает	Дефекты
Сотрудничает	200, 200	-100, 300
Дефекты	300, -100	0, 0

Координационные игры

В координационных играх игроки должны координировать свои стратегии для достижения хорошего результата. Примером могут служить две машины, которые резко встречаются в метель; каждый должен выбрать, свернуть влево или вправо. Если оба повернут налево или оба повернут направо, машины не столкнутся. Соглашение о местном левостороннем и правостороннем движении помогает координировать их действия.

Симметричные координационные игры включают " Охоту на оленя" и " Баха или Стравинского" .

Асимметричные дилеммы заключенного

Более общий набор игр асимметричен. Как и в случае с дилеммой заключенного, лучший выход - это сотрудничество, и есть мотивы для отступничества. Однако, в отличие от симметричной дилеммы заключенного, один игрок может больше терять и / или больше приобретать, чем другой. Некоторые такие игры были описаны как дилемма заключенного, в которой у одного заключенного есть алиби , отсюда и термин «игра алиби». ^[45]

В экспериментах игроки, получающие неравные выплаты в повторяющихся играх, могут стремиться максимизировать прибыль, но только при условии, что оба игрока получают равные выплаты; это может привести к стратегии стабильного равновесия, в которой проигравший игрок отказывается от каждой X игр, в то время как другой всегда сотрудничает. Такое поведение может зависеть от социальных норм эксперимента в отношении справедливости. ^[46]

Программное обеспечение

Было создано несколько программных пакетов для моделирования дилемм заключенного и проведения турниров, некоторые из которых имеют доступный исходный код.

Исходный код второго турнира Роберта Аксельрода (написанный Аксельродом и многими участниками Fortran ) доступен в Интернете.
Prison , библиотека, написанная на Java , последний раз обновлялась в 1998 году.
Аксельрод-Python , написанный на Python
играйте в итеративную дилемму заключенного в браузере , играйте против стратегий или позволяйте стратегиям играть против других стратегий

В художественной литературе

Ханну Раджаниеми положил начало своей трилогии «Квантовый вор » в «тюрьме дилеммы». Основная тема сериала описывается как «неадекватность бинарной вселенной», а главный антагонист - персонаж по имени Все-Перебежчик. Раджаниеми особенно интересен как художник, занимающийся этим предметом, поскольку он математик, получивший образование в Кембридже, и имеет докторскую степень в области математической физики - взаимозаменяемость материи и информации - главная особенность книг, происходящих в "пост-сингулярности". " будущее. Первая книга этой серии была опубликована в 2010 году, а два продолжения - «Фрактальный принц» и «Причинный ангел» - в 2012 и 2014 годах соответственно.

Игра, созданная по образцу (повторной) дилеммы заключенного, является центральным элементом видеоигры 2012 года Zero Escape: Virtue's Last Reward и второстепенной частью ее сиквела 2016 года Zero Escape: Zero Time Dilemma .

В «Таинственном обществе Бенедикта и дилемме заключенного » Трентона Ли Стюарта главные герои начинают с игры в одну из версий игры и в целом сбегают из «тюрьмы». Позже они становятся настоящими пленниками и снова сбегают.

В поддуге The Adventure Zone : Balance во время игры «Страдания» игровые персонажи дважды сталкиваются с дилеммой заключенного за время их пребывания в владениях двух личей: один раз сотрудничают, а другой - дезертируют.

В 8 - й роман от автора Джеймса С. А. Corey аурой Тиамат , Уинстон Дуарте объясняет заключенные дилемму к его 14-летней дочери, Тереза, чтобы обучать ее в стратегическом мышлении. ^{[ необходима цитата ]}

Это буквально рассматривается в фильме 2019 года `` Платформа '' , где заключенные в вертикальной тюрьме могут есть только то, что осталось от тех, кто находится над ними. Если бы каждый ел свою справедливую долю, еды было бы достаточно, но показано, что те, кто находится на нижних уровнях, голодают из-за чрезмерного потребления заключенных .

Смотрите также

Парадокс Абилина
Сороконожка игра
Рождественское перемирие
Внешность
Народная теорема (теория игр)
Проблема безбилетника
Гоббсовская ловушка
Дилемма невинного заключенного
Лжец Игра
Необязательная дилемма заключенного
Дилемма заключенного и сотрудничество
Игра в общественные блага
Игра по обмену подарками
Взаимный альтруизм
Поиски съемного жилья
Социальные предпочтения
Теория быстрого доверия
Дилемма недобросовестного посетителя

дальнейшее чтение

Амаде, С. (2016). «Дилемма узника» , Узники разума . Издательство Кембриджского университета , Нью-Йорк, стр. 24–61.
Ауман, Роберт (1959). «Допустимые баллы в общих кооперативных играх с n личностями». В Люсе, РД; Такер, AW (ред.). Вклад в теорию игр 23 IV . Летопись математики. 40 . Принстон, штат Нью-Джерси: Издательство Принстонского университета. С. 287–324. Руководство по ремонту 0104521 .
Аксельрод, Р. (1984). Эволюция сотрудничества . ISBN 0-465-02121-2
Биккьери, Кристина (1993). Рациональность и координация. Издательство Кембриджского университета .
Шахматы, Дэвид М. (декабрь 1988 г.). «Моделирование эволюции поведения: повторяющаяся проблема дилеммы заключенных» (PDF) . Сложные системы . 2 (6): 663–70.
Дрешер, М. (1961). Математика стратегических игр: теория и приложения Prentice-Hall , Englewood Cliffs, NJ.
Грейф, А. (2006). Институты и путь к современной экономике: уроки средневековой торговли. Издательство Кембриджского университета, Кембридж , Великобритания.
Копельман, Ширли (февраль 2020 г.). «Око за око и не только: легендарное произведение Анатолия Рапопорта» . Исследование переговоров и управления конфликтами . 13 (1): 60–84. DOI : 10.1111 / ncmr.12172 .
Паундстон, Уильям (1993). Дилемма заключенного (1-е изд. Якорных книг). Нью-Йорк: Якорь. ISBN 0-385-41580-X.
Рапопорт, Анатоль и Альберт М. Чамма (1965). Дилемма заключенного . Пресса Мичиганского университета .

Внешние ссылки

СМИ, связанные с дилеммой заключенного, на Викискладе?
Дилемма заключенного ( Стэнфордская философская энциклопедия )
Дилемма Шалашника Дилемма заключенного в орнитологии - математический мультфильм Ларри Гоника.
Дилемма заключенного Дилемма заключенного с минифигурками Lego.
Диксит, Авинаш ; Налебафф, Барри (2008). «Дилемма заключенного» . В Дэвид Р. Хендерсон (ред.). Краткая энциклопедия экономики (2-е изд.). Индианаполис: Библиотека экономики и свободы . ISBN 978-0865976658. OCLC 237794267 .
Теория игр 101: дилемма заключенного
Докинз: Славные парни финишируют первыми
Axelrod Iterated Prisoner's Dilemma Python- библиотека
Играйте в повторяющуюся дилемму заключенного на gametheorygames.nl
Сыграть в Prisoner's Dilemma на oTree (N / A 11-5-17)
Эволюция доверия Ники Кейса , пример игры с пожертвованиями
Итерированная онлайн-игра «Дилемма заключенного » Уэйна Дэвиса

[16] Например, см. Исследование 2003 г.^[15] для обсуждения концепции и того, может ли она применяться в реальных экономических или стратегических ситуациях.

[34] Этот аргумент в пользу развития сотрудничества через доверие приводится в книге «Мудрость толпы» , где утверждается, что капитализм на расстояниимог сформироваться вокруг ядра квакеров , которые всегда честно относились к своим деловым партнерам. (Вместо того, чтобы отступать и не выполнять обещания - явление, которое препятствовало заключению ранее заключенных долгосрочных невыполнимых зарубежных контрактов). Утверждается, что отношения с надежными продавцами позволили мему сотрудничества распространиться на других трейдеров, которые распространяли его дальше, пока высокая степень сотрудничества не стала прибыльной стратегией в общей коммерции.

[FOOTNOTEPoundstone19938,_117-1] Poundstone 1993 , стр. 8, 117.

[2] Миловский, Николай. «Основы теории игр и связанных с ней игр» . Проверено 11 февраля 2014 .

[Fehr-3] Фер, Эрнст; Фишбахер, Урс (23 октября 2003 г.). «Природа человеческого альтруизма» (PDF) . Природа . 425 (6960): 785–91. Bibcode : 2003Natur.425..785F . DOI : 10,1038 / природа02043 . PMID 14574401 . S2CID 4305295 . Проверено 27 февраля 2013 года .

[Amos-4] Тверски, Амос; Шафир, Эльдар (2004). Предпочтение, вера и сходство: избранные произведения (PDF) . Массачусетский технологический институт Press. ISBN 9780262700931. Проверено 27 февраля 2013 года .

[Ahn-5] Toh-Kyeong, Ан; Остром, Элинор; Уокер, Джеймс (5 сентября 2002 г.). «Включение мотивационной неоднородности в теоретико-игровые модели коллективных действий» (PDF) . Общественный выбор . 117 (3–4): 295–314. DOI : 10.1023 / B: puch.0000003739.54365.fd . ЛВП : 10535/4697 . S2CID 153414274 . Проверено 27 июня 2015 года .

[Hessel-6] Oosterbeek, Hessel; Sloof, Рэндольф; Ван де Куилен, Гас (3 декабря 2003 г.). «Культурные различия в ультимативных игровых экспериментах: данные метаанализа» (PDF) . Экспериментальная экономика . 7 (2): 171–88. DOI : 10,1023 / Б: EXEC.0000026978.14316.74 . S2CID 17659329 . Архивировано из оригинального (PDF) 12 мая 2013 года . Проверено 27 февраля 2013 года .

[7] Ормерод, Пол (22 декабря 2010 г.). Почему большинство вещей терпят неудачу . ISBN 9780571266142.

[8] Дойч, М. (1958). Доверие и подозрение. Журнал разрешения конфликтов, 2 (4), 265–279. https://doi.org/10.1177/002200275800200401

[9] Рапопорт, А., и Шамма, AM (1965). Дилемма заключенного: исследование конфликта и сотрудничества. Анн-Арбор, Мичиган: Мичиганский университет Press.

[10] Казначеев, Артем (2 марта 2015 г.). «Краткая история повторяющихся турниров по дилемме заключенного» . Группа теории, эволюции и игр . Проверено 8 февраля, 2016 .

[Hilbe2013-11] а б Хильбе, Кристиан; Мартин А. Новак; Карл Зигмунд (апрель 2013 г.). «Эволюция вымогательства в повторяющихся играх« Дилемма заключенного »» . PNAS . 110 (17): 6913–18. arXiv : 1212.1067 . Bibcode : 2013PNAS..110.6913H . DOI : 10.1073 / pnas.1214834110 . PMC 3637695 . PMID 23572576 .

[Shy-12] Застенчивый, Оз (1995). Промышленная организация: теория и приложения . Массачусетский технологический институт Press. ISBN 978-0262193665. Проверено 27 февраля 2013 года .

[13] Даль Бо, Педро; Фрешет, Гийом Р. (2019). «Выбор стратегии в бесконечно повторяющейся дилемме заключенного». Американский экономический обзор . 109 (11): 3929–3952. DOI : 10,1257 / aer.20181480 . ISSN 0002-8282 .

[14] Wedekind, C .; Милински, М. (2 апреля 1996 г.). «Человеческое сотрудничество в одновременной и альтернативной дилемме узника: Павлов против щедрого око за око» . Труды Национальной академии наук . 93 (7): 2686–2689. Bibcode : 1996PNAS ... 93.2686W . DOI : 10.1073 / pnas.93.7.2686 . PMC 39691 . PMID 11607644 .

[15] «Байесовское равновесие по Нэшу; статистическая проверка гипотезы» (PDF) . Тель-Авивский университет . Архивировано из оригинального (PDF) 02.10.2005.

[17] У, Цзядон; Чжао, Чэнъе (2019), Сунь, Сяомин; Он, Кун; Чен, Сяоюнь (ред.), «Сотрудничество по правилу Монте-Карло: игра с дилеммой заключенного в сети», « Теоретическая информатика» , Springer Singapore, 1069 , стр. 3–15, DOI : 10.1007 / 978-981-15-0105 -0_1 , ISBN 978-981-15-0104-3, S2CID 118687103

[18] «Команда Саутгемптонского университета победила в конкурсе« Дилемма заключенного »» (пресс-релиз). Саутгемптонский университет. 7 октября 2004 года Архивировано из оригинала на 2014-04-21.

[Press2012-19] а б в г д Нажмите, WH; Дайсон, Ф.Дж. (26 июня 2012 г.). «Повторяющаяся дилемма заключенного содержит стратегии, которые доминируют над любым эволюционным противником» . Труды Национальной академии наук Соединенных Штатов Америки . 109 (26): 10409–13. Bibcode : 2012PNAS..10910409P . DOI : 10.1073 / pnas.1206569109 . PMC 3387070 . PMID 22615375 .

[20] Адами, Кристоф; Аренд Хинтце (2013). «Эволюционная нестабильность стратегий нулевого детерминанта демонстрирует, что победа - это еще не все» . Nature Communications . 4 : 3. arXiv : 1208.2666 . Bibcode : 2013NatCo ... 4.2193A . DOI : 10.1038 / ncomms3193 . PMC 3741637 . PMID 23903782 .

[Stewart2013-21] а б Стюарт, Александр Дж .; Джошуа Б. Плоткин (2013). «От вымогательства к щедрости, эволюция в повторяющейся дилемме заключенного» . Труды Национальной академии наук Соединенных Штатов Америки . 110 (38): 15348–53. Bibcode : 2013PNAS..11015348S . DOI : 10.1073 / pnas.1306246110 . PMC 3780848 . PMID 24003115 .

[Akin2013-22] Акин, Итан (2013). «Стабильные совместные решения для повторяющейся дилеммы заключенного». п. 9. arXiv : 1211.0969 [ math.DS ]. Bibcode : 2012arXiv1211.0969A

[23] Ле С., Бойд Р. (2007). "Эволюционная динамика непрерывной повторяющейся дилеммы заключенного". Журнал теоретической биологии . 245 (2): 258–67. DOI : 10.1016 / j.jtbi.2006.09.016 . PMID 17125798 .

[24] Перейти ↑ Hammerstein, P. (2003). Почему взаимность так редко встречается у социальных животных? Протестантское обращение. В: П. Хаммерштейн, редактор отдела генетической и культурной эволюции сотрудничества, MIT Press. С. 83–94.

[25] Спаниель, Уильям (2011). Теория игр 101: Полный учебник .

[26] Новак, Мартин; Карл Зигмунд (1993). «Стратегия« выигрывай - оставайся, проигрывай - сменяй », которая превосходит« око за око »в игре« Дилемма заключенного »». Природа . 364 (6432): 56–58. Bibcode : 1993Natur.364 ... 56N . DOI : 10.1038 / 364056a0 . PMID 8316296 . S2CID 4238908 .

[27] «Рынки и данные» . Экономист . 2007-09-27.

[28] Рехмейер, Джули (2012-10-29). «Теория игр предполагает, что текущие переговоры по климату не предотвратят катастрофу» . Новости науки . Общество науки и общественности.

[29] Осанг, Томас; Нандиз, Арундати (август 2003 г.). Экологическое регулирование предприятий, загрязняющих окружающую среду: пересмотр гипотезы Портера (PDF) (документ).

[30] Докинз, Ричард (1976). Эгоистичный ген . Издательство Оксфордского университета.

[31] Эйнсли, Джордж (2001). Нарушение воли . ISBN 978-0-521-59694-7.

[32] Сервантес Константино, Гарат, Николайсен, Пас, Мартинес-Монтес, Кессель, Кабана и Градин (2020). «Нейронная обработка повторяющихся результатов дилеммы заключенного указывает на следующий раунд выбора и скорость взаимного сотрудничества» . Социальная неврология : 1–18. DOI : 10.1080 / 17470919.2020.1859410 .CS1 maint: несколько имен: список авторов ( ссылка )

[33] Аксельрод, Роберт (1980). «Эффективный выбор в дилемме заключенного» . Журнал разрешения конфликтов . 24 (1): 3–25. DOI : 10.1177 / 002200278002400101 . ISSN 0022-0027 . JSTOR 173932 . S2CID 143112198 .

[35] Николсон, Уолтер (2000). Промежуточная микроэкономика и ее применение (8-е изд.). Форт-Уэрт, Техас: Dryden Press: Harcourt College Publishers. ISBN 978-0-030-25916-6.

[wired-36] а б Шнайер, Брюс (2012-10-26). "Лэнс Армстронг и дилемма заключенных допинга в профессиональном спорте | Wired Opinion" . Проводной . Wired.com . Проверено 29 октября 2012 .

[37] Стивен Дж. Майески (1984). «Гонка вооружений как повторяющиеся игры дилеммы заключенного». Математические и социальные науки . 7 (3): 253–66. DOI : 10.1016 / 0165-4896 (84) 90022-2 .

[38] Кун, Стивен (2019), "Prisoner's Dilemma" , в Zalta, Эдвард Н. (редактор), Стэнфордская энциклопедия философии (изд. Зима 2019 г.), Исследовательская лаборатория метафизики, Стэнфордский университет , получено 12 апреля 2020 г.

[39] Gokhale CS, Траулсен А. Эволюционные игры в мультивселенной. Труды Национальной академии наук. 2010 г. 23 марта. 107 (12): 5500–04.

[FOOTNOTEPoundstone1993126–127-40] Poundstone 1993 , стр. 126-127.

[41] "The Волох Conspiracy" Элинор Остром и Трагедия общин» . Volokh.com. 2009-10-12 . Проверено 2011-12-17 .

[42] Остром, Элинор (2015) [1990]. Управление общин: эволюция институтов коллективных действий . Издательство Кембриджского университета. DOI : 10.1017 / CBO9781316423936 . ISBN 978-1-107-56978-2.

[dh-43] Хофштадтер, Дуглас Р. (1985). «Глава 29 Компьютерные турниры« Дилемма заключенного »и эволюция сотрудничества ». Метамагические темы: поиск сущности разума и паттернов . Группа пабов Bantam Dell. ISBN 978-0-465-04566-2.

[44] «Дилемма заключенного - Википедия, бесплатная энциклопедия» . users.auth.gr . Проверено 12 апреля 2020 .

[45] Ван ден Ассем, Мартин Дж. (Январь 2012 г.). «Разделить или украсть? Совместное поведение при больших ставках» . Наука управления . 58 (1): 2–20. DOI : 10.1287 / mnsc.1110.1413 . hdl : 1765/31292 . S2CID 1371739 . SSRN 1592456 .

[46] Кюммерли, Рольф. « Игра « Сугроб » превосходит« Дилемму заключенного »в объяснении сотрудничества» . Проверено 11 апреля 2012 года .

[47] Робинсон, Д.Р .; Гофорт, ди-джей (5 мая 2004 г.). Игры алиби: асимметричные дилеммы узника (PDF) . Заседания Канадской экономической ассоциации, Торонто, 4-6 июня 2004 г.

[48] Бекенкамп, Мартин; Хенниг-Шмидт, Хайке; Майер-Риго, Франк П. (4 марта 2007 г.). «Сотрудничество в симметричных и асимметричных играх с дилеммой заключенного» (PDF) . Институт Макса Планка по исследованию коллективных благ .

[1],