Вы здесь

Настоящая дилемма заключенного

Элиезер Юдковский

Однажды я понял, что обычно дилемму заключенного представляют неправильно.

В основе дилеммы заключенного лежит вот такая симметричная платежная матрица:

1:С 1:П
2:С (3,3) (5,0)
2:П (0,5) (2,2)

Есть два игрока: Игрок 1 и Игрок 2. Каждый из них может выбрать С или П. Итоговый результат для Игрока 1 и Игрока 2 — соответственно, первое и второе число пары чисел в скобках. По причинам, которые станут понятны ниже, C означает «сотрудничать», П — «предать».

Заметим, что для участника этой игры (пусть он считает себя первым) предпочитаемые исходы выстраиваются в следующем порядке: (П, С) >> (C, С) >> (П, П) >> (С, П).

Видим, что П предпочтительнее, чем С: если второй игрок выбирает С, то первому выгоднее (П, С), чем (С, С). Если второй выбирает П, то первому выгоднее (П, П), чем (С, П). Таким образом, ты мудро выбираешь П, а так как платежная матрица симметрична, второй игрок аналогично выберет П.

Если бы вы оба были не так мудры! Каждому из вас выгоднее (С, С), чем (П, П). Поэтому вы оба предпочитаете обоюдное сотрудничество обоюдному предательству.

В теории принятия решений дилемма заключенного — одна из основ, и о ней написано огромное количество томов. Но я осмелюсь утверждать, что в традиционном представлении дилеммы заключенного есть серьезное упущение — по крайней мере, для людей.

Классическое представление дилеммы заключенного таково: ты преступник, пойманный властями вместе с сообщником. Независимо друг от друга, без возможности общаться между собой и без возможности изменить решение впоследствии, каждый из вас должен решить, давать показания против сообщника (П) или молчать (С).

В настоящий момент каждому из вас грозит год тюрьмы. Дача показаний против сообщника уменьшает твой срок на год и прибавляет другому два года.

В другом варианте, ты и незнакомец, не зная ничего друг о друге и не имея возможности узнать в будущем, единожды должны сыграть С или П, получив выигрыш в соответствии с приведенной выше платежной матрицей.

И, конечно, в классическом варианте предполагается, что ты полностью эгоистичен, т.е. не заботишься о сообщнике или об игроке в другой комнате.

И именно последнее условие, с моей точки зрения, приводит к неправильному восприятию дилеммы заключённого.

Невозможно устранить эффект знания задним числом, инструктируя присяжных вести себя так, будто они не знают, к чему привели рассматриваемые события. Аналогично, без больших усилий, подкрепленных соответствующими знаниями, психически здоровый человек не может притворяться по-настоящему эгоистичным.

У нас есть врожденные чувства честности, чести, сопереживания, симпатии и даже альтруизма. Это результат того, что наши предки длительное время приспосабливались к игре в повторяющуюся дилемму заключенного. Мы не можем полностью и честно предпочесть исход (П, С) исходу (С, С), хотя можем полностью предпочесть исход (С, С) исходу (П, П) и исход (П, П) исходу (С, П). Мысль о сообщнике, проводящем три года в тюрьме, не может совсем не трогать нас.

В закрытой комнате, где под наблюдением специалистов по экономической психологии мы играем в простую игру, мы не можем совсем не симпатизировать незнакомцу, который может сотрудничать. Мы не можем быть полностью счастливы при мысли о том, что незнакомец выбрал сотрудничать, а мы — предавать, и благодаря этому мы получим пять долларов, а он не получит ничего.

Мы инстинктивно держимся за исход (С, С) и ищем способы увериться, что этот выбор разделяет и вторая сторона. Наша невольная мысль — «как бы убедиться, что сотрудничество взаимно», а не «как бы обмануть второго, чтобы он сыграл С, в то время как я сыграю П и получу максимальный выигрыш».

Для тех, кому важны альтруизм, честь и справедливость, дилемма заключенного не содержит по-настоящему критической платежной матрицы, безотносительно финансовых исходов для игроков. (С, С) предпочтительнее, чем (П, С), и ключевой вопрос — думает ли второй игрок так же.

И людям, которые только что познакомились с теорией игр, нельзя объяснить, что они должны притворяться полностью эгоистичными. Это ничуть не легче, чем объяснить людям, познакомившимся с идеей антропоморфизма, что они должны притворяться максимизаторами скрепок.

Для настоящей дилеммы заключённого ситуация должна быть примерно такой:

Игрок 1: Человек, дружественный искусственный интеллект или другой человекоподобный разум.
Игрок 2: Недружественнный искусственный интеллект, либо инопланетянин, который озабочен лишь раскладыванием камней в правильные кучи.

Представим, что четыре миллиарда людей — не всё человечество, но значительная его часть — страдает прогрессирующим смертельным заболеванием, которое может вылечить только Вещество.

Однако Вещество возможно производить, только взаимодействуя с максимизатором скрепок из параллельного мира — с помощью Вещества еще можно делать скрепки. Максимизатора скрепок волнует количество скрепок только в его мире, а не в нашем, так что мы не можем влиять на него, предлагая изготавливать или уничтожать скрепки здесь. Мы никогда раньше не имели дело с максимизатором скрепок и никогда больше не встретим его впредь.

У человечества и максимизатора скрепок есть только один шанс добыть себе немного Вещества, потому что щель между мирами скоро захлопнется. Однако, процесс добычи вещества приводит к потере его части.

Платежная матрица выглядит так:

1:С 1:П
2:С (спасти 2 миллиарда человеческих жизней, сделать 2 скрепки) (3 миллиарда жизней, 0 скрепок)
2:П (0 жизней, 3 скрепки) (1 миллиард жизней, 1 скрепка)

Я составил матрицу так, чтобы вызвать чувство негодования при мысли о том, что максимизатор скрепок хочет обменять миллиарды человеческих жизней на пару скрепок. Очевидно же, что максимизатор скрепок обязан отдать все Вещество нам. Но он делает не то, что обязан, а просто максимизирует количество своих скрепок.

В этом случае мы на самом деле предпочитаем исход (П, С) исходу (С, С), оставляя за скобками средства, которыми достигается цель. Мы намного охотнее предпочтем жить во вселенной, где три миллиарда людей спаслись и не было произведено ни одной скрепки, чем пожертвуем миллиардом жизней в обмен на изготовление двух скрепок. Кажется, что в этом случае сотрудничать просто неправильно. Предавать даже не кажется нечестным – ведь так велика жертва для нас и так мал выигрыш максимизатора скрепок! Уточним особо, что максимизатор скрепок не чувствует боль или удовольствие — он просто действует так, чтобы в его мире стало больше скрепок. Он не испытает радость, приобретя скрепки, не испытает боль, потеряв скрепки, и не оскорбится, если мы предадим его.

Что же ты сделаешь? Будешь ли сотрудничать, если искренне, целиком и полностью желаешь того огромного выигрыша, который можешь получить, и нисколько не озабочен ничтожной в сравнении с этим потерей второго игрока? Если предать кажется правильным, даже если второй игрок сотрудничает?

Именно так выглядит платёжная матрица для настоящей дилеммы заключённого. Настоящая дилемма заключённого — это ситуация, когда исход (П, С) кажется правильнее, чем (С, С).

Но вся остальная логика — что будет, если оба игрока так думают, и поэтому оба предадут — ничуть не меняется. Ведь максимизатор скрепок настолько же мало обеспокоен людскими смертями, болью или нашим ощущением предательства, как нас мало волнуют скрепки. Но обоим нам выгоднее (С, С), чем (П, П).

Если ты когда-нибудь гордился тем, что в дилемме заключенного выбрал сотрудничать, или однажды оспаривал вывод классической теории игр о том, что «рациональнее» предать — что ты скажешь об этой настоящей дилемме заключенного?

PS На самом деле, я не считаю, что рациональные агенты всегда должны предавать в однократной дилемме заключённого, в которой другой игрок выберет сотрудничать, если ожидает того же от вас. Я думаю, что есть ситуации, где два агента могут рационально прийти к (С, С), а не к (П, П) и получить соответствующую выгоду.

Часть своих доводов я изложил при обсуждении задачи Ньюкома. Однако, мы не можем рассуждать о том, возможно ли в этой дилемме рациональное сотрудничество, пока не избавимся от интуитивного ощущения, что исход (С,С) хорош сам по себе. Если мы хотим понять математику, мы должны научиться видеть сквозь социальный ярлык «взаимного сотрудничества». Если вы чувствуете, что с точки зрения Игрока 1 (С,С) гораздо лучше, чем (П,П), но не чувствуете, что при этом (П,С) гораздо лучше, чем (С,С), то вы пока не понимаете всю сложность этой задачи.


Перевод: 
Фёдор Ефремов, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
275
Оцените качество перевода: 
Средняя оценка: 4.3 (18 votes)
  • Короткая ссылка сюда: lesswrong.ru/366