Вы здесь

Главные вкладки

Скрытая сложность желаний

Элиезер Юдковский

Я желаю обитать в выбранном мною месте, обладать физически здоровой, целой и очевидно нормальной версией моего настоящего тела, содержащей моё текущее состояние сознания. Это тело будет исцеляться от любых повреждений со скоростью большей на три сигма от средней, учитывая доступные медицинские технологии, а также будет защищено от любых болезней и травм, инвалидности, боли или потери функций любого органа на более чем десять дней подряд или пятнадцати дней в сумме за год…

— Открытый проект «Желание», Желание бессмертия 1.1

Существует три вида джиннов: джинны, которых можно попросить «сделай то, что я должен пожелать», джинны, которых опасно просить о чём угодно, и джинны, которые не слишком могучи или не слишком разумны.

Представьте, что ваша пожилая мать находится в горящем доме, а вы прикованы к инвалидной коляске и не можете ей помочь. Вы можете кричать: «Вытащите мою маму из этого дома!», но вас никто не услышит.

Однако вам повезло: у вас в кармане лежит помпа исходов. Это полезное устройство сжимает поток времени, перекачивая вероятности из одних исходов в другие.

Помпа исходов не разумна. В ней содержится крохотная машина времени, которая перезапускает течение времени до тех пор, пока не происходит требуемое событие. Например, если бы вы подключили помпу исходов к монетке, указали бы в условиях перезапуск хода времени всегда, когда монетка выпадает решкой, а затем подбросили бы монетку, то вы бы увидели орла. (Физики скажут, что любое будущее, в котором происходит «перезапуск» будет противоречивым и, следовательно, не наступит, и поэтому вы не убиваете какие-либо версии самого себя.)

Какое бы условие вы не поставили помпе исходов, оно реализуется, не нарушая при этом законов физики. Если вы попробуете составить событие, наступление которого слишком маловероятно, то машина времени сломается до наступления этого события.

Также можно перенаправлять вероятностный поток более тонко, используя «функцию будущего» для масштабирования вероятности перезапуска времени для каждого из исходов. Если вероятность перезапуска 99% для орла и 1% для решки, то шансы упадут с 1:1 до 99:1 в пользу решки. Представим, что вы нашли загадочную машину, выплёвывающую деньги и хотите максимизировать их количество. В этом случае стоит изменить вероятности перезапуска так, чтобы они уменьшались в случае увеличения количества денег. Например, для выплюнутых 10 долларов назначить вероятность перезапуска 99,999999%, а для 100 долларов — 99,99999%. В итоге вы получите исход, стремящийся к наивысшему возможному значению в функции будущего, даже не зная, какой максимум допустим.

И вот вы в отчаянии выхватываете из кармана Помпу исходов — ваша мать всё ещё в горящем доме, помните? — и пытаетесь описать свою цель: вытащить мать из этого дома!

Пользовательский интерфейс помпы не понимает человеческого языка. Она же не разумна, помните? Но внутри есть 3D сканеры ближайшей местности и встроенные приложения для распознавания образов. Вот вы достаёте фото вашей матери по плечи, определяете положение её тела (а не только головы и плеч) и определяете функцию будущего через расстояние до центра дома. Чем больше это расстояние, тем меньше вероятность перезапуска машины времени. Крикнув на удачу «вытащи мою маму из этого дома!», вы нажимаете «Enter».

Мгновение ничего не происходит. Вы оглядываетесь в надежде увидеть подъезжающую пожарную машину или спасателей, или, в крайнем случае, быстрого сильного спортсмена, который вытащит вашу мать из здания…

Ба-бах! Под зданием с оглушительным грохотом взрывается газовая труба. Словно в замедленном повторе вы видите, как дом разваливается, и замечаете, как тело вашей матери поднимается в воздух и быстро удаляется от того, что раньше было центром дома.

На помпе исходов есть кнопка экстренного сожаления. По нажатию этой кнопки всем функциям будущего автоматически присваиваются большие по модулю отрицательные значения. Вероятность перезапуска времени оказывается близкой к единице, поэтому крайне маловероятно, что пользователь когда-либо будет опечален результатом работы помпы настолько, что нажмёт эту кнопку. Вы не помните ни одного случая, чтобы её приходилось нажать. И вот вы только тянетесь к ней (на что она теперь годится?), как с неба падает пылающее бревно и убивает вас.

Вряд ли вы заказывали именно это, но в указанной функции будущего очень вероятен именно такой исход.

Помпа исходов — это джинн второго типа. Ни одно желание не является безопасным.

Если вас попросят вытащить чью-то пожилую мать из горящего здания, вы можете помочь, а можете притвориться глухим. Но вам не придёт в голову это здание взорвать. «Вытащи мою маму из этого дома» звучит безопасно, поскольку планы, содержащие негативные последствия, даже не рассматриваются.

Вспомним трагедию группового отбора. Некоторые биологи раньше предполагали, что групповой отбор, способствующий уменьшению популяции, приведёт к индивидуальному ограничению спариваний. При лабораторном эксперименте же оказалось, что такой групповой отбор приводил к каннибализму, причём в первую очередь поедались неполовозрелые самки. Задним числом очевидно, что отбор происходит по признаку малого размера популяции, то каннибалы к нему приспособятся лучше, чем особи, добровольно отказывающиеся от репродуктивных возможностей. Однако поедание маленьких девочек было столь неприемлемо для Винна-Эдвардса, Алле, Бреретона и других сторонников группового отбора, что они просто о нём не подумали. Они видели лишь решения, которые использовали бы сами.

Предположим, мы попробуем исправить функцию будущего, уточнив, что помпе исходов не следует взрывать дом: те исходы, в которых куски здания будут распределены по слишком большому объёму, получат вероятность перезапуска времени примерно равную единице.

Поэтому ваша мать падает со второго этажа и ломает себе шею. Помпа исходов выбрала иной путь, формально точный, но он всё равно привёл к нежелательному результату. И опять это оказался путь, который никогда не выбрал бы человек.

Если бы открытый проект «Желание» разрабатывал желание по спасению матерей из горящих домов:

Я желаю переместить мою мать (определяемую как женщину, разделяющую половину моих генов и родившую меня) из границ ближайшего ко мне на данный момент горящего здания и при этом не использовать взрыв здания, не использовать падение стен здания, ведущее, в свою очередь, к исчезновению его границ, не использовать сценарий с пожарным, вытаскивающим тело моей матери из прогоревшего здания…

Все эти особые случай, кажущееся бесконечным число патчей программы, напоминают притчу об «искусственном сложении»: попытке написать арифметическую экспертную систему через явное перечисление высказываний вида «пятнадцать плюс пятнадцать равняется тридцати, но пятнадцать плюс шестнадцать равняется тридцати одному».

Как исключить исход, в котором здание взрывается и выбрасывает тело вашей матери в небо? Вы пытаетесь представить будущее, прогнозируете, что в таком случае она будет мертва, а вы не хотите подобных последствий и потому запрещаете события, ведущие к ним.

В вашем мозге не существует встроенных утверждений вида «взрыв горящего здания с моей матерью внутри — плохая идея». И всё же при этом вы пытаетесь явным образом встроить такое конкретное условие в функцию будущего помпы исходов. Из-за этого желание разрастается, превращаясь в гигантскую справочную таблицу с человеческими суждениями по каждой возможной траектории событий.

Вы просили не того, что хотели. Вы хотели, чтобы ваша мать выжила, а просили переместить её от центра здания.

Правда, это не всё, что вы хотели. Если бы её спасли из пожара со значительными ожогами, такой исход находился бы значительно ниже в вашем списке предпочтений по сравнению со спасением в целости и сохранности. А это значит, что вы цените не только её жизнь, но и здоровье.

А помимо её телесного здоровья вы цените ещё и психическое. Спастись и получить при этом психологическую травму — предположим, с рёвом из ниоткуда появится гигантский фиолетовый монстр и вытащит её — менее предпочтительно, чем если её по безопасному пути выведет пожарный. (Да, мы договорились не нарушать законов физики, но будем считать, что помпа исходов достаточно могущественна и рядом случайно окажется инопланетянин.) При этом, разумеется, появление монстра-спасителя предпочтительнее, чем сгореть заживо.

А что насчёт внезапно открывшейся червоточины, переносящей её на необитаемый остров? Такой исход гораздо лучше смерти, но хуже, чем быть живой, здоровой, без психологической травмы и разлуки с родными и прочим привычным кругом общения.

А будет ли приемлемым спасти мать ценой жизни любимой собаки, которая бросилась дать сигнал пожарным, но была впоследствии сбита машиной? Определенно да, но при всех прочих равных лучше избежать смерти собаки. Не хотелось бы обменивать жизни людей одну на другую, но что насчёт жизни осужденного за убийство? Будет ли иметь значение, если убийца погибнет, пытаясь спасти её по доброте душевной? А что насчёт двух убийц? Стоит ли жизнь вашей матери, например, разрушения всех существующих копий, включая воспоминания, «Малой органной фуги соль-минор» Баха? А если бы оказалось, что у неё смертельное заболевание и в течение 18 месяцев она всё равно умрёт?

Если часть перекрытия повредит стопу, будет ли приемлемо спасать всё остальное тело? А если голова повреждена, но тело нет? А что если всё тело раздавлено и только голова цела? Что если рядом ждёт команда криоников, готовая спасти голову? Замороженная голова — это личность? А Терри Шайво? Какова ценность жизни шимпанзе?

Мозг не бесконечно сложен: сложность по Колмогорову или иначе длина сообщения, достаточная для описания всех возможных суждений, конечна. Но конечность такой сложности не означает, что она мала. Мы ценим очень многое, и, нет, наши предпочтения не сводятся только лишь к счастью или к репродуктивной приспособленности.

Не существует безопасного желания, которое бы оказалось меньше всей полноты человеческой морали. Во времени слишком много возможных путей. Невозможно представить все траектории до пункта назначения, который вы описали джинну. «Максимизировать расстояние между моей матерью и центром здания» можно очень эффективно при помощи взрыва атомной бомбы. Или, если джинн достаточно силён, можно вообще удалить её тело за пределы Солнечной Системы. А если джинн ещё и достаточно разумен, то он может сделать нечто, о чём ни вы, ни я не смогли бы помыслить, точно также, как шимпанзе не смог бы помыслить о взрыве атомной бомбы. Нельзя создать программу, играющую в шахматы, записав в неё все возможные шахматные позиции. И аналогично нельзя представить все пути сквозь время.

Жизнь гораздо сложнее шахмат. Невозможно предсказать заранее, какие именно ценности окажутся для вас важными на траектории, выбранной джинном. Особенно в отношении желаний более долгосрочных или более глобальных, чем спасение матери из горящего здания.

Боюсь, открытый проект «Желание» обречен на провал. Его можно использовать лишь в качестве иллюстрации, как не стоит думать о задачах джиннам. Безопасным будет только джинн, разделяющий все ваши критерии суждения, и ему можно сказать «сделай то, чего мне стоит пожелать». Это просто-напросто запустит функцию «должен» джинна.

Этих слов должно оказаться достаточно. Чтобы джинн оказался безопасным исполнителем желаний, он должен разделять все ценности, которые привели вас к составлению желания. В противном случае, джинн может выбрать траекторию сквозь время, которая не приведёт к задуманной вами точке назначения или реализует план с ужасными побочными эффектами, которые вам даже не придут в голову. Желания — это дырявые обобщения, сделанными из гигантской, но всё же конечной структуры — всей вашей морали. Только определив эту структуру целиком можно избавиться от всех дыр.

А с безопасным джинном желания становятся избыточными. Вам остаётся лишь запустить его.

Перевод:

sepremento, Alaric

Ссылка на оригинал:

The Hidden Complexity of Wishes

Ссылка на оригинал на readthesequences.com:

The Hidden Complexity of Wishes

Номер в книге "Рациональность: от ИИ до зомби":

150

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/549