Хрупкие цели

Автор: 
Элиезер Юдковский

Убеждение в разумности

Элиезер Юдковский

Я не знаю, как во время шахматной партии походит Гарри Каспаров. Однако, что в этом случае означает моё убеждение «Каспаров очень разумен как шахматист» с точки зрения практики? Что именно я увижу в реальном мире, согласно моему убеждению? Не является ли оно хитро замаскированной формой полного невежества?

Чтобы подчеркнуть дилемму, предположим, что Каспаров играет против обычного шахматного гроссмейстера мистера Г, который не претендует на звание чемпиона мира. Моих способностей совершенно недостаточно, чтобы понять разницу между такими уровнями шахматного мастерства. Когда я пытаюсь угадать ход Каспарова или ход мистера Г, я могу лишь положиться на собственное скудное знание шахмат и попытаться угадать «лучший ход вообще». То есть для любой шахматной позиции я сделаю одинаковое предсказание как для хода Каспарова, так и для хода мистера Г. Так что же означает на практике моё убеждение о том, что «Каспаров играет в шахматы лучше, чем мистер Г»?

На практике моё убеждение – это проверяемое, фальсифицируемое предсказание, что итоговая шахматная позиция будет принадлежать классу позиций, которые означают победу Каспарова, а не ничью или победу мистера Г. (В данном контексте, если игрок сдаётся, то шахматная позиция считается проигранной.) Уровень убеждённости в том, что Каспаров - «лучший игрок», можно перевести в долю вероятностной массы, которую я присваиваю классу исходов «Каспаров побеждает» по сравнению с классами исходов «ничья» или «мистер Г побеждает». Эти классы очень расплывчаты, поскольку они описывают огромнейшее количество возможных позиций на доске. Однако утверждение «Каспаров побеждает» для нас гораздо более конкретно, чем максимум энтропии, потому что его можно фальсифицировать очень многими шахматными позициями.

Исход игры Каспарова предсказуем, потому что я знаю и понимаю цели Каспарова. Если мы ограничиваемся шахматной доской, я понимаю мотивацию Каспарова — я знаю его критерий успешности, его функцию полезности, его цель как оптимизационного процесса. Я знаю, куда Каспаров пытается направить будущее в конечном итоге и я ожидаю, что он достаточно силен, чтобы туда попасть, пусть даже я плохо представляю, как именно Каспаров собирается это сделать.

Представьте, что я приехал в далёкий город и какой-то мой тамошний друг вызвался отвезти меня в аэропорт. Я не знаю местности. На каждом перекрёстке я не знаю, повернёт мой друг налево, направо или поедет прямо. Я не могу предсказать, куда поедет мой друг даже для ближайшего перекрёстка и уж тем более не могу предсказать всю последовательность его решений.

И тем не менее, я могу предсказать результат непредсказуемых действий моего друга: мы прибудем в аэропорт. Даже если бы дом моего друга находился в другом месте и ему пришлось бы совершить абсолютно иную последовательность поворотов, я бы столь же уверенно предсказал наше прибытие в аэропорт. Я могу это предсказать задолго до события — даже до того, как сяду в автомобиль. Мой рейс вскоре отправляется, нельзя тратить время. Я бы не сел в машину, если бы не мог уверенно предсказать, что машина поедет в аэропорт по непредсказуемому маршруту.

Разве это не поразительно с научной точки зрения? Я могу предсказать исход процесса, хотя не умею предсказывать промежуточные шаги процесса.

Как это вообще возможно? Обычно люди предсказывают, воображая настоящее, а потом запуская визуализацию вперед во времени. Если вы хотите построить точную модель Солнечной Системы, которая учитывает планетарные возмущения орбиты, нужно начать с модели всех основных объектов и прогнать модель вперед во времени, шаг за шагом.

У некоторых простых задач есть лаконичное решение: чтобы вычислить будущее в момент времени Т, нужно потратить одинаковое количество работы, независимое от T. Монета покоится на столе и каждую минуту переворачивается. Монета лежит орлом вверх. Какая сторона будет сверху через сто минут? Очевидно, что вы не отвечаете на этот вопрос, представляя сто шагов. Вы используете частное решение, которое работало для предсказания исхода и также сработает для предсказания любого из промежуточных шагов.

Но когда друг везёт меня в аэропорт, я могу успешно предсказать исход, используя странную модель, которая не будет работать для предсказания любого из промежуточных шагов. Моя модель даже не требует ввода исходных условий — я могу не знать, откуда мы выезжаем!

На самом деле, мне нужно кое-что знать о друге. Мне надо знать, что мой друг хочет, чтобы я успел на рейс. Я должен верить, что мой друг достаточно хорошо умеет планировать, чтобы успешно довезти меня до аэропорта (если он хочет). Это свойства исходного состояния моего друга — свойства, которые позволяют мне предсказать конечный пункт, но не каждый отдельный поворот.

Также надо верить, что мой друг достаточно знает город, чтобы вести машину. Можно расценивать это, как отношение между другом и городом, то есть, свойство обоих. Это исключительно абстрактное свойство, которое не требует каких-то конкретных знаний ни о городе, ни о познаниях моего друга об этом городе.

Я показал один из способов взглянуть на предмет исследования, которому я посвятил свою жизнь: подобные примечательные ситуации, где мы оказываемся в странном положении с эпистемической точки зрения. В каком-то смысле мою работу можно рассматривать как попытку раскрыть точную форму этого странного абстрактного знания, с помощью которого мы, не зная действий, можем уверенно знать последствия.

«Интеллект» — это слишком узкий термин, чтобы достаточно полно описать эти примечательные ситуации. Я предпочитаю словосочетание «оптимизационный процесс». При изучении биологического естественного отбора мы наблюдаем схожую ситуацию: например, мы не в состоянии предсказать точную форму следующего наблюдаемого организма.

Однако моей специальностью является вид оптимизационного процесса, называемый «интеллектом». Точнее даже конкретный вид интеллекта, называемый «дружественным искусственным интеллектом». И я надеюсь получить о нём особенно точное абстрактное знание.

Перевод: 
sepremento, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
143
Оцените качество перевода: 
Средняя оценка: 4.3 (11 votes)

Люди в смешных нарядах

Элиезер Юдковский

Человек летал в космос неоднократно. Но каждый раз он обнаруживал, что в других звёздных системах обитают инопланетяне, удивительно похожие на людей в смешных нарядах. Иногда их от людей отличал лишь небольшой макияж и одежда из латекса, а иногда они и вовсе оказывались обычными светлокожими европиодами.

Капитан Кирк сражается с Горном на Цестусе III

«Звездный Путь: Оригинальный сериал», «Арена», © CBS Corporation

Удивительно, что за основу разумной жизни вселенная взяла человека, и именно из него посредством небольших изменений получились все прочие инопланетные виды.

Что могло бы объяснить это поразительное явление? Конечно же, сходимость эволюции! Ведь даже несмотря на отличающиеся условия среды тысяч планет и абсолютно независимо от земных инопланетные формы жизни эволюционировали теми же путями.

Пусть вас не сбивает с толку то, что кенгуру (млекопитающее) похоже на нас гораздо меньше, чем шимпанзе (примат), а лягушка (земноводные, как и мы, четвероногие) похожа на нас меньше, чем кенгуру. Пусть вас не сбивает с толку потрясающее разнообразие насекомых, которые на эволюционном дереве находятся ещё дальше от нас, чем лягушки. Пусть вас не сбивает с толку, что у насекомых шесть ног, внешние скелеты, другая система зрения и совершенно иные сексуальные практики.

Кто-то мог бы подумать, что поистине чуждые нам виды будут отличаться от нас ещё больше, чем мы отличаемся от насекомых. Это рассуждение тоже не должно сбивать вас с толку. Чтобы у инопланетного вида развился интеллект, у него должно быть две ноги с одним коленом, соединённых с прямым торсом, и он должен ходить примерно так же, как и мы. Видите ли, любому интеллекту необходимы руки, поэтому придётся переработать для этого пару ног, а если вы не начнёте с существа с четырьмя ногами, то оно не научится бегать и ходить на двух ногах, освободив руки.

…Или, возможно, в качестве альтернативной гипотезы нам следует допустить, что использование людей в смешных нарядах — это «легкий путь».

Но главное — это не форма, а сознание. «Люди в смешных нарядах» — это устоявшийся термин в среде поклонников научной фантастики, и он относится не к прямоходящим существам с четырьмя конечностями. Если угловатое существо из чистого кристалла мыслит поразительно похоже на человека — особенно человека из англоязычной культуры конца двадцатого/начала двадцать первого века, — это «человек в смешном наряде».

Я смотрел не так много старых фильмов. Несколько лет назад, когда я смотрел «Психо» (1960), я был поражен культурной пропастью между американцами на экране и современной мне Америкой. Персонажи «Психо» в рубашках на пуговицах казались мне значительно более чуждыми, чем подавляющее большинство так называемых «чужих» на телевидении или в кинотеатре.

Чтобы описать культуру, непохожую на твою собственную, нужно уметь видеть её как особый случай, а не как норму, к которой должны стремиться все остальные культуры. Здесь может помочь изучение истории, но это лишь черные буковки на белых страничках, а не настоящий опыт. Подозреваю, что год в Китае, или в Дубае, или среди жителей племени !Кунг помог бы больше… но я никогда этого не пробовал, был занят. Иногда я задумываюсь, чего я, возможно, не вижу (не там, а здесь).

Увидеть всё человечество как особый случай может быть гораздо сложнее.

Судя по всему, в любой известной культуре люди испытывают радость, печаль, страх, отвращение, гнев и удивление. В любой известной культуре эти эмоции сопровождаются одинаковыми выражениями лиц. И в следующий раз, когда вы увидите «пришельца» или «ИИ», спорю, что когда он рассердится (а он рассердится), то продемонстрирует характерное для человека сердитое выражение лица.

Внутри наших черепов мы очень похожи друг на друга — это следствие полового воспроизводства. Внутри одного вида не может быть разных сложных адаптаций, они просто не смогут собраться. (Размножаются ли инопланетяне половым путём, как люди и многие насекомые? Или у них, как у бактерий, очень мало общего генетического материала? Формируют ли они колонии, как грибы? Применим ли для них закон психологического единства?)

Нашим предкам приходилось манипулировать только одним видом разума (подразумеваются достаточно сложные манипуляции, сложнее приручения или ловли). Только один вид разума нашим предкам приходилось моделировать достаточно подробно. И этот вид разума работал более-менее таким же образом, как и их собственный. В итоге мы эволюционировали и предсказываем поведение другого разума, представляя себя на его месте, спрашивая, что бы мы сами сделали в аналогичной ситуации. Тот, чьё поведение нужно было предсказать, не слишком отличался от предсказывающего.

«Что?» — воскликнете вы. «Я не считаю других людей такими же, как я! Иногда я печалюсь, а они сердятся! Их убеждения не похожи на мои, они во всём не похожи на меня!» Предлагаю посмотреть на это с другой стороны. Человеческий мозг с физической точки зрения чрезвычайно сложно устроен. Вы не моделируете его по нейронам или по атомам. Если бы мы встретились с физической системой, настолько же сложной, сколь и человеческий мозг, учёным потребовались бы целые жизни, чтобы разобраться в ней. Вы не понимаете, как человеческий мозг работает в общем случае, вы не можете его создать, вы не можете даже построить компьютерную модель, которая будет предсказывать другой мозг не хуже вас.

Единственная причина, почему вы можете понять что-то настолько физически сложное и плохо изученное как мозг другого человека, заключается в том, что вы подстраиваете свой мозг, чтобы имитировать чужой. Вы испытываете эмпатию (хотя, вероятно, не симпатию). Вы накладываете на собственный мозг тень чужого гнева и тень чужих убеждений. Возможно, вы не проговариваете мысленно слова «Что бы я сделал на его месте?», но ваш мозг как-то оживляет эту маленькую тень чужого сознания внутри вас. При этом он использует те же сложные механизмы, которые существуют в другом человеке, синхронизирует работу частей, которые вы не понимаете. Вы можете не злиться сами, но вы понимаете, что если бы вы злились на себя и верили, что вы безбожная мразь, то вы бы попытались себя покалечить.

Такое «суждение через эмпатию» (как я буду его называть) у людей более-менее работает.

Но что насчёт разума с иными эмоциями, которых вы никогда не чувствовали? Или который не способен испытывать те же эмоции, что и вы? Вы не сможете представить себя на его месте. Я могу попросить вас представить пришельца, который вырос во вселенной с четырьмя пространственными измерениями вместо трёх, но у вас не получится перенастроить зрительную часть своей коры головного мозга и увидеть то, что видит он. Я могу попытаться написать рассказ о пришельцах с иными эмоциями, но ни у вас, ни у меня не получится их испытать.

Представьте пришельца, который смотрит комедию братьев Маркс и совершенно не понимает, что происходит на экране. Он даже не понимает, почему вы активно ищете чувственный опыт такого рода. Ведь он никогда не сталкивался с чем-то даже отдаленно похожим на чувство юмора. Не жалейте его — вы, в свою очередь, никогда не антлировали.

Возможно, вы спросите: что если у пришельцев есть чувство юмора, но ваши шутки недостаточно смешны? Примерно с тем же успехом можно в чужой стране говорить на своём языке очень медленно и громко в надежде, что у иностранцев непременно есть внутренний дух, который способен понять значение ваших слов — ведь оно от них неотделимо, — если у вас получится говорить достаточно громко, чтобы преодолеть неведомый барьер, мешающий понять ваш абсолютно ясный язык.

Важно учитывать, что смех может быть прекрасным и ценным, даже если он не повсеместен, даже если им обладают не все возможные разумы. Пусть он будет особой частью нашего вклада в завтра. Скорее всего, это тоже важно.

Хочется верить. Потому что я не вижу метаэтического решения, в котором бы поведенческие универсалии людей получилось расширить неограниченно, на разумы произвольной природы.

А что насчёт разума, архитектура которого эмоции вообще не предполагает? У которого нет ничего, похожего на наши эмоции? Не утруждайте себя придумыванием объяснений, почему у любого разума, достаточно мощного, чтобы создавать сложные механизмы, обязаны быть состояния, похожие на эмоции. Естественный отбор создает сложные механизмы, однако эмоций у него нет. Вот вам настоящий пришелец — оптимизационный процесс, который реально Работает Не Так Как Вы.

Прогресс в биологии после 1960-х годов в значительной степени был достигнут благодаря мораторию на очеловечивание эволюции. В академической среде шли масштабные бои по этому поводу, и я не уверен, что здравый смысл возобладал бы, если бы не появились ошеломительные экспериментальные доказательства, подкрепленные математическими выкладками. Потребовалась долгая, сложная, неравная битва, чтобы заставить людей прекратить ставить себя на место чужого. В отношении ИИ я веду такую же битву уже много лет.

Наш антропоморфизм зашит глубоко внутри нас и от него нельзя избавиться усилием воли. Нельзя просто сказать: «А теперь я перестану мыслить как человек!». Человечность — это воздух, которым мы дышим, наша бумага, на которой создаются наши наброски. Когда мы проявляем человечность, мы не думаем, что проявляем человечность.

В среде поклонников научной фантастики способность написать настоящих пришельцев давно считается признаком мастерства. (Это не должны быть непонятные пришельцы, которые ради своих загадочных целей совершают поступки, которых требует сюжет.) Одним из величайших мастеров такого рода был Джэк Вэнс. У него даже люди, если они принадлежат к другой культуре, более чужие, чем многие «пришельцы». (Если вы никогда не читали Вэнса, я рекомендую начать с «Города Кэшей».) Также упомяну «Мошку в зенице Господней» Нивена и Пурнелля.

И наоборот. Кто-то из фантастов (кажется, Орсон Скотт Кард) однажды сказал, что низшей точкой телевизионной научной фантастики стала серия «Звездного Пути», где параллельная эволюция создала пришельцев, которые не только выглядят как люди, не только говорят по-английски, но ещё и независимо записали слово в слово преамбулу к Конституции США.

Это и есть Великая Ошибка Воображения. Не думайте, что она относится только к научной фантастике или только к ИИ. Неспособность представить чужого — это неспособность увидеть самих себя. Неспособность понять, чем ты сам отличаешься от других. Кто разглядит человека, замаскированного под человека, на человеческом фоне?

Перевод: 
sepremento, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
144
Оцените качество перевода: 
Средняя оценка: 4.2 (25 votes)

Оптимизация и взрывное развитие интеллекта

Элиезер Юдковский

Понятие оптимизационного процесса входит в число тем, в которые я здесь пока не погружался. Примерно это понятие можно описать так: сила разума — это способность поражать небольшие цели в большом пространстве поиска, будь то область возможных вариантов будущего (планирование) или область возможных вариантов дизайна (изобретение).

Допустим, у вас есть машина, и допустим, мы знаем, что вам нравится путешествовать. Теперь предположим, что мы взяли все детали автомобиля — или даже все составляющие его атомы — и перемешали. Крайне маловероятно, что в итоге вообще получится средство передвижения. Ещё менее вероятно, что в итоге получится повозка на колёсах. И ещё менее вероятно, что в итоге получится средство передвижения, которое вам понравится больше, чем исходная машина. Поэтому для ваших предпочтений машина — чрезвычайно невероятный артефакт. Сила оптимизационного процесса — это способность создавать такой подвид невероятного.

И интеллект, и естественный отбор можно рассматривать как особые случаи оптимизации: эти процессы в большой области поиска поражают очень маленькие цели, определённые неявными предпочтениями. Естественный отбор предпочитает более эффективных воспроизводителей. У человеческого интеллекта более сложные предпочтения. Ни у эволюции, ни у людей нет последовательных функций полезности, поэтому представление о них как об «оптимизационных процессах» в какой-то мере аппроксимация. Смысл здесь в том, чтобы вникнуть, какая именно работа тут выполняется, а не заявить, что люди или эволюция выполняют её идеально.

Именно так я вижу историю жизни и разума — это история невероятно хорошего дизайна, созданного оптимизационными процессами. Термин «невероятный» используется здесь как невероятный с точки зрения случайного выбора из области возможных вариантов дизайна, а не в абсолютном смысле. Если у вас есть оптимизационный процесс, то «невероятно» хороший дизайн становится вероятным.

Изучая историю оптимизации на Земле от начала и до нынешнего времени, в первую очередь нужно отделить метауровень от уровня объекта — отделить структуру оптимизации от того, что именно оптимизируется.

Если рассматривать биологию в отсутствие гоминидов, то на объектном уровне окажутся существа вроде динозавров, бабочек и кошек. На метауровне будут такие явления, как половая рекомбинация и естественный отбор бесполых популяций. Можно заметить, что объектный уровень гораздо сложнее, чем метауровень. Естественный отбор непрост, и для его описания требуется математика. Но если мы посмотрим на анатомию целой кошки, то мы увидим структуру, которая значительно сложнее, чем «мутировать, рекомбинировать, воспроизвести».

И это неудивительно. Естественный отбор — это случайно возникший оптимизационный процесс, который по сути однажды запустился где-то в первичном бульоне. А кошка — это результат миллионов и миллиардов лет эволюции.

Конечно, у кошек есть мозг, и он учится на протяжении всей её жизни. Но когда жизнь кошки заканчивается, вся накопленная информация исчезает. Поэтому общее влияние кошачьих мозгов на этот мир в качестве оптимизаторов довольно мало.

Или, например, возьмём мозг пчелы и мозг бобра. Пчела строит улья, бобр строит плотины, но им не надо разбираться с нуля, как их строить. Бобр не сможет придумать, как построить улей, пчела не сможет понять, как построить плотину.

Поэтому мозги животных — до недавних пор — не играли хоть сколько-то важную роль на оптимизационной сцене планеты. Они были фигурами, не игроками. По сравнению с эволюцией мозги не могли применять оптимизационную силу достаточно универсально (эволюция создавала потрясающее разнообразие всего) и не могли применять её, опираясь на предыдущие достижения (их творения не накапливали сложность со временем). Подробнее на эту тему написано в эссе «Белковое подкрепление и консеквенциализм ДНК».

Совсем недавно мозг некоторых животных научился создавать огромное количество разных артефактов за время, которое по меркам естественного отбора слишком мало, то есть, приобрёл универсальность. Также, благодаря умениям говорить и писать, он научился создавать артефакты с увеличивающейся сложностью, то есть, его оптимизационная сила начала накапливаться.

Чтобы создать что-то новое и сложное, естественному отбору требуются сотни поколений и миллионы лет. Программисты иногда создают сложный механизм с сотней взаимозависимых элементов за утро. Это неудивительно, ведь естественный отбор — это случайно возникший оптимизационный процесс, а человек — это оптимизированный оптимизатор, сформировавшийся за миллионы лет естественного отбора.

Чудо эволюции не в том, что она работает хорошо, а в том, что она работает без оптимизации. Оптимизация вообще появилась во вселенной из крайне неэффективного случайного оптимизационного процесса (что неудивительно). Обратите внимание, я сейчас говорю не о первых репликаторах, а о первичном процессе естественного отбора. Не путайте объектный и мета- уровни!

Со времени появления оптимизации во вселенной у естественного отбора и человеческого разума появились некоторые общие свойства…

Естественный отбор выбирает гены, но, грубо говоря, гены впоследствии не оптимизируют естественный отбор. Изобретение половой рекомбинации (как и изобретение клеток и ДНК) — исключение из правила. Силу и редкость подобных изобретений можно оценить, обратив внимание на то, что эволюционные биологи выстраивают вокруг них всю историю жизни на Земле.

Однако, если посмотреть на естественный отбор с человеческой точки зрения — особенно с точки зрения программиста, — то в нём нет ничего сложного. Попытаемся соединять гены в группы? Попытаемся хранить информацию отдельно, движущиеся части отдельно? Попытаемся пересобирать группы генов случайным образом? Любой толковый хакер, задумавшийся о системной архитектуре, придумает что-нибудь подобное минут за десять.

Горстка просочившихся с уровня репликаторов улучшений на метауровне — в которых нет ничего сложного по сравнению с анатомией кошки, — оказала огромное влияние на историю эволюции на Земле именно потому, что естественный отбор был столь неэффективен вначале (как совершенно случайный процесс).

И в конечном итоге естественный отбор — это по-прежнему слепой безумный бог. Генофонд может эволюционировать к вымиранию, несмотря на половое размножение и наличие клеток.

Сейчас естественный отбор поддерживает сам себя: каждая адаптация открывает возможности для новых адаптаций. Но это уровень объектов. Генофонд поддерживается собственной сложностью. Однако это происходит только благодаря запущенному в фоновом режиме защищённому интерпретатору естественного отбора, который сам по себе в процессе эволюции видов остаётся неизменным.

Аналогично люди развивают науки и технологии, но пока ещё не приступили к изменению структуры своего мозга. У нас, как и у изобретателей земледелия, есть префронтальная кора головного мозга, височные доли и мозжечок. Мы не модифицируем свои гены. На объектном уровне наука подпитывает науку, а каждое открытие даёт дорогу новым открытиям, но всё это работает через запущенный в фоновом режиме защищённый интерпретатор человеческого мозга.

Иногда у нас получаются прорывы на метауровне: открытия, как научить других людей думать, например, научный подход. Однако первооткрыватель теоремы Байеса не стал байесианцем, он не смог переписать свой софт, у него для этого не хватало знаний и возможностей. Самые значительные изобретения в искусстве мышления, вроде письма или научного подхода, определили ход истории человечества. Однако они не могут сравниться по сложности с мозгом, а их влияние на него относительно невелико.

Современные тренировки по рациональности не способны превратить произвольного смертного в Альберта Эйнштейна. То есть влияние нескольких небольших генетических вариаций превосходит все книги по самопомощи, написанные за двадцатый век.

Мозг тихонько работает в фоновом режиме, и потому люди часто воспринимают его как должное, и думают, что простые руководства вроде «проверяйте идеи при помощи экспериментов» или правила об уровне значимости p < 0.05 дают вклад примерно такого же порядка. Попробуйте посоветовать шимпанзе проверять свои идеи экспериментами, посмотрим, что у вас получится.

Сейчас некоторые из нас хотят применить интеллект, чтобы сконструировать интеллект, который с помощью интеллекта будет изменять себя прямо на уровне машинного кода.

Защищённым уровнем в каком-то смысле станет в первую очередь машинный код, ну и законы физики. Но такие «защищённые уровни» не будут реализовывать оптимизацию, не будут определять структуру выполненной работы. Как бы человека не учили в школе, его мозг всё равно занимается какой-то своей оптимизацией и делает какие-то свои ошибки. А у нашего нового рекурсивного оптимизатора вообще не будет защищённых уровней, связанных с оптимизацией. Всё, что в нём связано с оптимизацией, само будет оптимизироваться.

И именно этим искусственный интеллект кардинально отличается от всего, что произошло на Земле со времён первого репликатора. У нас больше нет защищённого метауровня.

Пока все оптимизаторы в истории Земли работали с постоянной скоростью, создавали постоянное оптимизационное давление. При этом результаты оптимизации появлялись не с постоянной скоростью, а с ускорением, потому что каждое новшество на объектном уровне открывает дорогу к другим новшествам. Однако это ускорение достигалось благодаря защищённому метауровню, который и отвечал за процесс оптимизации. Представьте себе поиск перебором, когда в области поиска происходят переходы из одного кластера в другой, хорошие кластеры часто соседствуют с ещё лучшими, но мы всё равно не можем перепрыгнуть в слишком далёкий кластер и «длина прыжка» никак не меняется. Иногда какие-то мелкие изменения — вроде полового размножения или науки — попадают обратно на метауровень, и после этого в истории оптимизации начинается новая эпоха и всё ускоряется.

Представьте экономику без инвестиций, или университет без языка, или, в общем случае, технологию без инструментов для создания инструментов. Раз в сто миллионов лет или раз в пару столетий, кто-нибудь да изобретёт молоток.

Именно так выглядела оптимизация на Земле до настоящего времени.

Когда я думаю об истории Земли, я воспринимаю её как историю черного ящика, в который на вход подаётся оптимизационная сила, а на выходе получаются оптимизированные продукты. Из-за почти полностью защищённых метауровней пока возможно поделить историю оптимизации на эпохи. Внутри каждой эпохи можно рассмотреть накапливаемую со временем оптимизацию на объектном уровне, ведь защищённый уровень исполняется в фоновом режиме и на протяжении эпохи не меняется.

Что же произойдёт, когда мы создадим рекурсивно улучшающий себя ИИ? Тогда можно будет взять график работы черного ящика «оптимизация на входе, оптимизированное на выходе» и сложить его сам в себя. Образно говоря.

Если ИИ слаб, он ничего не делает, поскольку он недостаточно силен, чтобы значительно улучшить себя. С тем же успехом можно приказать шимпанзе переписать свой мозг.

Если же ИИ достаточно силён, чтобы переписать себя и увеличить свою возможность создавать дальнейшие улучшения, а также если он способен полностью понять свой исходный код и своё устройство как оптимизатора… Тогда даже если зависимость между «оптимизационной силой» на входе и «оптимизированными продуктами» на выходе останется прежней, график оптимизации от времени будет выглядеть совершенно иначе, нежели сейчас.

Мне часто возражают примерно так: «Но что если для создания улучшений, возрастающих линейно, потребуется экспоненциально возрастающее количество работы по самомодификации?». Напрашивается ответ: «В процессе создания человека естественный отбор оказывал на ветку гоминидов примерно постоянное оптимизационное воздействие и не похоже, чтобы ему требовалось экспоненциально больше времени на каждое линейное приращение в качестве».

Но это всего лишь суждение по аналогии. Полноценный ИИ, обдумывающий природу оптимизации, проводящий собственные исследования и пишущий собственный код будет не просто историей Земли свернутой в себя, а чем-то совершенно иным. Аналогии в лучшем случае подходят для качественных прогнозов, но даже в этом случае, у меня ещё есть множество иных неразъяснённых убеждений, влияющих на выбор аналогий.

Однако главная причина, почему я не хочу проецировать графики биологического и экономического роста в будущее за горизонт создания ИИ, который мыслит со скоростью транзиторов, изобретает самовоспроизводящиеся молекулярные нанофабрики и улучшает собственный код, заключается в следующем: не нужно строить график зависимости оптимизированного продукта на выходе от времени. Важна зависимость оптимизированного продукта на выходе от оптимизационной силы на входе.

Перевод: 
sepremento, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
145
Оцените качество перевода: 
Средняя оценка: 4.3 (8 votes)

Призраки в машине

Элиезер Юдковский

Одна из трёх наиболее популярных реакций на идею дружественного искусственного интеллекта такова:

«Вы, конечно, можете велеть ИИ быть дружественным, но если он способен модифицировать свой собственный исходный код, то он просто уберёт все наложенные вами ограничения».

И откуда же это решение возьмётся?

Возникнет ли оно вопреки причинности, не будучи закономерной частью цепочки причин и следствий, начавшейся с изначально написанного исходного кода? Является ли ИИ источником своей собственной свободной воли?

Дружественный ИИ это не эгоистичный ИИ, сдерживаемый отдельным модулем совести, который противостоит естественным желаниям ИИ, заставляя поступать определённым образом. Вы создали сознание, и оно и есть ИИ. Если у вас есть программа, вычисляющая, какой поступок ИИ следует предпринять, ваша работа по созданию ИИ закончена. Фишка дальше не идёт.

Сейчас я приведу несколько цитат с сайта «Компьютерные глупости» по теме «Программирование». (Я не привожу ссылку на сам сайт, так как это ужасная поглощающая время ловушка. Можете гуглить на свой страх и риск).

___________________________________________________________
Я вёл занятия по программированию у студентов колледжа. Некоторые из них не понимали, что компьютер неразумен. В своих программах на Паскале, они оставляли комментарии вроде: «Теперь мне нужно вывести эти буквы на экран». Я спросил одного из них, зачем они так поступают. Студент ответил: «Как ещё компьютер поймёт, что я хочу от него?». Видимо, они полагали, что раз они сами не понимают Паскаль, то компьютер тоже не понимает.
___________________________________________________________
Учась в колледже, я преподавал в школьной математической лаборатории. Однажды ученик подошёл ко мне и пожаловался, что его программа на Бейсике не запускается. Это было задание из курса для начинающих: написать программу, которая бы вычисляла рецепт овсяного печенья, в зависимости от числа людей, для которых вы его печёте. Я взглянул на код его программы и увидел примерно следующее:

10 Разогреть духовку дo 350
20 Поместить все ингредиенты в большую миску
30 Размешивать до получения однородной массы
___________________________________________________________
Студент вводного курса по программированию однажды попросил меня помочь разобраться, почему в результате простого вычисления его программа всегда выдаёт нули. Я взглянул на код программы и ответ был очевиден:

begin
read(«Number of Apples», apples)
read(«Number of Carrots», carrots)
read(«Price for 1 Apple», a_price)
read(«Price for 1 Carrot», c_price)
write(«Total for Apples», a_total)
write(«Total for Carrots», c_total)
write(«Total», total)
total = a_total + c_total
a_total = apples * a_price
c_total = carrots * c_price
end

Я: «Ну, твоя программа не может вывести правильный результат до того, как его вычислит».
Он: «Но ведь понятно же, каким должен быть ответ, почему компьютер не может просто переставить инструкции в правильном порядке?»
___________________________________________________________

Интуитивно люди строят представление о «программировании ИИ» на основе ситуации, которая вроде бы похожа: сказать другому человеку, что ему делать. И поэтому им кажется, будто «программа» даёт указания маленькому призраку, сидящему внутри машины, а тот их изучает и решает, нравятся ли они ему или нет.

Но нет никакого призрака, изучающего инструкции и решающего, следовать им или нет. Программа — это и есть ИИ.

Поэтому призрак не будет исполнять все ваши желания, подобно джину. Поэтому призрак не будет делать всё, что вы хотите и именно так, как вы этого хотите, подобно невероятно покорному рабу. В машине нет никакого призрака, кроме ваших команд, по крайней мере, на момент загрузки.

ИИ куда сложнее, чем интуитивно кажется людям, именно потому, что вы не можете просто сказать призраку, что ему делать. Вам необходимо построить этого призрака с чистого листа, и всё, что кажется вам само собой разумеющимся, вовсе не будет таковым для призрака, если только вы не знаете, как заставить призрака осознать эту очевидность. Вы не можете просто сказать призраку осознать её. Вы должны создать осознающую штуку с нуля.

Если вы не знаете, как создать нечто, наделённое странными, невыразимыми свойствами вроде «принятия решений», то вы не можете просто пожать плечами и предоставить призраку возможность разобраться самостоятельно. Вы одни. Нет никакого призрака.

Создание шахматной программы — это не просто создание действительно быстрого процессора, который позволит ИИ быть очень умным, а затем ввод в командную строку: «Делай те шахматные ходы, которые ты считаешь лучшими». Можно было бы подумать, что раз программисты не слишком хорошо играют в шахматы сами, любой совет, который они попытаются дать электронному супермозгу, лишь замедлит призрака. Но нет никакого призрака. В том-то и проблема.

И нет никакого простого заклинания, произнесение которого могло бы — пуф! — и призвать полноценного призрака в машину. Нельзя сказать: «Я призвал призрака, и он появился — вот вам и причина и следствие». Это не сработает даже если вместо слова «призыв» использовать понятия «эмердженция» или «сложность». Нельзя дать команду процессору: «Будь хорошим шахматистом!» Вам придётся заглянуть за завесу тайны игры в шахматы и создать призрака с чистого листа.

Не важно, насколько какое-то свойство или способность кажется вам самоочевидным, логичным или правильным. Оно не появится внутри призрака. Единственное возможное исключение: это свойство будет результатом причинно-следственной цепочки, начавшейся с команд, которые ввели именно вы, а также какой-либо зависимости от входных данных, которую вы встроили в эти команды.

Это не значит, что вам нужно явно задать для компьютера каждый поступок. Deep Blue играет в шахматы гораздо лучше, чем его программисты. Его ходы превосходят всё, что его создатели могли явно в него запрограммировать, но не потому что программисты просто предоставили призраку придумывать их. Шахматные ходы Deep Blue намного лучше, чем возможные ходы его программистов, потому что так получилось в результате цепочки причин и следствий, которая началась с кода, написанного этими программистами, и продолжалась в соответствии с законами природы. Никакой ход Deep Blue не сделал просто потому, что этот ход настолько очевидно хорош, что призрак решил его сделать без какой-либо связи с исходным кодом и закономерными последствиями из него.

Если вы отказываетесь связывать ИИ ограничениями, вы не получите свободного призрака — кого-то похожего на освобождённого раба. У вас будет лишь кучка песка, из которой так никто и не получил кремний, из которого так никто и не создал процессор и не запрограммировал его думать.

Давайте, попробуйте сказать компьютеру: «Делай все, что тебе захочется». К чему это приведёт? Ни к чему. Потому что вы не связали его ограничениями, необходимыми, чтобы понимать свободу.

Всё, что для это требуется, кажется настолько очевидным, настолько логичным, настолько само собой разумеющимся, что ваш разум просто пропускает все эти шаги, и вы сразу же покидаете путь создателя ИИ. Чтобы ваш разум не скатывался на эту дорожку, требуется особое усилие (похожее усилие я описал в эссе «Пытаясь ухватить ускользающее»).

Перевод: 
Горилла В Пиждаке
Номер в книге "Рациональность: от ИИ до зомби": 
146
Оцените качество перевода: 
Средняя оценка: 4.4 (15 votes)

Искусственное суммирование

Элиезер Юдковский

Предположим, что люди совершенно не понимали бы, как именно они выполняют арифметические действия. Вообразим мир, где люди получили возможность считать овец в результате эволюции, а не научились этому навыку. И люди используют эту врождённую способность, не понимая, как именно она работает, точно так же, как Аристотель не понимал, каким образом зрительная кора его головного мозга позволяет ему что-то видеть. Арифметика Пеано в известном нам виде так и не изобретена. Философы пытаются формализовать свои интуитивные представления о действиях с числами, но они используют формулировки вроде:

Сложить(Семь, Шесть) = Тринадцать

чтобы формально описать интуитивно очевидный факт, что, когда вы складываете «семь» и «шесть», то, конечно же, получается «тринадцать».

В этом мире карманные калькуляторы хранят в памяти огромную справочную таблицу арифметических фактов для всех значений от нуля до ста, введённых вручную командой экспертов по Искусственному Вычислению. И хотя такие калькуляторы на практике иногда полезны, многие философы утверждают, что подобные устройства лишь симулируют вычисления. Никакая машина не может считать по-настоящему — именно поэтому людям необходимо сперва сосчитать тринадцать овец, прежде чем записать «тринадцать» в калькулятор. Калькуляторы могут показывать сохранённые в них факты, но они не понимают, что именно они делают. Если ввести «две тысячи плюс две тысячи», калькулятор выдаст: «Ошибка: Превышен предел допустимых значений». Хотя интуитивно очевидно, что если понимать, что именно означают введённые слова, то ответ: «четыре тысячи».

Некоторые философы, конечно же, не настолько наивны, и такими рассуждениями их с толку не сбить. В действительности числа — это исключительно формальная система: ярлык «тридцать семь» имеет смысл не из-за какого-то неотъемлемого свойства самих слов, а потому что он отсылает к тридцати семи овцам во внешнем мире. Число приобретает свой смысл в результате нахождения внутри семантической сети связей с другими числами. Вот почему в компьютерных программах LISP токен «тридцать-семь» не нуждается в какой-либо внутренней структуре – он имеет смысл лишь в результате отсылок и связей, а не какой-либо самостоятельной вычислительной характеристики «тридцати-семи».

Никто ещё не смог создать Сильный Искусственный Вычислитель, хотя, конечно же, есть множество узконаправленных Искусственных Вычислителей, которые, например, работают на множестве чисел от «двадцати» до «тридцати». И если посмотреть на то, как медленно движется прогресс в отношении чисел порядка «двухсот», становится очевидным, что в ближайшее время Сильный Искусственный Вычислитель не появится. Лучшие эксперты в области предполагают, что потребуется не меньше ста лет, прежде чем калькуляторы смогут складывать не хуже двенадцатилетнего ребёнка.

Однако не все согласны с данной оценкой или же с всего лишь общепринятыми убеждениями касательно Искусственного Вычисления. Вполне распространены и следующие взгляды:

  • «Это проблема окружения. То, чему равно „двадцать один плюс“, зависит от того, идёт речь о „плюс три“ или „плюс четыре“. Если мы сможем загрузить в калькулятор достаточно арифметических фактов, чтобы покрыть все общеизвестные истины, то вскоре сможем увидеть в системе и настоящее сложение».
  • «Но вы никогда не сможете запрограммировать достаточное количество арифметических фактов, нанимая экспертов, которые будут вводить их вручную. На самом деле нам нужен Искусственный Вычислитель, который сможет научиться всей обширной сети связей между числами, которую люди приобретают в течение детства, наблюдая за кучками яблок».
  • «Нет, на самом деле нам нужен Искусственный Вычислитель, способный понимать естественные языки. Тогда в него не придётся явно вводить, что двадцать один плюс шестнадцать равно тридцать семь — он сможет получить эту информацию из Интернета».
  • «Честно говоря, создаётся впечатление, что вы просто-напросто пытаетесь убедить самих себя, словно вы способны решить данную проблему. Никто из вас в действительности не знает, что такое арифметика, и вы просто перебираете привычные фразы, вроде: „Нам нужен ИИ, способный выучить X“, „Нам нужен ИИ, который способен извлечь X из Интернета“. В смысле, это звучит хорошо, появляется впечатление, будто вы делаете какие-то успехи. Это хорошо в плане связей с общественностью, так как всем кажется, что они понимают предлагаемое решение. Но, на самом деле, это не приближает вас к суммированию в общем виде в противовес к узкоспециализированному суммированию. Не исключено, что мы никогда не сможем познать фундаментальную природу арифметики. Эта задача просто слишком сложна для людей».
  • «Именно поэтому нам нужно разработать Сильного Вычислителя тем же способом, что и природа - посредством эволюции».
  • «Подход „сверху вниз“ определённо продемонстрировал свою неспособность создать арифметику. Нам нужно использовать подход „снизу вверх“, каким-то образом заставить арифметику просто возникнуть. Необходимо признать принципиальную непредсказуемость сложных систем».
  • «Вы все неправы. Предыдущие попытки создать машинную арифметику были заранее обречены на провал просто потому, что вычислительных мощностей не хватало. В человеческом мозге триллионы синапсов — очевидно, что в калькуляторы нельзя загрузить настолько большие справочные таблицы. Нам необходимы калькуляторы настолько же мощные, как и человеческий мозг. Согласно закону Мура, они появятся в 2031 году, 27 апреля, между 4.00 и 4.30 утра».
  • «Полагаю, что машинная арифметика появится, когда исследователи просканируют каждый нейрон человеческого мозга. Таким образом мы сможем симулировать на компьютере биологические нейронные связи, которые и позволяют людям складывать числа».
  • «Не думаю, что нам необходимо ждать сканирования всего мозга. Нейронные сети ничем не отличаются от человеческого мозга и их можно натренировать делать что-нибудь без понимания того, как они этого делают. Так мы сможем научить программы заниматься арифметикой, даже если мы, их создатели, так и не разберёмся, как им это удаётся».
  • «Но теорема Гёделя показывает, что никакая формальная система не сможет вместить в себе основные свойства арифметики. Классическая физика формализуема, поэтому, чтобы сложить два и два, мозг должен использовать особенности квантовой физики».
  • «Эй, если бы арифметику можно было воспроизвести в компьютере, мы бы не умели считать достаточно хорошо, чтобы построить компьютер».
  • «Разве вы не слышали о „китайском калькуляторе“, мысленном эксперименте Джона Сёрла? Даже если бы у вас был огромный набор правил, позволяющий складывать „двадцать один“ и „шестнадцать“, просто представьте, что произойдёт, если перевести все слова на китайский язык. Сразу становится понятным, что подлинного сложения не происходит: нигде в системе нет настоящих чисел, есть лишь ярлыки, которые люди используют для их обозначения…»

Из этой притчи можно вывести несколько моралей, и в разных контекстах я её рассказывал по разным причинам. В частности, она демонстрирует идею уровней организации. Скажем, процессор может складывать два больших числа, потому что числа — это упорядоченные структуры из 32 бит, а не непроницаемые черные ящики.

Но для целей преодоления искажений1, обратим внимание на следующие две морали:

  • Во-первых, опасно полагаться на утверждения, которые вы не способны вывести самостоятельно.
  • Во-вторых, опасно игнорировать собственное непонимание базовых вопросов.

Дабы не быть обвиненным в обобщении на основании вымышленного свидетельства отмечу, что оба эти урока могут быть получены и из реальной истории исследований искусственного интеллекта.

Первая опасность — это конкретная проблема, с которой сталкиваются устройства ИВ. Они функционируют подобно диктофонам, проигрывающим «знания», полученные извне системы, используют процесс, который они сами не способны воспроизвести. Человек может сказать устройству ИВ, что «двадцать один плюс шестнадцать равно тридцать семь», и ИВ может записать это и в нужный момент повторит. Или даже распознать шаблон «двадцать один плюс шестнадцать» и вывести «тридцать семь!». Однако ИВ не в состоянии генерировать подобное знание самостоятельно.

И это очень сильно напоминает ситуацию, где кто-то верит физику, говорящему: «Свет – это волны», запоминает эту восхитительную последовательность слов, а затем повторяет её, когда кто-то спросит: «Что такое свет?», но при этом не способен создать такое знание самостоятельно.

Вторая мораль говорит об ловушке более высокого уровня, которая поглотила исследователей Искусственного Вычисления и прочих интересующихся этим вопросом людей. Если в ваших знаниях зияет дыра, опасно пытаться её просто обойти. Нужно сжать зубы и трудиться изо всех сил, чтобы заполнить эту чёртову дыру. Но люди часто делают, что угодно, только не это.

Когда вы говорите: «Дело в эмерджентности!» или же «Это непознаваемо!», — вы не отдаёте себе отчёт в существовании основополагающего знания, которое вполне можно постигнуть, но вы это просто пока не сделали.

Откуда вам знать, когда появится основополагающее знание? Нет иного способа обрести его, кроме как упорно биться головой о задачу, изучать со всех мыслимых сторон всё, что имеет к ней отношение, возможно, годами. В академических кругах такой подход не одобряется, ведь вы должны публиковать статьи хотя бы раз в месяц. Наверняка венчурные капиталисты не дадут денег за такое изучение. Вы хотите либо пойти напролом и построить что-то прямо сейчас, либо сдаться и заняться чем-нибудь ещё.

Взгляните на комментарии выше. Ни один из них не нацелен на приобретение недостающего понимания, в результате которого числа перестали бы быть таинственными, которое превратило бы «тридцать-семь» во что-то большее, чем чёрный ящик. Ни один из комментаторов не понял, что сложности порождаются их собственным непониманием, а не какими-то присущими арифметике свойствами. Они не пытались достичь того состояния, когда непонятное перестаёт быть непонятным.

Если вы прочтёте книгу Джуды Перла «Вероятностные рассуждения в интеллектуальных системах: Сети правдоподобных выводов»2, то увидите, что для решения соответствующих проблем совершенно необходимо понимать, что лежит в основе графовых моделей. (Боюсь, объяснение, о чём здесь идёт речь, длиннее надписей на футболках, поэтому вам придется прочитать книгу самостоятельно. В интернете мне не встречались научно-популярные материалы, адекватно описывающие принципы, лежащие в основе байесианских сетей или же важность того, что математические выкладки именно такие, какие есть, но книга Перла восхитительна). Когда-то были дюжины «немонотонных логик», хоть как-то пытающихся формализовать интуиции вроде: «Если сигнализация сработала, то, скорее всего, в дом пытается пробраться грабитель, однако если после этого я узнаю, что около моего дома произошло небольшое землетрясения, то, скорее всего, дело не в грабителе». Поняв графовые модели, вы сможете математически объяснить, почему логика первого порядка не подходит для этой задачи, и записать верное решение в простом и удобном виде, причём это решение элегантно учтёт все нюансы бытовой интуиции и здравого смысла. Но пока у вас нет этого понимания, в попытках привести логику в соответствие «очевидно истинному» вы будете лишь лепить на неё многочисленные заплатки и добавлять тут и там «костыли».

Вы не можете наверняка знать, что проблема Искусственного Вычисления неразрешима, если вы не понимаете её суть. Если вы не знаете правил, то вы не знаете и о правиле, которое гласит, что вы должны знать правила, чтобы что-нибудь сделать. Именно из-за этого появляется все эти гениальные идеи, вроде создания Искусственного Вычислителя, способного понимать естественные языки и скачивать миллионы арифметических утверждений из интернета.

И «почему-то» эти гениальные идеи никогда не срабатывают. Почему-то всё время оказывается, что вы «не видите причин, почему это может не сработать» не из-за того, что их нет, а из-за собственного невежества. Это похоже на стрельбу вслепую по далёкой цели. Вы можете делать выстрел за выстрелом и кричать: «Никто не докажет, что я не попаду в центр мишени!». Однако, пока вы не снимете повязку с глаз, вы не способны прицелиться. Когда «никто не может доказать», что ваша драгоценная идея на самом деле не верна, это значит лишь то, что у вас недостаточно информации, чтобы попасть по небольшой цели в широком пространстве возможных ответов. Если вы не знаете, что ваша идея работает, то она не работает.

Из истории открытий в области Искусственного Интеллекта и жуткой путаницы, царившей до них, я вывожу важный жизненный урок: «Если основная проблема — это ваше невежество, то при попытках придумать хитрый способ, как его игнорировать, вы лишь выстрелите себе в ногу».

  • 1. В оригинале здесь присутствует игра слов. Юдковский использует словосочетание «overcoming bias», что совпадает с исходным названием блога, где появлялись эти эссе. — Прим.перев.
  • 2. Judea Perl, «Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference». Книга не переводилась на русский язык — Прим.перев.
Перевод: 
Горилла В Пиджаке
Номер в книге "Рациональность: от ИИ до зомби": 
147
Оцените качество перевода: 
Средняя оценка: 4.5 (15 votes)

Ценности терминальные и инструментальные

Элиезер Юдковский

Интуитивно кажется, что любой человек при планировании ведёт себя так, будто умеет различать цели и средства. Хочется шоколада? Шоколад продаётся в супермаркете «Пабликс». Чтобы попасть в супермаркет, нужно проехать одну милю на юг по проспекту Вашингтона. Чтобы проехать эту милю, нужно сесть в машину. Чтобы открыть дверь, нужны ключи от машины. И вы кладёте ключи от машины в карман, собираетесь выйти из дома…

… и тут внезапно по радио сообщают, что землетрясение уничтожило весь шоколад в местном «Пабликсе». И нет смысла ехать в «Пабликс», если там нет шоколада, и нет смысла садиться в машину, если вы никуда не едете, и нет смысла в ключах от машины в кармане. Поэтому вы вытаскиваете ключи из кармана, звоните в местную службу доставки пиццы и заказываете там шоколадную пиццу. М-м-м, вкусно.

Я редко сталкиваюсь с тем, что люди теряют нить плана, который они сами же и разработали. Обычно люди не едут в супермаркет, если знают, что шоколада там нет. Но при этом я часто замечаю, что когда люди не просто хотят чего-то, а явно описывают свою систему целей — говорят о целях, а не пытаются их достичь, — они часто путаются. Люди хорошо планируют, но они не специалисты по планированию1. Если бы это было не так, в мире было бы гораздо больше разработчиков ИИ.

В частности, я замечаю, что люди путаются — в абстрактных философских дискуссиях, а не в обычной жизни, — когда обсуждают разницу между целями и средствами. Более формально: разницу между «инструментальными ценностями» и «терминальными ценностями».

Насколько я понимаю, часть проблемы заключается в том, что человеческий мозг использует для отслеживания своих целей отдельную систему, которая работает, но не идеально. В нашем языке нет чёткого разделения между целями и средствами: предложения «Я хочу спасти жизнь моей сестры» и «Я хочу сделать моей сестре укол пенициллина» содержат одно и то же слово «хочу».

Можем ли мы описать утерянную разницу на обычном человеческом языке?

Давайте попробуем:

«Инструментальные ценности» нужны нам исключительно потому, что мы ожидаем, что они повлекут ожидаемые нами последствия. «Я хочу сделать моей сестре укол пенициллина» не потому, что сестра с пенициллином внутри это нечто хорошее само по себе, а потому что ожидаю, что пенициллин вылечит её от пожирающей плоть пневмонии. Если бы вы ожидали, что укол пенициллина приведёт к тому, что ваша сестра растает как Злая Ведьма Запада, вы бы дрались изо всех сил, чтобы спасти её от пенициллина.

«Терминальные ценности» нужны нам без какой-либо связи с другими последствиями. «Я хочу спасти жизнь моей сестре» никак не связано с тем, будет ей сделан после этого укол пенициллина или нет.

У этой первой попытки есть очевидные проблемы. Если спасение жизни моей сестры приведёт к тому, что Землю поглотит чёрная дыра, я порыдаю некоторое время, но не буду делать ей укол пенициллина. Означает ли это, что спасение жизни моей сестры не является «терминальной ценностью» (не имеет ценность само по себе), ведь теоретически оно может повлечь какие-то последствия? Возможно, я пытаюсь спасти ей жизнь лишь из убеждения, что впоследствии Землю не поглотит чёрная дыра? Интуиция подсказывает, что дело не в этом.

Поэтому оставим в покое обычный язык. Мы можем математически описать теорию принятия решений так, чтобы терминальные и инструментальные ценности оказались независимыми и несовместимыми типами — как целые числа и числа с плавающей запятой в языках программирования, где нет автоматической конвертации между ними.

Идеальную байесианскую систему принятия решений можно построить всего лишь на основе четырёх элементов:

  • Исходы: тип Исход[]
    • перечень возможных исходов
    • {сестра живёт, сестра умирает}
  • Действия: тип Действие[]
    • перечень возможных действий
    • {сделать укол пенициллина, не делать укол пенициллина}
  • Функция_полезности: тип Исход -> Полезность
    • функция полезности, которая ставит в соответствие каждому исходу его полезность
    • (полезность описывается действительным числом между минус- и плюс-бесконечностью)
    • {сестра живёт: 1, сестра умирает: 0}
  • Функция_условной_вероятности: тип Действие -> Исход -> Вероятность
    • функция условной вероятности описывает вероятностное распределение по исходам для каждого действия
    • (вероятность описывается действительным числом от 0 до 1)
    • {сделать укол пенициллина: сестра живёт, 0,9; сестра умирает: 0,1;; не делать укол пенициллина: сестра живёт: 0,3; сестра умирает: 0,7}

А что насчёт самой системы принятия решений?

  • Ожидаемая_полезность: Действие Д -> (Сумма И из Исходы: Полезность(И) * Вероятность(И|Д))
    • «Ожидаемая полезность» действия равна сумме по всем исходам от полезности исхода, помноженной на условную вероятность исхода при выполнении этого действия.
    • {ОП(сделать укол пенициллина) = 0,9; ОП(не делать укол пенициллина) = 0,3}
  • Выбрать: -> (Argmax Д из Действий: Ожидаемая_Полезность(Д))
    • Выбрать действие, «ожидаемая полезность» которого максимальна.
    • {результат: сделать укол пенициллина}

Для каждого действия вычислите условную вероятность всех возможных последствий, затем сложите полезности, помноженные на условные вероятности. Затем выберите лучшее действие.

Это математически простой набросок системы принятия решений. Вычислять решение в реальном мире таким образом не эффективно.

Например, что будет, если план требует выполнить некую последовательность шагов? Построенный формализм может легко описать такую ситуацию, при этом Действие будет обозначать всю последовательность. Но при этом получится экспоненциально большое пространство вариантов, похожее на пространство всех предложений, состоящих из 100 букв. Если одним из возможных первых шагов будет «Отстрелить себе ногу», человек решит, что это в любом случае плохая идея, и выбросит все последовательности, начинающиеся с этого шага. Но в нашем представлении мы упрощаем эту структуру. У нас нет последовательностей шагов, есть лишь просто «действия».

В общем, да, есть «несколько небольших сложностей». Собственно, если бы их не было, мы бы могли просто создать таким способом настоящий ИИ. В каком-то смысле таковым ИИ и была бы сама байесовская теория вероятностей.

Однако всё равно это пример ситуации, когда гораздо лучше сначала рассмотреть простой до абсурдности вариант, а уж потом добавлять всякие навороченные усложнения.

Рассмотрим философа, который заявляет: «Все мы, в сущности, эгоисты. Мы заботимся лишь о том, что у нас в голове. Мать, которая заявляет, что волнуется о благополучии сына, на самом деле хочет верить, что с её сыном всё в порядке. Её делает счастливой это убеждение. Она помогает сыну ради своего счастья, а не ради его счастья». Вы отвечаете: «Предположим, мать жертвует своей жизнью, чтобы вытолкнуть сына из под колёс едущего грузовика. Этот поступок не делает её счастливой, она просто погибает». Философ запинается на секунду, затем возражает: «Но она всё равно это делает, потому что этот выбор ей нравится больше других, потому что она присвоила этому решению большую важность».

И на это вы говорите:

ОШИБКА ТИПОВ: Конструктор для Ожидаемая_Полезность -> Полезность не найден.

Позвольте мне объяснить этот ответ.

Даже наш простой формализм чётко показывает различие между ожидаемой полезностью, которая является свойством действия, и полезностью, которая является свойством исхода. Да, конечно, вы можете перевести и полезность, и ожидаемую полезность в действительные числа. Но это тоже самое, что перевести в действительные числа скорость ветра и температуру — они не становятся от этого одной и той же сущностью.

Философ начинает спор с утверждения, что полезность является функцией от исходов, составляющих состояние нашего разума. Если это правда, то наш разум будет действовать как машина, которая направляет будущее в те области, где мы счастливы. Будущие состояния при этом различаются только по состоянию разума. Если в каких-то двух разных будущих у вас одинаковое состояние ума, вам всё равно, какое из них предпочесть.

И в этом случае вы действительно вряд ли станете жертвовать своей жизнью, чтобы спасти чужую.

Когда мы возражаем, что люди иногда всё-таки жертвуют своими жизнями, философ переключается на обсуждение ожидаемой полезности от действий: «Она присвоила этому решению большую важность». Именно из-за этого неожиданного переключения мы должны подпрыгнуть от возмущения. В нашем языке программирования попытка преобразовать Ожидаемая_полезность в Полезность сразу же вызовет ошибку. Но в обычном человеческом языке и то, и другое кажется одним понятием.

В нашей простой системе принятия решений мы выбираем те действия, которым соответствует наивысшая Ожидаемая_полезность. Но это ничего не говорит о том, в какое именно будущее мы хотим попасть. Ожидаемая полезность ничего не говорит о полезностях, которые назначает принимающий решение, или об исходах, которые скорее всего произойдут в реальном мире. Она ничего не говорит о разуме как о машине, направляющей куда-то будущее.

Физической причиной физического действия является состояние разума. Для нашего идеального принимателя решений таким состоянием является Ожидаемая_полезность, которая вычисляется через функцию полезности от воображаемых последствий. Чтобы спасти жизнь сына, вы должны представить событие, при котором жизнь сына спасена. Воображаемое событие само по себе не является событием. Оно оказывается в кавычках, тут такая же разница, как между «снегом» и снегом. Но это не означает, что то, что находится в кавычках должно само быть состоянием разума. Если вы выбираете действие, которое ведёт к будущему, которое вы представляете как «мой сын по-прежнему жив», то вы работаете машиной, которая направляет будущее в ту область, где ваш сын по-прежнему жив. Не машиной, которая направляет будущее в область, где вы представляете предложение «мой сын по-прежнему жив». Чтобы направлять будущее в эту область, ваша функция полезности должна возвращать высокое значение при входных данных « „мой сын по-прежнему жив“ », когда стоят двойные кавычки, когда речь идёт о том, как вы воображаете себя воображающим такой исход. У вас получится плохой торт, если вы измельчите рецепт и бросите его в тесто.

Именно поэтому полезней сначала рассмотреть простую систему принятия решений. Если в неё внести достаточно усложнений, различия, хорошо заметные ранее, будет увидеть сложнее.

А теперь давайте рассмотрим некоторые усложнения. Очевидно, что функция полезности (отображающая исходы в полезность) нужна, чтобы формализовать то, что раньше я обозначил как «терминальные цели», цели, которые никак не связаны с их последствиями. Что у нас теперь получается с примером, когда спасение жизни вашей сестры приводит к тому, что чёрная дыра уничтожает Землю? В нашем формализме мы эту возможность упрощаем. Исходы не ведут к исходам, к исходам ведут только действия. Выздоровление вашей сестры от пневмонии, за которым следует уничтожение Земли чёрной дырой, становится одним «возможным исходом».

А где в этом простом формализме оказываются «инструментальные ценности»? А они полностью исчезают! Понимаете, в этом формализме действия ведут к исходам без каких-то промежуточных событий. Мы здесь не рассматриваем камень, который летит сквозь воздух, попадает в яблоко на дереве, в результате чего оно падает на землю. Бросок камня — это действие. Оно ведёт к исходу, в котором яблоко лежит на земле — в соответствии с функцией условной вероятности, которая превращает действия напрямую в распределение вероятностей по исходам.

Для того, чтобы на самом деле вычислить функцию условной вероятности, и для того, чтобы отдельно рассмотреть полезность сестры с пневмонией и чёрной дыры, поглощающей Землю, мы должны представить структуру причинно-следственных связей — как именно одни исходы ведут к другим.

И тут возвращаются инструментальные ценности. Если причинно-следственная сеть в достаточной степени «регулярна», возможно, вы обнаружите, что состояние B, скорее всего, ведёт к C. Тогда, если вы по каким-то причинам хотите достичь С, вы можете сперва запланировать достичь В, которое ведёт к С, а затем запланировать достичь А, которое ведёт к В. В этом весь смысл «инструментальных ценностей»: В является «инструментальной ценностью», потому что ведёт к С. С само по себе может считаться терминальной ценностью, аргументом функции полезности из пространства исходов. Или С может быть просто инструментальной ценностью, узлом, который невозможно оценить с помощью функции полезности напрямую.

Инструментальные ценности в этом формализме служат исключительно для эффективного планирования. Если нужной «регулярности» нет, от них можно и нужно избавиться.

Например предположим, что есть какое-то конкретное значение В, которое не ведёт к С. Предпримите вы действие А, которое ведёт к этому В? Или отбросим абстрактную философию. Если вы хотите попасть в супермаркет ради шоколада, и вы хотите поехать в супермаркет, и вам нужно попасть в машину, будете вы выламывать дверь машины паровым экскаватором? (Нет.) Инструментальные ценности — это «дырявые абстракции» (это словосочетание из нашего программистского жаргона). Иногда закэшированную ожидаемую полезность нужно выкидывать и вычислять заново. Чтобы быть эффективным и не самоубиться при этом, нужно в том числе замечать, когда привычные ходы перестают работать. Хотя описываемый формализм использует инструментальные ценности, они нужны только в тех случаях, когда присутствует необходимая «регулярность» и исключительно для удобства вычислений.

Однако если некто усложняет формализм до того, как понял простую версию, он иногда начинает думать, что инструментальные ценности живут какой-то своей странной жизнью, причём даже в нормативном смысле. В смысле, если сказать, что В — обычно хороший поступок, потому что он ведёт к С, то следует всегда пытаться сделать В — даже в отсутствие С. Занимаясь абстрактной философией, люди часто допускают такую ошибку, хотя в реальной жизни они никогда не выламывают дверь своей машины паровым экскаватором. Не понимая простой вариант формализма люди иногда думают, что невозможно появление консеквенциалиста, который максимизирует лишь генетическую приспособленность — ведь он умрёт от голода, если у него нет явной терминальной ценности «питаться». Люди совершают эту ошибку, хотя сами никогда не стоят целый день возле открытой машины из страха оказаться в ней запертой — ведь у них же нет терминальной ценности открывать дверь машины.

Инструментальные ценности обитают в функции условной вероятности. Из-за этого инструментальные ценности напрямую зависят от убеждений о поведении функции полезности. Если я убеждён, что пенициллин вызывает пневмонию, а отсутствие пенициллина её лечит, то для меня инструментальная ценность пенициллина упадёт. Убеждения меняются — меняется функция условной вероятности, которая связывает действия с ожидаемыми последствиями. И вместе с ней меняются и инструментальные ценности.

Когда люди спорят о морали, то иногда они спорят об инструментальных последствиях, а иногда — о терминальных ценностях. Если ваш оппонент заявляет, что запрет на ношение личного оружия ведёт к снижению количества преступлений, а вы утверждаете, что запрет на ношение оружия ведёт к увеличению количества преступлений, то вы согласны по поводу высшей инструментальной ценности (преступления — это плохо), но не согласны по вопросу, какое промежуточное событие ведёт к каким последствиям. Однако в споре о женском обрезании, как мне кажется, вряд ли у оппонентов есть общие представления о том, как справедливо обращаться с женщинами или как сделать их счастливее.

Во время особо яростных споров на это важное различие часто никто не обращает внимание. Люди, у которых есть общие ценности и разногласие по поводу фактов, приходят к мысли, что их оппонент наверняка социопат. Мол, если он выступает за ограничение/легализацию оружия, значит, он на самом деле хочет убивать людей. С точки зрения психологии это довольно не реалистично.

Боюсь, человеческий мозг не слишком хорошо видит различие между терминальными и инструментальными ценностями в вопросах морали. «Мы должны запретить оружие» и «Мы должны спасать жизни людей» выглядят схожими убеждениями о морали по своей форме. Хотя в остальном человеческая система целеполагания усложняет практически всё, именно это различие превращается в мешанину разных штук с условными ценностями.

Чтобы выделить терминальные ценности, нам нужно разобраться в этой мешанине ценных штук и понять, ценность каких из них привязана к чему-то ещё. Это очень сложно! Если вы говорите, что хотите запретить ношение оружия для того, чтобы уменьшить число преступлений, может потребоваться время, чтобы понять, что «уменьшение числа преступлений» — это не терминальная ценность, это более высокая инструментальная ценность, которая связана с терминальной ценностью человеческой жизни и человеческого счастья. А у человека, который защищает право на ношение оружия, это право может быть связано с более высокой инструментальной ценностью «уменьшение числа преступлений», а также с ценностью «свободы», которая может быть терминальной ценностью или ещё одной инструментальной ценностью…

Мы не в состоянии распечатать полную «сеть», как одни наши ценности выводятся из других ценностей. Скорее всего, мы даже не помним всю историю, откуда эти ценности взялись. Часто мы можем это понять, размышляя над правильными моральными дилеммами: «Сделаете ли вы Х в случае Y?» Но если вы всерьёз захотите понять, какие у вас терминальные ценности, на вашем пути встретится множество ловушек: запутывающих дилемм и сомнительных философских аргументов. Мы не знаем свои ценности и откуда они взялись. Мы можем это узнать лишь копаясь в наших процессах познания, а при этом мы обязательно будем ошибаться. Довольно сложно даже просто научиться сознательно различать понятия «терминальные ценности» и «инструментальные ценности», отслеживать, что они значат, и использовать их правильно. Только исследуя наш простой формализм мы можем понять, как это теоретически просто могло бы быть.

И я здесь ещё не касаюсь сложностей, связанных с человеческой системой вознаграждения — наших механизмов подкрепления. Есть шоколад приятно, предвкушать поедание шоколада приятно, но это разные случаи приятности…

Однако я не слишком горюю из-за всех этих сложностей.

Не знать собственные ценности — не всегда забавно. Но уж точно не скучно.

  • 1. Автор здесь ссылается на текст Робина Хансона «Expert At Versus Expert On». — Прим.перев.
Перевод: 
Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
148
Оцените качество перевода: 
Средняя оценка: 4.7 (12 votes)

Дырявые обобщения

Элиезер Юдковский

Съедобны ли яблоки? Обычно да, но некоторые яблоки гнилые.

Сколько у людей пальцев? Обычно десять, однако многие люди пальцы теряли, а их всё равно считали людьми.

Практически любое обобщение в реальном мире окажется «дырявым»1. Единственный способ этого избежать — спуститься на уровень, который гораздо ниже макроскопических объектов. Ниже сообществ, людей, пальцев, тканей, клеток. На уровне частиц и полей законы и впрямь универсальны.

(Впрочем, возможно, есть некоторые исключения…)

В обычной жизни дырявые обобщения нужно просто как-то учитывать. Если вы идёте за печеньем в кондитерскую, которая почти всегда работает до 10 вечера, кроме дня благодарения, когда она работает до 6 вечера, а сегодня внезапно как раз день геноцида коренных американцев, то лучше бы дойти до неё до шести, иначе не будет вам печенья.

Нам сложно иметь дело с дырявыми обобщениями из-за нашего стремления к однозначности 2. Хочется раз и навсегда сказать, что у людей десять пальцев, и мы огорчаемся, когда приходится мириться с неоднозначными ситуациями.

Когда ставки растут, стремление к однозначности часто растёт следом. И из-за этого мы отказываемся разбираться в сложном вопросе именно тогда, когда это нужно больше всего.

Даже если бы мы всегда хотели чего-то простого (а это не так), жизнь была бы сложна. Дырявость дырявых обобщений при решении вопроса, что делать дальше, проистекала бы из-за дырявой структуры реального мира. Это можно сформулировать иначе:

У инструментальных ценностей часто нет компактного локального описания.

Представим ящик с миллионом долларов. Ящик закрыт, но не обычным кодовым замком, а с помощью механизма, управляемого дюжиной клавиш. Если вы понимаете, как работает механизм, то вы сможете подобрать последовательность клавиш и открыть ящик. Причём ящик открывается не единственной последовательностью, а неверная последовательность сожжёт деньги. Если вы ничего не знаете о механизме, то простые правила вроде «нажатие любой кнопки три раза откроет ящик» или «нажатие пяти разных кнопок без повторений сожжёт деньги» вам не помогут.

Существует компактное нелокальное описание последовательности клавиш: нажать те клавиши, которые откроют ящик. Написать компактную программу, которая определит правильные и неправильные последовательности, можно, но эта программа должна описывать механизм, а не сами клавиши.

Аналогично, существует локальное, но не компактное описание последовательности клавиш: колоссальная таблица с результатами для каждого возможного сочетания клавиш. Это очень большая компьютерная программа и в ней не упоминается ничего, кроме клавиш.

При этом невозможно коротко, используя только язык клавиш, описать, какие последовательности окажутся хорошими, плохими или нейтральными.

Хуже того, могут обнаружиться заманчивые обобщения, которые окажутся дырявыми. Например, представим, что для большинства клавиш нажатие их три раза подряд открывает ящик, но существует клавиша, любое нажатие на которую сжигает деньги. Вы можете решить, что нашли идеальное обобщение — компактно описанный класс последовательность, который всегда открывает ящик — а окажется, что вы не учли какие-то варианты работы машины или значимость неких побочных эффектов.

В данном примере механизм — это метафора для сложности реального мира. Открытие ящика (что хорошо) и сжигание денег (что плохо) представляют собой тысячи осколков желаний, из которых состоят наши терминальные ценности. Клавиши олицетворяют собой доступные нам действия, стратегии и правила.

Если задуматься, сколько существует способов оценить исходы и насколько сложны пути, ведущие к ним, удивительно, что вообще существует какие-либо этические рекомендации. (Из которых наиболее странной, но при этом полезной является «цель не оправдывает средства»)

И наоборот, сложность действий не обязательно свидетельствует о сложности цели. Часто встречаются люди, которые мудро улыбаются и приговаривают: «Ну, мораль — это сложная штука. Знаете ли, женское обрезание может быть правильным в одной культуре и неправильным в другой, да и вообще, пытать людей не всегда плохо. Если вы думаете, что существуют простые правила, вы довольно наивны и слишком сильно стремитесь к однозначности».

Можно заявить прямо и безусловно, что любое убийство имеет отрицательную полезность. Да, даже убийство Гитлера. Это не означает, что не стоит убивать Гитлера. Это означает, что общая полезность убийства Гитлера складывается из огромной отрицательной полезности его смерти и гораздо большей положительной полезности всех спасенных жизней.

Многие люди совершают ошибку, о которой я предупреждал в эссе «Ценности терминальные и инструментальные»: они думают, что если результирующая ожидаемая полезность последствий смерти Гитлера оказывается положительной, то мгновенная локальная терминальная полезность его смерти также является положительной. А это, в свою очередь, означает, что принцип «смерть — это всегда плохо» оказывается дырявым обобщением. Ошибка здесь в том, что полезность учитывается дважды. От ожидаемой полезности вы опять возвращаетесь к полезности, хотя рассуждения должны идти от полезности к ожидаемой полезности.

Впрочем, возможно, люди просто стремятся к односторонним политическим спорам. У лучших правил не должно быть недостатков.

В рамках моей моральной философии локальная полезность смерти Гитлера постоянна и отрицательна, независимо от внешних последствий и, соответственно, ожидаемой полезности.

Разумеется, можно составить моральный аргумент, будто наказывать злых людей — даже применять смертную казнь для достаточно злых людей — есть добро. Однако такой аргумент нельзя подкрепить тем, что, застрелив человека, направившего на кого-то оружие, мы, возможно, спасаем другие жизни. Ведь это апелляция к ценности жизни, а не ценности смерти. Даже если ожидаемые полезности запутанные и дырявые, это ещё не означает, что сами полезности — тоже запутанные и дырявые. Они могут быть таковыми! Но это уже другой разговор.

  • 1. Юдковский здесь использует отсылку к термину «leaky abstraction», который на русский язык обычно переводят как «дырявые абстракции». — Прим.перев.
  • 2. В оригинале используется термин «closure». Часто его переводят как «завершённость». – Прим. перев.
Перевод: 
sepremento, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
149
Оцените качество перевода: 
Средняя оценка: 4.7 (7 votes)

Скрытая сложность желаний

Элиезер Юдковский

Я желаю обитать в выбранном мною месте, обладать физически здоровой, целой и очевидно нормальной версией моего настоящего тела, содержащей моё текущее состояние сознания. Это тело будет исцеляться от любых повреждений со скоростью большей на три сигма от средней, учитывая доступные медицинские технологии, а также будет защищено от любых болезней и травм, инвалидности, боли или потери функций любого органа на более чем десять дней подряд или пятнадцати дней в сумме за год…

Открытый проект «Желание», Желание бессмертия 1.1

Существует три вида джиннов: джинны, которых можно попросить «сделай то, что я должен пожелать», джинны, которых опасно просить о чём угодно, и джинны, которые не слишком могучи или не слишком разумны.

Представьте, что ваша пожилая мать находится в горящем доме, а вы прикованы к инвалидной коляске и не можете ей помочь. Вы можете кричать: «Вытащите мою маму из этого дома!», но вас никто не услышит.

Однако вам повезло: у вас в кармане лежит помпа исходов. Это полезное устройство сжимает поток времени, перекачивая вероятности из одних исходов в другие.

Помпа исходов не разумна. В ней содержится крохотная машина времени, которая перезапускает течение времени до тех пор, пока не происходит требуемое событие. Например, если бы вы подключили помпу исходов к монетке, указали бы в условиях перезапуск хода времени всегда, когда монетка выпадает решкой, а затем подбросили бы монетку, то вы бы увидели орла. (Физики скажут, что любое будущее, в котором происходит «перезапуск» будет противоречивым и, следовательно, не наступит, и поэтому вы не убиваете какие-либо версии самого себя.)

Какое бы условие вы не поставили помпе исходов, оно реализуется, не нарушая при этом законов физики. Если вы попробуете составить событие, наступление которого слишком маловероятно, то машина времени сломается до наступления этого события.

Также можно перенаправлять вероятностный поток более тонко, используя «функцию будущего» для масштабирования вероятности перезапуска времени для каждого из исходов. Если вероятность перезапуска 99% для орла и 1% для решки, то шансы упадут с 1:1 до 99:1 в пользу решки. Представим, что вы нашли загадочную машину, выплёвывающую деньги и хотите максимизировать их количество. В этом случае стоит изменить вероятности перезапуска так, чтобы они уменьшались в случае увеличения количества денег. Например, для выплюнутых 10 долларов назначить вероятность перезапуска 99,999999%, а для 100 долларов — 99,99999%. В итоге вы получите исход, стремящийся к наивысшему возможному значению в функции будущего, даже не зная, какой максимум допустим.

И вот вы в отчаянии выхватываете из кармана Помпу исходов — ваша мать всё ещё в горящем доме, помните? — и пытаетесь описать свою цель: вытащить мать из этого дома!

Пользовательский интерфейс помпы не понимает человеческого языка. Она же не разумна, помните? Но внутри есть 3D сканеры ближайшей местности и встроенные приложения для распознавания образов. Вот вы достаёте фото вашей матери по плечи, определяете положение её тела (а не только головы и плеч) и определяете функцию будущего через расстояние до центра дома. Чем больше это расстояние, тем меньше вероятность перезапуска машины времени. Крикнув на удачу «вытащи мою маму из этого дома!», вы нажимаете «Enter».

Мгновение ничего не происходит. Вы оглядываетесь в надежде увидеть подъезжающую пожарную машину или спасателей, или, в крайнем случае, быстрого сильного спортсмена, который вытащит вашу мать из здания…

Ба-бах! Под зданием с оглушительным грохотом взрывается газовая труба. Словно в замедленном повторе вы видите, как дом разваливается, и замечаете, как тело вашей матери поднимается в воздух и быстро удаляется от того, что раньше было центром дома.

На помпе исходов есть кнопка экстренного сожаления. По нажатию этой кнопки всем функциям будущего автоматически присваиваются большие по модулю отрицательные значения. Вероятность перезапуска времени оказывается близкой к единице, поэтому крайне маловероятно, что пользователь когда-либо будет опечален результатом работы помпы настолько, что нажмёт эту кнопку. Вы не помните ни одного случая, чтобы её приходилось нажать. И вот вы только тянетесь к ней (на что она теперь годится?), как с неба падает пылающее бревно и убивает вас.

Вряд ли вы заказывали именно это, но в указанной функции будущего очень вероятен именно такой исход.

Помпа исходов — это джинн второго типа. Ни одно желание не является безопасным.

Если вас попросят вытащить чью-то пожилую мать из горящего здания, вы можете помочь, а можете притвориться глухим. Но вам не придёт в голову это здание взорвать. «Вытащи мою маму из этого дома» звучит безопасно, поскольку планы, содержащие негативные последствия, даже не рассматриваются.

Вспомним трагедию группового отбора. Некоторые биологи раньше предполагали, что групповой отбор, способствующий уменьшению популяции, приведёт к индивидуальному ограничению спариваний. При лабораторном эксперименте же оказалось, что такой групповой отбор приводил к каннибализму, причём в первую очередь поедались неполовозрелые самки. Задним числом очевидно, что отбор происходит по признаку малого размера популяции, то каннибалы к нему приспособятся лучше, чем особи, добровольно отказывающиеся от репродуктивных возможностей. Однако поедание маленьких девочек было столь неприемлемо для Винна-Эдвардса, Алле, Бреретона и других сторонников группового отбора, что они просто о нём не подумали. Они видели лишь решения, которые использовали бы сами.

Предположим, мы попробуем исправить функцию будущего, уточнив, что помпе исходов не следует взрывать дом: те исходы, в которых куски здания будут распределены по слишком большому объёму, получат вероятность перезапуска времени примерно равную единице.

Поэтому ваша мать падает со второго этажа и ломает себе шею. Помпа исходов выбрала иной путь, формально точный, но он всё равно привёл к нежелательному результату. И опять это оказался путь, который никогда не выбрал бы человек.

Если бы открытый проект «Желание» разрабатывал желание по спасению матерей из горящих домов:

Я желаю переместить мою мать (определяемую как женщину, разделяющую половину моих генов и родившую меня) из границ ближайшего ко мне на данный момент горящего здания и при этом не использовать взрыв здания, не использовать падение стен здания, ведущее, в свою очередь, к исчезновению его границ, не использовать сценарий с пожарным, вытаскивающим тело моей матери из прогоревшего здания…

Все эти особые случай, кажущееся бесконечным число патчей программы, напоминают притчу об «искусственном сложении»: попытке написать арифметическую экспертную систему через явное перечисление высказываний вида «пятнадцать плюс пятнадцать равняется тридцати, но пятнадцать плюс шестнадцать равняется тридцати одному».

Как исключить исход, в котором здание взрывается и выбрасывает тело вашей матери в небо? Вы пытаетесь представить будущее, прогнозируете, что в таком случае она будет мертва, а вы не хотите подобных последствий и потому запрещаете события, ведущие к ним.

В вашем мозге не существует встроенных утверждений вида «взрыв горящего здания с моей матерью внутри — плохая идея». И всё же при этом вы пытаетесь явным образом встроить такое конкретное условие в функцию будущего помпы исходов. Из-за этого желание разрастается, превращаясь в гигантскую справочную таблицу с человеческими суждениями по каждой возможной траектории событий.

Вы просили не того, что хотели. Вы хотели, чтобы ваша мать выжила, а просили переместить её от центра здания.

Правда, это не всё, что вы хотели. Если бы её спасли из пожара со значительными ожогами, такой исход находился бы значительно ниже в вашем списке предпочтений по сравнению со спасением в целости и сохранности. А это значит, что вы цените не только её жизнь, но и здоровье.

А помимо её телесного здоровья вы цените ещё и психическое. Спастись и получить при этом психологическую травму — предположим, с рёвом из ниоткуда появится гигантский фиолетовый монстр и вытащит её — менее предпочтительно, чем если её по безопасному пути выведет пожарный. (Да, мы договорились не нарушать законов физики, но будем считать, что помпа исходов достаточно могущественна и рядом случайно окажется инопланетянин.) При этом, разумеется, появление монстра-спасителя предпочтительнее, чем сгореть заживо.

А что насчёт внезапно открывшейся червоточины, переносящей её на необитаемый остров? Такой исход гораздо лучше смерти, но хуже, чем быть живой, здоровой, без психологической травмы и разлуки с родными и прочим привычным кругом общения.

А будет ли приемлемым спасти мать ценой жизни любимой собаки, которая бросилась дать сигнал пожарным, но была впоследствии сбита машиной? Определенно да, но при всех прочих равных лучше избежать смерти собаки. Не хотелось бы обменивать жизни людей одну на другую, но что насчёт жизни осужденного за убийство? Будет ли иметь значение, если убийца погибнет, пытаясь спасти её по доброте душевной? А что насчёт двух убийц? Стоит ли жизнь вашей матери, например, разрушения всех существующих копий, включая воспоминания, «Малой органной фуги соль-минор» Баха? А если бы оказалось, что у неё смертельное заболевание и в течение 18 месяцев она всё равно умрёт?

Если часть перекрытия повредит стопу, будет ли приемлемо спасать всё остальное тело? А если голова повреждена, но тело нет? А что если всё тело раздавлено и только голова цела? Что если рядом ждёт команда криоников, готовая спасти голову? Замороженная голова — это личность? А Терри Шайво? Какова ценность жизни шимпанзе?

Мозг не бесконечно сложен: сложность по Колмогорову или иначе длина сообщения, достаточная для описания всех возможных суждений, конечна. Но конечность такой сложности не означает, что она мала. Мы ценим очень многое, и, нет, наши предпочтения не сводятся только лишь к счастью или к репродуктивной приспособленности.

Не существует безопасного желания, которое бы оказалось меньше всей полноты человеческой морали. Во времени слишком много возможных путей. Невозможно представить все траектории до пункта назначения, который вы описали джинну. «Максимизировать расстояние между моей матерью и центром здания» можно очень эффективно при помощи взрыва атомной бомбы. Или, если джинн достаточно силён, можно вообще удалить её тело за пределы Солнечной Системы. А если джинн ещё и достаточно разумен, то он может сделать нечто, о чём ни вы, ни я не смогли бы помыслить, точно также, как шимпанзе не смог бы помыслить о взрыве атомной бомбы. Нельзя создать программу, играющую в шахматы, записав в неё все возможные шахматные позиции. И аналогично нельзя представить все пути сквозь время.

Жизнь гораздо сложнее шахмат. Невозможно предсказать заранее, какие именно ценности окажутся для вас важными на траектории, выбранной джинном. Особенно в отношении желаний более долгосрочных или более глобальных, чем спасение матери из горящего здания.

Боюсь, открытый проект «Желание» обречен на провал. Его можно использовать лишь в качестве иллюстрации, как не стоит думать о задачах джиннам. Безопасным будет только джинн, разделяющий все ваши критерии суждения, и ему можно сказать «сделай то, чего мне стоит пожелать». Это просто-напросто запустит функцию «должен» джинна.

Этих слов должно оказаться достаточно. Чтобы джинн оказался безопасным исполнителем желаний, он должен разделять все ценности, которые привели вас к составлению желания. В противном случае, джинн может выбрать траекторию сквозь время, которая не приведёт к задуманной вами точке назначения или реализует план с ужасными побочными эффектами, которые вам даже не придут в голову. Желания — это дырявые обобщения, сделанными из гигантской, но всё же конечной структуры — всей вашей морали. Только определив эту структуру целиком можно избавиться от всех дыр.

А с безопасным джинном желания становятся избыточными. Вам остаётся лишь запустить его.

Перевод: 
sepremento, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
150
Оцените качество перевода: 
Средняя оценка: 4.9 (11 votes)

Антропоморфный оптимизм

Элиезер Юдковский

Антропоморфизм, в сущности, — это ожидание, что мы сможем предсказать поведение чего-то с помощью чёрного ящика в виде нашего мозга, при том, что причинно-следственная структура рассматриваемого объекта или явления отличается от человеческого мозга настолько, что такое ожидание неоправданно.

Я уже писал о трагедии группового отбора. Биологи до 1966 года считали, что хищники добровольно ограничат частоту спариваний, чтобы избежать перенаселения и истощения популяции своей добычи. Позже, когда Майкл Уэйд воссоздал в лаборатории условия, максимально подходящие для реализации группового отбора, взрослые особи в качестве адаптации стали каннибалами: принялись поедать яйца и личинки, особенно личинки самок.1

Почему же сторонники группового отбора не подумали о такой возможности?

Предположим, вы живёте в племени и знаете, что скоро ваше племя столкнётся с нехваткой ресурсов. В качестве решения вы можете предложить сократить рождаемость: пусть никакая пара не заводит больше одного ребёнка. Но вам даже в голову не придёт идея: «Давайте мы все будем заводить столько детей, сколько сможем, а потом начнём охотиться на чужих детей — особенно девочек — и поедать их».

Задумайтесь о порядке предпочтительности решений по отношению к вашим целям. Вы бы хотели, чтобы итоговое решение оказалось как можно выше в этом списке. Как вы его найдёте? Разумеется, при помощи мозга! Считайте мозг генератором высокоранговых решений, неким поисковым процессом, производящим решения, оказывающиеся на верхних строчках порядка предпочтений.

Пространство решений задач реального мира в общем случае огромно, а потому мозгу необходимо быть эффективным и отбрасывать без обдумывания подавляющее большинство низкоранговых решений.

Если вашему племени грозит недостаток ресурсов, можно попытаться прыгать на одной ноге или пожёвывать пальцы на ноге. Такие «решения», естественно, не сработают и, очевидно, приведут к большим потерям, но мозг эффективен и даже не тратит время на формирование столь плохих решений. В поисках высокоранговых решений он мгновенно перемещается к участкам пространства решений вроде: «Собираемся все вместе и соглашаемся не заводить более одного ребёнка на семью, пока трудные времена не пройдут».

Решения вида «завести как можно больше детей, а потом съесть девочек» такой поисковый процесс создавать не будет.

Однако варианты не являются «плохими» или «хорошими» сами по себе. Как «плохие» или «хорошие» их оценивает оптимизационный процесс во время выбора. Другой оптимизационный процесс может их оценить по-другому.

С точки зрения эволюции очевидным решением будет отобрать особей, которые оставят максимум потомства, а затем съедят чужих дочерей. И наоборот, смешно отобрать особей, которые добровольно ограничивают воспроизводство ради группы. Говоря менее атропоморфно, первый набор аллелей быстро заменит второй в популяции. (У естественного отбора в этом случае нет очевидного порядка поиска - обе альтернативы появляются одновременно в виде мутаций)

Допустим, какой-то биолог говорит: «На месте эволюции я бы сконструировал популяцию хищников, где каждая особь добровольно ограничивает частоту спариваний, если ресурсы ограничены». Это полноценный антропоморфизм, с прозрачным и понятным рассуждением: «Я бы так сделал, следовательно, я делаю вывод, что эволюция сделает так же».

В своей работе я часто сталкиваюсь с этим искажением в явном виде. Однако, что если возразить: «ИИ не обязательно будет работать так, как ты»? Что если сказать нашему воображаемому биологу: «Эволюция рассуждает не так, как ты»? Что мы услышим в ответ? Мы точно не услышим: «Ой! Об этом я не подумал! Один из шагов моего рассуждения был неверным, поэтому я откажусь от вывода и начну заново».

Напротив, мы услышим о причинах, почему ИИ должен рассуждать именно так, как и собеседник. Или почему естественный отбор, у которого абсолютно иные критерии и методы оптимизации, должен делать именно то, что кажется хорошей идеей человеку.

Отсюда появляются мысли, что групповой отбор поможет популяциям хищников, где особи добровольно отказываются от репродуктивных возможностей.

Сторонники группового отбора ошиблись в своих предсказаниях столь же сильно, как ошибся бы человек, явно уверенный в антропоморфности эволюции. Конечные выводы оказались такими же, как если бы они сразу предполагали у эволюции человеческое мышление. Они стёрли всё, кроме нижней строчки своих рассуждений, оставили эту самую нижнюю строчку и сверху вписали рационализацию. Теперь ошибочное мышление скрыто, очевидно неверный этап в рассуждениях спрятан. Хотя вывод остался тем же самым. Абсолютно неверным в реальном мире.

Но почему какие-то учёные вообще до такого доходят? Ведь в конце концов, данные опровергли теорию группового отбора и её сторонники оказались в неловком положении.

Как я уже упоминал в «Фальшивом критерии оптимизации», судя по всему, у нас, людей, выработался инстинкт доказывать правильность предпочитаемой нами политики для практически любых критериев оптимизации. Политика была неотъемлемой частью среды обитания наших предков. Мы произошли от тех особей, которые наиболее убедительно доказывали, что не только их личные интересы, но и интересы всего племени, требуют убийства Углака, их заклятого врага. Уж точно мы не произошли от Углака, который не смог доказать, что этический кодекс племени, не говоря уж о его собственных интересах, требует его пощадить.

А поскольку убедительнее всего мы отстаиваем позиции, в которые искренне верим, у нас развился инстинкт искренне верить, что цели других людей и моральный кодекс нашего племени должен требовать поступать по-нашему ради их же блага.

Поэтому сторонники группового отбора, представив себе прекрасную картину хищников с ограничениями в спаривании, инстинктивно рационализировали причины естественному отбору вести себя так, как они считают правильным, причем в соответствии с его собственными целями. Лисы будут гораздо более приспособленными, если ограничат рождаемость! Нет, правда! Они даже смогут оставить больше генов, чем лисы, которые не ограничивают своё потомство! Честно-честно!

Однако убедить естественный отбор поступать так же, как вы затруднительно: у эволюции нет элементов, которых заботят ваши доводы. Эволюция не похожа на вас, у неё нет ничего, что могло бы вас выслушать и принять во внимание ваши дотошные объяснения, почему ей стоит вести себя так, как вам нравится. Человеческие аргументы никак не соответствуют внутренней структуре естественного отбора как оптимизационного процесса, ведь они не участвуют так в распространении аллелей, как они участвуют в причинно-следственных отношениях человеческой политики.

В итоге сторонники группового отбора не смогли убедить эволюцию поступать по-своему. Реальность просто посадила их в лужу.

На этом месте я рекомендую подумать про недружественный ИИ.

Можно сделать обобщение: проблема в оптимистичных суждениях в целом. Ведь что есть оптимизм? Вы располагаете возможные исходы в некотором порядке в соответствии с вашими предпочтениями, выбираете лучший исход, и почему-то он совпадает с вашим предсказанием. Какие именно хитрые рационализации при этом используются, вероятно, не так уж важно, как можно было бы подумать. Однако Природа или любой другой процесс не расставляет исходы согласно вашим предпочтениям и не выбирает наилучший в соответствии с ними. Поэтому у мозга не получается синхронизироваться с окружением и предсказание не совпадает с реальностью.

  • 1. Wade, “Group selections among laboratory populations of Tribolium.”
Перевод: 
sepremento, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
151
Оцените качество перевода: 
Средняя оценка: 4.6 (10 votes)

Потерянные цели

Элиезер Юдковский

То ли в детском саду, то ли в первом классе мне впервые сказали помолиться и дали молитву на иврите, записанную латиницей. Я спросил, что означают эти слова. Мне ответили, что если молиться на иврите, можно не знать значения слов, молитва всё равно сработает.

Мой разрыв с иудаизмом начался именно с этого.

Прямо сейчас, когда вы читаете эти строки, какой-нибудь студент сидит за партой в университете и старательно изучает материал, который ему сам по себе не интересен и который, по его мнению, ему никогда не пригодится. Студенту нужна высокооплачиваемая работа, а для неё требуется «корочка», а для получения «корочки» требуется степень магистра, а до степени магистра нужно получить степень бакалавра, а университет, который предлагает степень бакалавра, требует, чтобы для её получения вы посетили занятия по узорам вязания двенадцатого века. И студент прилежно изучает эти узоры. Он планирует забыть про них сразу же после сдачи экзамена, но тем не менее всерьёз возится с ними, потому что ему очень нужна «корочка».

Я уверен, что вы и сами оказывались в такой ситуации. Возможно, даже понимая её сумасшествие. Ведь у вас не было выбора, верно? Недавнее исследование в Сан-Франциско показало, что 80% учителей в начальной школе тратят меньше одного часа в неделю на науку. 16% заявило, что они совсем не уделяют время науке. Почему? Насколько я могу судить, в этом виноват акт «No Child Left Behind» и другие ему подобные законодательные инициативы1. Практически всё время уроков теперь уходит на подготовку к обязательным тестам федерального уровня или уровня штата. Кажется, где-то утверждалось (хотя сейчас я не могу найти источник), что в какой-то школе на одно лишь проведение обязательных тестов уходило 40% времени уроков.

Своим стремлением заботиться о внешних проявлениях, а не о сути, славилась советская бюрократия. Одна обувная фабрика перевыполнила план, произведя много обуви маленького размера. Другая фабрика отчиталась о раскроенной, но не сшитой коже, как об «обуви». Настоящие результаты начальство не интересовали, ведь ему тоже нужно было лишь доложить о перевыполнении планов. Что наверняка радовало товарищей, у которых мёрзли ноги.

Несколько разных источников уже утверждают, что большая часть публикуемых медицинских исследований неверны, несмотря на «статистическую значимость p < 0,05». Но зачем кому-то ставить себе более высокую планку, если p < 0,05 — единственный критерий для публикации? Ведь это потребует больших грантов на исследования и больших размеров выборок, а также уменьшит шансы на публикацию. Всем же известно, что смысл существования науки — опубликовать как можно больше статей. Точно так же, как смысл существования университетов — печатать кусочки бумаги определённого вида, а смысл существования школ — проходить обязательные тесты, позволяющие получить большее финансирование. Не вы устанавливаете правила. Если вы попробуете играть по другим, вы проиграете.

(Впрочем, почему-то научные журналы по физике требуют p < 0,0001. Словно они считают, будто у них есть какой-то иной смысл существования, кроме публикации научных статей по физике.)

В супермаркете есть шоколад, туда можно попасть на машине, в машину нужно попасть, для этого нужно открыть дверь, а для этого нужны ключи. Если вы узнаете, что в супермаркете шоколада нет, вы не будете стоять около машины и хлопать дверью просто потому, что так надо. По-моему, люди редко теряют нить ими же придуманных планов.

Когда стимулы проходят через крупные организации или, что ещё хуже, через множество организаций и групп интересов, часть из которых правительственные, получается совсем по-другому. Иногда в результате получается такое поведение, что спланируй его какой-то один человек, то этого человека объявили бы безумным. Кому-нибудь платят каждый раз, когда он открывает дверь машины, поскольку именно это является измеряемой метрикой, и этому человеку наплевать, заплатят ли водителю за прибытие в супермаркет, и уж тем более наплевать, купит ли покупатель шоколад и будет ли потребитель счастлив или умрёт с голода.

С точки зрения байесианства, подзадачи — это эпифеномен для функции условных вероятностей. Ожидаемой полезности без полезности не бывает. Очень глупо считать, что инструментальная ценность может начать жить своей жизнью, а терминальная ценность — отмереть за ненадобностью. Это неразумно по меркам разумности теории принятия решений.

Рассмотрим закон «No Child Left Behind». Политики хотели создать впечатление, будто они занимаются проблемами образования. Они изображали бурную деятельность, чтобы повлиять на избирателей в текущем году, а не пятнадцать лет спустя, когда сегодняшние дети будут искать работу. Политики не являются потребителями образовательных услуг. Бюрократы обязаны продемонстрировать развитие, а это значит, что они заинтересованы в развитии, которое можно измерить именно в этом году. Это не они в конечном итоге ничего не узнают о науке. Издательства, выпускающие учебники, и школьные комитеты, которые эти учебники покупают, не будут скучать за партами.

Настоящие потребители знаний — это дети. А они не могут платить, не могут голосовать, не могут заседать в комитетах. Родители о них заботятся, но они не сидят в классах, они лишь выбирают политиков на основании созданных теми образов «борцов за образование». Политики слишком заняты вопросом последующего переизбрания и не изучают данные самостоятельно, поэтому они полагаются на поверхностные сведения от бюрократов и комиссий. Это помогает создать образ заботы о детях, но детям от этого лучше не становится. Бюрократы не используют учебники, поэтому им плевать, что их невозможно читать, важно, чтобы процесс покупки учебников хорошо выглядел со стороны. У издателей нет стимула выпускать плохие учебники, но им известно, что школьные комитеты сравнивают учебники на основании количества тем для занятий, а комитет четвертого класса не связан с комитетом третьего, поэтому издатели впихивают в каждый учебник как можно больше разных тем. Учитель со своим классом не проходит и четверти учебника до конца года, поэтому на следующий год другой учитель начинает всё заново. Учителя могут жаловаться, однако решения принимают не они и вообще не их будущее стоит на кону, что в свою очередь влияет на желание прикладывать усилия, за которые всё равно не заплатят.

Если рассмотреть ситуацию с такого ракурса, задуматься обо всей потерянной информации и всех потерянных стимулах, становится даже удивительно, что от исходной цели — получения знаний — остаётся хоть что-то. Впрочем, судя по всему, большинство образовательных систем сейчас скатываются в состояние, которое не намного лучше, чем ничего.

Хотите решить проблему по-настоящему? Заставьте политиков ходить в школу.

Один человек способен отследить, как будет меняться вероятностная ожидаемая полезность в зависимости от условий, связанных со множеством промежуточных событий. Он может учесть нелокальные зависимости, где ожидаемая полезность открытия двери автомобиля зависит от наличия шоколада в супермаркете. Однако организации сегодня вознаграждают только за то, что измеримо сегодня, за то, что можно записать в контракте сегодня, а это означает измерение промежуточных событий, а не их долгосрочных последствий. И эти промежуточные измерения являются дырявыми обобщениями — зачастую очень дырявыми. Бюрократы это джинны, которым нельзя доверять, ведь они не разделяют ценностей желающего.

Миямото Мусаси сказал:2

Помни, когда в твоих руках меч — ты должен поразить противника, чего бы тебе это ни стоило. Когда ты парируешь удар, наносишь его, делаешь выпад, отбиваешь клинок или касаешься атакующего меча противника, ты должен сразить противника тем же движением. Достигай цели. Если ты будешь думать только о блокировании ударов, выпадах и касаниях, ты не сможешь действительно достать врага. Более, чем о чем бы то ни было, ты должен беспокоиться о том, как провести свой удар сквозь его защиту и достичь цели. Тщательно изучи сказанное.

(Хотел бы я жить в эпоху, когда можно сказать читателям тщательно что-то изучить и никого при этом не оскорбить.)

Каким образом кто-нибудь может забыть о своей цели в поединке на мечах? Например, он мог учиться сражаться у кого-то другого, искусство не появилось у него изнутри, и он не понимает причин, почему в такой-то ситуации ему нужно парировать, а в другой — делать выпад. Он не понимает, когда у правил появляются исключения, когда привычный метод не работает.

Искусство эпистемической рациональности немыслимо без понимания, как каждое правило приближает нас к истине в соответствии с теорией вероятности. Суть практической рациональности — теория решений — в том, чтобы всегда видеть, как ожидаемая полезность приводит к полезности. Тщательно изучи сказанное.

К. Дж. Черри однажды сказала:3

Нет клинка у твоего меча. У него есть лишь твоя цель. Потерял цель — остался безоружным.

Я видел множество людей, забывавших о цели, когда они формулировали желание воображаемому ИИ-джинну. Они представляли желание за желанием, и они не видели в своих желаниях ничего плохого. Некоторые из желаний сопровождались множеством уточнений, другие формулировались вовсе без каких-либо предосторожностей. Эти люди не выходили на мета-уровень. Они не сверялись инстинктивно с целью, у них не было того инстинкта, что заставил меня в пять лет свернуть на дорогу атеизма. Они не задумывались над вопросом: «Почему это желание кажется мне хорошим? А джинн тоже будет так считать?» Они не видели, откуда берётся их суждение, они слишком увлекались самим суждением. Они не следили за мячом — они знали, что мяч отскочил от пола, но не обращали внимание, в каком именно месте он отскочил. Они не думали о критериях, которые породили их суждение.

Похожим образом некоторые люди не замечают, как предположительно эгоистичные люди предлагают альтруистичные аргументы в пользу эгоизма, а предположительно альтруистичные люди – эгоистичные аргументы в пользу альтруизма.

Люди прекрасно отслеживают свои цели по дороге в супермаркет: когда весь процесс находится у них в голове и им не мешают ни бюрократы, ни джинны, ни философия. Проблема в том, что цивилизация гораздо сложнее. Десятки организаций и десятки лет разделяют скучающего ребёнка в классе и выпускника колледжа, который не справляется со своей работой (Заметит ли менеджер или кадровик, что выпускник колледжа прекрасно умеет выглядеть занятым?) С каждым новым звеном цепи между действием и последствием появляется возможность сбиться с настоящей цели. С каждым промежуточным звеном теряется информация, теряются стимулы. А большинство людей беспокоятся из-за этого гораздо меньше, чем я. Почему все мои одноклассники с готовностью читали молитвы, не зная их смысла? У них не было моего инстинкта искать причину.

Можно ли научить не спускать глаз с мяча? Удерживать намерение и не позволять ему сбиваться? Никогда не делать выпада, удара или касания без понимания главной цели? При прочих равных условиях люди зачастую хотят лишь делать свою работу. Может ли вообще существовать здравомыслящая корпорация? Здравомыслящая цивилизация? Пока это лишь далёкая мечта, но именно к ней я стремлюсь, когда пишу все эти эссе про поток намерений (также известных как ожидаемая полезность или инструментальные ценности) без потери цели (полезности или терминальной ценности). Могут ли люди научиться чувствовать поток от целей-«родителей» к целям-«детям»? Осознанно понимать разницу между ожидаемой полезностью и полезностью?

Думаете ли вы об угрозах вашей цивилизации? Худшая мета-угроза цивилизации — её собственная сложность. Усложнение ведёт к потере множества целей.

Я оглядываюсь назад и понимаю, что сильнее всего мною в жизни двигало отвращение к потерянным целям. Надеюсь, это отвращение можно превратить в тренируемый навык.

  • 1. «No Child Left Behind» (буквально: «ни один ребёнок не окажется отстающим») — федеральный закон США в области образования, принятый в 2001 году. Одним из его требований было проведение достаточно большого количества тестов для отслеживания прогресса детей. В 2015 году был отменён. — Прим.перев.
  • 2. Миямото Мусаси, «Книга пяти колец». Автор ссылается на издание Miyamoto Musashi, Book of Five Rings (New Line Publishing, 2003). Перевод цитируется по тексту на lib.ru, к сожалению, переводчик там не указан. — Прим.перев.
  • 3. Кэролайн Черри, «Паладин». Автор ссылается на издание Carolyn J. Cherryh, The Paladin (Baen, 2002). На русский язык переводилась только в самиздате.
Перевод: 
sepremento, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
152
Оцените качество перевода: 
Средняя оценка: 4.8 (16 votes)