Вы здесь

Убеждение в разумности

Элиезер Юдковский

Я не знаю, как во время шахматной партии походит Гарри Каспаров. Однако, что в этом случае означает моё убеждение «Каспаров очень разумен как шахматист» с точки зрения практики? Что именно я увижу в реальном мире, согласно моему убеждению? Не является ли оно хитро замаскированной формой полного невежества?

Чтобы подчеркнуть дилемму, предположим, что Каспаров играет против обычного шахматного гроссмейстера мистера Г, который не претендует на звание чемпиона мира. Моих способностей совершенно недостаточно, чтобы понять разницу между такими уровнями шахматного мастерства. Когда я пытаюсь угадать ход Каспарова или ход мистера Г, я могу лишь положиться на собственное скудное знание шахмат и попытаться угадать «лучший ход вообще». То есть для любой шахматной позиции я сделаю одинаковое предсказание как для хода Каспарова, так и для хода мистера Г. Так что же означает на практике моё убеждение о том, что «Каспаров играет в шахматы лучше, чем мистер Г»?

На практике моё убеждение – это проверяемое, фальсифицируемое предсказание, что итоговая шахматная позиция будет принадлежать классу позиций, которые означают победу Каспарова, а не ничью или победу мистера Г. (В данном контексте, если игрок сдаётся, то шахматная позиция считается проигранной.) Уровень убеждённости в том, что Каспаров - «лучший игрок», можно перевести в долю вероятностной массы, которую я присваиваю классу исходов «Каспаров побеждает» по сравнению с классами исходов «ничья» или «мистер Г побеждает». Эти классы очень расплывчаты, поскольку они описывают огромнейшее количество возможных позиций на доске. Однако утверждение «Каспаров побеждает» для нас гораздо более конкретно, чем максимум энтропии, потому что его можно фальсифицировать очень многими шахматными позициями.

Исход игры Каспарова предсказуем, потому что я знаю и понимаю цели Каспарова. Если мы ограничиваемся шахматной доской, я понимаю мотивацию Каспарова — я знаю его критерий успешности, его функцию полезности, его цель как оптимизационного процесса. Я знаю, куда Каспаров пытается направить будущее в конечном итоге и я ожидаю, что он достаточно силен, чтобы туда попасть, пусть даже я плохо представляю, как именно Каспаров собирается это сделать.

Представьте, что я приехал в далёкий город и какой-то мой тамошний друг вызвался отвезти меня в аэропорт. Я не знаю местности. На каждом перекрёстке я не знаю, повернёт мой друг налево, направо или поедет прямо. Я не могу предсказать, куда поедет мой друг даже для ближайшего перекрёстка и уж тем более не могу предсказать всю последовательность его решений.

И тем не менее, я могу предсказать результат непредсказуемых действий моего друга: мы прибудем в аэропорт. Даже если бы дом моего друга находился в другом месте и ему пришлось бы совершить абсолютно иную последовательность поворотов, я бы столь же уверенно предсказал наше прибытие в аэропорт. Я могу это предсказать задолго до события — даже до того, как сяду в автомобиль. Мой рейс вскоре отправляется, нельзя тратить время. Я бы не сел в машину, если бы не мог уверенно предсказать, что машина поедет в аэропорт по непредсказуемому маршруту.

Разве это не поразительно с научной точки зрения? Я могу предсказать исход процесса, хотя не умею предсказывать промежуточные шаги процесса.

Как это вообще возможно? Обычно люди предсказывают, воображая настоящее, а потом запуская визуализацию вперед во времени. Если вы хотите построить точную модель Солнечной Системы, которая учитывает планетарные возмущения орбиты, нужно начать с модели всех основных объектов и прогнать модель вперед во времени, шаг за шагом.

У некоторых простых задач есть лаконичное решение: чтобы вычислить будущее в момент времени Т, нужно потратить одинаковое количество работы, независимое от T. Монета покоится на столе и каждую минуту переворачивается. Монета лежит орлом вверх. Какая сторона будет сверху через сто минут? Очевидно, что вы не отвечаете на этот вопрос, представляя сто шагов. Вы используете частное решение, которое работало для предсказания исхода и также сработает для предсказания любого из промежуточных шагов.

Но когда друг везёт меня в аэропорт, я могу успешно предсказать исход, используя странную модель, которая не будет работать для предсказания любого из промежуточных шагов. Моя модель даже не требует ввода исходных условий — я могу не знать, откуда мы выезжаем!

На самом деле, мне нужно кое-что знать о друге. Мне надо знать, что мой друг хочет, чтобы я успел на рейс. Я должен верить, что мой друг достаточно хорошо умеет планировать, чтобы успешно довезти меня до аэропорта (если он хочет). Это свойства исходного состояния моего друга — свойства, которые позволяют мне предсказать конечный пункт, но не каждый отдельный поворот.

Также надо верить, что мой друг достаточно знает город, чтобы вести машину. Можно расценивать это, как отношение между другом и городом, то есть, свойство обоих. Это исключительно абстрактное свойство, которое не требует каких-то конкретных знаний ни о городе, ни о познаниях моего друга об этом городе.

Я показал один из способов взглянуть на предмет исследования, которому я посвятил свою жизнь: подобные примечательные ситуации, где мы оказываемся в странном положении с эпистемической точки зрения. В каком-то смысле мою работу можно рассматривать как попытку раскрыть точную форму этого странного абстрактного знания, с помощью которого мы, не зная действий, можем уверенно знать последствия.

«Интеллект» — это слишком узкий термин, чтобы достаточно полно описать эти примечательные ситуации. Я предпочитаю словосочетание «оптимизационный процесс». При изучении биологического естественного отбора мы наблюдаем схожую ситуацию: например, мы не в состоянии предсказать точную форму следующего наблюдаемого организма.

Однако моей специальностью является вид оптимизационного процесса, называемый «интеллектом». Точнее даже конкретный вид интеллекта, называемый «дружественным искусственным интеллектом». И я надеюсь получить о нём особенно точное абстрактное знание.


Перевод: 
sepremento, Alaric
Номер в книге "Рациональность: от ИИ до зомби": 
143
Оцените качество перевода: 
Средняя оценка: 4.3 (11 votes)
  • Короткая ссылка сюда: lesswrong.ru/542