Вы здесь

Главные вкладки

11. Согласованность ≠ безопасность (но они близки!)

Стивен Бирнс

1.11.1 Краткое содержание / Оглавление
2.11.2 Согласованность без безопасности?
3.11.3 Безопасность без согласованности?
4.11.3.1 Запирание ИИ
5.11.4 Заключение

Примечание переводчика - с момента перевода оригинальные посты несколько обновились, через некоторое время обновлю и перевод. На общие выводы цепочки это, вроде бы, не влияет.

(Если вы уже эксперт по безопасности СИИ, то скорее всего вы можете спокойно пропустить этот короткий пост – не думаю, что здесь есть что-то новое или что-то сильно специфическое для подобных-мозгу СИИ.)

11.1 Краткое содержание / Оглавление

В предыдущем посте я говорил про «задачу согласования» подобных-мозгу СИИ. Стоит подчеркнуть две вещи: (1) задача согласования подобных-мозгу СИИ является нерешённой (как и задача согласования других видов СИИ), и (2) её решение было бы огромным рывком в сторону безопасности СИИ.

Не отменяя этого, «решить согласование СИИ» – не в точности то же самое, что «решить безопасность СИИ». Этот пост – про то, как эти две задачи могут, по крайней мере в принципе, расходиться.

Для напоминания, вот терминология:

«Согласованность СИИ» (Пост №10) означает, что СИИ пытается делать то, что его создатель намеревался, чтобы СИИ пытался делать.[2] В первую очередь, это понятие имеет смысл только для алгоритмов, которые «пытаются» что-то делать. Что в общем случае означает «пытаться»? Хо-хо, это та ещё кроличья нора. «Пытается» ли алгоритм сортировки отсортировать числа? Или просто их сортирует?? Я не хочу забираться в это. В контексте этой цепочки всё просто. «Подобные-мозгу СИИ», о которых я тут говорю, определённо могут «пытаться» что-то делать, в точно таком же житейском смысле, в котором «пытаются» люди.
«Безопасность СИИ» (Пост №1) касается того, что СИИ действительно делает, не того, что он пытается делать. Безопасность СИИ означает, что реальное поведение СИИ не приведёт к «катастрофическим происшествиям» с точки зрения его создателей.[2]

Следовательно, это два отдельных понятия. И моя цель в этом посте – описать, как они могут расходиться:

Раздел 11.2 – про «согласованность без безопасности». Возможная история: «Я хотел, чтобы мой СИИ подметал полы, и мой СИИ действительно пытался подмести пол, но, ну, он немного неуклюжий, и, кажется, случайно испарил всю вселенную в чистое ничто.»
Раздел 11.3 – про «безопасность без согласованности». Возможная история: «Я на самом деле не знаю, что пытается сделать мой СИИ, но он ограничен так, что не может сделать ничего катастрофически опасного, даже если бы хотел.» Я пройдусь по четырём особым случаям безопасности-без-согласованности: «запирание*», «курирование данных», «пределы воздействия» и «не-агентный ИИ».

Перескакивая к финальному ответу: **мой вывод заключается в том, что хоть сказать «согласованность СИИ необходима и достаточна для безопасности СИИ» технически некорректно, это всё же чертовски близко к тому, чтобы быть верным,*** по крайней мере в случае подобных-мозгу СИИ, о которых мы говорим в этой цепочке.

11.2 Согласованность без безопасности?

Это случай, в котором СИИ согласован (т.е., пытается делать то, что его создатели намеревались, чтобы он пытался делать), но всё же приводит к катастрофическим происшествиям. Как?

Вот пример: может мы, создатели, не обдумали аккуратно свои намерения по поводу того, что мы хотим, чтобы делал СИИ. Джон Вентворт приводил здесь гипотетически пример: люди просят у СИИ проект электростанции на термоядерном синтезе, но не додумываются задать вопрос о том, не упрощает ли этот проект создание атомного оружия.

Другой пример: может, СИИ пытается делать то, что мы намеревались, чтобы он пытался делать, но у него не получается. К примеру, может, мы попросили СИИ создать новый СИИ получше, тоже хорошо себя ведущий и согласованный. Но наш СИИ не справляется – создаёт следующий СИИ с не теми мотивациями, тот выходит из-под контроля и всех убивает.

Я в целом не могу многого сказать о согласованности-без-безопасности. Но, полагаю, я скромно оптимистично считаю, что если мы решим задачу согласования, то мы сможем добраться и до безопасности. В конце концов, если мы решим задачу согласования, то мы сможем создать СИИ, которые искренне пытаются нам помочь, и первое же, что мы у них попросим – это прояснить для нас, что и как нам следует делать, чтобы, надеюсь, избежать вариантов провала вроде приведённых выше.[3]

Однако, я могу быть и неправ, так что я рад, что люди думают и над не входящими в согласование аспектами безопасности.

11.3 Безопасность без согласованности?

Есть много разных идей, как сделать СИИ безопасным, не сталкиваясь с необходимостью сделать его согласованным. Все они кажутся мне сложными или невозможными. Но эй, идеальное согласование тоже кажется сложным или невозможным. Я поддерживаю открытость идеям и использование нескольких слоёв защиты. Я пройдусь тут по нескольким возможностям (это не исчерпывающий список):

11.3.1 Запирание ИИ

Нет, не так! (в оригинале заголовок этого подраздела - «AI Boxing» – прим. пер.) (Это кадр из «Живой Стали» (2011), фильма с (мне кажется) бюджетом, бОльшим, чем общая сумма, которую человечество когда-либо потратило на долгосрочно-ориентированные технические исследования безопасности СИИ. Больше про ситуацию с финансированием будет в Посте №15.)

Идея в том, чтобы запихнуть ИИ в коробку без доступа к Интернету, без манипуляторов, и т.д. Мы можем отключить его когда угодно. Даже если у него есть опасные мотивации, кому какое дело? Какой вред он может нанести? О, эммм, он мог бы посылать радиосигналы оперативной памятью. Так что нам ещё понадобится клетка Фарадея. Надеюсь, мы не забыли чего-то ещё!

На самом деле, я довольно оптимистичен по поводу того, что люди могли бы сделать надёжную коробку для СИИ, если действительно постараются. Мне нравится Приложение C Кохена, Велламби, Хаттера (2020), в котором описан замечательный проект коробки с герметичными шлюзами, клетками Фарадея, лазерной блокировкой, и так далее. Кто-то точно должен это построить. Когда мы не будем использовать её для экспериментов с СИИ, мы сможем сдавать её в аренду киностудиям в качестве тюрьмы для суперзлодеев.

Другой способ сделать надёжную коробку для СИИ – это использование гомоморфного шифрования. Тут есть преимущество в доказанной (вроде бы) надёжности, но недостаток в огромном увеличении необходимой для запуска СИИ вычислительной мощности.

Какая с запиранием проблема? Ну, мы создаём СИИ зачем-то. Мы хотим, чтобы он что-то делал.

К примеру, что-то вроде этого может оказаться совершенно безопасным:

Запустить возможно-несогласованную, возможно-суперинтеллектуальную программу СИИ на суперкомпьютере в закрытой коробке из Приложения C Кохена и пр., на дне океана.
После заранее определённого промежутка времени отрубить электричество и достать коробку.
Не открывая коробку, испепелить её и всё её содержимое.
Запустить пепел на Солнце.

Да, это было бы безопасно! Но бесполезно! Никто не потратит на это огромную кучу денег.

Вместо этого, к примеру, может, у нас будет человек, взаимодействующий с СИИ через текстовый терминал, задающий вопросы, выставляющий требования, и т.д. СИИ может выдавать чертежи, и если они хороши, то мы им последуем. У-у-упс. Теперь у нашей коробки огромная зияющая дыра в безопасности – конкретно, мы! (См. эксперимент с ИИ в коробке.)

Картинка просто так; она показалась мне забавной. (Источник картинки: xkcd) (Источник перевода)

Так что я не вижу пути от «запирания» к «решения задачи безопасности СИИ».

Однако, «не решит задачу безопасности СИИ» – не то же самое, что «буквально вовсе не поможет, даже чуть-чуть в граничных случаях». Я думаю, что запирание может помочь в граничных случаях. На самом деле, я думаю, что ужасной идеей было бы запустить СИИ на ненадёжной ОС с нефильтрованным соединением с Интернетом – особенно на ранних этапах обучения, когда мотивации СИИ ещё не устоялись. Я надеюсь на постепенный сдвиг в сообществе машинного обучения, чтобы с какого-то момента «Давайте обучим эту новую мощную модель на герметично запертом сервере, просто на всякий случай» было очевидно разумным для высказывания и исполнения предложением. Мы пока до этого не дошли. Когда-нибудь!

Вообще, я бы пошёл дальше. Мы знаем, что обучающийся с чистого листа СИИ будет проходить через период, когда его мотивации и цели непредсказуемы и, возможно, опасны. Если кто-нибудь не додумается до подхода самозагрузки,[4] нам потребуется надёжная песочница, в которой дитя-СИИ сможет творить хаос, не причиняя реального ущерба, пока наши оформляющие-мотивацию системы не сделают его исправимым. Будет гонка между тем, как быстро мы можем определить мотивации СИИ и тем, насколько быстро он может выбраться из песочницы – см. предыдущий пост (Раздел 10.5.4.2). Следовательно, создание более сложных для выбирания песочниц (но также удобных для пользователя и имеющих много полезных черт, чтобы будущие разработчики СИИ действительно выбрали использовать их, а не менее надёжные альтернативы) кажется полезным занятием, и я одобряю усилия по ускорению прогресса в этой области.

Но независимо от него, нам всё ещё надо решить задачу согласования.

11.3.2 Курирование данных

Предположим, что у нас не получилось решить задачу согласования, так что мы не уверены в планах и намерениях СИИ, и мы обеспокоены возможностью того, что СИИ может пытаться обмануть нас или манипулировать нами.

Один способ подойти к этой проблеме – увериться, что СИИ понятия не имеет о том, что мы, люди, существуем, и запускаем его на компьютере. Тогда он не будет пытаться нас обмануть, верно?

В качестве примера, мы можем сделать «СИИ-математика», знакомого с вселенной математики, но ничего не знающего о реальном мире. См. Мысли о Человеческих Моделях за подробностями.

Я вижу две проблемы:

Избежать всех утечек информации кажется сложным. К примеру, СИИ с метакогнитивными способносями предположительно может интроспектировать по поводу того, как он был сконструирован, и догадаться, что его создал какой-то агент.
Что более важно, я не знаю, что бы мы делали с «СИИ-математиком», ничего не знающем о людях. Кажется, это была бы интересная игрушка, и мы могли бы получить много крутых математических доказательств, но это не решило бы большую проблему – конкретно, что часики тикают, пока какая-то другая исследовательская группа не догонит нас и не создаст опасный СИИ, действующий в реальном мире.

Кстати, соседняя идея – поместить СИИ в виртуальную песочницу и не говорить ему, что он в виртуальной песочнице (более подробное обсуждение). Мне кажется, что тут присутствуют обе описанные выше проблемы, или, в зависимости от деталей, хотя бы одна. Заметим, что некоторые люди тратят немало времени на раздумия о том, не находятся ли они сами в виртуальной песочнице, при отсутствии хоть каких-то прямых свидетельств тому! Точно плохой знак! Всё же, как и упомянуто в предыдущем пункте, проведение тестов на СИИ в виртуальной песочнице – почти наверняка хорошая идея. Это не решит всю задачу безопасности СИИ, но это всё же надо делать.

11.3.3 Пределы воздействия

У нас, людей, есть интуитивное понятие «уровня воздействия» курса действий. К примеру, удалить весь кислород из атмосферы – это «действие с высоким уровнем воздействия», а сделать сэндвич с огурцом «действие с низким воздействием».

Есть надежда, что, даже если мы не сможем по-настоящему контролировать мотивации СИИ, может, мы сможем как-нибудь ограничить СИИ «действиями с низким воздействием», и, следовательно, избежать катастрофы.

Определить «низкое воздействие», оказывается, довольно сложно. См. один поход в работе Алекса Тёрнера. Рохин Шах предполагает, что есть три, кажется, несовместимых всеми вместе, желания: «объективность (независимость от [человеческих] ценностей), безопасность (предотвращение любых катастрофических планов) и нетривиальность (ИИ всё ещё способен делать что-то полезное)». Если это так, то, очевидно, нам нужно отказаться от объективности. То, к чему мы сможем прийти, это, например, СИИ, пытающиеся следовать человеческим нормам.

С моей точки зрения, эти идеи интригуют, но единственный способ, как я могу представить их работающими для подобного-мозга СИИ – это реализация их с помощью системы мотивации. Я ожидаю, что СИИ следовал бы человеческим нормам, потому что ему хочется следовать человеческим нормам. Так что эту тему точно стоит держать в голове, но в нашем контексте это не отдельная тема от согласования, а, скорее, идея того, какую мотивацию нам стоит попытаться поместить в наши согласованные СИИ.

11.3.4 Не-агентный («инструментоподобный») ИИ

Есть привлекательное интуитивное соображение, уходящее назад как минимум к этому посту Холдена Карнофски 2012 года, что, может быть, есть простое решение: просто создавать ИИ, которые не «пытаются» сделать что-то конкретное, а вместо этого просто подобны «инструментам», которые мы, люди, можем использовать.

Хоть сам Холден передумал, и теперь он один из ведущих агитаторов за исследования безопасности СИИ, идея не-агентного ИИ живёт. Заметные защитники этого подхода включают Эрика Дрекслера (см. его «Всеобъемлющие ИИ-сервисы», 2019), и людей, считающие, что большие языковые модели (например, GPT-3) лежат на пути к СИИ (ну, не все такие люди, тут всё сложно[5]).

Как обсуждалось в этом ответе на пост 2012 года, нам не следует принимать за данность, что «ИИ-инструмент» заставит все проблемы с безопасностью магически испариться. Всё же, я подозреваю, что он помог бы нам с безопасностью по разным причинам.

Я скептически отношусь к «ИИ-инструментам» по несколько иному поводу: я не думаю, что такие системы будут достаточно мощными. Прямо как в случае «СИИ-математика» из раздела 11.3.2 выше, я думаю, что ИИ-инструмент был бы хорошей игрушкой, но не помог бы решить большую проблему – что часики тикают, пока какая-то другая исследовательская группа не догонит и не сделает агентный СИИ. См. моё обсуждение здесь, где я рассказываю, почему я думаю, что агентные СИИ смогут прийти к новым идеям и изобретениям, на которые не будут способны не-агентные СИИ.

Ещё, это цепочка про подобные-мозгу СИИ. Подобные-мозгу СИИ (в моём значении этого термина) определённо агентные. Так что не-агентные СИИ находятся за пределами темы этой цепочки, даже если они – жизнеспособный вариант.

11.4 Заключение

Резюмируя:

«Согласованность без безопасности» возможна, но я осторожно оптимистичен и думаю, что если мы решим согласование, то мы сможем добраться и до безопасности;
«Безопасность без согласованности» включает несколько вариантов, но насколько я могу судить, все они либо неправдоподобны, либо настолько ограничивают способности СИИ, что, по сути, являются предложениями «вообще не создавать СИИ». (Это предложение, конечно, тоже, в принципе, вариант, но он кажется очень сложноисполнимым на практике – см. Пост №1, Раздел 1.6)

Следовательно, я считаю, что безопасность и согласованность довольно близки, и поэтому я так много и говорил в этой цепочке о мотивациях и целях СИИ.

Следующие три поста будут рассказывать про возможные пути к согласованности. Потом я закончу эту цепочку моим вишлистом открытых вопросов и описанием, как можно войти в область.

———

Как уже было описано в сноске в предыдущем посте, имейте в виду, что не все определяют «согласованность» в точности так же, как я тут.
По этому определению «безопасности», если злой человек захочет всех убить и использует для этого СИИ, то это всё ещё считается успехом в «безопасности СИИ». Я признаю, что это звучит несколько странно, но убеждён, что это соответствует словоупотреблению в других областях: к примеру, «безопасность ядерного оружия» – то, о чём думают некоторые люди, и она НЕ затрагивает намеренные авторизированные запуски ядерного оружия, несмотря на то, что сложно представить, что это было бы «безопасно» хоть для кого-нибудь. В любом случае, это вопрос определений и терминологии. Проблема людей, намеренно использующих СИИ в опасных целях – настоящая, и я ни в коем случае не обесцениваю её. Я просто не говорю о ней в этой конкретной цепочке. См. Пост №1, Раздел 1.2.
Более проблематичным случаем был бы тот, в котором мы можем согласовать наши СИИ так, чтобы они пытались делать конкретные вещи, которые мы хотим, но только некоторые, а другие – нет. Может, окажется, что мы поймём, как создать СИИ, которые будут пытаться решить некоторые технологические проблемы, не уничтожая мир, но не поймём, как создать СИИ, которые помогут нам рассуждать о будущем и наших собственных ценностях. Если случится так, то моё предложение «попросить СИИ прояснить, что и как в точности они должны делать» не сработает.
К примеру, можем ли мы инициализировать модель мира СИИ при помощи заранее существующей проверенной людьми модели мира, вроде Cyc, а не с чистого листа? Не знаю.
С первого взгляда кажется весьма правдоподобным, что языковые модели вроде GPT-3 больше «инструменты», чем «агенты» – что они на самом деле не «пытаются» сделать что-то конкретное в том смысле, как «пытаются» агенты обучения с подкреплением. (Замечу, что GPT-3 обучена самообучением, не обучением с подкреплением.) Со второго взгляда, всё сложнее. Для начала, если GPT-3 сейчас вычисляет, что Человек X скажет следующим, не «наследует» ли GPT-3 временно «агентность» Человека X? Может ли симулированный-Человек-X понять, что его симулирует GPT-3 и попробовать выбраться наружу?? Без понятия. Ещё, даже если обучение с подкреплением действительно необходимо для «агентности» / «попыток», то куча исследователей уже много работает над соединением языковых моделей с алгоритмами обучения с подкреплением.

В любом случае, моё заявление из Раздела 11.3.4 о том, что нет пересечения (A) «систем, достаточно мощных, чтобы решить «большую проблему»» и (B) «систем, которые скорее инструменты, чем агенты». Относятся (и будут ли относиться) языковые модели к категории (A) – интересный вопрос, но не важный для этого заявления, и я не планирую рассматривать его в этой цепочке.

Перевод:

Выменец Максим

Ссылка на оригинал:

[Intro to brain-like-AGI safety] 11. Safety ≠ alignment (but they’re close!)

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/3032