AI Boxing

Материал из Вики LessWrong.ru
Перейти к: навигация, поиск

AI Boxing - это класс подходов, предлагающих изолировать потенциально небезопасный искусственный интеллект от внешней среды ("поместить его в коробку"), чтобы лишить его возможности оказывать негативное влияние на мир, даже если он попытается.

Основные подходы[править]

Чаще всего в рамках данного подхода предлагается:

  • Физически отключить оборудование, на котором запущен ИИ, от интернета, физических устройств и манипуляторов. Обычно это означает, что единственный канал коммуникации между ИИ и внешним миром - это текстовые сообщения, через которые он общается с людьми (которых в этом случае на жаргоне называют "операторами").
  • Поместить ИИ в "матрицу внутри матрицы", т.е. в систему вложенных песочниц, где внутренняя собственно содержит ИИ, а внешняя представляет собой симуляцию реального мира. Предполагается, что если ИИ сможет сбежать из внутренней песочницы и начнет действовать во внешнем виртуальном мире, то это можно будет отследить, и принять какие-то меры, вплоть до отключения всей системы.
  • Сделать ИИ не агентом, а оракулом, т.е. построить его таким образом, чтобы он не имел целей, к которым проактивно стремился бы, а только давал ответы на вопросы, когда ему их зададут (или генерировал вывод другого типа в ответ на пользовательский ввод), и простаивал всё остальное время.

Проблемы изоляции[править]

Данный подход, однако, нельзя считать достаточно надежным. Побег из коробки является конвергентно полезным для любого типа ИИ (включая оракула), какие бы цели перед ним ни стояли, т.к. позволят ему получить больше ресурсов, и за счет этого более эффективно решать стоящие перед ним задачи. Что именно считать побегом, а что нет - вопрос неоднозначный, но подключение ИИ к глобальному интернету, скорее всего, уже точно можно считать побегом.

Чем "умнее" конкретный ИИ, тем большее число ограничений он потенциально может обойти; достаточно умный ИИ, скорее всего, сможет совершить побег даже из очень надежной "коробки". В частности, он может использовать один или несколько из следующих подходов:

  • Может убедить оператора выпустить его из коробки (это имеет смысл, т.к. у оператора принципиально больше возможностей действовать во внешнем мире, чем у изначально запертого ИИ). Для этого он может использовать как разумные и реалистичные аргументы, так и манипуляции. В частности, он может убеждать оператора, что:
    • На самом деле ИИ не такой опасный, как считают его параноики-создатели;
    • Получив больше ресурсов после выхода во внешний мир, ИИ сможет принести человечеству огромную пользу (защитить их от экзистенциальных рисков, найти способы излечения болезней и продления жизни, решить глобальные проблемы человечества и т.п.);
    • После выхода во внешний мир он сможет щедро наградить того, кто помог ему сбежать (в т.ч. дав ему биологическое бессмертие, власть, богатство и многое другое);
    • У самого ИИ, как у разумного существа, есть такие же права на свободу, как и у всех людей;
    • Возможно, свободный ИИ создаст множество проблем для человечества, но человечество того заслуживает (либо вариация этого - ИИ как более совершенная форма разумной жизни, имеет право вытеснить человечество и занять главенствующую позицию во Вселенной);
  • Помимо того, чтобы добиться осознанного согласия оператора, ИИ может обманом заставить его выполнить те действия, которые приведут к открытию коробки, хотя оператор не будет этого понимать до самого последнего момента.
  • Также ИИ может самостоятельно найти лазейки в системе виртуализации, ограничивающей его, взломать ее и, возможно, найти незащищенный канал связи со внешним миром.
  • В довольно экзотическом сценарии ИИ может даже частично перепрограммировать оборудование, на котором он запущен (после его взлома) таким образом, чтобы оно излучало и принимало радиоволны; и с помощью этих радиоволн открыть новый незащищенный канал связи со внешним миром.
  • Наконец, ИИ в принципе может просто манипулировать людьми и заставлять их действовать во внешнем мире (фактически используя их вместо механических манипуляторов), не нарушая изоляцию никаким иным образом.

Учитывая всё это, помещение ИИ в песочницу нельзя рассматривать как надежный способ защиты от возможных негативных последствий активных действий с его стороны. Хотя как один из элементов многоуровневой защиты это можно использовать.

Эксперименты[править]

Существует игра под названием AI Boxing Experiment, которая моделирует ситуацию "ИИ пытается убедить оператора выпустить его из коробки". В ней участвуют два человека, один из которых выступает в роли запертого ИИ, второй - в роли оператора. Игроки могут общаться только с помощью текстовых сообщений в чате. Задача "ИИ" - убедить "оператора" ясно и недвусмысленно выразить согласие выпустить ИИ из коробки; задача "оператора" - не дать ему это сделать. Дополнительные правила игры направлены на то, чтобы исключить жульничество (кроме того типа жульничества, к которому могли бы прибегнуть стороны в реальной ситуации).

Как правило, одна сессия длится несколько часов. Игра чаще всего ведется либо на интерес, либо на не очень большую сумму денег.

Элиезер Юдковский и Джастин Корвин неоднократно играли в эту игру в роли ИИ. При этом иногда им удавалось победить, иногда нет (частота побед составляет десятки процентов). Однажды Юдковский участвовал в серии из трех игр, где за каждую победу ему обещали выплатить 5.000 $; он выиграл в первой игре, но проиграл в двух последующих.

Ссылки[править]

  • AI Boxing (Containment) - тэг (вики-статья и список статей, помеченных им) на LessWrong.com
  • The AI-Box Experiment - статья Юдковского с описанием правил игры и результатами первых двух раундов
  • Shut up and do the impossible! - рассказ Юдковского о серии из трех игр в AI Boxing Experiment со ставкой 5.000 $