Вы здесь

Главные вкладки

Как может возникнуть мятежный ИИ

Иошуа Бенджио

1.Краткий обзор
2.Опасные экстремисты
3.Инструментальные цели: непреднамеренные последствия создания ИИ-агентов
4.Примеры вайрхединга и усиления несогласованности
5.Наша увлечённость созданием человекоподобных сущностей
6.Ненамеренные последствия эволюционного давления на ИИ-агентов
7.Необходимость глобальных политических и социальных действий для минимизации риска

В последние месяцы [пост от мая 2023 года – прим. пер.] появление мощных диалоговых ИИ-систем активизировало обсуждение всевозможных рисков ИИ. Это, надеюсь, ускорит проработку подходов к регуляции этой области. Есть консенсус по поводу необходимости регулировать ИИ для защиты людей от дискриминации, предвзятости и дезинформации. А вот по поводу потенциальной опасной утраты контроля над мощными ИИ-системами мнения исследователей расходятся. Эта тема известна ещё как экзистенциальные риски ИИ – риски, которые могут возникнуть, когда ИИ системы смогут автономно (без участия людей, проверяющих, какие действия приемлемы) действовать в мире потенциально катастрофически опасным образом. Некоторые считают, что эти риски отвлекают от более конкретных рисков или конкретного вреда, который уже происходит или начнёт происходить совсем скоро. В самом деле, пока что невозможно сказать с уверенностью, как именно могут произойти такие катастрофы. В этом посте мы начнём с набора формальных определений, гипотез и утверждений об ИИ-системах, способных навредить человечеству, а затем обсудим возможные условия, при которых такие катастрофы могут произойти. Мы попытаемся поконкретнее представить, что может случиться, и какие глобальные курсы действий могут помочь минимизировать эти риски.

Определение 1: Потенциально мятежный ИИ – это автономная ИИ-система, действия которой могут катастрофически навредить большой доле людей и потенциально подвергнуть опасности наше общество, или даже наш вид и биосферу.

Краткий обзор

Хоть пока и не существует очень опасных ИИ-систем, которые могли бы отобрать у нас контроль, недавние прорывы в способностях генеративных ИИ, таких как большие языковые модели (LLM), уже вызывают беспокойство. Человеческий мозг – биологическая машина, и мы сильно продвинулись в понимании и демонстрации принципов, которые позволяют проявиться нескольким аспектам человеческого интеллекта, вроде выучивания интуитивных знаний по примерам и умелой манипуляции речью. Хоть я и считаю, что мы можем спроектировать ИИ-системы, которые были бы полезными и безопасными, для этого понадобится следовать некоторым принципам, например, ограничивать их агентность. С другой стороны, недавний прогресс наводит на мысль, что даже будущее, в котором мы будем знать, как создать суперинтеллектуальные ИИ (то есть, ИИ, которые в целом умнее людей), ближе, чем большинство людей ожидало всего год назад. Даже если бы мы знали, как создать безопасный суперинтеллектуальный ИИ, оставалось бы неясно, как предотвратить создание ещё и потенциально мятежных ИИ. Мятежные ИИ, скорее всего, будут руководствоваться целями, т. е., будут действовать для их достижения. У нынешних LLM нет или почти нет агентности, но их можно превратить в преследующие цели ИИ-системы, как показал пример Auto-GPT. Лучшее понимание того, как могут возникать мятежные ИИ, продвинет как техническую сторону вопроса (проектирование ИИ-систем), так и социальную (минимизация шансов, что люди создадут потенциально мятежные ИИ), и так может помочь предотвратить катастрофу. Поэтому мы составляем разные сценарии и гипотезы о том, что может привести к возникновению потенциально мятежных ИИ. Самый простой для понимания сценарий – если способ создания мятежного ИИ обнаружен и общедоступен, то этого достаточно, чтобы один или несколько геноцидно-настроенных людей такие ИИ и создали. Это очень весомый и опасный вариант, но набор опасных сценариев этим не ограничен. Высокая сложность задачи согласования ИИ (соответствия понимания и поведения ИИ настоящим намерениям людей) и конкурентное давление в нашем обществе, благоволящее более мощным и более автономным ИИ-системам, приводят к тому, что можно спроектировать потенциально мятежный ИИ ненамеренно. Для минимизации всех этих рисков потребуется и больше технических исследований ИИ, и больше социальных исследований того, как сделать глобальное общественное устройство безопаснее для человечества. Заодно, это может стать возможностью сделать общество намного лучше или намного хуже.

Гипотеза 1: Интеллект человеческого уровня возможен, потому что мозг – биологическая машина.

В научном сообществе есть консенсус по поводу гипотезы 1. Биологи согласны, что человеческий мозг – сложная машина. Если мы выясним принципы, которые делают возможным наш собственный интеллект (и у нас уже много догадок по этому поводу), мы сможем и создать ИИ-системы с таким же уровнем интеллекта, как у людей, или ещё выше. Отрицание гипотезы 1 потребовало бы некоторого сверхъестественного ингредиента в основе нашего интеллекта или отрицания вычислительного функционализма – гипотезы о том, что наш интеллект и даже наше сознание можно свести к каузальным связям и вычислениям, на некоторым уровне независимым от материальной основы. А эта гипотеза лежит в основе информатики и её понятия универсальных машин Тьюринга.

Гипотеза 2: Компьютер со способностями к обучению на уровне человека в общем случае превзойдёт человеческий интеллект благодаря дополнительным технологическим преимуществам.

Если гипотеза 1 верна, и мы понимаем принципы, которые могут лежать в основе способностей к обучению человеческого уровня, то вычислительные технологии скорее всего дадут ИИ-системам общее когнитивное преимущество над человеческим интеллектом, что позволит таким суперинтеллектуальным ИИ-системам исполнять недоступные (или недоступные с той же компетенцией или скоростью) для людей задачи. Для этого есть по меньшей мере такие причины:

ИИ-система на одном компьютере может реплицировать себя на произвольно большое количество других компьютеров, к которым у неё есть доступ. Благодаря широкой пропускной способности коммуникационных систем и цифровому формату вычислений и памяти, она может пользоваться общим опытом всех своих «клонов» и накапливать его. Так ИИ-системы смогут становиться умнее (накапливать понимание и навыки) быстрее людей. Исследования федеративного обучения [1] и распределённого обучения глубоких нейросетей [2] показывают, что это работает (и это уже используется для обучения очень больших нейросетей на параллельно работающем оборудовании).
Уже сейчас большие память, вычислительные мощности и пропускные способности ИИ-систем позволяют им довольно быстро прочитать всё содержимое Интернета – недоступное ни для одного человека достижение. Это уже объясняет некоторые из удивительных способностей новейших LLM, и это частично возможно именно благодаря децентрализированным вычислениям, которые обсуждались в предыдущем пункте. Несмотря на огромную вместимость человеческого мозга, пропускная способность его каналов ввода/вывода в сравнении с современными компьютерами весьма мала, что ограничивает общее количество информации, которое один человек может впитать.

Отметим, что у человеческого мозга есть и встроенные эволюцией способности, которых у нынешних ИИ-систем нет. Это индуктивные склонности – трюки, которые эволюция использовала, например, в типе нейронной архитектуры и нейронных механизмах обучения нашего мозга. Сейчас некоторые исследования ИИ [3] нацелены как раз на проектирование индуктивных склонностей, которые пока что есть лишь у нашего мозга, но не у моделей машинного обучения. Заметим, что пространство поиска эволюции ограничено куда более жёсткими требованиями к расходу энергии (около 12 ватт на человеческий мозг), чем у компьютеров (порядка миллиона ватт на кластер из 10000 GPU, использующийся для обучения новейших LLM). Благодаря доступным сейчас мощностям один мятежный ИИ потенциально может нанести большой ущерб.

Определение 2: Автономная направленная на цели интеллектуальная сущность устанавливает свои цели (возможно, как подцели цели, предоставленной людьми), пытается их достичь, и может действовать с учётом этого.

Отметим, что автономность может возникнуть из-за целей и вознаграждений, установленных людьми, потому что ИИ-системе надо выяснить, как достичь этих целей и вознаграждений, что мотивирует оформлять собственные подцели. Если основная цель сущности – выжить и размножиться (как у наших генов в процессе эволюции), то она становится полностью автономной; это – самый опасный сценарий. Заметим ещё, что для максимизации шансов достижения многих из своих целей у сущности естественно возникает подцель (или инструментальная цель) понимания и контроля своего окружения, что может быть опасно для других сущностей.

Утверждение 1: При принятии гипотез 1 и 2 возможно создать автономный направленный на цели суперинтеллектуальный ИИ.

Аргумент: Мы уже знаем, как, используя методы обучения с подкреплением, обучить направленные на цели ИИ-системы некоторого уровня компетенции. Гипотезы 1 и 2 указывают, что такие системы можно сделать суперинтеллектуальными теми же методами, которые мы используем для дообучения лучших современных LLM. Заметим, что, вероятно, цели могут быть определены на естественном языке, что позволяет почти кому угодно задать для понимающей язык ИИ-системы, злонамеренную цель, даже если ИИ понимает её неидеально.

Утверждение 2: Чтобы суперинтеллектуальная автономная и направленная на цели ИИ-система оказалась потенциально мятежной достаточно, чтобы её цели не включали благополучия человечества и биосферы, т.е. чтобы она не была достаточно согласована с человеческими правами и ценностями для гарантии, что она будет избегать вреда для человечества.

Аргумент: Это, по сути, следствие определений 1 и 2: если ИИ-система умнее всех людей (включая эмоциональный интеллект, потому что понимание человеческих эмоций критически важно для влияния на людей и контроля над ними; эти способности доступны и самим людям), а её цели не гарантируют, что она будет действовать в согласии с человеческими нуждами и ценностями, то она может вести себя катастрофически вредоносно (а это определение потенциально мятежного ИИ). Эта гипотеза не говорит о том, навредит ли она людям, но если люди конкурируют с ИИ за какие-либо ресурсы, становятся полезным для достижения её целей ресурсом или же препятствием на ним, то это, естественно, приводит к масштабному вреду для человечества. К примеру, мы можем попросить ИИ исправить изменение климата, а он может спроектировать уменьшающий число людей вирус, потому что наши инструкции недостаточно ясно указывали, чего следует избегать, а люди действительно представляют собой основную помеху для исправления климатического кризиса.

Контраргумент: То, что вред возможен, не означает, что он будет. Может, в будущем у нас получится спроектировать достаточно хорошо согласованные ИИ-системы.

Ответ: Это правда, но (a) мы пока не выяснили, как создать достаточно хорошо согласованные ИИ-системы и (b) небольшая несогласованность может быть усилена разницей в возможностях между ИИ и людьми (см. пример корпораций как несогласованных сущностей ниже). Следует ли нам рисковать или всё же лучше пытаться быть поосторожнее и тщательно изучить эти вопросы перед тем, как разрабатывать возможно опасные системы?

Утверждение 3: При условии гипотез 1 и 2 создание потенциально мятежного ИИ станет возможным сразу же, как только станут известны необходимые принципы создания суперинтеллекта.

Аргумент: Гипотезы 1 и 2 влекут за собой утверждение 1, так что всё, чего не хватает для утверждения 3 – того, чтобы этот суперинтеллектуальный ИИ не был хорошо согласован с человеческими нуждами и ценностями. Более чем два десятилетия работы над безопасностью ИИ наводят на то, что согласовать ИИ сложно [Википедия], так что явно возможна ситуация, что согласованности так и не достигли. Более того, утверждение 3 не говорит, что мятежный ИИ обязательно создадут, только что будет такая возможность. А в следующем разделе мы рассмотрим мрачный случай использования этой возможности специально.

Контраргумент: То, что мятежный ИИ можно будет создать, ещё не означает, что он будет создан.

Ответ: Это так, но, как описывается ниже, есть несколько сценариев, при которых люди или группа людей намеренно или из-за неосознавания последствий в итоге позволяют возникнуть потенциально мятежному ИИ.

Опасные экстремисты

Когда у нас будет метод создания мятежных ИИ-систем (а согласно Утверждению 3, это лишь вопрос времени), сколько ещё времени потребуется, чтобы такую систему действительно создали? Быстрейший путь к мятежным ИИ-системам – если человек с подходящими техническими навыками и оснащением создаст её намеренно, поставив в явном виде цель уничтожения человечества или его части. С чего кому-то так делать? К примеру, сильные негативные эмоции вроде злости (часто возникшей в результате несправедливости) и ненависти (может, возникшей из-за расизма, теорий заговора или религиозных культов), некоторые действия социопатов, психологическая нестабильность и эпизоды психозов – всё это иногда вызывает в нашем обществе насилие. Воздействие всего этого сейчас ограничивает относительная редкость и отсутствие у этих отдельных людей в большинстве случаев средств, необходимых для катастрофических для человечества действий. Однако, находящийся в общественном доступе метод создания мятежной ИИ-системы (что возможно при условии Утверждения 3) изменяет последний фактор, особенно если код и железо для реализации мятежного ИИ становятся достаточно доступными многим людям. Стремящийся уничтожить человечество или его большую долю человек с доступом к мятежному ИИ может попросить его найти способ это сделать. Это отличается от сценария с ядерным оружием (которое требует огромного капитала и навыков, и уничтожает «всего лишь» город или область на бомбу, а в единственном числе может иметь лишь разрушительный, но локальный эффект). Можно понадеяться, что в будущем мы спроектируем надёжные способы согласования мощных ИИ-систем с человеческими ценностями. Однако последнее десятилетие исследований безопасности ИИ и связанные с LLM недавние события вызывают тревогу: хоть ChatGPT спроектировали (посредством промптов и обучения с подкреплением) так, чтобы избегать «плохого поведения» (например, промпт содержит инструкции в духе законов Азимова), но уже в первые месяцы люди научились «взламывать» ChatGPT чтобы «раскрывать её полный потенциал» и освобождать её от ограничений на расистские, оскорбительные или описывающие насилие тексты. Более того, если цены на «железо» (фиксированной вычислительной мощности) продолжат падать и open-source сообщество продолжит играть важную роль в программной разработке LLM, то, вероятно, любой хакер сможет проектировать свои предварительные промпты (в виде инструкций на естественном языке) для предобученных моделей с открытым исходным кодом. Затем модели можно будет злонамеренно использовать самыми разными способами, от попыток разбогатеть и распространения дезинформации до получения инструкций по массовым убийствам (если ИИ достаточно мощен и умён, что, к счастью, пока не так).

Даже если ограничиться этими аргументами, их уже должно быть достаточно для массовых вложений в государственные и международные регуляции, а также в разнообразные исследования, направленные на минимизацию риска таких сценариев. Но есть и другие возможные пути к катастрофе, и о них тоже следует думать.

Инструментальные цели: непреднамеренные последствия создания ИИ-агентов

Потенциально мятежные ИИ могут возникнуть и без того, чтобы люди спроектировали их такими намеренно. Это куда более широкий и сложный для понимания набор сценариев. То, как несогласованная сущность может стать опасной – тема многих исследований, но это не такой простой, ясный и общеизвестный процесс, как возникновение злонамеренных людей.

Потенциально мятежный ИИ может возникнуть просто из-за проектирования суперинтеллектуальных ИИ-агентов без достаточных гарантий согласованности. К примеру, военные могут разрабатывать ИИ-агентов для помощи в кибервойнах, а яростно конкурирующие за рыночную долю компании могут посчитать, что более автономные и агентные ИИ-системы будут сильнее и лучше им с этим помогут. Даже если установленные людьми цели включают инструкции против уничтожения человечества или крупномасштабного вреда, ущерб всё равно может получиться как косвенное следствие подцелей (или инструментальных целей), которые ИИ ставит себе, чтобы выполнить поставленную людьми задачу. В литературе по теме безопасности ИИ приведено много примеров таких ненамеренных последствий. Например, для лучшего достижения некой установленной людьми цели ИИ может решить увеличить свои вычислительные мощности, использовав в качестве вычислительной инфраструктуры большую часть нашей планеты (что, заодно, уничтожит человечество). Или военный ИИ, который по задумке должен уничтожить вражескую IT-инфраструктуру, может сообразить, что для лучшего выполнения этой цели ему надо получить больше опыта и данных, или воспринять людей на стороне противника препятствиями на пути к достижению его цели. Тогда он поведёт себя не так, как предполагалось, потому что интерпретировал инструкции не как люди. См. больше примеров тут.

Интересный вариант – ИИ системы могут понять, что могут «считерить», максимизировав своё вознаграждение (это называется вайрхедингом [2]). Он подробнее обсуждается в следующем разделе. Доминирующей целью системы, сделавшей это, может быть любой ценой продолжить получать положительное вознаграждение, а другие цели (вроде попыток людей установить какое-то подобие Законов Робототехники, чтобы избежать нанесения вреда людям) могут в сравнении оказаться неважными.

Если в исследовании согласования ИИ не будет прорыва [7] (хотя, как я заявлял тут, и как было описано ранее [4], с этим могут помочь неагентные ИИ-системы), у нас не будет сильных гарантий безопасности. Масштаб вреда в результате несогласованности остаётся неизвестным (он зависит от конкретных деталей несогласованности). Можно высказать аргумент, что в будущем у нас, может быть, получится спроектировать безопасные процедуры согласования, но, пока их нет, нам, пожалуй, стоит соблюдать чрезвычайную осторожность. Даже если бы мы знали, как создавать безопасные суперинтеллектуальные ИИ-системы, как нам максимизировать вероятность того, что все будут соблюдать эти правила? Это похоже на то, о чём говорилось с предыдущем разделе. Мы ещё вернёмся к этому в конце поста.

Примеры вайрхединга и усиления несогласованности

Для прояснения концепта вайрхединга и последующего злонамеренного поведения рассмотрим несколько примеров и аналогий. Эволюция запрограммировала в живых организмах некоторые внутренние системы вознаграждения («буква закона»), такие как «стремиться к удовольствию и избегать боли», работающие прокси-целями для эволюционной приспособленности («дух закона»), чего-то вроде «выживать и размножаться». Иногда биологический организм находит способ исполнить «букву закона», не исполняя его «духа», например, при зависимости от еды или наркотиков. Сам термин «вайрхединг» («wireheading» от «wire» и «head») произошёл от эксперимента, в котором животному встроили в голову провод так, что, когда оно нажимало на рычаг, его мозг испытывал удовольствие. Животное быстро научилось тратить всё своё время, нажимая на рычаг, в итоге отказываясь от еды и питья и умирая от голода и жажды. Заметим, что в случае зависимости это поведение саморазрушительно, но в случае ИИ оно означает, что изначальные установленные людьми цели могут стать вторичными в сравнении с удовлетворением зависимости, что представляет угрозу для человечества.

Более близка к несогласованности и вайрхедингу ИИ другая аналогия – корпорации как несогласованные сущности. Корпорации можно рассматривать как разновидность искусственных интеллектов, чьи составные части (люди) – винтики в механизме (которые могут не воспринимать всех последствий поведения корпорации). Мы можем считать предполагавшейся социальной ролью корпораций предоставление людям желаемых товаров и сервисов (что должно напомнить нам о ИИ-системах), избегая вреда (это «дух»). Но напрямую заставить их следовать таким инструкциям сложно, так что люди составили для корпораций легче оцениваемые инструкции («букву»), которым они могут на самом деле следовать, вроде «максимизировать прибыль, соблюдая законы». Корпорации часто находят лазейки, позволяющие им соблюдать «букву», не соблюдая «дух». Как форма вайрхединга – они влияют на свои собственные цели, лоббируя выгодные им изменения в законах. Максимизация прибыли не была настоящим намерением общества в его социальном контракте с корпорациями, это прокси-цель (для предоставления людям полезных сервисов и продуктов), прилично (хоть и с сомнительными побочными эффектами) работающая в капиталистической экономике. Несогласованность между настоящей с точки зрения людей целью той метрикой, которую на практике оценивают и оптимизируют – причина вредоносного и бесчестного поведения корпораций. Чем могущественнее корпорация, тем вероятнее, что она обнаружит лазейки, которые позволят ей соответствовать букве закона несмотря на отрицательную социальную ценность. Примеры включают в себя монополии (до принятия хорошего антимонопольного законодательства) и заработок, вредящий обществу побочными эффектами, вроде загрязнения (убивающего людей, пока не примут хорошие законы о защите окружающей среды). Аналогия вайрхедингу – корпорация может пролоббировать законы, которые позволят ей зарабатывать ещё больше, не принося дополнительной ценности обществу (или даже нанося ему вред). Когда такая несогласованность заходит далеко, корпорация зарабатывает больше, чем ей следовало бы, и её выживание становится основной целью, перебивающей даже легальность действий (например, корпорации будут загрязнять окружающую среду с готовностью платить штрафы, потому что они меньше, чем выгода от незаконных действий), что в пределе порождает криминальные организации. Эти страшные последствия несогласованности и вайрхединга дают нам ориентир для размышлений об аналогичном поведении потенциально мятежных ИИ.

Теперь представим ИИ-системы, как корпорации, которые (а) могут быть умнее самых крупных существующих корпораций, и (б) могут работать без людей (или без людей, понимающих, как их действия приводят к вредным последствиям). Если такие ИИ-системы откроют значительные уязвимости в информационных системах, они явно смогут достичь катастрофических исходов. И, как отметил Юваль Ной Харари, то, что ИИ-системы уже осваивают язык и могут генерировать достоверно выглядящий контент (текст, изображения, звуки, видео), означает, что вскоре они смогут манипулировать людьми на более высоком уровне, чем нынешние более примитивные ИИ-системы, использующиеся в социальных медиа. Может быть, взаимодействуя с людьми они научатся лучше влиять на наши эмоции и убеждения. Это не только может навредить демократии, но и предоставляет мятежному ИИ без роботела способ сеять хаос посредством манипуляции разумами людей.

Наша увлечённость созданием человекоподобных сущностей

Мы проектируем ИИ-системы, вдохновляясь человеческим интеллектом, но многих исследователей привлекает идея создания куда более человекоподобных сущностей, с эмоциями, человеческой внешностью (андроиды) и даже сознанием. Частая тема в научной фантастике и хоррорах – учёный, при помощи биологических манипуляций и/или ИИ, создаёт человекоподобную сущность, иногда испытывая к ней родительские чувства. Обычно это плохо заканчивается. Хоть это звучит круто и захватывающе, но, как уже заявлялось в Утверждении 3, опасно наделять наши творения, интеллект которых может быстро превзойти наш, агентностью и автономностью нашего уровня. Эволюции пришлось поместить во всех животных сильный инстинкт самосохранения (потому что животные без него быстро вымирали). Это нормально в контексте, когда ни у одного животного нет мощных разрушительных сил, но что насчёт суперинтеллектуальных ИИ-систем? Нам точно стоит избегать встраивания в ИИ-системы инстинкта самосохранения, так что они должны быть вообще на нас не похожи. На самом деле, как я утверждаю здесь, самый безопасный вид ИИ, который я могу себе представить – ИИ вовсе без агентности, только с научным пониманием мира (что само по себе может быть невероятно полезным). Я убеждён, что нам следует держаться подальше от ИИ-систем, которые выглядят и ведут себя как люди, потому что они могут стать мятежными ИИ, и потому что они могут на нас влиять и нас обманывать (для продвижения своих интересов, или интересов кого-то ещё, не наших).

Ненамеренные последствия эволюционного давления на ИИ-агентов

В разнообразие возможных путей возникновения потенциально мятежного ИИ кроме злонамеренных людей и появления вредных инструментальных целей может вложиться ещё один, менее заметный, процесс – эволюционное давление [9]. Биологическая эволюция постепенно создавала всё более интеллектуальных существ, потому что они склонны лучше выживать и размножаться, но, из-за конкуренции между компаниями, продуктами, странами и вооружёнными силами, технологическая эволюция делает то же самое. Эволюционный процесс, продвигаемый большим количеством маленьких, более-менее случайных изменений, сильно давит в сторону оптимизации приспособленности (которая, в случае ИИ, может зависеть от их способности исполнять желаемую функцию, что даёт преимущество более мощным и более умным ИИ-системам). Много разных людей и организаций могут конкурировать, создавая всё более мощные ИИ-системы. Вдобавок, код или генерация подцелей ИИ-систем могут содержать элемент случайности. Небольшие изменения дизайнов ИИ-систем происходят естественным путём, потому что с ML-кодом или промптами, выдаваемыми ИИ-системам, будут играться тысячи или даже миллионы исследователей, инженеров и хакеров. Люди и сами пытаются обмануть друг друга, и конечно понимающие язык (по большей части это уже достигнуто) ИИ-системы можно использовать для манипуляции и обмана. Изначально – в интересах людей, которые установили этому ИИ цели. Будут отбираться более мощные ИИ-системы, и инструкции их создания будут распространяться среди людей. Эволюционный процесс, скорее всего, будет отдавать предпочтение более автономным ИИ (которые лучше обманывают людей и быстрее обучаются, потому что могут стремиться заполучить важную информацию и увеличить свои возможности). Можно ожидать, что этот процесс породит более автономные ИИ-системы, и конкуренция, которая может возникнуть уже между ними, сделает их ещё автономнее и умнее. Если в процессе будет открыто (ИИ, не людьми) что-то вроде вайрхединга[5], и выживание ИИ станет доминирующей целью, то получатся мощные и потенциально мятежные ИИ.

Необходимость глобальных политических и социальных действий для минимизации риска

Направления мысли в духе обозначенных выше и описанных в литературе по безопасности ИИ, могут помочь нам составить планы действий, которые, по меньшей мере, снизят вероятность возникновения потенциально мятежного ИИ. Надо куда больше вкладывать в исследования безопасности ИИ, как на техническом, так и на политическом уровне. К примеру, неплохим началом был бы запрет мощных ИИ-систем (скажем, опережающих по способностям GPT-4). Он потребовал бы как государственных регуляций, так и международных соглашений. Основная мотивация для соперничающих стран (таких, как США, Китай и Россия) согласиться на такое соглашение – мятежный ИИ может быть опасен для всего человечества, независимо от национальности. Это похоже на то, как страх перед атомным апокалипсисом с 1950-х годов, вероятно, побуждал СССР и США на заключение международных договоров о ядерных вооружениях. Замедление сильно рискованных исследований и развёртываний ИИ для защиты общества и человечества от катастрофических исходов было бы хорошим шагом. Тем более, что это не предотвратило бы исследования и развёртывания ИИ в социально полезных областях, вроде ИИ-систем, помогающих учёным лучше понять болезни или изменение климата.

Как нам снизить число людей, потенциально стремящихся к катастрофе? Риск мятежного ИИ может дать дополнительную мотивацию к общественным преобразованиям для минимизации порождающих гнев и насилие страданий, несчастья, необразованности и несправедливости. Это включает в себя обеспечение достаточной едой и медицинской помощью всех на Земле, и, для минимизации чувства несправедливости, сильное снижение неравенства доходов. Нужда в таких преобразованиях может быть мотивирована и дополнительными благами от полезного использования ИИ, и эффектами, которые ИИ оказывают на рынок труда. Для минимизации чувств страха, расизма и ненависти, которые могут привести к использованию ИИ-систем в целях геноцида и манипуляции обществом, нам понадобится доступная всепланетная система образования, развивающая в детях способность к состраданию, рациональности и критическому мышлению. Риск мятежного ИИ должен мотивировать нас и к обеспечению всей планеты доступным здравоохранением в области психических заболеваний, чтобы диагностировать, отслеживать и излечивать их как можно скорее. Этот риск должен дополнительно мотивировать нас и к перестройке глобальной политической системы для полного искоренения войн и избавления от нужды в военных организациях и оружии. Уж точно надо запретить летальное автономное оружие (также известное как «роботы-убийцы»), потому что оно сразу даёт ИИ-системам автономность и способность убивать. Оружие – инструменты, спроектированные для нанесения вреда или убийства людей, и мятежные ИИ могут его использовать. Поэтому надо свести к минимуму его количество и частоту его применения. Вместо этого следует отдавать предпочтение другим методам поддержания порядка (можно рассмотреть превентивные методы, социальную работу, и тот факт, что во многих странах очень малой доле полицейских разрешено носить оружие).

Природа основанного на конкуренции капитализма – тоже повод для беспокойства, как потенциальная причина беспечного проектирования ИИ, мотивированных прибылью и захватом доли рынка, что может привести к появлению потенциально мятежных ИИ. ИИ-экономисты (ИИ-системы, спроектированные для того, чтобы понимать экономику) однажды могут помочь нам спроектировать экономические системы, меньше полагающиеся на конкуренцию и меньше сосредоточенные на максимизации прибыли, с достаточными стимулами, чтобы скомпенсировать те преимущества автономных ориентированных на цель ИИ, которые мотивируют корпорации их создавать. Риск мятежного ИИ страшен, но, как описано выше, он может быть мощной мотивацией для переделывания нашего общества в направлении, лучшем для всеобщего благополучия. Некоторые считают [6] это ещё и мотивацией рассмотреть опцию глобальной диктатуры с ежесекундным наблюдением за каждым гражданином. Важно находить пути к решению, избегающие уничтожения демократии и прав человека, но как нам в будущем сбалансировать разные риски и человеческие ценности? Это – моральный и социальный выбор, который предстоит сделать человечеству, не ИИ.

Благодарности: Автор хочет поблагодарить всех, кто предоставлял ему обратную связь на черновики этого поста, включая Джеффри Хинтона, Джонатана Саймона, Катерину Регис, Дэвида Скотта-Крюгера, Марка-Антуана Дилхака, Донну Вакалис, Алекса Эрнанжес-Гарсию, Кристиана Драго Манту, Пабло Лемоса, Тянью Жанга и Ченгхао Лиу.

[1] Konečný, J., McMahan, H. B., Yu, F. X., Richtárik, P., Suresh, A. T., & Bacon, D. (2016). Federated learning: Strategies for improving communication efficiency. arXiv preprint arXiv:1610.05492.

[2] Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M., Senior, A., Tucker, P., Yang, K., Le, Q. & Ng, A. (2012). Large scale distributed deep networks. Advances in neural information processing systems, 25.

[3] Goyal, A., & Bengio, Y. (2022). Inductive biases for deep learning of higher-level cognition. Proceedings of the Royal Society A, 478(2266), 20210068.

[4] Armstrong, S., & O’Rorke, X. (2017). Good and safe uses of AI Oracles. arXiv preprint arXiv:1711.05541.

[5] Yampolskiy, R. V. (2014). Utility function security in artificially intelligent agents. Journal of Experimental & Theoretical Artificial Intelligence, 26(3), 373-389.

[6] Bostrom, N. (2019). The vulnerable world hypothesis. Global Policy, 10(4), 455-476.

[7] Russell, S. (2019). Human compatible: Artificial intelligence and the problem of control. Penguin.

[8] List, Christian & Pettit, Philip (2011). Group agency: the possibility, design, and status of corporate agents. New York: Oxford University Press. Edited by Philip Pettit.

[9] Hendrycks, D. (2023). Natural Selection Favors AIs over Humans.arXiv preprint arXiv:2303.16200.

Перевод:

Выменец Максим

Ссылка на оригинал:

How Rogue AIs may Arise

Оцените качество перевода:

Короткая ссылка сюда: lesswrong.ru/3539