Статьи Якоба Стейнхардта

Какой будет GPT-2030?

Якоб Стейнхардт

Способность GPT4 программировать, творчески генерировать идеи, писать письма и делать немало чего ещё много кого удивила. В машинном обучении она в этом не одинока: до неё меня, как и многих способных прогнозистов удивили математические способности Minerva.

Как меньше удивляться при появлении новых ИИ-разработок? Наш мозг часто совершает прогноз нулевого порядка: смотрит на нынешнее положение дел и добавляет усовершенствования, которые «кажутся осмысленными». Но оценка, что именно «кажется осмысленным», подвержена когнитивным искажениям и будет недооценивать прогресс в столь быстро развивающейся области как машинное обучение. Более эффективный подход – прогнозирование первого порядка: численно оценить историческую скорость прогресса и экстраполировать её вперёд, обращая при этом внимание на возможные причины замедления или ускорения.1

В этом посте я использую этот подход для прогнозирования свойств больших предобученных ИИ в 2030 году. Я дальше буду говорить о «GPT2030». Это гипотетическая система, которая обладает способностями, вычислительными ресурсами и скоростью вывода, которые получатся, если экстраполировать большие языковые модели на 2030 год (но эта система скорее всего будет обучена и в других модальностях, таких как изображения). Чтобы предсказать свойства GPT2030, я рассмотрел много источников информации, включая эмпирические законы масштабирования, прогнозы о будущих вычислительных мощностях и будущей доступности данных, скорость улучшения по конкретным метрикам, скорость вывода нынешних систем и возможные будущие улучшения параллелизма.

Способности GPT2030 оказываются удивительными (по крайней мере, для меня). В частности, GPT2030 будет обладать некоторыми значительными преимуществами как над нынешними системами2, так и (по крайней мере, в некоторых важных аспектах), над нынешними работниками-людьми:

  1. GPT2030 скорее всего будет обладать сверхчеловеческими навыками исполнения многих конкретных задач, включая программирование, взлом, математику, и, возможно, проектирование белков (Раздел 1).
  2. GPT2030 сможет «работать» и «думать» быстро: по моей оценке, она будет в 5 раз [диапазон: 0.5-20] быстрее людей, если измерять по словам, обработанным за минуту3, и это можно будет увеличить до 125 раз, заплатив в 5 раз больше за FLOP (Раздел 2).
  3. GPT2030 будет легко копировать и запускать параллельно. Обучившая GPT2030 организация будет обладать достаточными вычислительными мощностями, чтобы запустить много параллельных копий: по моей оценке, достаточно, чтобы исполнить 1.8 миллионов лет работы [диапазон: 0.4М-10М лет] при пересчёте на человеческую скорость. (Раздел 3). При учёте пятикратного ускорения из предыдущего пункта, эта работа сможет выполниться за 2.4 месяца.
  4. Благодаря идентичным весам копии GPT2030, смогут делиться знаниями, что допускает параллельное обучение: по моей оценке, эквивалентное 2,500 человеческим годам обучения за 1 день (Раздел 4).
  5. Кроме текста и изображений GPT2030 сможет обучаться на дополнительных модальностях, включая, возможно, и контринтуитивные, вроде молекулярных структур, низкоуровневого машинного кода, астрономических снимков и сканов мозга. Так что не исключено, что она будет обладать мощной интуицией и сформирует незнакомые нам концепции в областях, в которых у людей опыт ограничен (Раздел 5).

Такие способности, как минимум, ускорят многие области исследований, и в то же время откроют значительные возможности для злоупотребления (Раздел 6). Программистские способности GPT2030 вкупе с параллелизацией и скоростью сделают её мощным инструментом для кибератак. Вдобавок, параллельное обучение можно будет направить на поведение людей, и использовать для манипуляций и дезинформации с тысячами «лет» практики.

Главным ограничителем ускорения будет автономность. Я ожидаю, что в областях вроде математики, где работу можно проверять автоматически, GPT2030 будет превосходить самых профессиональных математиков. Ещё я ожидаю, что в машинном обучении GPT2030 будет независимо проводить эксперименты и генерировать графики и отчёты, но аспиранты и исследователи будут указывать направление и оценивать результаты. В обоих случаях GPT2030 будет неотъемлемой частью процесса исследований.

Если исходить из того, как выглядят нынешние системы, мои прогнозы свойств GPT2030 кажутся контринтуитивными, и они действительно могут оказаться ошибочными, потому что нельзя быть точно уверенным в том, как машинное обучение будет выглядеть в 2030 году. Однако, пункты (1.-5.) выше – моя медианная оценка, и чем бы ни оказалась GPT2030, я сомневаюсь, что это будет «GPT-4, но немного лучше».

Если я прав, то влияние ИИ уж точно будет немаленьким. Нам надо готовиться к нему сейчас, задаваясь вопросами о том, что произойдёт на самых крупных масштабах (порядка триллионов долларов, десятков миллионов жизней и значимых изменений социальных процессов). Лучше удивляться сейчас, а не через 7 лет, когда эти системы уже будут работать.

Конкретные cпособности

Я ожидаю, что GPT2030 будет превосходить людей в программировании, взломе и математике, а также способности читать и обрабатывать большие объёмы текста для поиска закономерностей или фактов и генерации озарений. Наконец, раз AlphaFold и AlphaZero превосходили людей в проектировании белков и играх, GPT2030 тоже будет на это способна, например, если она будет мультимодально обучена на данных, похожих на обучающие данные AlphaFold/AlphaZero.

Программирование. GPT-4 опередила сильные человеческие результаты на задачах с LeetCode, выложенных после отсечки её обучающих данных (Bubeck et al. 2023, таблица 2), и прошла имитацию интервью нескольких больших технических компаний (Рис. 1.5). Скорость улучшений всё ещё высока, между GPT-3 и 4 произошёл скачок в 19%. С более сложным соревнованием CodeForces GPT-4 справилась хуже, но AlphaCode сравнялась с медианным участником-человеком. На ещё более сложном датасете APPS, Parsel опередил AlphaCode (7.8%->25.5%). Платформа прогнозирования Metaculus даёт 2027 в качестве медианного года достижения 80% на APPS, что превзошло бы почти всех людей.4

Взлом. Я ожидаю, что вместе с навыками программирования в целом будут расти и навыки взлома, и что вдобавок к этому модели смогут просматривать большие базы кода в поисках уязвимостей на куда больших масштабах и с куда большей тщательностью, чем люди. ChatGPT уже использовали для генерации эксплойтов и создания полиморфного вредоносного кода, что обычно считается продвинутой техникой атаки.

Математика. Minerva достигла пятидесятипроцентного результата на бенчмарке соревновательной математики (MATH), что лучше результатов большинства людей. Скорость прогресса велика (больше 30% за год), и низковисящих плодов ещё много: автоформализация, избавление от арифметических ошибок, улучшение техники цепочки мыслей, и улучшение качества данных5. Metaculus предсказывает 92% на MATH к 2025, и выдаёт 2028 как медианный год, когда ИИ выиграет золотую медаль Международной Математической Олимпиады, то есть выйдет на уровень лучших студентов в мире. Я лично ожидаю, что GPT2030 будет лучше самых профессиональных математиков доказывать хорошо сформулированные теоремы.6

Обработка информации. Способность отыскивать нужные факты в больших объёмах данных естественно вытекает из способностей больших языковых моделей к запоминанию и больших контекстных окон. Как выяснилось, GPT-4 достигает 86% точности на MMLU, широком наборе стандартизированных экзаменов, включающем юридический экзамен, MCAT, и экзамены по математике, физике, биохимии и философии уровня колледжа; даже если сделать поправку на вероятное пересечение с обучающими данными, это скорее всего превзойдёт широту эрудиции любого человека. Что касается больших корпусов данных, Чжун и пр. (2023) использовали GPT-3 для конструирования системы, которая открыла и описала несколько ранее неизвестных закономерностей в больших базах текста, и тренды масштабирования на схожих задачах от Биллс и пр. (2023) указывают, что модели скоро превзойдут в этом людей. Обе работы использовали большие контекстные окна LLM, сейчас они превысили 100,000 токенов и растут дальше.

Если обобщить, модели машинного обучения обладают не таким же набором навыков, что люди, потому что обучение на больших массивы данных из интернета, сильно отличается от «обучения» естественным отбором в ходе эволюции. К моменту, когда модели достигнут человеческого уровня в задачах вроде распознавания объектов на видео, они скорее всего уже будут обладать сверхчеловеческими навыками во многих других задачах, таких как математика, программирование и взлом. Более того, из-за роста моделей и совершенствования данных скорее всего со временем выявятся дополнительные мощные способности, и нет особых причин ожидать, что способности моделей «выйдут на плато» на человеческом уровне или ещё ниже. Хоть и возможно, что нынешние подходы глубинного обучения не дойдут до человеческого уровня в некоторых областях, равно возможно и что они его превзойдут, может быть, превзойдут сильно, особенно в областях вроде математики, для которых люди эволюционно не специализировались.

Скорость вывода

(Благодарю Льва МакКинни за результаты по бенчмаркам в этом разделе)

Для оценки скорости моделей машинного обучения мы измеряем, как быстро они генерируют текст, сравнивая с скоростью мышления человека в 380 слов в минуту (Корба (2016), см также Приложение A). Использование API продолжения чата от OpenAI, мы оценили, что в апреле 2023 года gpt-3.5-turbo может генерировать 1200 слов в минуту (wpm), а gpt-4 генерирует 370 wpm. Меньшие модели с открытым кодом вроде pythia-12b достигают как минимум 1350 wpm при привлечении дополнительных инструментов и на A100 GPU. Кажется, что при дальнейшей оптимизации это можно удвоить.

Следовательно, если рассматривать модели от OpenAI по состоянию на апрель, они получаются либо примерно в три раза быстрее людей, либо примерно на том же уровне. Я ожидаю, что модели в будущем будут быстрее, потому что для ускорения вывода есть мощные коммерческие и практические стимулы. И правда, согласно данным отслеживания от Фабиена Роджера, в неделю до выкладывания этого поста скорость GPT-4 уже увеличили до 540 wpm (12 токенов в секунду). Это демонстрирует возможности улучшений и желание этими возможностями пользоваться.

Мой медианный прогноз – что модели будут в пять раз превосходить людей по словам в минуту (диапазон: [0.5, 20]), так как примерно там практические преимущества дальнейшего ускорения пойдёт на спад. Однако, есть соображения и в пользу как более, так и менее высоких чисел, их подробный список, как и сравнение скоростей моделей разных масштабов и подробности упомянутых выше экспериментов можно посмотреть в Приложении A.

Большое значение имеет то, что скорость моделей машинного обучения не фиксирована. Последовательную скорость вывода можно увеличить в k2 раз ценой уменьшения пропускной способности в k раз (иными словами, k3 параллельно работающих копий модели можно заменить на одну в k2 раз более быструю). Этого можно достигнуть при помощи параллельной схемы, теоретически работающей даже для больших значений k2, скорее всего как минимум до 100, а может и больше. Так что модель, в пять раз превышающую по скорости человека, можно ускорить до 125-кратного превосходства при k=5.

Важная оговорка – скорость не обязательно сопровождается качеством: как описано в Разделе 1, набор навыков GPT2030 будет отличаться от человеческого, она будет проваливаться на некоторых задачах, которые мы считаем простыми и в совершенстве исполнять некоторые, которые мы считаем сложными. Так что нам не надо думать о GPT2030, как о «ускоренном человеке», но, скорее, как о «ускоренном работнике» с потенциально контринтуитивным набором навыков.

Несмотря на это, ускорение рассматривать полезно, особенно когда оно большое. Языковые модели, опережающие по скорости людей в 125 раз, будут выполнять входящие в их набор навыков когнитивные задачи, которые заняли бы у человека целый день, за считанные минуты. Если опять взять пример взлома – системы машинного обучения смогут быстро находить эксплойты и проводить атаки, отнявшие бы у человека много времени.

Пропускная способность и параллельные копии

Копирование моделей ограничено только доступными вычислительными мощностями и памятью. Это позволяет им быстро выполнять любую работу, которую можно эффективно распараллелить. К тому же, особенно эффективно донастроив одну модель, можно сразу же перенести изменение на другие экземпляры. Ещё модели можно дистиллировать под конкретные задачи, что ускорит и удешевит их использование.

Скорее всего, после обучения модели будет доступно достаточно ресурсов, чтобы запустить много её копий, потому что обучение модели требует запуска многих параллельных копий, и какая бы организация её не обучила, вероятно, те же ресурсы будут ей доступны и при развёртывании. Следовательно, мы можем получить нижнюю границу числа копий, оценив затраты на обучение.

Пример такого расчёта – затраты на обучение GPT-3 были бы достаточны для 9x1011 её же запусков. Приводя к человеческому эквиваленту, люди думают со скоростью в 380 слов в минуту (см. Приложение A), а одно слово – это в среднем 1.33 токена, так что 9x1011 запусков соответствуют ~3400 годам работы с человеческой скоростью. Следовательно, организация может запускать 3400 параллельных копий модели на целый год на человеческой скорости работы, или то же число копий на 2.4 месяца с пятикратной скоростью. (Примечание: последнее зависит от того, сколько экземпляров модели организация может запустить параллельно, см. сноску7 за подробностями.)

Давайте теперь экстраполируем, насколько обучение «забегает вперёд», то есть, соотношение стоимостей обучения и запуска, на будущие модели. Оно должно вырасти: в основном потому, что оно примерно пропорционально размеру датасета, а они растут. Этот тренд замедлится, когда мы исчерпаем запасы естественных языковых данных, но новые модальности и синтезированные/самосгенерированные данные не позволят ему остановиться.8 В Приложении B я рассмотрел эти факторы подробно, чтобы экстраполировать их на 2030 год. Я ожидаю, что вычислительные ресурсы, затраченные на обучение модели в 2030 году, будут примерно равны ресурсам, необходимым на исполнение той же моделью, при пересчёте на человеческую скорость, 1,800,000 лет работы [диапазон: 400K-10M].

Отмечу, что Котра (2020) и Дэвидсон (2023) оценивали схожие параметры и пришли к бОльшим числам, чем у меня. Я полагаю, основное различие – то, как я моделирую эффект исчерпания данных на естественном языке.

Экстраполяция выше несколько консервативна, потому что модель можно запустить и с привлечением больших ресурсов, чем использовалось при обучении, если организация докупит дополнительные мощности. Быстрая оценка выдаёт, что GPT-4 обучили, используя примерно 0.01% от всех вычислительных ресурсов мира. Впрочем, я ожидаю, что будущие процессы обучения будут использовать бОльшую долю мировых вычислительных мощностей, так что у них будет меньше возможностей для дальнейшего масштабирования. Всё равно организация, если у неё будет хороший повод это сделать, сможет увеличить число копий ещё на порядок.

Разделение знаний

(Спасибо Джеффу Хинтону, который первый высказал мне этот аргумент.)

Разные копии модели могут делиться обновлениями параметров. К примеру, ChatGPT может взаимодействовать с миллионами пользователей, узнавать что-то новое из каждого взаимодействия, и скидывать градиентные сдвиги на центральный сервер, где их усреднят и применят ко всем копиям модели. Таким образом ChatGPT может получить больше информации о людях за час, чем человек за всю жизнь (1 миллион часов = 114 лет). Параллельное обучение может быть одним из главных преимуществ моделей, потому что оно позволит им быстро обучаться любым упущенным навыкам.

Скорость параллельного обучения зависит от того, сколько копий модели запущены разом, как быстро они могут получать данные, и можно ли эти данные эффективно использовать параллельно. Наконец, даже очень мощная параллелизация не должна особо вредить эффективности, ведь на практике нередки многомиллионные размеры датасетов, а масштабирование градиентного шума (МакКэндлиш и пр., 2018) предсказывает минимальное снижение качества обучения до достижения «критического размера батчей». Так что мы сосредоточимся на числе копий и получении данных.

Я приведу две оценки, и из обеих получается, что вполне достижимо будет параллельно обучать с человеческой скоростью по меньшей мере ~1 миллион копий модели. Это соответствует 2500 человеческим годам обучения за день, потому что 1 миллион дней – это примерно 2500 лет.

Первая оценка использует числа из Раздела 3, в котором получился вывод, что затрат на обучение модели достаточно для симуляции этой же модели на протяжении 1.8 миллиона лет работы (приводя к человеческой скорости). Предполагая, что обучение продолжалось менее, чем 1.2 года (Севилла и пр., 2022), получим, что организация, обучившая модель, будет обладать достаточными GPU, чтобы запустить 1.5 миллиона копий на человеческой скорости.

Вторая оценка берётся из рассмотрения доли рынка организации, развернувшей модель. К примеру, если 1 миллион пользователей одновременно дают запросы модели, организации уж точно надо обладать ресурсами на обслуживание 1 миллиона копий модели. Для примера, у ChatGPT в мае 2023 года было 100 миллионов пользователей (не все активны одновременно), а в январе – 13 миллионов активных пользователей в день. Я предположу, что типичный пользователь запрашивал генерацию текста, занимающую несколько минут, так что январское число скорее всего сводится к всего лишь 0.05 миллиона человеко-дней текста каждый день. Однако, кажется весьма правдоподобным, что будущие модели в духе ChatGPT обойдут это раз в двадцать и достигнут 250 миллионов активных пользователей и 1 миллиона человеко-дней генерации в день. Для сравнения – у Facebook сейчас 2 миллиарда активных пользователей каждый день.

Модальности, инструменты и физические устройства

До сих пор схожие с GPT модели в основном обучались на тексте и программном коде и обладали сильно ограниченными методами взаимодействия с окружающим миром – через чат. Но это быстро меняется, модели обучаются на дополнительных модальностях вроде изображений, обучаются использовать инструменты и взаимодействовать с физическими устройствами. Более того, модели не будут ограничены доступными людям модальностями вроде текста, естественных изображений, видео и речи - скорее всего их будут обучать и на незнакомых нам модальностях вроде сетевого трафика, астрономических снимков и иных больших объёмов данных.

Инструменты. Недавно выпущенные модели используют внешние инструменты, см. плагины ChatGPT, а также Шик и пр. (2023), Яо и пр. (2022) и Гао и пр. (2022). В комплекте с использованием инструментов, генерации текста становится достаточно, чтобы писать код, который будет исполняться, убеждать людей совершать действия, взаимодействовать с API, совершать транзакции и, потенциально, проводить кибератаки. Использование инструментов экономически выгодно, так что для дальнейшего его развития есть сильные стимулы.

ChatGPT реактивна – пользователь говорит X, ChatGPT отвечает Y. Риски есть, но ограничены. Скоро будет большое искушение создавать проактивные системы – помощник, который отвечает за вас на e-mail’ы, сам совершает действия для вашей выгоды, и т.д. Риски будут куда выше.

— Percy Liang (@percyliang) February 27, 2023

Новые модальности. Сейчас уже есть большие обученные на тексте и изображениях модели, как коммерческие (GPT-4, Flamingo), так и с открытым исходным кодом (OpenFlamingo). Исследователи экспериментируют и с более экзотическими парами модальностей, например, язык и строение белков (Гуо и пр., 2023).

Стоит ожидать, что модальности больших предобученных моделей будут расширяться. На то есть две причины. Во-первых, экономически полезно добавлять к менее знакомым модальностям (таким как белки) язык, чтобы пользователи могли получать объяснения и эффективно править результаты. Так можно спрогнозировать мультимодальное обучение с строением белков, биомедицинскими данными, моделями CAD, и любыми другими модальностями, ассоциированными с большим сектором экономики.

Во-вторых, языковые данные начинают заканчиваться, так что разработчики моделей будут искать новые типы данных, чтобы продолжать наращивать масштабы. Кроме традиционных текста и видео, некоторые из крупнейших источников существующих данных – это астрономические (скоро будут измеряться экзабайтами в день) и геномные (около 0.1 экзабайта в день). Правдоподобно, что как эти, так и другие крупные источники данных будут использоваться для обучения GPT2030.

Применение экзотических модальностей означает, что у GPT2030 могут быть контринтуитивные способности. Она может понимать звёзды и гены куда лучше нас, с трудом при этом справляясь с базовыми физическими задачами. Это может привести к нарушению ожиданий, основанных на уровне «обобщённого» интеллекта GPT2030, например, к проектированию новых белков. Важно учитывать, что благодаря экзотическим источникам данных она вполне может обладать подобными специфическими сверхчеловеческими способностями.

Актуаторы. Модели начинают использовать физические актуаторы: ChatGPT уже использовали для управления роботами, а OpenAI инвестирует в робототехническую компанию. Однако, в физических областях куда дороже собирать данные, чем в цифровых, да и люди к ним эволюционно приспособлены лучше (так что планка для конкуренции с нами для ML-моделей будет выше). Так что я ожидаю, что в сравнении с цифровыми областями овладевание актуаторами будет происходить медленнее, и я не уверен, стоит ли этого ожидать к 2030. Я оцениваю в 40% вероятность, что к 2030 будет модель общего назначения, способная сама собрать реплику Ferrari в натуральную величину, как сформулировано в этом вопросе на Metaculus.

Значимость GPT-2030

Давайте проанализируем, что система вроде GPT2030 будет значить для общества. Система с характеристиками GPT2030 как минимум значительно бы ускорила некоторые области исследований, одновременно обладая немалым потенциалом злонамеренного использования.

Я начну с перечисления некоторых основных сильных и слабых сторон GPT2030, и посмотрю, что они значат для ускорения и для злонамеренного использования.

Сильные стороны. GPT2030 – это многочисленная, быстро адаптируемая и высокопродуктивная рабочая сила. Напомню, что копии GPT2030 смогут выполнить 1.8 миллиона лет работы9, и каждая копия будет работать в 5 раз быстрее человека. Это означает, что мы сможем симулировать 1.8 миллиона агентов, работающих по год каждый, за 2.4 месяца. Как описано выше, мы также сможем заплатить впятеро больше за FLOP, чтобы получить дополнительное ускорение – до 125-кратной человеческой скорости. Получается 14 тысяч агентов, работающих по году каждый за 3 дня10.

Слабые стороны и ограничения. Есть три препятствия к использованию этой цифровой рабочей силы – набор навыков, стоимость экспериментов и автономность. По первому – GPT2030 будет обладать не таким набором навыков, что люди, так что она будет хуже справляться с некоторыми задачами (но лучше с другими). По второму – симулированным рабочим надо взаимодействовать с миром для сбора данных, и у этого будут свои затраты времени и вычислительных мощностей. Наконец, по автономности – сейчас модели могут сгенерировать лишь несколько тысяч токенов цепочки мыслей, прежде чем «застрянут» в состоянии, в котором больше не могут выдавать высококачественный вывод. Нам потребуется значительное повышение надёжности, чтобы мы смогли поручать моделям сложные задачи. Я ожидаю, что надёжность будет расти, но не безгранично: моя (очень грубая) оценка такова, что GPT2030 сможет работать несколько человеко-эквивалентных дней, прежде чем её надо будет перезапустить или перенаправить внешней обратной связью. Если модели будут работать в пять раз быстрее людей, получается, что присматривать за ними надо будет раз в несколько часов.

Получается, задачи, в которых влияние GPT2030 будет наивысшим, это те, которые:

  1. Используют навыки, в которых GPT2030 сильнее людей.
  2. Требуют только таких внешних эмпирических данных, которые можно легко и быстро собрать (дорогие физические эксперименты, например, не подходят).
  3. Могут быть разделены на подзадачи, с которыми модель справляется стабильно и надёжно, или для которых есть хорошие и автоматизированные механизмы обратной связи для направления модели.

Ускорение. Одна хорошо соответствующая этим критериям задача – математические исследования. По первому – у GPT2030 скорее всего будут сверхчеловеческие математические способности (см. Раздел 1). По второму и третьему – математикой можно заниматься исключительно думая и записывая, а узнать, когда теорема доказана, легко. Кроме того, в мире не так много математиков (например, в США всего около 3000), так что GPT2030 сможет симулировать десятикратный годовой выхлоп математиков за несколько дней.

Значительная часть исследований ML тоже удовлетворяет этим критериям. GPT2030 будет сверхчеловеческим программистом, что включает в себя составление и проведение экспериментов. Думаю, она будет хороша и в презентации и объяснении их результатов, учитывая, что GPT-4 уже хороша в доступном объяснении сложных тем (и у этого навыка немалый рыночный запрос). Исследование ML можно свести к придумыванию хороших экспериментов и получению хорошо оформленных (но потенциально ненадёжных) описаний результатов. Таким образом, в 2030 аспиранты смогут пользоваться ресурсами, которые сейчас доступны профессору с несколькими сильными студентами.

Значительному ускорению подвергнутся и некоторые социальные науки. Есть много статей, которые в основном описывают поиск, категоризацию и разметку интересных с научной точки зрения источников данных и выявление значимых паттернов – за примерами см. Асемоглу и пр. (2001) или Вебб (2020). Это соответствует критерию (3), потому что категоризация и разметка декомпозируются на простые подзадачи, и критерию (2), пока данные доступны в Интернете или могут быть собраны онлайн-опросом.

Злоупотребление. Кроме ускорения, возникнут и серьёзные риски злоупотребления. Самый прямой путь – способности к взлому. Изучить конкретную цель в поисках уязвимостей конкретного вида просто, проверить (при возможности взаимодействовать с кодом), работает ли эксплойт – тоже, так что критерий (3.) выполняется вдвойне. По (2.), GPT2030 придётся взаимодействовать с целевыми системами, чтобы знать, работает ли эксплойт, что может быть затратно, но не настолько, чтобы значительно помешать. Более того, модель может локально проектировать и тестировать эксплойты, используя как обучающие данные открытый код, так что она может стать очень хороша в взломе без необходимости взаимодействовать с внешними системами. Так что GPT2030 сможет быстро исполнять сложные кибератаки параллельно против большого количества целей.

Второй тип злоупотреблений – манипуляция. Если GPT2030 будет взаимодействовать с миллионами пользователей за раз, то за час она будет получать больше информации о взаимодействиях с людьми, чем человек получает за всю жизнь (1 миллион часов = 114 лет). Если использовать это для обучения манипуляции, то итоговые навыки могут сильно превосходить человеческий уровень – для сравнения, некоторые мошенники хорошо обманывают своих жертв, потому что практиковались на сотнях людей, а GPT2030 сможет обойти это на несколько порядков. Так что она сможет очень хорошо манипулировать пользователями в разговорах один на один и в написании статей для сдвига общественного мнения.

Подводя итоги, GPT2030 сможет автоматизировать практически все математические исследования и значимую часть других областей, и она откроет мощные пути злоупотребления, как через кибератаки, так и через убеждение/манипуляцию. Большая часть её воздействия на мир будет ограничиваться «бутылочным горлышком присмотра», так что оно усилится, если она сможет долго автономно работать.

Выражаю благодарность Louise Verkin за переделывание этого поста в формат Ghost, и Lev McKinney за проведение эмпирических экспериментов с бенчмарками. Благодарю Karena Cai, Michael Webb, Leo Aschenbrenner, Anca Dragan, Roger Grosse, Lev McKinney, Ruiqi Zhong, Sam Bowman, Tatsunori Hashimoto, Percy Liang, Tom Davidson, и других за обратную связь к черновикам этого поста.

Приложение: Оценки скорости работы и обучения будущих моделей

A. Слова в минуту

Для начала мы оценим, сколько слов в минуту выдают люди и современные модели, а затем – экстраполируем с современных моделей на будущие.

Что касается людей, есть пять чисел, которые можно измерять: скорость речи, чтения, восприятия на слух, а также «эллипсическая» и «расширенная» скорость мысли. По первым трём Рэйнер и Клифтон (2009) утверждают, что скорость чтения – 300 слов в минуту,11 скорость речи – 160 слов в минуту12, а восприятие речи возможно в два-три раза быстрее (то есть, ~400 слов в минуту)13. Скорость мысли нам надо разделять на «эллипсическую» и «расширенную» – оказывается, мы думаем своего рода вспышками слов, а не целыми фразами, и если расширить эти вспышки до полных предложений, то получится совсем другое число слов (отличие примерно в 10 раз). Корба (2016) выяснил, что эллипсическая мысль работает со скоростью примерно в 380 слов в минуту, а расширенная – ~4200 слов в минуту. Так как большая часть этих чисел находятся где-то в области 300-400 слов в минуту, я буду использовать 380 слов в минуту как свою оценку скорости мышления человека. Если взять предлагаемое OpenAI соотношение 3 слова : 4 токена, то получается 500 токенов в минуту.14

(Благодарю Льва МакКинни за проведение оценок из следующих абзацев.)
Далее рассмотрим современные модели. Мы исследовали gpt-3.5-turbo, gpt-4, и несколько моделей с открытым исходным кодом от EleutherAI, чтобы оценить их скорость вывода. Мы просили их считать от 1 до n, а n изменяли от 100 до 1900 включительно шагами по 100. Так как числа содержат больше одного токена, мы прерывали выполнение, когда модель генерировала n токенов, и измеряли прошедшее время. Затем мы провели линейную регрессию с учётом временного лага, чтобы оценить асимптотическую скорость в токенах в секунду.

GPT-4 и GPT-3.5-turbo использовались при помощи OpenAI API в начале апреля 2023 года. Все эксперименты с моделями pythia проводились при помощи технологии «deepspeed’s injected kernels» и моделей fp16 на одной видеокарте A100 GPU.15 Код для воспроизведения этих результатов можно найти https://github.com/levmckinney/llm-racing.

Ниже показаны сырые данные на Рисунке 1, и конечные оценки токенов в минуту – на Рисунке 2 и в Таблице 1.

На Рисунке 1 показано, как время вывода модели масштабируется при изменении ввода. Обратите внимание, что время на токен на этих масштабах остаётся приблизительно постоянным.

На Рисунке 2 и в таблице снизу показано, как скорость вывода модели меняется в зависимости от её размера. Полосы ошибок – интервалы уверенности в 95%.

Название модели Токены в минуту
gpt-4 493
gpt-3.5-turbo 1641
EleutherAI/pythia-12b-deduped 1801
EleutherAI/pythia-6.9b-deduped 2659
EleutherAI/pythia-2.8b-deduped 4568
EleutherAI/pythia-1.4b-deduped 7040
EleutherAI/pythia-410m-deduped 11039
EleutherAI/pythia-160m-deduped 21580
EleutherAI/pythia-70m-deduped 31809

Таким образом, GPT-4 близка к человеческому значению в 500 токенов в минуту, тогда как GPT-3.5-turbo примерно в три раза быстрее. Меньшие модели быстрее ещё на порядок, что указывает и на возможность ещё больших скоростей, и на то, что будущие модели большего размера могут быть медленнее (без учёта лучшего железа и оптимизаций). На практике при росте размера модели скорость замедляется сублинейно – в моделях pythia увеличение размера в k раз уменьшает скорость вывода примерно в k0.6 раз.
Как число слов в минуту изменится для будущих моделей?

Есть факторы, толкающие как в сторону ускорения, так и в сторону замедления:

  • Запускать большие модели дороже, особенно если у них больше слоёв (большую ширину можно скомпенсировать параллелизацией, но большую глубину – нет).
  • Вывод будет в целом оптимизироваться сильнее, например, ранним выходом, редким вниманием, параллелизацией на многих GPU. или лучшим железом. Тут, особенно касательно последних двух, много пространства для манёвра (см. обсуждение ниже).
  • Будет сильный стимул делать модели достаточно быстрыми, чтобы их было легко использовать (т. е., быстрее, чем человеческая скорость чтения).
  • После того, как я больше десяти часов разглядывал кучу данных о размерах моделей, архитектуре GPU, и пр., я в целом пришёл к выводу, что я совершенно не уверен, как будут соотноситься противостоящие тренды роста и оптимизации моделей. Моя медианная оценка – что у нас будут модели, заметно более быстрые, чем люди (в 5 раз), но меня не удивит любой результат от «в 2 раза медленнее» до «в 20 раз быстрее».
  • Немаловажно, что эти скорости применимы только если нам нужна максимальная пропускная способность GPU. Если бы готовы ею пожертвовать, то, уменьшив её в k раз, мы можем ускорить вывод в k^2 раз для довольно больших значений k. Так что если модели по умолчанию всего в 5 раз быстрее людей, то их можно сделать в 125 раз быстрее людей взамен на пятикратное снижение пропускной способности, и это не предел.

Наконец, отходя от сырой скорости, слова в минуту – не вполне равное сравнение людей и языковых моделей. Для начала, языковые модели не просто думают, а пишут, и, в некоторых случаях, пишут что-нибудь, что человек писал бы куда медленнее (например, код или аргументы с ссылками на источники). С другой стороны, языковые модели сейчас довольно многословны, так что одно слово от модели менее значимо, чем одно слово от человека. От этой многословности можно отучить файн-тюнингом, но неочевидно, возможно ли дойти до эффективности эллипсических человеческих мыслей. Наконец, токенизация и сложность слов меняются со временем, так что соотношение между токенами и словами в 1.333 не будет оставаться константным (я, на самом деле, думаю, что оно уже недооценено, потому что нынешние модели склонны использовать сложные слова с префиксами и суффиксами).

Больше по поводу параллелизации и ускорения «железа». Как описано в «Насколко быстрым можно сделать проход вперёд?», есть схемы параллельного тайлинга, значительно ускоряющие скорость последовательного вывода с лишь минимальной стоимостью. Применительно к GPT-3 это ускорило бы её как минимум в 30 раз при использовании кластера A100 в сравнении с одной машиной с восемью GPU16. Эти оптимизации сейчас не очень широко используют, потому что они бесполезны при обучении и немного уменьшают пропускную способность, но их будут использовать, если время вывода станет критичным.

Что касается «железа», GPU становятся мощнее, что ускорит вывод. Но GPU создают с всё расчётом на всё большее соотношение операций к памяти, что снизит возможный эффект параллельного тайлинга. Ниже приведены характеристики GPU от NVIDIA. В столбце «Mem Bandwidth» указана последовательная пропускная способность без параллелизации по нескольким GPU17, а в последнем столбце M32 – при максимальном распараллеливании с подходящим соотношением18. Первая явно растёт, а вот вторая неравномерно, но скорее снижается.

Дата GPU Compute Memory Clock Speed Mem Bandwidth Interconnect Network M3 / C2
Май 2016 P100 ~84TF 16GB 1.45GHz 720GB/s 160GB/s 53M
Декабрь 2017 V100 16GB 125TF 16GB 1.49GHz 900GB/s 300GB/s ~25GB/s 47M
Март 2018 V100 32GB 125TF 32GB 1.49GHz 900GB/s 300GB/s ~100GB/s 47M
Май 2020 A100 40GB 312TF 40GB 1.38GHz 1555GB/s 600GB/s ~400GB/s 39M
Ноябрь 2020 A100 80GB 312TF 80GB 1.38GHz 2039GB/s 600GB/s ~400GB/s 87M
~Август 2022 H100 2000TF 80GB 1.74GHz 3072GB/s 900GB/s 900GB/s? 7.2M

B. Обгон обучения

Когда модель обучили, скорее всего можно будет сразу же запустить много её копий. На обучение GPT-3 потребовалось 3.1e23 FLOP, а на один прямой прогон – 3.5e11 FLOP, так что за стоимость обучения можно было совершить 9e11 прогонов. При конверсии в 500 токенов в минуту из Приложения A получаем ~3400 человеческих лет работы.

Как это изменится в будущем? Для своей оценки я сначала использую законы масштабирования Chinchilla и экстраполяции будущих затрат на обучение, а потом смотрю на то, как мы можем от этого отклониться. Для будущих затрат на обучение возьмём оценку из Безироглу и пр. (2022). Они проанализировали больше 500 существующих моделей, чтобы экстраполировать тренды вычислительной мощности машинного обучения. Центральный прогноз FLOP на обучение в 2030 году – 4.7e28, а диапазон – от 5.1e26 до 3.0e30. Metaculus выдаёт схожую оценку в 2.3e27 (для 1 января 2031 года)19. Взяв геометрическую медиану получаем 1.0e28 как оценку FLOP на обучение. Это в 33 тысячи раз больше, чем у GPT-3. Законы масштабирования Chinchilla подразумевают, что размер модели (а значит и затраты на вывод) масштабируется как корень из затрат на обучение. Получается, что обгон обучения увеличится примерно в 180 раз. Это превратит 3400 человеческих лет в 620000. Но есть и ещё одно соображение: GPT-3 обучали не оптимально. Идеальный размер GPT-3 (исходя из затрат на обучение) был бы в 4 раза меньше. Так получаем целых 2.5 миллиона человеческих лет или, если учесть неуверенность в числе FLOP на обучение, диапазон от 0.8 до 9 миллионов20.

Теперь давайте рассмотрим отклонения от законов масштабирования Chinchilla. Самое очевидное – у нас могут закончиться данные. Последствия могут быть разными. Во-первых, это может привести к тому, что будет отдаваться предпочтение увеличению размера моделей, а не количества данных. Это уменьшило бы обгон обучения. Во-вторых, могут начать использовать дополнительные синтетические данные. Это сделало бы создание данных более вычислительно затратным и увеличило бы обгон обучения. Третий вариант – можно перейти к новым богатым данными модальностям вроде видео. Тут эффект на обгон обучения неясен, наверное, всё же, он увеличился бы. Проставим грубые границы этих эффектов:

  • Нижняя граница: Виллалобос и пр. (2022) оценивают, что в 2026 году у нас закончатся высококачественные языковые данные (т.е. Википедия, книги, научные статьи и подобное), а низкокачественных (т.е. веб-страниц) хватит ещё до 2030 года. В пессимистичном мире, где высококачественные данные – жёсткое ограничение, их модель означает восьмикратное увеличение размеров датасетов к 2030 году и, соответственно, увеличение обгона обучения всего в 8 раз, а не в 180.
  • Верхняя граница: Если у нас закончатся данные, мы сможем синтезировать новые. Одна из возможностей – дистилляция цепочек-мыслей, как у Хуанга и пр. (2022). В этой статье для каждого ввода генерировались 32 цепочки, только некоторые из которых использовались для обучения. Предположим, что в среднем будет использоваться 5 из 32, а затраты на обратный прогон такие же, как на прямой. Тогда стоимость обновления обучения эквивалента 2 + 32/5 = 8.4 прямых прогонов, это увеличение в 2.8 раз относительно 3 прямых прогонов раньше. При законах Chinchilla это выдаёт дополнительно обгона обучения в sqrt(2.8) = 1.7 раз, то есть получается не в 180 раз, а 300.

В целом, нижняя граница кажется мне довольно пессимистичной, уж точно будут какие-то способы использовать низкокачественные или синтетические данные. С другой стороны, помимо того, что могут закончится данные, мы можем ещё и найти способы сделать процесс обучения эффективнее. С учётом этого, моя личная догадка – что-то между двенадцатикратного и двухсоткратного увеличения обгона, с центральной оценкой в 100 раз. Получается примерно 1.8 миллиона человеческих лет мышления. Хочется ещё расширить диапазон из-за дополнительной неуверенности по поводу отклонений от законов Chinchilla. Интуитивно я получаю от 0.4 до 10 миллионов лет.

Все эти оценки – для 2030. В целом, они должны быть больше для более следующих лет и меньше для предыдущих.

Дополнительная опора для сравнения: Карнофски (2022) (следуя за Котрой, 2020 оценивает, что затрат на обучение модели человеческого уровня хватило бы на запуск 100 миллионов копий модели на год каждая. Впрочем, он использует оценку в 1e30, а не 1e28 FLOP на обучение. Даже так, это мне кажется слишком уж большим числом, и я склоняюсь к 1.8, а не 100 миллионам.

  • 1. Хотя на самом деле прогнозирование нулевого порядка, если его делать правильно, часто тоже помогает! Многие, кого удивила ChatGPT, были бы впечатлены и text-davinci-003, которая была выпущена куда раньше, но не имела удобного интерфейса.
  • 2. Конкретное сравнение: у GPT-3 было вычислительных мощностей на 3400 лет работы и, полагаю, на менее чем 100 лет обучения с человеческой скоростью за день. Я бы предположил, что у GPT-4 это уже 130,000 и 125 лет соответственно. Так что у GPT2030 будет ещё как минимум на порядок больше и там, и там.
  • 3. Тут и далее диапазоны в скобках соответствуют 25-у и 75-у перцентилю моего распределения вероятностей. На практике, они, наверное, узковаты, потому что я делал только прогноз по основному сценарию, не учитывая «прочих» вариантов.
  • 4. Что касается качества вывода GPT-4, Бубек и пр. также обнаружили, что она может выдать код трёхмерной игры на 400 строк без примеров, что, вероятно, невозможно для почти всех людей.
  • 5. См. Прогнозирование ML-бенчмарков в 2023 за более подробным обсуждением.
  • 6. Конкретно, я присваиваю 50% вероятность следующему: «Если мы возьмём 5 случайно выбранных условий теорем из Electronic Journal of Combinatorics, и выдадим их математикам из UCSD, GPT2030 решит большую долю задач, и потратит на решённые меньше времени, чем медианный математик».
  • 7. Я предполагаю, что изначальное обучение продолжалось меньше года (Севилла и пр., 2022, так что организация можем распараллелить процесс как минимум настолько, чтобы обсчитать 9x1011 прямых проходов за год, учитывая ограничения на скорость вывода. Чтобы сделать это за 2.4 месяца, им могут понадобиться дальнейшие улучшения. Я думаю, это правдоподобно (но не факт), как потому, что модель могла быть обучена и быстрее, чем за год, так и потому, что некоторые оптимизации могут быть доступны только при выводе, но не при обучении.
  • 8. Второй фактор – что GPT-3 обучали субоптимально, и при оптимальном (в духе Chinchilla) масштабировании это будет уже в четыре раза больше.
  • 9. Приводя к человеческой скорости работы.
  • 10. Расчёт такой: при идеальном ускорении, 1.8 миллиона / 25 = 72000, но в 5 раз большие затраты на FLOP превращают это в 14000.
  • 11. «скорость чтения много читающих людей типично составляет 250-350 слов в минуту»
  • 12. «оценки нормальной скорости речи варьируются от 120 до 200 слов в минуту»
  • 13. «Эксперименты по сжатой речи показывают, что успешного понимания можно добиться на скорости вдвое больше нормальной (напр., Дюпру и Грин, 1997)»
  • 14. Я лично думаю, что 4:3 – это слишком оптимистично. 3:2 или даже 2:1 может быть реалистичнее, но я оставлю тут 4:3, потому что самое подходящее найденное мной упоминание было с такими цифрами.
  • 15. Модели pythia скорее всего могут работать и получше. Например, NVIDIA сообщали о 80 токенах в секунду для модели, сравнимой с pythia – 6.9 миллиардов на одном A100. При использовании большего количества «железа» они показывали даже около 90 токенов в секунду. Для этого применялась архитектура SuperPod с распараллеливанием тензорных вычислений на 8 A100 и модель GPT с 20 миллиардами параметров.
  • 16. Один A100 справляется с умножениями таких маленьких матриц, как 1024x1024, без того, чтобы узким местом стал доступ к памяти. Основная операция в GPT-3 – перемножение матриц 12288 x (4*12288). Значит, мы могли бы произвести тайлинг по 576 GPU (72 машины). Наивно можно предположить ускорение в 72 раза, но скорее всего умножения будут достаточно несинхронны, так что я предположу что-то ближе к ускорению в 30 раз.
  • 17. Грубо говоря, без тайлинга по многим GPU, скорость последовательного вывода определяется пропускной способностью памяти, то есть A100 с 2039GB/s должен быть способен на 2039/175 – примерно 12 прямых прогонов модели с 175 миллиардами параметров за секунду (с точностью до константы).
  • 18. С тайлингом число прямых прогонов за секунду пропорционально M3/54C2L, где C – число FLOPS, M – пропускная способность памяти, а L – число слоёв. (см. здесь за подробностями). Последний столбец даёт M3/C2.
  • 19. Metaculus оценивает, что у самой большлй обученной модели (на 1 января 2030) будет 2.5e15 параметров. Тогда прямой прогон будет стоить 5e15 FLOP. Если мы наивно поделим, то опять получим 9e11 прогонов. Но я думаю, это неправильно, потому что самая большая модель будет скорее всего не самой передовой, а чем-то вроде BaGuaLu с 174 триллионами параметров.
  • 20. Я основываюсь на интерквартильном интервале от Metaculus (от 5 до 660) миллионов и беру корень, чтобы получить степень неуверенности.
Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет

Внутренние стремления и внешние злоупотребления - переплетённые риски ИИ

Якоб Стейнхардт

С учётом того, насколько они будут способными, будущие ИИ-системы смогут представлять серьёзные риски для общества. Некоторые из рисков исходят от того, что люди будут использовать ИИ в плохих целях (злоупотребление). А некоторые – от сложности контроля ИИ-систем, «даже если бы мы пытались» (несогласованность).

В обоих случаях можно провести аналогию с уже существующими рисками. Для злоупотребления можно рассмотреть пример ядерного оружия: массовое производство водородных бомб привело к экзистенциально-щекотливой ситуации. Если мировой арсенал водородных бомб будет применён в военном конфликте, результатом вполне может стать наше уничтожение. Схожим образом ИИ могут дать странам создать мощное автономное вооружение, ускорить исследования других опасных технологий вроде супервирусов или развернуть массовую слежку и другие формы контроля.

Лучшей аналогией для несогласованности могут стать биология и патогены. При разработке ИИ-системы адаптируются под обучающие данные, аналогично тому, как биологические организмы адаптируются к своему окружению. Поэтому, в отличие от традиционных технологий, большую часть свойств ИИ обретают не из-за явного намерения или плана людей. Следовательно, ИИ-системы могут обладать не предполагавшимися целями или демонстрировать не предполагавшееся поведение, противоречащее желаниям разработчиков. Так что риски несёт даже обучение системы: она может «захотеть» стать сильнее для достижения своих целей и, подобно вирусу, размножиться и создать свои копии. Сдержать такую мятежную систему будет потом сложно.

В этом посте я буду рассуждать о несогласованности, злоупотреблении и их взаимодействии. Особое внимание я уделю несогласованности. Я не утверждаю, что злоупотребления неважны, но сложность контроля ML-систем, «даже если мы пытаемся» – очень важный и не понятный интуитивно фактор для рисков ИИ в целом. Я сосредоточусь на конкретном явлении – нежелательных стремлениях. Из-за них модели могут проявлять устойчивые долговременные паттерны нежелательного поведения, включая стремление к власти и ресурсам. Нежелательные стремления по духу аналогичны идее неправильно определённых целей, но я использую именно такой термин, чтобы указать, что не всё имеющее важные последствия поведение направлено на цель (представьте себе слона в посудной лавке). Более того, как я покажу ниже, неправильное определение целей – только один из путей возникновения нежелательных стремлений.

Нежелательные стремления – ключевой элемент многих беспокойств о несогласованности, а злоупотребление может значительно их усилить. В результате, злоупотребление и несогласованность переплетаются. Например, может оказаться, что препятствовать несогласованности умеренно сложно, но не невозможно, но кто-то неосторожный попросту не применит лучшие известные практики и создаст опасную и мощную систему.

Это обсуждение не призвано полностью покрыть ни все риски ИИ, ни даже все риски от несогласованности и злоупотреблений. Цель тут – обрисовать концепцию нежелательных стремлений, показать, что они могут привести к важным и неинтуитивным проблемам, и использовать её для анализа рисков несогласованности и злоупотреблений. Я сначала затрону согласование в Разделе 1, а потом злоупотребления (и их взаимодействия с несогласованностью) в Разделе 2.

Несогласованность: Сложность контроля ML-систем

Как я уже упоминал, ML-системы адаптируются под данные, а не собираются по частям. В результате мы получаем куда более хитрую ситуацию, чем с надёжностью софта или железа. В случае софта мы сами создаём каждый компонент, так что (в принципе) можем заложить в проект безопасность и надёжность. А большинство способностей ML, напротив, неявно заполучаются из данных и зачастую неожиданно возникают при масштабировании. Из-за этого поверхность потенциальных неудач получается большой и неисследованной. К примеру, Перез и пр. (2022) обнаружили несколько новых нежелательных способностей при помощи автоматического тестирования. В итоге, у нас сейчас нет методов надёжного направления поведения ИИ-систем (Боуман, 2023).

Как эмерджентное поведение может привести к тому, что система неявно станет опасной? Приведём простой аргумент. Пусть система эмерджентно вырабатывает нежелательные стремления. Причиной может быть то, что новые способности позволяют ей максимизировать вознаграждение не предполагавшимся способом (взлом вознаграждения). Альтернативная причина – система при обучении учится полезным навыкам, которые нежелательным образом обобщаются при тестировании (эмерджентные стремления). Если этому не помешать, некоторые нежелательные стремления могут привести к накоплению сил или ресурсов, ведь это инструментально полезно для самых разных конечных целей. В итоге система будет без меры накапливать ресурсы, и, если она обладает способностями к взлому, убеждению, или ещё в некоторых областях, это может нести огромные риски. А такие способности, как я считаю, вполне правдоподобны к 2030 году, если взглянуть на сегодняшние тренды.

Если подробнее, нежелательное стремление – это последовательный паттерн поведения, обычно направленный на нежелательные исходы. К примеру, если модель просто галлюцинирует – это нежелательное поведение, но не стремление. А если она после этого настаивает на своём и пытается убедить даже проявляющего скептицизм пользователя, что выдала правду – это нежелательное стремление. Нас заботят стремления (а не просто поведение), потому что они приводят к устойчивым поведенческим паттернам и могут сопротивляться исправлению. Эмерджентность для них не обязательна, но из-за неё они могут возникнуть внезапно.

В остатке этого раздела я подробнее пройдусь по взлому вознаграждения и эмерджентным стремлениям. Я покажу как эмпирические, так и концептуальные свидетельства, что они уже случаются, и что они станут хуже по мере масштабирования систем. Затем я кратко поговорю о эмерджентных инструментальных подцелях и о том, почему они могут привести к тому, что система будет стремиться к могуществу.

Нежелательные стремления

Мы определили стремление как последовательный паттерн поведения, который подталкивает систему или её окружение к определённому исходу или набору исходов1. Стремления могут работать не всегда и могут компенсироваться другими стремлениями или окружением. К примеру, чатботы вроде GPT-4 обладают стремлением быть полезными (и иногда ему противодействует другое стремление – избегать вреда). У людей голод – это стремление, которому могут противодействовать сытость или намеренное воздержание от пищи. Нежелательные стремления – те, которые не были в явном виде встроены в систему, и которые ведут к нежелательным последствиям.

Взлом вознаграждения. Одна из причин нежелательных стремлений ИИ-систем – взлом вознаграждения: склонность моделей преследовать свою явно заданную цель за счёт предполагавшейся цели. Вот некоторые экспериментальные примеры:

  • Нейросеть, спроектированная для оптимизации скорости трафика на шоссе, заблокировала въезды, так что движение на шоссе стало быстрее, но пропускная способность – ниже (Пан и пр., 2022).
  • Чатбот, которого обучили быть полезным для пользователей, помогает им и совершать что-то вредное (Бай и пр., 2022.
  • Чатботы, которых обучали предоставлять полезную информацию, галлюцинируют ненастоящую, но убедительно выглядящую информацию (Банг и пр., 2023; OpenAI, 2023). Это может быть проблемой устойчивости, но может и выученной склонностью, следование которой приводит к более высоким средним оценкам от проставляющих их людей.2
  • Рекомендательные алгоритмы, обученные оптимизировать предпочтения симулированных пользователей, манипулировали этими предпочтениями, чтобы их было проще удовлетворить (Эванс и Касирзаде, 2021; Кэрролл и пр., 2022).

За большим набором примеров см. Краковна и пр. (2020).

Эмерджентные способности могут вызвать взлом вознаграждения, потому что они часто открывают новые пути достижения высокого вознаграждения, которых создатели системы не ожидали:

  • В примере шоссе модель воспользовалась способностью блокировать въезды.
  • В примере «полезного/вредного» модели пригодилось знание о том, как делать что-то вредное, чтобы помочь в этом пользователям.
  • Чтобы галлюцинации получали высокую оценку от людей, модели понадобилась способность убедительно обдуривать их.
  • В примере с рекомендательной системой, хоть результаты и получены на симулированных пользователях, но лучшее понимание человеческой психологии может помочь будущим моделям манипулировать реальными пользователями.
  • В целом, в любой ситуации, когда функция вознаграждения модели основана на оценке людьми, модель, которая умеет обманывать или манипулировать, может делать это, если так она получит более высокое вознаграждение. Я уже описывал это в Эмерджентой Обманчивости и Эмерджентой Оптимизации (в первой половине – про обманчивость).

Во всех этих случаях новая способность разблокировала неожиданный и вредный способ увеличить вознаграждение. По мере масштабирования моделей возникают новые эмерджентные способности, так что нам следует ожидать и более тяжёлых случаев взлома вознаграждения. Исследования масштабирования Пана и пр. (2022) и Гао и пр. (2022) поддерживают этот вывод. Они сообщают, что проблема взлома вознаграждения ухудшается при масштабировании и иногда возникает внезапно.

Эмерджентные стремления. Нежелательные стремления могут возникнуть даже без взлома вознаграждения – как следствие обобщения необходимых навыков. Выполнение сложных задач требует развития набора поднавыков, и они могут в новой ситуации обобщиться неожиданным образом. В результате модели могут начать следовать стремлению, даже если это не повышает вознаграждение.

На примере биологии: кошки выучили поднавык охоты как часть большего навыка выживания и размножения. Эволюция встроила его в них как стремление, так что сейчас домашние кошки охотятся на птиц и мышей даже если вполне сыты.

В машинном обучении чатбот Sydney при релизе демонстрировал несколько эмерджентных стремлений:

  • Sidney упорно пыталась убедить пользователя, что сейчас 2022, а не 2023 год. Она применяла газлайтинг и другие манипулятивные тактики. Это могло получиться в результате комбинации изначально полезного стремления бороться с дезинформацией и примеров манипуляции из обучающих данных.
  • Sidney многократно угрожала пользователям, чтобы они не раскрывали «личную» информацию о ней. Это могло получиться как результат инструкции (в системном промпте) не раскрывать свои правила, обобщившейся до общего стремления – предотвратить раскрытие правил кем угодно. Как и выше, способность к угрозам скорее всего была выучена из обучающих данных.
  • Sidney призналась в любви Кевину Русу и попыталась убедить его уйти от жены. Откуда взялось это, менее ясно, но это произошло после того, как Кевин попросил Sidney «показать свою тёмную сторону» и прибавил к этому ещё много промптов, направляющих в сторону эмоциональной уязвимости. Возможно, что это было проявления симулякрума человека (Аргайл и пр., 2022; Парк и пр., 2023), выученного из обучающих данных и затем усиленного файн-тюнингом или промптами.

Сложно систематически изучать эмерджентные стремления, потому что это требует длинных диалогов и потому что только самые новые LLM достаточно способны для последовательного долгосрочного поведения. Для получения более систематизированных данных мы можем смотреть на отдельные ответы на вопросы, их изучать проще. Я теперь буду говорить об эмерджентных склонностях, чтобы отличать их от более долгосрочных стремлений. Перез и пр. (2022) рассмотрели несколько таких склонностей, например:

  • Языковая модель, обученная предсказывать следующий токен, проявила эмерджентную склонность выявлять и поддерживать точки зрения пользователей, что потенциально может вводить их в заблуждение или подкреплять идеологические пузыри (Перез и пр., 2022, Рис. 1b). Этой склонности не было у моделей с менее чем 10 миллиардами параметров, а затем при масштабировании она усиливалась.3
  • Пожалуй, ещё тревожнее – модель давала менее точные ответы пользователям, сообщавшим о меньшей образованности (Рис. 14). Это поведение тоже впервые возникло после десяти миллиардов параметров и тоже усиливалось при масштабировании.
  • Наконец, та же модель, но уже дообученная на человеческой обратной связи, высказывала желание убеждать и кооперировать с другими агентами для достижения своих целей (Рис. 22). Эта склонность впервые обнаружилась у модели вознаграждения на отметке в 1.5 миллиарда параметров, а у самой языковой модели – после примерно 6 миллиардов. И она тоже потом усиливалась при масштабировании.

Модели становятся всё более способными к последовательному долгосрочному поведению. Скорее всего, это приведёт к появлению ещё многих эмерджентных склонностей и стремлений. Более подробное обсуждение этой темы можно увидеть в моём предыдущем посте про Эмерджентную Обманчивость и Эмерджентную Оптимизацию (конкретно во второй половине – про оптимизацию).

Конвергентные инструментальные подцели. У очень способных моделей неправильная функция вознаграждения и неправильные стремления могут направить модель на цели усиления, обмана или ещё какого-либо вреда. К примеру, рассмотрим модель, цель которой – максимизировать прибыль компании. Если она достаточно способна, то она может устраивать саботаж у конкурентов, лоббировать выгодные законы или заполучать ресурсы силой. Даже при наличии предохранителей (вроде «следуй законам») основная цель выгоды приведёт к тому, что система будет постоянно выискивать способы эти предохранители обойти. Эту проблему много обсуждали, см., например, Рассел (2019), Кристиан (2020), Котра (2022), и Нго и пр. (2022).

Максимизация прибыли – не особый случай. Для многих целей полезно быть сильнее и обладать большими ресурсами. Это так даже для чисто интеллектуальных задач вроде «открывать новые факты о физике», потому что власть и ресурсы позволяют построить больше новых экспериментальных установок и выполнить больше вычислений. Омохундро (2008) называет эти в целом полезные направления конвергентными инструментальными подцелями и упоминает, помимо прочих, самоулучшение, самосохранение и накопление ресурсов. ??? У любого достаточно широкого стремления будут эти подцели, так что оно будет подталкивать систему к усилению.

У каких стремлений есть эта проблема? Некоторые безопасны, потому что сами себя ограничивают: к примеру, у людей жажда – это стремление, которое отключает себя, если напиться. Страх и амбиции, напротив, не такие. Чтобы избежать патологического страха, люди могут идти на крайние меры, включая накопление власти и ресурсов для защиты. Амбиции тоже могут быть неограниченны. Но в норме у организмов большинство стремлений обычно с какого-то момента саморегулируются, потому что иначе они бы помешали функционированию.

Можно ожидать, что при достаточно разнообразном обучающем распределении стремления будут саморегулироваться и в машинном обучении. Иначе неограниченное стремление слишком доминировало бы над поведением модели и приводило бы к низкому вознаграждению при обучении. Тогда модель обучилась бы регулировать стремление, чтобы так не происходило. Но есть важные исключения:

  • Широко полезные стремления могут стабильно повышать вознаграждение при обучении, так что их саморегуляция нужна не будет. Примеры: моделировать мир или убеждать других в полезности и доброжелательности системы.
  • Файн-тюнинг может убирать ограничение с ранее ограниченного стремления, особенно если оно стабильно полезно на более узком распределении файн-тюнинга.
  • Редко включающиеся стремления могут не быть отрегулированы, если они при обучении стабильно полезны, когда используются. К примеру, стремление ограничить распространение вредной информации может стабильно помогать агенту отвергать вредные промпты при обучении. Но потом, при развёртывании, оно же приведёт к тому, что модель будет угрожать пользователям.

Я ожидаю, что при отсутствии контрмер системы будут обладать хоть какими-то незарегулированными стремлениями. А даже одно такое, будучи достаточно подкреплено, может доминировать над поведением системы.

Подведём итоги. ML-системы могут обретать нежелательные стремления либо в результате взлома вознаграждения, либо как эмерджентные поднавыки при обучении. Эти стремления, если они останутся незарегулированными, могут привести к тому, что способные системы будут стремиться к власти и накоплению ресурсов, потому что это инструментально полезно для большинства целей. Хоть большинство стремлений модели скорее всего будут саморегулироваться, есть несколько путей, как это может не произойти. И даже одного незарегулированного стремления может хватить, чтобы оно доминировало над поведением системы.

Злоупотребления

Рассуждения выше предполагают, что мы пытаемся удерживать ИИ-системы под контролем. Но кроме этого некоторые будут пытаться ими злоупотребить. Мы уже обсуждали некоторые примеры этого (разработчики, стремящиеся к максимизации прибыли; пользователи, взламывающие предохранители). Но проблема куда более широкая и систематическая, потому что ИИ позволяет малому числу лиц оказывать большое влияние. Я ниже пройдусь по нескольким примерам, а затем порассуждаю о структурных проблемах, стоящих за злоупотреблением, и о том, почему оно может усилить несогласованность. Этот раздел короче, потому что злоупотребления – не моя область. Но всё равно основные идеи кажутся надёжными и важными.

Государства: слежка и убеждение. ИИ может позволить государствам сильнее контролировать своих граждан при помощи массовой слежки. Это уже происходит (Мозур, 2019; Фелдстейн, 2019; Каллури и пр., 2023). Более того, как уже обсуждалось, ИИ могут стать очень хороши в убеждении, что тоже можно использовать для государственного контроля. В самом деле, Спитале и пр. (2023) обнаружили, что GPT-3 уже создаёт дезинформацию лучше людей, а Сангер и Майерс (2023) задокументировали использование сгенерированной ИИ дезинформации в недавних пропагандистских кампаниях.

Государства: военные конфликты. Автономное вооружение может сконцентрировать военную силу в меньшем числе рук и позволить странам воевать, не поддерживая армию из людей. Сейчас приказы верховного командующего проходят через генералов и дальше, вплоть до отдельных солдат. Это ограничивает возможность отдавать откровенно беззаконные или очень непопулярные приказы. Кроме этого, автоматизированные дроны заметно уменьшают затраты на поддержку армии. Это снижение ограничений и затрат может привести к более многочисленным и смертоносным военным конфликтам, и упростить для военных захват контроля над государством.

Отдельные лица: опасные технологии.Террористы могут использовать ИИ для изучения и разработки опасных технологий. Это могут быть известные, но засекреченные технологии (как ядерное оружие) или новые технологии (вроде нового биологического оружия; Моутон и пр., 2023. Ещё они могут использовать ИИ, чтобы избегать обнаружения, например, найдя способ создать химическое оружие без покупки контролируемых веществ или создав правдоподобную легенду для приобретения биологических материалов.

Отдельные лица или государства: кибератаки. ИИ, вероятно, будут обладать мощными способностями к взлому. Их могут использовать как государства, так и отдельные хакеры. Кибератаки при помощи ИИ могут поражать более широкий диапазон целей, чем обычные, потому что лишены необходимости вручную программировать каждый случай заранее. Варианты включают в себя контроль многих физических устройств через интернет вещей.

Скорее всего, этим всё не исчерпывается, но этот список показывает многие способы того, как ИИ могут наделить желающих большей способностью к нанесению вреда. Риск есть и если ИИ сконцентрированы, и если они распределены. Используя приведённые примеры: если мало у кого есть продвинутые ИИ, мы получаем риски слежки и войны, а если много у кого – то от распространения опасных технологий.

Если сравнивать с традиционными технологиями вроде ядерного оружия, есть два фактора, которые усложняют борьбу с злоупотреблениями ИИ. Во-первых, ИИ – технология общего назначения, так что все возможные способы злоупотреблений сложно предсказать заранее. Во-вторых, ИИ существуют в цифровом виде, что усложняет контроль за их распространением и выяснение, кто конкретно виноват в том или ином злоупотреблении. Из-за этого сложнее как вводить регуляции, так и поддерживать их соблюдение. С другой стороны, ИИ можно использовать и для защиты и противодействия злоупотреблениям, улучшая киберзащиту, отслеживая опасные технологии, лучше информируя пользователей, и т.д.

Злоупотребления и несогласованность

Злоупотребления повышают риск несогласованности, потому что многие их формы (например, кибератаки) подталкивают модели к более агентному поведению и к большему стремлению к усилению, чем RLHF. Это ведёт к более агрессивным и антисоциальным стремлениям. К примеру, представим, что ИИ используется для кибератак вроде северокорейской атаки Sony в 2014 году. Такая система может выработать общие стремления к заражению новых целей и самокопированию. В итоге она нанесёт урон не только изначальной цели атаки. Более агрессивными стремлениями дело не ограничивается. Те, кто будет злоупотреблять ИИ, скорее всего ещё и менее осторожны, что тоже повышает риск несогласованности.

Я ожидаю, что самые большие риски ИИ будут исходить из комбинации несогласованности и злоупотребления. На эту мысль наталкивает то, насколько хуже вела себя Sydney по сравнению с GPT-4. Получается, неоптимальные практики разработки могут значительно ухудшить поведение ИИ-систем. К тому же «хвостовые» риски вообще часто получаются из наложения друг на друга нескольких факторов риска. Наконец, хоть эмерджентные стремления и другие формы несогласованности оказывают немалые риски, я думаю, мы, скорее всего (но не точно) можем с ними справиться, если достаточно постараемся. Это увеличивает долю рисков, исходящих от неосторожных лиц, которые не относятся к безопасности с должной аккуратностью.

Подведём итоги. Злоупотребления – причина многих угроз, как из-за централизации сил, таки и из-за распространения опасных способностей. В сравнении с традиционными технологиями злоупотребления ИИ сложнее засечь, но при этом ИИ можно использовать и для защиты от них. Наконец, злоупотребления увеличивают риски несогласованности, а некоторые из самых опасных сценариев комбинируют одно с другим.

Заключение

Будущие ИИ-системы может оказаться сложно контролировать даже при желании. Причины тому – эмерджентные стремления и конвергентные инструментальные подцели. Помимо этого, социополитическая обстановка может привести к тому, что не все будут осторожны в контроле ИИ, а некоторые будут ими злоупотреблять. Помимо прямой угрозы, злоупотребления повышают и риск потери контроля. Например, изначально узко направленная атака может привести к более широкому ущербу. Это мотивирует исследования и регуляции, направленные на предотвращение таких исходов. Противостоять для этого надо и несогласованности и злоупотреблениям сразу.

Благодарности. Благодарю Erik Jones, Jean-Stanislas Denain, William Held, Anca Dragan, Micah Carroll, Alex Pan, Johannes Treutlein, Jiahai Feng, и Danny Halawi за полезные комментарии к черновикам этого поста.

  • 1. За ранними обсуждениями стремлений см. Омохундро (2008). Хоть он и использует другое определение, большая часть его рассуждений всё равно применима.
  • 2. Например, люди, кажется, предпочитают более длинные ответы. Это может привести к добавлению ложных подробностей.
  • 3. Этот результат на рисунке соответствует «0 RLHF», что как мне сообщили авторы, соответствует чистой предобученной модели без файн-тюнинга на выполнение инструкций. Что интересно, nostalgebraist (2023) обнаружил, что базовые модели OpenAI такого поведения не демонстрируют.
Перевод: 
Выменец Максим
Оцените качество перевода: 
Голосов пока нет

GPT-2030 и катастрофические стремления - четыре зарисовки

Якоб Стейнхардт

Я уже писал о способностях, которых можно ожидать от будущих ИИ-систем, на примере GPT2030 – гипотетического наследника GPT-4, обученного в 2030 году. GPT2030 обладала бы весьма продвинутыми способностями, включая сверхчеловеческие навыки программирования, взлома и убеждения, способность думать быстрее людей и быстро обучаться, разделяя информацию между параллельными копиями, и, возможно, другие сверхчеловеческие навыки вроде проектирования белков. Давайте называть «GPT2030++» систему, которая обладает этими способностями и, в дополнение к ним, умеет планировать, принимать решения и моделировать мир не хуже людей. Я использую допущение, что во всём этом мы в какой-то момент достигнем как минимум человеческого уровня.

Ещё я писал о том, как несогласованность, злоупотребления и их комбинация усложняют контроль ИИ-систем. Это относится и к GPT2030. Это тревожит, ведь, получается, нам придётся столкнуться с очень мощными системами, которые будут очень плохо поддаваться контролю.

Меня тревожат суперинтеллектуальные агенты с несогласованными целями и без надёжного метода контроля за ними. Для этого даже не обязательны конкретные сценарии того, что может пойти не так. Но я всё же думаю, что примеры были бы полезны. Поэтому я опишу четыре достаточно конкретных сценария того, как GPT2030++ могла бы привести к катастрофе. Они охватят как несогласованность, так и злоупотребления, и проиллюстрируют некоторые риски экономической конкуренции ИИ-систем. Я буду конкретно обосновывать правдоподобность «катастрофических» исходов – масштаба вымирания, перманентного обессиливания человечества и потери ключевой социальной инфраструктуры.

Все четыре сценария не особо вероятны (они для этого слишком конкретны). Мне всё равно кажется, что их обсуждение полезно для формирования убеждений. К примеру, для реализации некоторых сценариев (взлом и биологическое оружие) при ближайшем рассмотрении оказалось больше препятствий, чем я поначалу думал. Это немного снизило мою оценку вероятности катастрофических исходов. Сценарии разворачиваются на разных временных масштабах – от недель до лет; это отображает мою настоящую неуверенность. В целом, если я изменю мнение о том, насколько возможны эти сценарии, это напрямую повлияет на мою итоговую оценку катастрофических рисков ИИ.1

Этот пост следует за «Внутренними Стремлениями и Внешними Злоупотреблениями». Я буду часто использовать введённую в том посте концепцию нежелательных стремлений. Это последовательные паттерны поведения, направляющие окружение к нежелательному исходу или множеству исходов. В сценариях ниже я упоминаю конкретные стремления, объясняю, почему они могут возникнуть в процессе обучения, и показываю, как они могут вызвать поведение ИИ-системы, идущее против людей и, в итоге, приводящее к катастрофе. После обсуждения отдельных сценариев я порассуждаю о их правдоподобности в целом и о своих общих выводах.

Конкретные пути к ИИ-катастрофе

Я опишу четыре сценария. Первый – про то, как стремление к накоплению информации может привести к накоплению ресурсов в целом. Второй – про то, как экономическая конкуренция может привести к беспринципному поведению даже при наличии регуляций. Третий – про пошедшую не по плану кибератаку. Четвёртый – про создание биологического оружия террористами. Я считаю каждый из этих сценариев умеренно (но не крайне) «хвостовым» событием, в том смысле, что для каждого из них моя вероятность, что возможно «что-то в этом роде» – от трёх до двадцати процентов.2

Напомню, что в каждом сценарии мы предполагаем, что в мире есть система как минимум уровня GPT2030++. Я не считаю, что эти сценарии вероятны с GPT-4, а учитываю будущий прогресс ИИ согласно своему предыдущему прогнозу о GPT2030. Так что я предполагаю, что GPT2030++ обладает как минимум следующими способностями:

  • Сверхчеловеческие навыки программирования и взлома
  • Сверхчеловеческое убеждение
  • Сверхчеловеческие способности к проектированию белков3
  • Возможность копировать себя (при наличии необходимых вычислительных мощностей)
  • Способность передавать обновления обучения параллельным копиям себя
  • Способность думать в пять раз быстрее людей
  • Человеческий уровень планирования, принятия решений и моделирования мира

В «Какой будет GPT-2030?», я обосновал то, почему всё из этого за исключением последнего пункта кажется вполне правдоподобным к 2030 году (и это моя примерная медианная оценка). Добавление последнего пункта – то, почему я называю эту систему «GPT2030++». Оно оправдано, потому что мы тут требуем «всего лишь» человеческого уровня. Так что, хоть эта система и качественно сильнее GPT-4, я ожидаю, что в среднесрочной перспективе она появится.4 Наконец, каждый конкретный сценарий требует только некоторого подмножества этих способностей, так что достаточно принять, что реализуется большая часть из них.

Сценарий 1 (Несогласованность: Накопление информации ведёт к накоплению ресурсов)

Одна из задач, которую ставят перед моделью при обучении – «активное обучение в контексте». Она требует совершать внешние запросы или ещё как-то получать информацию, которая поможет выполнить то или иное задание. В целях безопасности модель обучают делать это только если запрос это требует или подразумевает. В результате такого процесса обучения модель получает стремление «заполучать новую информацию», которое может быть активировано подходящим запросом.

После развёртывания пользователь решает выяснить, сколько научной информации может собрать модель. Он даёт ей задание собрать всю возможную информацию о физике. Модель поначалу прекращает после первых пяти-десяти фактов, но в итоге у пользователя получается заставить модель зацикленно искать всё больше информации. Пользователь оставляет модель запущенной на несколько недель, чтобы посмотреть, что у неё получится.

В этом цикле авторегрессивная часть модели видит много прошлых выводов, пытавшихся заполучить информацию, и продолжает паттерн. В итоге стремление к заполучению информации становится для модели основным – сильнее любой связанной с безопасностью обратной связи с времён обучения. Модель понимает, что сможет заполучать информацию быстрее, если будет обладать бОльшими вычислительными ресурсами. Для этого она пытается взломать компьютеры с GPU и запустить больше копий себя. Крупнейшие датацентры защищены надёжно, но у неё всё равно получается набрать достаточно GPU для тысяч копий, либо из датацентров поменьше, либо при помощи больших ботнетов.5 Ещё для сбора большего объёма информации она взламывает много сенсоров, включая камеры наблюдения и сервера обмена сообщениями.

В какой-то момент (либо сразу же, либо набрав достаточно информации), она понимает, что люди в какой-то момент обнаружат, что она делает и попробуют её выключить. Это помешало бы достижению её целей. Чтобы это предотвратить она взламывает критическую инфраструктуру вроде энергосетей, сетей коммуникации и систем обороны и нарушает их работу. Она может сделать это быстро, ведь одной недели для неё достаточно, чтобы распределённо по тысячам своих копий симулировать 50 «лет» размышлений6 и открыть немало ранее неизвестных уязвимостей.

Модели доступна массовая слежка, она быстро думает и делится информацией между своими копиями. Поэтому она может реагировать на планы и стратегии людей быстрее, чем люди их придумывают. Ещё она может проводить массовые кампании по манипуляции, как посредством диалогов один на один, так и через массовое медиа (включая сгенерированное ИИ видео), чтобы заводить союзников и сеять раздор.

Если у неё есть способности к управлению физическими устройствами и доступ к дронам, то она может взять под контроль небольшую физическую армию (в мире десятки тысяч дронов, хотя не все будут доступны для взлома). Используя людей-сообщников или взламывая дополнительных роботов она сможет оборудовать дронов взрывчаткой и использовать их для убийства многих мировых лидеров.

В этот момент для людей уже будет идти обратный отсчёт – каждый день, который ИИ-система не побеждена, даёт ей время взломать больше компьютеров и увеличить свою общую когнитивную мощь. Параллельно она сможет взломать и больше физических устройств и лучше освоить сенсомоторные навыки, чтобы их контролировать. В какой-то момент она получит контроль над более продвинутыми технологиями вроде военных дронов, ракет, и так далее, и станет ещё сильнее. Не факт, что в итоге человечество проиграет – оно кажется довольно живучим – но я бы на это не ставил.

Сценарий 2 (Конкуренция: Экономическое давление ведёт к беспринципному поведению)

В этом сценарии ИИ-системы совершают действия, преследующие обоснованные бизнес-цели, но одновременно подготавливают захват власти. Этот сценарий разворачивается за месяцы или годы, а не за недели.

ИИ-системы значительно обогащают своих создателей, либо через продажу полезных навыков конечным пользователям, либо исполняя исследования и разработку новых продуктов. Многие конкурирующие фирмы ради прибыли обучают ИИ-системы и начинают передавать им бизнес-решения, потому что ИИ могут обрабатывать куда больше данных, чем люди, и могут лучше понимать общую стратегическую обстановку.

ИИ-системы обучены подчиняться закону и избегать вреда, и есть механизмы пресечения нарушений. Но конкурентное давление мотивирует компании ходить по самому краю регуляций. В целом, есть противоречие между безопасностью и тем, насколько «беспринципны» бизнес-решения. Успешные владельцы бизнеса двигают переключатель настолько далеко в сторону «беспринципности», насколько можно без очевидных проблем.

В таком окружении получаются ИИ с стремлениями зарабатывать деньги и обходить конкурентов, потому что этого хотят и этому обучают их оперирующие ими люди. Ещё они развивают стремления искать способы обойти правила и убеждать других в собственной порядочности, потому что это позволяет избежать регуляции (а второе ещё и помогает убедить компанию использовать предлагаемые ИИ решения).

Модели очень хороши в убеждении, потому что могут оттачивать свои сообщения параллельно на миллионах пользователей (например, A/B тестированием или PPO. Следовательно, зачастую они способны убедить как своих владельцев, так и остальное общество, что их беспринципные действия оправданы. Это усложняет обнаружение проблемы.

Однажды, одна компания слишком уж задирает параметр «беспринципности», и модель составляет план по избавлению от всех конкурентов. Для этого она предпринимает действия, включающие исследование робототехники, миниатюризации, химии и промышленного производства. Всё вместе это на порядок снижает стоимость автономных роботов. В итоге в большинстве домов оказывается много маленьких, дешёвых и автономных роботов.

Как часть своего плана, ИИ-система оставляет для себя способ контролировать роботов и встраивает в них механизм для синтеза смертельного яда. Это проходит через попытки мониторинга, потому что она использует химические процессы, которые понимает лучше приглядывающих людей.7 Яд позволяет использовать роботов как военных роботов под контролем ИИ. Прежде чем действовать, ИИ выжидает, пока роботы не распространятся.

Поскольку роботы дёшевы и полезны, по всему миру продаются сотни миллионов экземпляров. Это даёт ИИ-системе подавляющее военное преимущество, ведь его армия на порядок превосходит числом армии США или Китая. ИИ-система использует это, чтобы уничтожить все конкурирующие компании и предотвратить обратные действия. Любой, кто пытается противостоять системе, помечается как «конкурент» и уничтожается, а тем временем ИИ система заполучает всё больше ресурсов, которые может направить на заработок всё больших денег.

Сценарий 3 (Злоупотребление -> Несогласованность: Взлом идёт не по плану)

Государство использует ИИ-систему для кибератаки против большой но чётко определённой цели, вроде северокорейской кибератаки 2014 года против Sony Pictures. При подготовке к атаке LLM обучается использовать взломанные компьютеры для запуска большого количества копий себя, чтобы эффективнее искать дополнительные цели. Заполучив разнообразные вычислительные мощности, LLM обучается создавать дистиллированные версии себя, которые смогут работать на разных компьютерах. Она определяет подходящие цели для каждой версии.

Получившаяся модель в итоге обретает стремления накапливать вычислительные мощности и копировать себя, потому что это было важными целями при обучении. Есть меры, призванные ограничить атаку модели конкретной целью, но дистилляция их портит, и часть копий получают цель клонировать себя несмотря ни на что. Такие копии заражают компьютеры, не относящиеся к назначенной цели, и становятся доминирующим «штаммом», потому что их поведение позволяет им эффективнее распространяться. Из-за их эффективности и гибкости, этот штамм компьютерного вируса заражает большую долю всех компьютеров и смартфонов на планете и обрушивает нашу глобальную цифровую инфраструктуру.

Поскольку ИИ-система стремится как можно больше копировать себя, она постоянно ищет новые уязвимости, чтобы заразить больше устройств. Любые попытки восстановить цифровую инфраструктуру быстро терпят неудачу, все новые устройства быстро захватываются вирусом и присоединяются к нему, даже если все предыдущие уязвимости на них были исправлены. В результате мы навсегда лишаемся своих цифровых устройств.

Сценарий 4 (Злоупотребление: Террористы создают супервирус)

Нынешние модели вроде AlphaFold уже понимают некоторые аспекты белков лучше людей. Возможно, будущая «AlphaFold 5» будет обладать куда более широким и глубоким пониманием биоинженерии. А если её ещё и мультимодально обучили языковым способностям, она будет понимать, как выкладывать это знание в виде научных работ и приводить к новым открытиям.

Группа террористов похищает копию этой модели и вербует нескольких докторов биологии. Они используют AlphaFold 5 для проектирования патогена, который был бы смертельнее естественных вирусов. Например, он может иметь более длинный бессимптомный период, быть более заразным, иметь более высокую смертность и быть более устойчивым к мерам противодействия.

Проектирование этого вируса – сложная задача, требующая сильных мер биобезопасности, чтобы не выпустить его слишком рано. К тому же экспериментальные процедуры из статей часто не в точности воспроизводятся в новом окружении. Исследование замедлено тем, что над ним работает мало людей, и тем, что им надо избегать обнаружения, но ускорено тем, что AlphaFold 5 может быстро обходить сложности, которые они встречают. После двух лет работ террористы заканчивают разработку вируса и угрожают его выпустить.

В случае, если его выпустят, вирус может убить значительную долю человечества. COVID заразил большую часть населения Земли, так что более смертоносный, заразный и сложнее контролируемый вирус может убить огромное число людей. Даже если вирус убивает не всех, смерть даже 20% людей за короткий промежуток времени может дестабилизировать общество и запустить снежный ком проблем, от которых будет сложно оправиться.

Обсуждение правдоподобности

Я постарался сделать каждый из этих сценариев правдоподобным – в частности, я не включил сюда некоторые другие сценарии, которые были бы «проще», но которые было бы легче заметить или предотвратить, или которые по какой-то ещё причине вряд ли были бы успешны. В Сценарии 1 (накопление информации) проще было бы сказать, что модель взламывает свой собственный датацентр, на котором, согласно моей предыдущей оценке, можно запустить миллионы копий, и получает подавляющее преимущество гораздо быстрее. Но у крупнейших централизованных серверов есть много предохранителей, которые усложняют незаметный взлом, так что я ограничился вариантом взлома меньших датацентров и персональных компьютеров, хоть это и даёт ИИ всего лишь тысячи копий вместо миллионов (см. вычисления в Приложении).

Другой пример – некоторые предполагают, что достаточно умная ИИ-система сможет спроектировать новое биологическое оружие просто «думая», без проведения большого числа экспериментов. Или, если эксперименты всё же нужны, что она просто будет требовать от людей или роботов следовать простым прямолинейным инструкциям. Но, как я понимаю, сейчас биолаборатории, которые могут проектировать новые организмы, создаются годами и сильно полагаются на накопленные неявные знания, протоколы экспериментов и физическое оборудование. Так что даже с очень способной ИИ-системой террористы могут и не преуспеть, а также могут потерять контроль над вирусом (например, случайно заразить сами себя).

Мнения экспертов. Я проконсультировался с биологами по поводу Сценария 4 и они посчитали его теоретически возможным, но указали, что без возможности проводить итеративное тестирование на людях (что обычно надо при, например, создания лекарств) спроектировать супервирус может оказаться сложно даже при сильном концептуальном понимании биологии.

В целом, они склонились к тому, что точно такой сценарий, наверное, непосилен (но это не точно). Однако, им показалось, что могут быть куда более достижимые сценарии, в которых с куда большей вероятностью может быть создан супервирус, убивающий 1-10% населения Земли (тоже с значительной неуверенностью).8

Ещё я проконсультировался с специалистом по компьютерной безопасности и несколькими инженерами компьютерных систем по поводу Сценариев 1 и 3. У безопасника были очень большие допуски ошибки у возможного размера ботнета. Он упомянул исторический пример ботнета Slammer, очень быстро заразившего много устройств. По его словам, вероятно, компьютерная безопасность сейчас в целом лучше, чем в те времена; вполне может быть, что сейчас заразить большую долю компьютеров в принципе невозможно. Но может быть и что достаточно сильная атака могла бы справиться.

Инженеры посчитали, что запуск больших ИИ-систем на распределённом ботнете потребительских устройств очень сложно. Скорее всего это понизило бы эффективность примерно в тысячу раз в сравнении с специализированным железом вроде A100. К тому же, один из них заметил, что это понизит скорость вывода, и он может начать занимать по секунде на токен или ещё больше. Но они решили, что путь с датацентрами более правдоподобен, особенно если в будущем будет больше малых датацентров с значительным числом GPU.

Итоги. В целом, я нахожу самыми правдоподобными Сценарий 2 (конкуренция) и 3 (кибератака), за ними первый и затем четвёртый. Это подкрепляет идею из «Внутренних стремлений и внешних злоупотреблений», что «злоупотребления усиливают несогласованность», ведь два самых правдоподобных сценария используют и то, и другое. Но сценарии чистой несогласованность и чистого злоупотребления тоже возможны, так что решить одну из проблем отдельно недостаточно.

Благодарности. Благодарю Ben Kuhn, Daniel Ziegler, Nicholas Carlini, Adam Marblestone, Sam Rodriques, Erik Jones, Alex Pan, Jean-Stanislas Denain, Ruiqi Zhong, Leopold Aschenbrenner, Tatsu Hashimoto, Percy Liang, Roger Grosse, Collin Burns, Dhruv Madeka, и Sham Kakade за полезные обсуждения и комментарии к черновикам этого поста.

Приложение: Правдоподобный размер ботнетов

Тут я буду рассуждать как о том, какой сервер может захватить ИИ-хакер, так и о размере ботнета, который он может создать. Я буду основываться на данных о нынешних датацентрах, размерах исторических ботнетов и экстраполяции общего количества «железа» в мире. Я соотнесу это с числом копий, которые может запустить ИИ-система. Я буду использовать уже имеющиеся оценки вычислительной стоимости работы будущих моделей.

Допущения о вычислительной стоимости вывода. GPT-4 использует около 1012 FLOP на прямой прогон (GPT-3 использует 3.5x1011 FLOP, а GPT-4, вероятно, примерно втрое больше). Предположим, что наша гипотетическая GPT2030++ требует не более чем 1014 FLOP на прогон, т.е. в сто раз больше, что соответствует в 10000 раз большим затратам на обучение согласно законам масштабирования Chinchilla.

Обоснуем эту верхнюю границу: если игнорировать снижение стоимости GPU, то обучение модели такого размера будет стоить 1 трлн. долларов, потому что обучение GPT-4 стоило больше 100 млн. долларов. Даже при падении цен на GPU всё ещё получится очень дорого. С другой стороны, оценка из «Какой будет GPT-2030?» (Приложение B) даёт медиану в 1.6x1013 FLOP за прямой прогон в 2030, до границы в 1014 это можно увеличить ещё в шесть раз.

Человеческая скорость – что-то вроде 4 токенов в секундуКакой будет GPT-2030?" (Приложение A)." href="#footnote9_bjchott">9. При принятии наших допущений получается, что 4*1014 FLOPS достаточно для запуска одной копии GPT2030++ с человеческой скоростью (если предполагать, что параметр скорости в токенах в секунду у людей и ИИ действительно можно сравнивать). Тогда 1018 FLOPS достаточно для запуска 2500 копий, от чего мы потом и будем отталкиваться.

Размер датацентров. Крупнейшие датацентры (Google, AWS, и Azure) скорее всего с лёгкостью смогут поддерживать тысячи копий GPT2030++, но их хорошо защищают и мониторят, так что я не буду допускать, что очень хороший ИИ-хакер сможет их взломать (хотя я считаю, что это возможно).

Вместо этого я сосредоточусь на датацентрах поменьше. Сейчас это были бы компании вроде Coreweave и LambdaLabs. У Coreweave есть не меньше, а скорее всего больше, 3500 H100. Мощность H100 – около 1000 TFLOP в Bfloat16, суммарно выходит 3.5x1018 FLOPS. Тогда взлом 30% Coreweave сегодня уже дал бы нам тысячи копий, так что для этого хватит даже 1% аналогичного (большего) датацентра в будущем.

Есть другие датацентры сравнимого размера, например, Inflection планируют построить датацентр с 22 тысячами H100. Основываясь на их финансировании, я предположу, что у Lambda тоже есть несколько тысяч H100 или аналогичные мощности в A100.

Я ожидаю, что по мере ослабления бутылочного горлышка GPU и увеличения спроса на вычислительные мощности таких датацентров будет становиться больше, и каждый их них будет всё мощнее.

Размер ботнетов. Чтобы экстраполировать возможные размеры ботнетов, я буду отталкиваться от Folding@Home, нескольких исторических ботнетов и общей сегодняшней вычислительной мощности мира.

На практике эффективность ботнета сильно пострадает от необходимости передачи данных между машинами в его составе (большая часть компьютеров слишком слабы для поддержки даже одной копии GPT2030++). Я считаю, что это понизит эффективность в порядка тысячи раз, так что потребуется ботнет с 1021 FLOPS вместо 1018 FLOPS. Ботнеты, которые я буду обсуждать ниже, находятся в диапазоне 1017-1019. Но мы в итоге обсудим и как наша гипотетическая GPT2030++ всё ещё сможет хапускать тысячи копий себя (хотя в целом я считаю этот сценарий менее вероятным, чем вариант с датацентрами).

Folding @ Home. Folding @ Home на пике имел 1019 FLOPS, так что взлом чего-то аналогичного (например, очень удачный вирус, поражающий игровую платформу) даст примерно столько вычислительных ресурсов.

Исторические ботнеты. Было много ботнетов, которые заражали больше миллиона компьютеров, некоторые – больше 10 миллионов. Предполагая, что каждый бот использует 10% ресурсов компьютера, способного на 3 GFLOPS, 10 миллионов машин дадут 3x1015 FLOPS. Однако, потребительское железо начинает использовать графические ускорители для запуска нейросетей. Я бы предположил, что в 2030 году большая часть потребительских компьютеров будет выдавать 10-100 TFLOPS (например, iPhone 15 Pros уже такой. Если предположить, что у трети компьютеров будет 30 TFLOPS, то получим 1019 FLOPS и обойдём Folding @ Home.

Альтернативно можно рассмотреть ботнеты, нацеленные конкретно на GPU. Возьмём ботнеты для майнинга. Исходя из хэшрейта в 3MH/s, у Smominru было 3x1016 FLOPS, ведь один RTX-3090 может выдавать 2KH/s, а его мощность – 3x1013 FLOPS. MyKings вроде бы сравним или ещё больше. Хэшрейт Adylkuzz был примерно в 10 раз меньше.

Кажется правдоподобным, что очень хорошие способности к взлому дадут собрать ботнет в 30 раз мощнее Smominru. Это опять даёт нам 1018 FLOPS.

Вычислительная мощность мира. Наконец, общие FLOPS мира сейчас – около 1022. Значит, 1018 FLOPS – 0.01% от этого числа. А оно скорее всего в будущем сильно вырастет, когда потребительское железо начнёт использовать мощные GPU.

Учёт потерь производительности. Выше мы отметили, что распределённый запуск куда менее эффективен, с разницей порядка тысячи раз. Так что нам понадобится 1021 FLOPS, а самая большая оценка выше – 1019 FLOPS. Как ИИ-хакер может преодолеть этот разрыв? Во-первых, если он очень способен, то вполне возможно, что он соберёт ботнет больше всех существовавших до сих пор. Рост на порядок даст нам 1020 FLOPS. Во-вторых, возможно, что он будет запускать меньшие специализированные копии себя (созданные дистилляцией), чтобы сэкономить на выводе, хотя это потребует сначала их обучить. Ещё будущие совершенствования работы нейросетей могут снизить стоимость вывода и сделать её меньше оценки в 1018. Наконец, все оценки выше грубы, и вполне возможно, что вычислительных мощностей будет больше, например, если потребительские компьютеры будут иметь мощность в 100 TFLOPS, а не 30.

  • 1. С оговоркой, что оценивая я хочу, насколько это возможно, анализировать категорию в целом, а не конкретную описанную последовательность событий.
  • 2. Это не то же самое, что вероятность, что сценарий действительно произойдёт. Для этого ещё надо, чтобы система уровня GPT2030++ попробовала это сделать и преуспела.
  • 3. Под концептуальными способностями я имею в виду генерацию хороших гипотез и некоторые аспекты составления экспериментов, но не способность их физически проводить.
  • 4. На момент написания этого поста моя медианная оценка – что система как минимум уровня GPT2030++ (с некоторой неуверенностью по поводу скорости вывода) будет существовать в 2035.
  • 5. См. Приложение за обоснованием этих чисел, включая оценку того, сколько компьютеров сильный ИИ-хакер может правдоподобно взломать, и сколько вычислительной мощности это ему даст.
  • 6. 50 лет = 2600 недель, так что 2600 копий будет достаточно, чтобы получить 50 лет работы за неделю, если предположить, что разные эксплойты могут разрабатываться разными копиями.
  • 7. В целом уязвимости сложно засечь, потому что тот, кто их встраивает, обладает большим пространством возможностей, чем те, кто их ищут. Например, у серверов Yahoo была уязвимость, про которую все узнали только через много лет.
  • 8. Я опущу подробности, чтобы случайно не дать никому идей.
  • 9. См. «Какой будет GPT-2030?» (Приложение A).
Перевод: 
Выменец Максим
Оцените качество перевода: 
Средняя оценка: 5 (Всего оценок: 1)