Вы здесь

Безопасность СИИ с чистого листа. Суперинтеллект

Ричард Нго

Чтобы понять суперинтеллект, следует сначала охарактеризовать, что мы имеем в виду под интеллектом. Мы можем начать с хорошо известного определения Легга, как способности хорошо справляться с широким набором когнитивных задач1. Ключевое разделение, которое я проведу в этой части – это разделение между агентами, хорошо понимающими, как справляться с многими задачами, потому что они были специально оптимизированы под каждую из них (я назову это основанным на задачах подходом к ИИ), и агентами, которые могут понимать новые задачи без или практически без специфического для этих задач обучения, обобщая из предыдущего опыта (основанный на обобщении подход).

Узкий и обобщённый интеллект

Основанный на задачах подход аналогичен тому, как люди применяют электричество: хоть электричество – это мощная технология, полезная в широком спектре задач, нам всё ещё надо проектировать специфические способы для его применения к каждой задаче. Похожим образом компьютеры – это мощные и гибкие инструменты, но хоть они и могут обрабатывать произвольно большое количество разных вводов, для каждой программы нужно индивидуально писать детальные инструкции, как совершать эту обработку. Нынешние алгоритмы обучения с подкреплением так же, несмотря на мощность, приводят к появлению агентов, хорошо справляющихся только с конкретными задачами, с которыми у них много опыта – Starcraft, DOTA, Go, и подобное. В «Переосмыслении cуперинтеллекта» Дрекслер отстаивает позицию, что наш текущий основанный на задачах подход отмасштабируется до сверхчеловеческих способностей в некоторых сложных задачах (но я скептически отношусь к этому заявлению).

Пример основанного на обобщении подхода – большие языковые модели вроде GPT-2 и GPT-3. GPT-2 сначала натренировали на задачу предсказывания следующего слова в тексте, а потом она достигла наилучших для своего времени результатов на многих других языковых задачах, без специальной подстройки на каждую! Это было явное изменение по сравнению с предыдущим подходом к обработке естественного языка, которые хорошо проявляли себя только с обучением под конкретную задачу на специальном наборе данных. Её потомок, GPT-3, продемонстрировала ещё более впечатляющее поведение. Я думаю, это хороший пример того, как ИИ может развить когнитивные навыки (в данном случае, понимание синтаксиса и семантики языка), обобщающиеся на большой диапазон новых задач. Поле мета-обучения преследует похожие цели.

Можно также увидеть потенциал основанного на обобщении подхода, посмотрев на развитие людей. Эволюция «обучила» нас как вид когнитивным навыкам, включающим в себя способности к быстрому обучению, обработку сенсорной и выдачу моторной информации, социальные навыки. Индивидуально мы также «обучаемся» в детстве подстраивать эти навыки, понимать устный и письменный язык и обладать подробной информацией о современном обществе. Однако, заметим, что почти всё это эволюционное и детское обучение произошло на задачах, сильно отличающихся от экономически пригождающихся нам во взрослом возрасте. Мы можем справляться с ними только переиспользуя когнитивные навыки и знания, полученные раньше. В нашем случае нам повезло, что эти когнитивные навыки были не слишком специфичны для окружения наших предков, а оказались весьма обобщёнными. В частности, навык абстрагирования позволяет нам извлекать общую структуру из разных ситуаций, что позволяет нам понимать их куда эффективнее, чем если бы мы отдельно изучали их одну за другой. Наши навыки коммуникации и понимания чужого сознания позволяют нам делиться своими идеями. Поэтому люди могут достигать мощного прогресса на масштабе лет и десятилетий, а не только через эволюционные адаптации на протяжении многих поколений.

Мне следует заметить, что я думаю об основанном на задаче и основанном на обобщении подходах как о частях спектра, а не как о бинарной классификации, в частности потому, что разделение на отдельные задачи довольно произвольно. К примеру, AlphaZero обучалась, играя сама с собой, но тестировалась, играя против людей, использующих другие стратегии и стили игры. Можно думать об игре против двух разных типов оппонентов как о двух случаях одной задачи, а можно – как двух разных задачах, таких, что AlphaZero смогла обобщить первую на вторую. Но в любом случае, они явно очень похожи. Для контраста, я ожидаю, что ИИ будут справляться хорошо с многими экономически важными задачами в первую очередь за счёт обобщения опыта совершенно других задач – что означает, что этим ИИ придётся обобщать намного лучше, чем могут нынешние системы обучения с подкреплением.

Уточню, про какие именно задачи я ожидаю, что они потребуют режима обобщения. В той мере, в которой мы можем разделять два подхода, мне кажется правдоподобным, что основанный на задачах подход сможет далеко зайти в областях, в которых мы можем собрать много данных. Например, я довольно сильно убеждён, что этот подход предоставит нам сверхчеловеческие беспилотные автомобили задолго до того основанного на обобщении подхода. Он может также позволить нам автоматизировать большинство задач, входящих в очень когнитивно-требовательные области вроде медицины, законов и математики, если мы сможем собрать правильные обучающие данные. Однако, некоторые занятия критически зависят от способности анализировать очень разнообразную информацию и действовать в её контексте, так что им будет очень сложно обучать напрямую. Рассмотрим задачи, включённые в роль вроде CEO: устанавливать стратегические направление компании, выбирать, кого нанимать, писать речи, и так далее. Каждая из этих задач чувствительно зависит от широкого контекста компании и окружающего мира. В какую индустрию входит компания? Насколько она большая; где она; какова её культура? Какие у неё отношения с конкурентами и правительствами? Как все эти факторы поменяются в ближайшую пару десятилетий? Эти переменные настолько разные по масштабу и зависящие от многих аспектов мира, что кажется практически невозможным сгенерировать большое количество обучающих данных, симулируя их (как мы делаем с ИИ, играющими в игры). И число CEO, от которых мы могли бы получить эмпирические данные, очень мало по меркам обучения с подкреплением (которое часто требует миллиарды тренировочных шагов даже для куда более простых задач). Я не говорю, что мы никогда не сможем превзойти человека в этих задачах прямым обучением на них – может, очень упорные усилия в разработке и проектировании при помощи других основанных на задачах ИИ и могут этого достичь. Но я ожидаю, что задолго до того, как такие усилия станут возможными, мы уже создадим ИИ, который будет уметь хорошо справляться с этими задачами, с помощью основанного на обобщении подхода.

В основанном на обобщении подходе путь к созданию сверхчеловеческого CEO – это использование других богатых на данные задач (которые могут сильно отличаться от того, что мы хотим, чтобы ИИ-CEO делал) для обучения ИИ набору полезных когнитивных навыков. К примеру, мы можем обучить агента выполнять инструкции в симулированном мире. Даже если симуляция сильно отличается от реального мира, агент может получить способности к планированию и обучению, которые можно будет быстро адаптировать к задачам реального мира. Аналогично, окружение предков людей также сильно отличалось от современного мира, но мы всё ещё способны довольно быстро становиться хорошими CEO. Приблизительно те же аргументы подходят и к другим влиятельным занятиям, вроде меняющих парадигмы учёных, предпринимателей и законотворцев.

Одно потенциальное препятствие для основанного на обобщении подхода – это возможность, что специфические черты окружения наших предков или специфические черты человеческого мозга были необходимы для возникновения обобщённого интеллекта. К примеру, выдвигалась гипотеза, что социальная «гонка вооружений» послужила причиной возникновения у нас достаточного социального интеллекта для масштабной передачи культурной информации. Однако, возможности для возникновения таких важных черт, включая эту, вполне могут быть воспроизведены в искусственном тренировочном окружении и в искусственных нейронных сетях. Некоторые черты (как квантовые свойства нейронов) может быть очень сложно точно симулировать, но человеческий мозг оперирует в слишком зашумлённых условиях, чтобы было правдоподобно, что наш интеллект зависит от эффектов такого масштаба. Так что кажется весьма вероятным, что однажды мы сможем создать ИИ, который сможет достаточно хорошо обобщать, чтобы на человеческом уровне справляться с широким диапазоном задач, включая абстрактные бедные данными задачи вроде управлением компанией. Давайте называть такие системы обобщёнными искусственными интеллектами, или СИИ2. Многие разработчики ИИ ожидают, что мы создадим СИИ в этом столетии; однако, я не буду рассматривать аргументы про оставшееся до СИИ время, и остальной доклад не будет зависеть от этого вопроса.

Пути к суперинтеллекту

Бостром определил суперинтеллект как «любой интеллект, сильно превосходящий когнитивные способности человека в практически любой области». В этом докладе, я буду понимать «сильно превосходящий человеческие способности» как превосходство над всем человечеством вместе, если бы оно могло глобально координироваться (без помощи другого продвинутого ИИ). Я думаю, сложно отрицать, что в принципе возможно создать отдельный основанный на обобщении суперинтеллектуальный СИИ, поскольку человеческий мозг ограничен многими факторами, которые будут ограничивать ИИ куда меньше. Пожалуй, самый поражающий из них – это огромная разница между скоростью нейронов и транзисторов: вторые передают сигналы примерно в четыре миллиона раз быстрее. Даже если СИИ никогда не превзойдёт людей в других аспектах, такая скорость позволит ему за минуты и часы продумать столько, сколько человек может в годы или десятилетия. В то же время, наш размер мозга – важная причина того, что люди способнее животных – но я не вижу причин, почему нейросеть не может быть ещё на несколько порядков больше человеческого мозга. И хоть эволюция во многом весьма хороший проектировщик, у неё не было времени отбирать по навыкам, специфически полезным в нашем современном окружении, вроде понимания языка и математических рассуждений. Так что нам следует ожидать существования низковисящих плодов, позволяющих продвинуться за пределы человеческой компетенции в многих задачах, опирающихся на такие навыки3.

Есть значительные расхождения в мнениях по поводу того, сколько времени займёт переход от СИИ человеческого уровня до суперинтеллекта. Фокус этого доклада не в этом, но я быстро пробегусь по этой теме в разделе про Контроль. А в этом разделе я опишу качественно, как может пройти этот переход. По умолчанию, следует ожидать, что он будет связан с стандартными факторами, влияющими на прогресс ИИ: больше вычислительной мощности, лучшие алгоритмы, лучшие обучающие данные. Но я также опишу три фактора, вклад которых в увеличение интеллекта ИИ будет становиться сильнее с тем, как ИИ будет становиться умнее: репликация, культурное обучение и рекурсивное улучшение.

В плане репликации ИИ куда менее ограничен, чем люди: очень легко создать копию ИИ с теми же навыками и знаниями, что и у оригинала. Вычислительная стоимость этого процесса скорее всего будет во много раз меньше изначальной стоимости обучения (поскольку обучение обычно включает в себя запуск многих копий ИИ на куда более высокой скорости, чем нужно для задач реального мира). Копирование сейчас позволяет нам применять один ИИ к многим задачам, но не расширяет диапазон задач, которые он может выполнять. Однако, следует ожидать, что СИИ сможет декомпозировать сложные задачи на более простые подзадачи, как и делают люди. Так что копирование такого СИИ сможет привести к появлению суперинтеллекта, состоящего не из одного СИИ, а из целой группы (которую, следуя за Бостромом, я назову коллективным СИИ), которая может справляться со значительно более сложными задачами, чем оригинал4. Из-за простоты и эффективности копирования СИИ, я думаю, что нам следует по умолчанию ожидать возникновения суперинтеллекта из коллективного СИИ.

Эффективность коллективного СИИ может быть ограничена проблемами координации его составляющих. Однако, большинство аргументов из предыдущего абзаца – так же является причиной, почему отдельные СИИ смогут превзойти нас в навыках, необходимых для координации (как обработка языка и понимание другого разума). Особенно полезный навык – это культурное обучение: стоит ожидать, что СИИ смогут приобретать знания друг от друга, и, в свою очередь делиться собственными открытиями, что позволит коллективному СИИ решать более сложные задачи, чем его составляющие по отдельности. Развитие этой способности в людях – это то, что сделало возможным мощный взлёт человеческой цивилизации в последние десять тысяч лет. Нет особых причин считать, что мы достигли максимума этой способности, или что СИИ не может получить ещё большего преимущества над человеком, чем у человека есть над шимпанзе, с помощью получения информации от других агентов.

В-третьих, СИИ смогут улучшать процесс обучения для разработки своих наследников, которые, в свою очередь, улучшат его дальше, для разработки своих, и так далее, в процессе рекурсивного улучшения5. Предыдущие обсуждения в основном сосредотачивались на рекурсивном самоулучшении, включающим один СИИ, «переписывающий свой собственный код». Однако, я по нескольким причинам думаю, что более уместно сосредоточиться на более широком явлении ИИ, продвигающего разработку ИИ. Во-первых, из-за простоты копирования ИИ, нет значимого разделения между ИИ, улучшающим «себя» и ИИ, создающим наследника, разделяющего многие его свойства. Во-вторых, современные ИИ более точно характеризуются как модели, которые можно переобучить, а не как программы, которые можно переписать: практически вся работа, делающая нейросеть умной, производится оптимизатором через продолжительное обучение. Даже суперинтеллектуальному СИИ будет довольно сложно значительно улучшить своё мышление, модифицируя веса+ в своих нейронах напрямую; это кажется похожим на повышение интеллекта человека с помощью хирургии на мозге (хоть и с куда более точными инструментами, чем у нас есть сейчас). Так что, вероятно, более точным будет думать о самомодификации, как о процессе, в котором СИИ изменяет свою высокоуровневую архитектуру или режим обучения, а потом обучает себя заново. Это очень похоже на то, как мы создаём новые ИИ сегодня, только с меньшей ролью людей. В-третьих, если интеллектуальный вклад людей значительно сокращается, то я не думаю, что осмысленно требовать полного отсутствия людей в этом цикле, чтобы поведение ИИ можно было считать рекурсивным улучшением (хотя мы всё ещё можем различать случаи с большим и меньшим вовлечением людей).

Эти соображения в нескольких местах пересматривают классический взгляд на рекурсивное самоулучшение. К примеру, шаг переобучения может быть ограничен вычислительными мощностями, даже если СИИ будет способен очень быстро проектировать алгоритмические усовершенствования. И чтобы СИИ мог полагаться на то, что его цели останутся неизменными при переобучении, ему, вероятно, потребуется решить примерно те же задачи, которыми сейчас занимается область безопасности СИИ. Это причина для оптимизма по поводу того, что весь остальной мир сможет решить эти задачи до того, как несогласованный СИИ дойдёт до рекурсивного самоулучшения. Однако, проясню, это не подразумевает, что рекурсивное улучшение не важно. Напротив, раз ИИ однажды станет основным участником разработки ИИ, то рекурсивное улучшение, как оно определено здесь, однажды станет ключевым двигателем прогресса. Я ещё рассмотрю следствия этого заявления в разделе про Контроль.

Пока что я сосредотачивался на том, как суперинтеллекты появятся, и что они будут способны делать. Но как они будут решать что делать? К примеру, будут ли части коллективного СИИ хотеть кооперироваться друг с другом для достижения больших целей? Будет ли способный к рекурсивному самоулучшению СИИ иметь причины это сделать? Я не хочу формулировать эти вопросы в терминах целей и мотивации СИИ, не описав сперва подробнее, что эти термины на самом деле означают. Это тема следующего раздела.

  • 1. В отличии от обычного использования, тут мы считаем определение каналов ввода-вывода агента частью среды, так что решение задачи требует только обработки входящей информации и вывода исходящей.
  • 2. По-русски устоялось словосочетание «сильный искусственный интеллект». - Прим. перев.
  • 3. Это наблюдение сильно связано с парадоксом Моравека, который я подробнее рассмотрю в разделе про Цели и Агентность. Самый наглядный пример, пожалуй, это то, насколько легко ИИ победить человека в шахматы.
  • 4. Не вполне ясно, всегда ли имеет смысл разделение между «одиночными СИИ» и коллективными СИИ, учитывая, что и отдельный СИИ может состоять из многих модулей, которые сами по себе могут быть довольно интеллектуальными. Но поскольку кажется маловероятным, чтобы таких обобщённо интеллектуальных модулей были сотни или тысячи, я думаю, что разделение всё же осмысленно на практике. См. также рассмотрение «коллективного суперинтеллекта» в «Суперинтеллекте» Бострома.
  • 5. Будет ли последующий агент продвинутой версией разработавшего его СИИ или совсем другим, заново обученным СИИ – вопрос важный, но не влияющий на приводимые здесь аргументы.

Перевод: 
Максим Выменец
Оцените качество перевода: 
Голосов пока нет
  • Короткая ссылка сюда: lesswrong.ru/1170