15. Заключение: Открытые задачи и как помочь

Стивен Бирнс

1.15.1 Краткое содержание / Оглавление
2.15.2 Открытые задачи
3.15.3 Как подключиться
- 3.1.15.3.1 Ситуация с финансированием
- 3.2.15.3.2 Работы, организации, программы обучения, сообщества, и т.д.
  - 3.2.1.15.3.2.1 …Связанные с безопасностью СИИ (согласованием ИИ) в целом
  - 3.2.2.15.3.2.2 …Более конкретно связанные с этой цепочкой
4.15.4 Заключение: 8 выводов

15.1 Краткое содержание / Оглавление

Это последний пост цепочки «Введение в безопасность подобного-мозгу СИИ»! Спасибо, что дочитали!

В Разделе 15.2 я перечислю семь открытых задач, всплывавших в предыдущих постах. Я размещаю их тут в одном месте для удобства потенциальных исследователей и спонсоров.
В Разделе 15.3 я выложу быстрые заметки по практическим аспектам того, как начать заниматься исследованиями в области безопасности (согласования) СИИ, включая поиск финансирования, связь с исследовательским сообществом и где узнать больше.
В Разделе 15.4 я подведу итоги восемью выводами, которые, как я надеюсь, читатели сделают из этой цепочки.

Раз уж это пост-заключение, можете спокойно использовать комментарии для обсуждений на общие темы (или вопросов мне по любому поводу), даже если они не связаны с этим конкретным постом.

15.2 Открытые задачи

Это ни в коем случае не исчерпывающий список открытых задач, прогресс в которых мог бы помочь безопасности подобного-мозга СИИ, и уж тем более общей теме Безопасного и Полезного СИИ (см. Пост №1, Раздел 1.2). Скорее, это просто некоторые из тем, всплывавших в этой цепочке, с присвоенными рейтингами, пропорциональными тому, насколько сильный энтузиазм я испытываю по их поводу.

Я разделю открытые задачи на три категории: «Открытые задачи, похожие на обычную нейробиологию», «Открытые задачи, похожие на обычную информатику», и «Открытые задачи, которые требуют явно упоминать СИИ». Это разделение – для удобства читателей: у вас, к примеру, может быть начальник, спонсор или диссертационный совет, считающий, что безопасность СИИ – это глупости, и в таком случае вы можете захотеть избегать третьей категории. (Однако, не сдавайтесь слишком быстро – см. обсуждение в Разделе 15.3.1 ниже.)

15.2.1 Открытые задачи, похожие на нормальную нейробиологию

15.2.1.1 Исследовательская программа «Несёт ли Стив полную чушь, когда говорит о нейробиологии?» — ⭐⭐⭐⭐

Если вы не заметили, Посты №2-№7 наполнены откровенным теоретизированием и наглыми заявлениями о том, как работает человеческий мозг. Было бы здорово знать, правда ли всё это на самом деле!!

Если эти посты про нейробиологию – полная ерунда, то, думаю, отвергнуть надо не только их, но и остальную цепочку тоже.

В текстах этих постов встречаются разные предложения и указания на то, почему я считаю истинными свои нейробиологические заявления. Но аккуратного тщательно исследованного анализа, насколько мне известно, ещё нет. (Или, если есть, пошлите мне ссылку! Ничто не сделает меня счастливее, чем узнать, что я изобрёл велосипед и заявлял вещи, которые уже вполне известны и общепризнаны.)

Я даю этой программе исследований рейтинг приоритетности в 4 звезды из 5. Почему не 5? Две причины:

Она теряет половинку звезды, потому что у меня есть совершенно неоправданная сверхуверенность в том, что мои нейробиологические заявления всё же не полная ерунда, так что эта программа исследований будет скорее похожа на доопределение мелких деталей, а не на выкидывание всей цепочки в мусор.
Она теряет вторую половинку звезды, потому что я думаю, что в этой программе исследований есть кусочки, в которых она некомфортно близко подбирается к программе «разузнать детали алгоритмов обучения с чистого листа в мозгу», которой я выдаю рейтинг в минус пять звёзд, потому что я бы хотел добиться как можно большего прогресса в том, как (и возможно ли) нам безопасно использовать подобный-мозгу СИИ, задолго до того, как мы сможем его создать. (См. обсуждение Дифференцированного Технологического Прогресса в Посте №1, Разделе 1.7.)

15.2.1.2 Исследовательская программа «Реверс-инжиниринг человеческих социальных инстинктов» — ⭐⭐⭐⭐⭐

Если предположить, что Посты №2-№7 на самом деле не полная чепуха, получается вывод, что где-то в Направляющей Подсистеме нашего мозга (грубо говоря – в гипоталамусе и мозговом стволе) есть схемы для различных «встроенных реакций», лежащих в основе человеческих социальных инстинктов, и они представляют из себя относительно простые функции ввода-вывода. Цель: выяснить точно, что это за функции, и как они управляют (после прижизненного обучения) нашими социальными и моральными мыслями и поведением.

См. Пост №12 за тем, почему я считаю, что эта исследовательская программа очень полезна для безопасности СИИ, и Пост №13 за обсуждением того, схемы и объяснения приблизительно какого вида нам следует искать.

Вот (немного карикатурная) точка зрения на ту же программу исследований со стороны машинного обучения: Общепризнано, что прижизненное обучение в человеческом мозге включает в себя обучение с подкреплением – к примеру, потрогав один раз раскалённую печь, вы не будете делать это снова. Как и с любым алгоритмом обучения с подкреплением, можно задать два вопроса:

Как работает алгоритм обучения с подкреплением в мозгу?
Какая у него в точности функция вознаграждения?

Эти вопросы (более-менее) независимы. К примеру, чтобы экспериментально изучать вопрос A, вам не нужен полный ответ на вопрос B; достаточно как минимум одного способа создавать положительное вознаграждение и хотя бы одного способа создавать отрицательное вознаграждение, чтобы использовать из в своих экспериментах. Это просто: крысам нравится есть сыр и не нравится, когда их бьют током. Готово!

У меня сложилось впечатление, что нейробиологи написали много тысяч статей о вопросе A, и почти нисколько напрямую о вопросе B. Но я думаю, что вопрос B куда более важен для безопасности СИИ. А часть функции вознаграждения, связанная с социальными инстинктами важнее всего.

Я даю этой программе исследований рейтинг приоритетности в 5 звёзд из 5 по причинам, обсуждённым в Постах №12-№13.

15.2.2 Открытые задачи, похожие на нормальную информатику

15.2.2.1 Исследовательская программа «Создать настолько хорошую, большую, открытую и понятную людям модель мира / сеть знаний, насколько получится» — ⭐⭐⭐

Я впервые говорил об этом в посте «Давайте выкупим Cyc для использования в системах интерпретируемости СИИ?» (Несмотря на заголовок поста, я не привязан конкретно к Cyc; если современное машинное обучение может сделать лучшую работу за меньшие деньги, это замечательно.)

Я ожидаю, что будущие СИИ будут создавать и постоянно расширять свои собственные модели мира, и эти модели рано или поздно вырастут до терабайтов информации и дальше, и будут содержать гениальные инновационные концепты, о которых люди раньше не задумывались и которые они не смогут понять, не потратив годы на изучение (или не смогут понять вообще). По сути, пытаясь понять модель мира СИИ мы зайдём в тупик. Так что нам делать? (Нет, «с воплями убежать» не вариант.) Мне кажется, что если бы у нас была наша собственная огромная понятная людям модель мира, то это было бы мощным инструментом в нашем арсенале, чтобы подступиться к задаче понимания модели мира СИИ. Чем точнее и больше понятная людям модель мира, тем полезнее она может быть.

Для большей конкретности, в предыдущих постах я упоминал три причины, почему обладание огромной, замечательной, открытой, понятной людям модели мира было бы полезным:

Для инициализации обучения не с чистого листа – см. Пост №11, Раздел 11.3.1. По умолчанию, я ожидаю, что модель мира и Оценщики Мыслей (грубо говоря, функция ценности обучения с подкреплением) СИИ будут «обучаться с чистого листа» в смысле как в Посте №2. Это означает, что «СИИ-ребёнок» будет в лучшем случае творить ерунду, а в худшем – вынашивать опасные планы против наших интересов, пока мы будем пытаться оформить его предпочтения в дружественном для людей направлении. Было бы очень мило, если бы мы могли не инициализировать с чистого листа и избежать этой проблемы. Мне вовсе не ясно, возможен ли вообще подход обучения не с чистого листа, но если да, то иметь в распоряжении огромную понятную людям модель мира было бы, наверное, полезно.
Как список ярлыков концептов для «суррогата интерпретируемости» – см. Пост №14, Раздел 14.2.3. Cyc, к примеру, содержит сотни тысяч концептов, значительно более конкретных, чем слова английского языка – одно слово с 10 определениями в Cyc разделится на 10 разных концептов. Если у нас будет удобный список концептов такого рода с кучей размеченных примеров, то мы сможем использовать обучение с подкреплением (или проще, кросс-корреляцию) для поиска паттернов активаций нейросети СИИ, соответствующих тому, что СИИ «думает про» конкретные концепты.
Как «ссылочная модель мира» для «настоящей» (может даже формальной) интерпретируемости – см. Пост №14, Раздел 14.5. Это подразумевает более глубокое погружение и в модель мира СИИ, и в открытую и понятную людям «ссылочную модель мира», нахождение областей глубокого структурного сходства, согласующегося с упомянутой выше кросс-корреляцией, и составления выводов о том, что они описывают одни и те же аспекты мира. Как обсуждалось в Посте №14, я думаю, что вероятность успеха тут мала (на эту тему: обсуждение «онтологических несовпадений» тут), но польза при его достижении крайне велика.

Я даю этой программе исследований рейтинг приоритетности в 3 звезды из 5, потому что у меня нет супер-высокой уверенности, что хоть один из этих трёх вариантов реалистичен и эффективен. Я не знаю, есть, может, 50% шанс, что даже если бы у нас была очень хорошая открытая понятная людям модель мира, будущие программисты СИИ всё равно не стали бы её использовать, или что это было бы лишь немногим лучше посредственной открытой понятной людям модели мира.

15.2.2.2 Исследовательская программа «Простая в использовании сверхнадёжная песочница для СИИ» — ⭐⭐⭐

Напомню: по умолчанию, я ожидаю, что модель мира и Оценщики Мыслей (грубо говоря, функция ценности обучения с подкреплением) СИИ будут «обучаться с чистого листа» в смысле как в Посте №2. Это означает, что «СИИ-ребёнок» будет в лучшем случае творить ерунду, а в худшем – вынашивать опасные планы против наших интересов, пока мы будем пытаться оформить его предпочтения в дружественном для людей направлении.

Учитывая это, было бы здорово иметь сверхнадёжное окружение-«песочницу», в котором «СИИ-ребёнок» мог бы делать всё необходимое для обучения, не сбегая в интернет и не учиняя хаос какими-нибудь ещё способами.

Некоторые возможные возражения:

Возможное возражение №1: Идеально надёжная песочница нереалистична. Это может быть так, я не знаю. Но я говорю о надёжности не против сверхинтеллектуального СИИ, а скорее против «СИИ-ребёнка», чьи мотивации и понимание мира ещё не устоялись. В этом контексте я думаю, что более надёжная песочница осмысленно лучше менее надёжной, даже если и она неидеальна. К тому времени, как СИИ достаточно мощен, чтобы сбежать из любой неидеальной песочницы, мы уже (надеюсь!) установим в него мотивацию этого не делать.
Возможное возражение №2: Мы уже можем создать достаточно надёжную (хоть и не идеально надёжную) песочницу. Опять же, это может быть правдой, я не знаю. Но я особенно заинтересован в том, будут ли будущие программисты СИИ действительно использовать наиболее надёжную возможную песочницу, с учётом глубоко циничных допущений о мотивации и навыках информационной безопасности этих программистов. (По этой теме: «налог на согласование».) Это означает, что сверхнадёжная песочница должна быть доведена до совершенства, снабжена всеми фичами, которые кто-то может захотеть, быть дружественной к пользователю, незначительно ухудшать производительность, и быть совместимой со всеми аспектами того, как программисты на самом деле обучают и запускают большие системы машинного обучения. Я подозреваю, что по всем этим параметрам ещё есть куда стремиться.

Я даю этой программе исследований рейтинг приоритетности в 3 звезды из 5, в основном потому, что я не особо много знаю по этой теме, так что мне некомфортно за неё агитировать.

15.2.3 Открытые задачи, требующие явного упоминания СИИ

15.2.3.1 Исследовательская программа «Крайних случаев / консерватизма / экстраполяции концептов» — ⭐⭐⭐⭐⭐

Люди могут легко выучивать значения абстрактных концептов вроде «быть рок-звездой», просто наблюдая мир, сравнивая наблюдения с паттерном виденных ранее примеров, и т.д. Более того, выучив этот концепт, люди могут его хотеть (присваивать ему позитивную валентность), в основном как результат повторяющегося сигнала вознаграждения, возникающего при активации этого концепта в разуме (см. Пост №9, Раздел 9.3). Из этого, кажется, можно вывести общую стратегию контроля подобных-мозгу СИИ: заставить их выучить некоторые концепты вроде «быть честным» и «быть полезным» с помощью помеченных примеров, а затем удостовериться, что они получили позитивную валентность, и готово!

Однако, концепты выводятся из сети статистических ассоциаций, и как только мы попадаем в выходящие из распределения крайние случаи, ассоциации ломаются, и концепты тоже. Если религиозный фанатик верит в ложного бога, «помогаешь» ли ты ему, разубедив его? Лучший ответ «Я не знаю, это зависит от того, что мы имеем в виду под помощью». Такое действие хорошо совпадает с некоторыми коннотациями / ассоциациями концепта «помощи», но довольно плохо с другими.

Так что заставить СИИ выучить и полюбить некоторые абстрактные концепты кажется началом хорошего плана, но только если у нас есть оформленный подход к тому, как СИИ должен очищать эти концепты, чтобы мы это одобряли, при встрече с крайними случаями. И тут у меня нет никаких хороших идей.

См. Пост №14, Раздел 14.4 за дополнительным обсуждением.

Примечание: Если вы действительно мотивированы этой программой исследований, одним из вариантов может быть попробовать получить работу в AlignedAI. Их сооснователь, Стюарт Армстронг, изначально и предложил «экстраполяцию концептов» как исследовательскую программу (и установил термин), и, кажется, это и есть их основной исследовательский фокус. Учитывая опыт Стюарта Армстронга в формализованных размышлениях о безопасности СИИ, я с осторожностью оптимистичен по поводу того, что AlignedAI будет работать в направлении решений, масштабируемых до суперинтеллектуальных СИИ завтрашнего дня, а не просто подходящих лишь для современных СИИ-систем, как часто бывает.

Я даю этой программе исследований рейтинг приоритетности в 5 звёзд из 5. Решение этой задачи даст нам по крайней мере большую часть знаний для создания «Контролируемых СИИ» (в смысле Поста №14).

15.2.3.2 Исследовательская программа «Жёстко доказать хоть что-нибудь о значении элементов выученной с чистого листа модели мира» — ⭐⭐⭐⭐⭐

Подобные-мозгу СИИ предположительно будут выучивать с чистого листа огромную многотерабайтную неразмеченную модель мира. Цели и желания СИИ будут определены в терминах содержимого этой модели мира (Пост №9, Раздел 9.2). И в идеале мы бы хотели делать о целях и желаниях СИИ уверенные заявления, или, ещё лучше, доказывать о них теоремы. Это, кажется, требует доказательств о «значениях» элементов этой сложной постоянно растущей модели мира. Как это сделать? Я не знаю.

См. обсуждение в Посте №14, Разделе 14.5.

В этом направлении ведётся какая-то работа в Центре Исследования Согласования, они делают замечательные вещи и нанимают на работу. (см. обсуждение ELK.) Но, насколько я знаю, прогресс тут – это тяжёлая задача, требующая новых идей, если он вообще возможен.

Я даю этому направлению исследований рейтинг приоритетности в 5 звёзд из 5. Может, оно и неосиливаемое, но если получится, то это точно будет чертовски важно. Это, в конце концов, дало бы нам полную уверенность, что мы понимаем, что СИИ пытается сделать.

15.2.3.3 Исследовательская программа «Решать задачу целиком» — ⭐⭐⭐⭐⭐

Это то, чем я занимался в Постах №12 и №14. Нам надо связать всё воедино в правдоподобную схему, выяснить, чего не хватает и точно понять, как двигаться целиком. Если вы читаете эти посты, вы видите, что надо сделать ещё много всего – к примеру, нам нужен план получше для обучающих данных и окружений, и я даже не упомянул штуки вроде протоколов тестирования в песочнице. Но многие из соображений при проектировании кажутся взаимосвязанными, так что нельзя их с лёгкостью разделить на разные программы. Так что это моя категория для таких вещей.

(См. также: Подсказка по продуктивности исследований: «День Решения Всей Задачи».)

Я даю этому направлению исследований рейтинг приоритетности в 5 звёзд из 5 по очевидным причинам.

15.3 Как подключиться

(Предупреждение: этот раздел может быстро устареть. Я пишу его в мае 2022 года.)

15.3.1 Ситуация с финансированием

Если вы обеспокоены безопасностью СИИ («согласованием ИИ»), и ваша цель – помочь с этим, то крайне приятно получать финансирование от кого-то с такой же целью.

Конечно, возможно получать финансирование и из более традиционных источников, например, государственного спонсирования науки, и использовать его для продвижения безопасности СИИ. Но тогда вам придётся выстраивать компромисс между «тем, что поможет безопасности СИИ» и «тем, что впечатлит / удовлетворит источник финансирования». Мой опыт в этом указывает на то, что такие компромиссы действительно плохи. Я потратил некоторое время на исследования таких компромиссных стратегий на ранних этапах моей работы над безопасностью СИИ; я был предупреждён, что они плохи, и я всё равно очень сильно недооценил, насколько они плохи. Для иллюстрации, сначала я вёл блог про безопасность СИИ в качестве хобби в своё свободное время, зажатое между работой в полную ставку и двумя маленькими детьми, и я думаю, что это было намного полезнее, чем если бы я посвящал всё своё время лучшему доступному «компромиссному» проекту.

(Вы можете заменить «компромисс, чтобы удовлетворить мой источник финансирования» на «компромисс, чтобы удовлетворить мою диссертационную комиссию» или «компромисс, чтобы удовлетворить моего начальника» или «компромисс, чтобы заполучить впечатляющее резюме для будущей работы» по ситуации.)

В любом случае, к нашей удаче, есть множество источников финансирования, явно мотивированных безопасностью СИИ. Насколько я знаю, все они – благотворительные фонды. (Я полагаю, беспокоиться о будущем вышедшем из-под контроля СИИ – немного слишком экзотично для государственных фондов?) Финансирование технической безопасности СИИ (тема этой цепочки) последнее время быстро росло, и, кажется, сейчас это десятки миллионов долларов в год, плюс-минус в зависимости от того, что лично вы считаете за настоящую работу над технической безопасностью СИИ.

Многие, но не все озабоченные безопасность СИИ филантропы (и исследователи вроде меня) связаны с движением Эффективного Альтруизма (EA), сообществом / движением / проектом, посвящённом попыткам выяснить, как лучше сделать мир лучшим местом, а затем сделать это. Внутри EA есть крыло «лонгтермистов», состоящее из людей, исходящих из беспокойства о долгосрочном будущем, где «долгосрочное» может означать миллионы, миллиарды или триллионы лет. Лонгтермисты склонны быть особенно мотивированными предотвращением необратимых катастроф масштаба вымирания людей вроде вышедших из-под контроля СИИ, спроектированных пандемий, и т.д. Так что в кругах EA безопасность СИИ иногда считают «областью лонгтермистов», что несколько сбивает с толку, учитывая, что мы говорим о том, как предотвратить потенциальную катастрофу, которая вполне может случиться во время моей жизни (см. Обсуждение сроков в Постах №2-№3). Ну ладно.

(Это просто лёгкий юмор, никого не принижаю, на самом деле, я сам действую частично исходя из беспокойства о долгосрочном будущем.)

Связь между EA и безопасностью СИИ стала достаточно сильна, чтобы (1) одни из лучших конференций для исследователя безопасности СИИ - это EA Global / EAGx, и (2) люди начали называть меня EA, и высылать мне приглашения на их события, когда я всего лишь начал писать посты в блоге про безопасность СИИ в своё свободное время.

В любом случае, суть такова: мотивированные безопасностью СИИ источники финансирования существуют – находитесь ли вы в академической среде, в некоммерческой организации, или просто являетесь независимым исследователем (как я!). Как его получить? В большинстве случае, вам скорее всего надо сделать что-то из этого:

Продемонстрировать, что вы лично понимаете задачу согласования СИИ достаточно хорошо, чтобы хорошо судить о том, какие исследования были бы полезными, или
Включиться в конкретную исследовательскую программу, которую специалисты по безопасности СИИ уже одобрили как важную и полезную.

Что касается №2 – одна из причин, почему я написал Раздел 15.2 – я пытаюсь помочь этому процессу. Мне кажется, что по крайней мере некоторые из этих программ могут (при некотором труде) быть оформлены в хорошие конкретные перспективные заявки или предложения. Напишите мне, если думаете, что могли бы помочь, или если хотите, чтобы я держал вас в курсе возможностей.

Что касается №1 – да, делайте это!! Безопасность СИИ – захватывающая область, и она достаточна «молода», чтобы вы могли добраться до переднего фронта исследований куда быстрее, чем возможно, скажем, в физике частиц. См. следующий подраздел за ссылками на ресурсы, курсы, и т.д. Или, полагаю, вы можете обучиться области, если будете читать писать много постов и комментариев на эту тему в своё свободное время, как поступил я.

Кстати, это правда, что некоммерческий сектор в целом имеет репутацию скудных бюджетов и недооплачиваемых перерабатывающих сотрудников. Но финансируемая филантропами работа над безопасностью СИИ обычно не такая. Спонсоры хотят лучших людей, даже если они сильно погружены в свои карьеры и ограничены арендной платой, повседневными затратами, и т.д. – как я! Так что было мощное движение в сторону зарплат, сравнимых с коммерческим сектором, особенно в последнюю пару лет.

15.3.2 Работы, организации, программы обучения, сообщества, и т.д.

15.3.2.1 …Связанные с безопасностью СИИ (согласованием ИИ) в целом

Много ссылок можно найти на так и озаглавленной странице AI Safety Support Lots-of-Links, а более часто обновляемый список можно найти тут: «стартовый набор по безопасности ИИ». Отмечу пару особенно важных пунктов:

80,000 часов – организация, посвящённая помощи людям в выстраивании своей карьеры. Они делают упор на безопасность СИИ, и предлагают бесплатные консультации по карьере один на один, в которых они расскажут вам о подходящих возможностях и свяжут вас с подходящими людьми. Ещё посмотрите на их гайд по безопасности ИИ и связанные с технической безопасностью ИИ эпизоды их замечательного подкаста, и их список электронных почтовых адресов и доску вакансий в области ИИ. (Вы можете получить советы по карьере один на один и через AI Safety Support, никаких заявок не требуется.)
Возможно, вы читаете этот пост на lesswrong.com – блог-платформе, которая обладает (я думаю) уникальным свойством – она одновременно открыта для кого угодно и наполнена многочисленными экспертами по безопасности СИИ. Я начал постить и комментировать там, когда только погружался во всё это в своё свободное время в 2019 году, и я помню, что все были очень добры и оказывали поддержку, и я не знаю, как ещё, учитывая мои географические и временные ограничения, я мог бы войти в эту область. Другие активные онлайновые точки сбора включают Дискорд-канал EleutherAI, Дискорд-канал Роберта Майлза, и Slack AI Safety Support. Что касается встреч / групп по чтению / и т.д. вживую, проверьте тут или тут, а ещё лучше – свою местную /университетскую группу EA, и попросите их указать.

15.3.2.2 …Более конкретно связанные с этой цепочкой

В: Есть ли место сбора и обсуждений конкретно «безопасности подобного-мозгу СИИ» (или тесно связанной «безопасности СИИ, базирующегося на основанном на модели обучении с подкреплением»)?

О: Насколько я знаю, нет. И я не вполне уверен, что должны, это очень сильно пересекается с другими направлениями исследований в безопасности СИИ.

(Ближайшее, наверное, это дискорд-сервер про так называемую «теорию осколков» (shard theory), можете написать мне, чтобы получить ссылку)

В: Есть ли такое для пересечения нейробиологии / психологии и безопасности СИИ / согласования ИИ?

О: Есть канал «нейробиология и психология» в Slack-е AI Safety Support. Вы можете ещё присоединиться к рассылке PIBBSS, на случай, если это ещё повторится в будущем.

Если вы хотите увидеть больше разных точек зрения на пересечение нейробиологии и безопасности СИИ, попробуйте почитать статьи Каджа Соталы; Сета Херда, Дэвида Джилка, Рэндалла О’Райли и пр.; Гопала Сармы и Ника Хэя; Патрика Бутлина; Яна Кулвейта, и другие статьи тех же авторов, и многих других, кого я забыл.

(Я сам, если что, пришёл из физики, не из нейробиологии – на самом деле, я не знал практически ничего из нейробиологии ещё в 2019. Я заинтересовался нейробиологией, чтобы ответить на мучавшие меня вопросы из безопасности СИИ, не наоборот.)

В: Эй, Стив, могу я работать с тобой?

О: Хоть я сейчас не заинтересован в том, чтобы кого-нибудь нанимать или наставлять, я всегда рад кооперироваться и обмениваться информацией. У нас много работы! Напишите мне, если хотите поговорить!

15.4 Заключение: 8 выводов

Спасибо за чтение! Я надеюсь, что этой цепочкой я успешно передал следующее:

Мы знаем о нейробиологии достаточно, чтобы говорить конкретные вещи о том, на что будет похож «подобный-мозгу СИИ» (Посты №1-№9);
В частности, хоть «подобный мозгу СИИ» сильно бы отличался от известных алгоритмов, его связанные с безопасностью аспекты имели бы много общего с основанным на модели обучением с подкреплением «субъект-критик» с многомерной функцией ценности (Посты №6, №8, №9);
«Понять мозг достаточно хорошо, чтобы создать подобный-мозгу СИИ» – намного более простая задача, чем «понять мозг» – если первая приблизительно аналогична тому, чтобы знать, как обучить свёрточную нейросеть, то вторая будет аналогична тому, чтобы знать, как обучить свёрточную нейросеть и достигнуть полной механистической интерпретируемости получившейся модели, и понимать все аспекты физики и инженерии интегральных схем, и т.д. На самом деле, создание подобного-мозгу СИИ надо рассматривать не как далёкую фантастическую гипотезу, но, скорее, как текущий проект, который может завершиться в ближайшее десятилетие или два (Посты №2-№3);
При отсутствии хорошего технического плана избегания происшествий, исследователи, экспериментирующие с подобным-мозгу СИИ скорее всего случайно создадут неподконтрольный СИИ с катастрофическими последствиями вплоть до и включая вымирание человечества (Посты №1, №3, №10, №11);
Прямо сейчас у нас нет никакого хорошего технического плана для избегания происшествий с неподконтрольными СИИ (Посты №10-№14);
Неочевидно, как составить такой план, и его составление не кажется необходимым этапом на пути к созданию мощных подобных-мозгу СИИ – следовательно, не следует предполагать, что он появится в будущем «по умолчанию» (Пост №3);
Мы многое можем делать прямо сейчас, чтобы помочь двигаться к составлению такого плана (Посты №12-№15);
Для этой работы доступно финансирование и перспективные варианты карьеры (Пост №15).

Что касается меня, я собираюсь продолжать работать над различными направлениями исследований из Раздела 15.2 выше; для получения новостей подпишитесь на мой Твиттер или RSS, или проверяйте мой сайт. Я надеюсь, вы тоже рассмотрите вариант помочь, потому что я тут прыгаю чертовски выше головы!

Спасибо за чтение, и, ещё раз, комментарии тут – для общих обсуждений и вопросов о чём угодно.

Перевод:

Выменец Максим

Ссылка на оригинал:

[Intro to brain-like-AGI safety] 15. Conclusion: Open problems, how to help, AMA

Оцените качество перевода: