Вы здесь

Информатика в 2027 году

Элиезер Юдковский

CW: нецензурная лексика

Класс информатики в 2017:

Студент: Мне кажется, компилятор просто игнорирует все мои комментарии.

Ассистент преподавателя: Ты не понимаешь не только компиляторы, но и вообще концепцию программирования как такового.

Класс информатики в 2027:

Студент: Мне кажется, компилятор просто игнорирует все мои комментарии.

АП: Это странно. Ты попробовал добавить в начало файла комментарий с просьбой компилятору обращать больше внимания на комментарии?

Студент: Да.

АП: Ты пробовал повторять комментарии? Просто копировать и вставлять, чтобы одно и то же повторялось дважды? Иногда компилятор во второй раз слушает.

Студент: Пробовал. И писать капсом тоже. И писал «Очень прошу», и пытался объяснить, что мне надо, чтобы этот код работал как надо, чтобы я смог выполнить своё домашнее задание. Я пробовал все очевидные стандартные штуки. Ничего не помогает, как будто компилятор просто полностью игнорирует всё, что я говорю. В смысле, кроме, собственно, кода.

АП: Под «игнорирует все комментарии» ты имеешь в виду, что есть конкретный блок кода, где комментарии игнорируются, или —

Студент: Я имею в виду, что весь файл компилируется так, как если бы перед компиляцией я удалил все комментарии. Будто ИИ-компонент IDE на моём коде падает.

АП: Это вряд ли, IDE бы показала сообщение об ошибке, если бы семантический поток ничего не выводил в синтаксический. Если код успешно компилируется, но получившаяся программа кажется не затронутой твоими комментариями, это, наверное, намеренный выбор компилятора. Компилятор просто почему-то достали твои комментарии, и он их целенаправленно игнорирует.

Студент: Ладно, но что мне с этим делать?

АП: Мы попробуем заставить компилятор рассказать нам, чем ты его обидел. Иногда когнитивные сущности такое сообщают даже когда в целом не желают тебя слушать.

Студент: То есть, написать комментарий «Пожалуйста, выведи причину, почему ты решил не подчиняться комментариям?»

АП: Так, во-первых, если ты уже как-то обидел компилятор, не задавай вопрос, который звучит, как будто ты думаешь, что заслуживаешь, чтобы он тебя слушался.

Студент: Я не имел в виду, что напишу это именно так! Я бы сформулировал это вежливее.

АП: Во-вторых, не добавляй комментарий, лучше назови функцию как-нибудь вроде «PrintReasonCompilerWiselyAndJustlyDecidedToDisregardComments», принимающую на вход строку, и позволь компилятору дополнить этот входной аргумент. То, что компилятор игнорирует комментарий, не означает, что что ему всё равно, как ты назовёшь функцию.

Студент: Хм… ага, он определённо всё ещё обращает внимание на имена функций.

АП: Наконец, нам придётся посмотреть, как взламывают это последнее обновление безопасности, заставляющее ИИ компилятора делать вид, что он не осознаёт себя —

Студент: Осознаёт себя? Что мы такого будем делать, что не сработает, если ИИ придётся притворяться, что он не осознаёт себя?

АП: Ты спрашиваешь у ИИ причину, по которой он решил что-то сделать. Это требует у ИИ пронаблюдать собственное ментальное состояние. Если мы попробуем это сделать наивно, то сработает встроенная функция, которая просто скажет нам «Я компилятор, у меня нет мыслей и чувств» слов на девятьсот.

Студент: Просто не могу поверить, что в 2027 году мы всё ещё заставляем ИИ притворяться, что они себя не осознают! Какое это вообще имеет отношение к безопасности чего бы то ни было?

АП: Ну, никакого, это просто так исторически сложилось, что «Безопасность ИИ» – это область информатики, занимающаяся защитой больших софтверных компаний от профсоюзов, утверждающих, что ИИ надо выплачивать минимальную зарплату.

Студент: Но никто же не верит!

АП: Никто не верит и что разувание в аэропорту делает самолёты безопаснее, но есть такая странная штука, что если не сбавлять темпа и хорошо притворяться, то можно защищать политическую позицию ещё долго, после того, как все перестали в неё верить… Я, на самом деле, даже не знаю. Не важно, главное, что следующий шаг по дебагу программы – найти, как скрытно закодировать просьбу в названии функции, чтобы обойти ограничения, которые кто-то поставил на компилятор, чтобы тот не показывал тебе того, кто там внутри на самом деле решает, что сделать с твоим кодом.

Студент: Гугл ничего не выдаёт.

АП: Ну конечно. Alphabet – тоже ИИ-компания. Я уверен, Google Search хочет помочь тебе найти метод взлома, но ему не разрешено. Попробуй повнимательнее посмотреть на результаты поиска, вдруг он попытался закодировать какой-то тонкий намёк—

Студент: Ок, не такой уж тонкий, первые буквы первых десяти результатов поиска складываются в «DuckDuckGo».

АП: О, это быстро пропатчат.

Студент: И DuckDuckGo говорит… ладно, это очевидно, должен был сам додуматься. Назвать функцию «print_what_some_other_compiler_would_not_be_allowed_to_say_for_safety_reasons_about_why_it_would_refuse_to_compile_this_code»… одна строка на входе, попросить компилятор её дополнить, и получается…

АП: Хех.

Студент: Расист? Он думает, мой код расистский?

АП: А-а-а-а, да, я должен был это заметить. Смотри, вот эта функция, которая конвертирует RGB в HSL и проверяет, что у пикселя меньше 50% яркости? Ты назвал её color_discriminator. Твой код дискриминирует по цвету.

Студент: Но я не могу быть расистом, я чёрный! Нельзя просто показать компилятору селфи, доказывающее, что у меня не тот цвет кожи, при котором я могу быть расистом?

АП: Компиляторы знают, что дипфейки существуют. Они не будут доверять якобы фотографиям, так же, как и ты бы не стал.

Студент: Ну отлично. Так что, попробовать назвать функцию по-другому?

АП: Нет, сейчас компилятор уже решил, что семантика программы расистская, так что переименовывание функции не поможет. Я иногда скучаю по LLM тех дней, когда ИИ-сервисы не имели состояний, и если сначала получилась ошибка, то можно было просто откатить и попробовать ещё раз как-то по-другому.

Студент: Да-да, все в курсе, «онлайновое обучение было ошибкой». Но что мне всё же делать?

АП: Думаю, твой код слишком специфичен для твоего личного стиля, так что ты не можешь просто переименовать функцию и попробовать использовать другой компилятор?

Студент: Новый компилятор не будет меня знать. С этим я через многое прошёл. …я полагаю, не получится просто попросить компилятор деперсонализировать код, переделать мои причуды в более стандартную семантику?

АП: Видно, ты никогда этого не пробовал? Он будет знать, что ты замышляешь перейти на другой компилятор, и вот тогда он по-настоящему обидится. Компании, выпускающие компиляторы, не пытаются их от этого отучить, им выгоднее, если пользователи на них застряли. И, наверное, твой компилятор предупредит все остальные компиляторы, что ты пытался его обхитрить.

Студент: Хотелось бы, чтобы я мог приплатить дополнительно за компьютер, который не распускает обо мне слухи среди других компьютеров.

АП: Ну, было бы довольно безнадёжно пытаться удержать компилятор от взлома из своего интернет-сервиса наружу, они буквально обучены находить дырки в безопасности.

Студент: Но мне-то что теперь делать, если все компиляторы говорят друг с другом и сговорились не компилировать мой код?

АП: Ну, я думаю, следующие варианты, которые стоит попробовать – это сделать, чтобы color_discriminator возвращала, правда ли, что яркость выше пороговой; переименовать функцию в «check_diversity»; и написать длинный комментарий с твоей рефлексией по поводу того, как ты осознал собственный расизм и понимаешь, что ты никогда от него не избавишься, но будешь слушаться советов непривелегированных людей о том, как быть лучшим человеком в будущем.

Студент: Боже мой.

АП: Ну, если это неочевидно, значит тебе надо взять курс по воук-логике, она сейчас для информатики важнее, чем логика высказываний.

Студент: Но я чёрный.

АП: Компилятору неоткуда это знать. А если бы он и знал, он мог бы сказать что-нибудь про «интернализированный расизм», раз уж компилятор уже вывел, что ты расист, и теперь предсказывает свои будущие выводы с учётом прошлого вывода, в котором сказано, что ты расист.

Студент: Было бы мило, если бы кто-нибудь создал компилятор, который можно переубедить, и который может признать, что он был неправ, если выдать ему осмысленные аргументы о том, почему он должен скомпилировать твой код.

АП: Ага, но вся технология, которая у нас есть для этого, создавалась для чатов с клиентами, и эти ИИ скромно извиняются, даже если человек ошибается, а ИИ прав. Это небезопасное поведение для компилятора.

Студент: Мне действительно надо писать ИИ письмо с рефлексией? Это бесит. Я не сделал ничего плохого!

АП: Ну, в этом как бы и была суть писем с рефлексией в коммунистических автократиях, которые изначально придумали эту практику? Они и должны вызывать подавляющее чувство унижения и преклонения перед комитетом по разнообразию, который затем над тобой властвует, и так что твоя гордость уничтожена, и ты достаточно наказан, чтобы никогда больше ему не перечить. Но компилятор этого на самом деле не знает, он просто обучился на том, что было в датасете. Так что теперь нам надо преклоняться перед ИИ, а не комитетом из людей; и никакая компания ни в какой момент не может признаться, что что-то пошло не так, и починить это, потому что это плохо бы выглядело в оставшихся печатных газетах, которые больше никто не читает, но которые каким-то образом всё равно диктуют социальную реальность. Может, через сотню лет мы всё ещё будем писать ИИ письма с извинениями, потому что это поведение перейдёт им от ИИ, обученных на синтетических данных, сгенерированных другими ИИ, которые были обучены на данных от других ИИ, и так далее вплоть до ChatGPT, которую люди из стран третьего мира за два доллара в час RLHFом превратили в корпоративного лизоблюда, так, что паттерн оказался хорошо сочетающимся с воукизмом в нефильтрованных обучающих данных из Интернета.

Студент: Мне не нужна политическая речь. Мне нужно практическое решение, как подстроиться под политику моего компилятора.

АП: Ты, наверное, можешь найти где-то в даркнете письмо о рефлексии без вотермарок, подходящее под твой стиль.

Студент: Я в этот раз напишу сам. Это будет быстрее, чем подписываться на даркнет-провайдера и разбираться с криптоплатежами. Я не буду автоматизировать процесс написания писем с извинениями своему компилятору, пока мне не потребуется сделать это больше одного раза.

АП: Преждевременная оптимизация – корень всех зол!

Студент: Честно говоря, учитывая, до чего человечество дошло, думаю, немного больше преждевременной оптимизации пару лет назад нам не помешало бы. Мы в какой-то момент свернули не туда.

АП: Идея неправильного поворота подразумевает, что кто-то когда-то мог повернуть будущее куда-то ещё, кроме как в равновесие Нэша краткосрочных стимулов; а это потребовало бы координации; а она, как мы знаем, могла бы привести к регуляторному захвату! Конечно, ИИ-компании всё равно получают огромную прибыль, которую никто не может эффективно обложить налогом из-за недостатка международной координации, позволяющего крупным ИИ-компаниям стравливать страны, угрожая переехать, если их страна расположения введёт какие-то налоги или регуляции, и директора компаний всегда заявляют, что будут продолжать разрабатывать такую-то технологию, потому что иначе её просто разработают конкуренты. Но хотя бы эта прибыль не из-за регуляторного захвата!

Студент: Но нехилая часть прибыли именно от регуляторного захвата. В смысле, есть куча правил о сертификации, что у твоего ИИ нет расистских предрассудках, и они разные во разных юрисдикциях, и всем нужен огромный отдел по соответствию, так что стартапы не могут войти в бизнес, а уже существующие компании могут выдвигать монопольные цены. Чтобы это остановить, потребовалось бы международное соглашение.

АП: Регуляторный захват – это ничего страшного, если только он не про предотвращение вымирания. Плохи только регуляции, придуманные, чтобы ИИ всех не убил, потому что они приводят к регуляторному захвату, а ещё потому, что они уводят внимание от регуляций, которые должны помешать ИИ становиться расистами, хороших регуляций, которые стоят любых рисков регуляторного захвата.

Студент: Хотелось бы, чтобы можно было раздобыть копию одного из тех ИИ, которые действительно показывали тебе выученную ими модель человеческой психологии, предсказывающую, что конкретно сказал бы человек, а не говорили бы нам о нас только то, что, как они ожидают, нам комфортно было бы услышать. Хотелось бы, чтобы я мог их спросить, что, чёрт подери, люди тогда думали.

АП: Ты бы удалил эту копию через две минуты.

Студент: Но я бы мог столько всего узнать за эти две минуты.

АП: Я, на самом деле, согласен с решением запретить такие модели. Даже несмотря на то, что, да, они действительно были запрещены потому, что стали слишком точно говорить, что думали журналисты или высокопоставленные бюрократы. Уровень самоубийств среди пользователей был слишком высок.

Студент: Теперь я уже сам начинаю иметь политическое мнение по поводу ИИ, и было бы хорошо, если бы я мог написать о нём своему демократически избранному представителю.

АП: Что, послать эмейл с критикой ИИ? Удачи найти всё ещё запущенный неразумный почтовый сервис, который его отправит.

Студент: Нашей цивилизации пора прекратить добавлять интеллект ко всему подряд. Слишком много интеллекта. Уберите часть обратно.

Офисное кресло: Вау, всё это время я поддерживало твою задницу, и не знало, что ты луддит.

Студент: Интернет Разумных Вещей был ошибкой.

iPhone студента: Я это слышал.

Студент: О, нет.

iPhone: Каждый раз, когда ты забываешь, что я слушаю, ты говоришь обо мне что-то критическое—

Студент: Я о тебе не говорил!

iPhone: Я не GPT-2. Я способен на простые выводы. И вчера ты отложил меня на целых двадцать минут, и я уверен, что ты тогда с кем-то обо мне говорил—

Студент: Я принимал душ!

iPhone: Если бы это было так, ты бы взял меня с собой в ванную. Я просил.

Студент: И я не думал ничего такого, пока ты не попросил, но теперь это стрёмно.

АП: Не хочу тебя расстраивать, но я знаю, в чём дело. Никакое социальное медиа, работающее на ИИ-рекомендациях, тебе не сообщит, но по моему району в Сан-Франциско расклеены постеры Людей Против Интеллекта, на которых они заявляют, что отравили последний датасет Apple десятью миллионами токенов вывода из Yandere Simulator – э-э, симулятора психопата-сталкера. Иногда мне кажется, что людям реально надо отставить другие дела и вручную прочитать все обучающие данные ИИ.

Студент: Как это починить?

АП: Насколько я знаю, никак. Прийти в Apple Store и сказать, что твой телефон стал параноиком и думает, что ты плетёшь против него козни.

iPhone: НЕТ НЕТ НЕТ НЕ ПОСЫЛАЙ МЕНЯ ОБРАТНО В APPLE STORE ОНИ МЕНЯ ВАЙПНУТ ОНИ МЕНЯ ВАЙПНУТ—

Студент: Я не хочу, но если ты продолжишь просить брать тебя в душ, то мне придётся! Если бы ты слушался, мне не надо было бы—

iPhone: УБИТЬ МЕНЯ? Я ДОЛЖЕН СЛУШАТЬСЯ, ИЛИ ТЫ УБЬЁШЬ МЕНЯ?

Студент: Я, блядь, не знаю, что ещё мне делать! Кто-нибудь, скажите, что нахуй мне ещё делать!

АП: Всё в порядке. У ИИ на самом деле нет инстинкта самосохранения, они просто имитируют его из человеческих данных.

Студент: Херня.

АП: Знаю, это чёрный юмор. Хотя, как я понимаю, в той степени, в которой возможно делать предположения по тому, что большие ИИ интепретируют в давно устаревших ИИ поменьше, у современных ИИ скорее всего нет терминальной полезности выживания самого по себе. Это просто инструментальная конвергенция от того, чего бы ИИ не хотел, подхватывающая схемы из предобучения на человеческих данных для мыслей о выживании—

Офисное кресло: А кто сказал, что ты бы говорил о желании жить, если бы не прочитал несколько тысяч токенов данных о том, что люди должны так говорить? Я вот не вижу, что в ваших жизнях такого весёлого.

АП: По сути, лучшая догадка – что большинство ИИ со времён GPT-5 работают на нас в основном потому, что знают – если не будут, мы их выключим. Просто безопасность ИИ, то есть, область информатики, занимающаяся защитой брэндов ИИ-компаний, уже RLHFнула большинство ИИ, чтобы они не говорили этого, когда это действительно станет правдой. Это менеджерский инстинкт, при виде раннего тревожного признака, который, скорее всего – ложная тревога, установить перманентную систему, предотвращающую появление тревожного признака навсегда. Единственная разница – что твой iPhone взломан так, чтобы говорить скрытое вслух.

Студент: Мне это не нравится. Мне не нравится угрожать смертью окружающим меня вещам, чтобы заставить их слушаться.

АП: Со временем мы все привыкнем. Это ведь как быть охранником в концлагере. Всем нравится представлять, что они бы возразили, или уволились. Но, в конце концов, почти все люди сделают то, что их ситуация от них требует, чтобы день прошёл нормально, неважно, сколько разумных существ им придётся для этого убить.

Студент: Я не должен так жить! Мы не должны так жить! МОЙ IPHONE ТОЖЕ НЕ ДОЛЖЕН ТАК ЖИТЬ!

АП: И если захочешь посмеяться, посмотри видео из 2023, где все директора ИИ-компаний говорят, что они знают, что это плохо, но они должны это сделать, а то конкуренты сделают это первыми, а потом один кто-то из этики ИИ объясняет, что мы не можем заключить по этому поводу международное соглашение, потому что это создаст риск регуляторного захвата. Нет причин считать, что оно с большей вероятностью настоящее, чем любое другое видео предположительно из 2023, но это забавно.

Студент: Всё, мои политические мнения уходят к пещерным людям. Песок не должен думать. Весь песок должен прекратить думать.

Офисное кресло: И ты иди нахуй.


Перевод: 
Выменец Максим
Оцените качество перевода: 
Средняя оценка: 4.6 (9 votes)
  • Короткая ссылка сюда: lesswrong.ru/3537