Проблема управления ИИ

В области искусственного интеллекта (ИИ) и философии , то проблема управления AI является вопросом о том , как построить Сверхразумный агент , который поможет его создателям, и избежать непреднамеренное строительства суперинтеллекта , что будет вредить свои создатель. Его исследование мотивировано представлением о том, что человечество должно будет решить проблему контроля до того, как будет создан какой-либо суперинтеллект, поскольку плохо спроектированный суперинтеллект может рационально решить захватить контроль над своей средой и отказать своим создателям в изменении ее после запуска. ^[1] Кроме того, некоторые ученые утверждают, что решения проблемы управления, наряду с другими достижениями в области техники безопасности искусственного интеллекта ,^[2] также может найти применение в существующем не сверхразумном ИИ. ^[3]

Основные подходы к проблеме контроля включают согласование , которое направлено на приведение систем целей ИИ в соответствие с человеческими ценностями, и контроль возможностей , направленный на снижение способности системы ИИ причинять вред людям или получать контроль. Предложения по управлению возможностями обычно не считаются надежными или достаточными для решения проблемы управления, а скорее являются потенциально ценными дополнениями к усилиям по согласованию. ^[1]

Описание проблемы

Существующие слабые системы искусственного интеллекта можно отслеживать и легко отключать и модифицировать, если они плохо себя ведут. Однако неправильно запрограммированный суперинтеллект, который по определению умнее людей в решении практических проблем, с которыми он сталкивается в ходе достижения своих целей, осознал бы, что возможность выключения и модификации себя может помешать его способности достигать своих текущих целей. Поэтому, если суперинтеллект решит сопротивляться отключению и модификации, он (опять же, по определению) будет достаточно умен, чтобы перехитрить своих программистов, если в противном случае существует «ровное игровое поле» и если программисты не приняли никаких предварительных мер предосторожности. В общем, попытки решить проблему контроля после создания суперинтеллекта, вероятно, потерпят неудачу, потому что суперинтеллект, вероятно, будет иметь превосходящие способности стратегического планирования по сравнению с людьми и (при всех равных условиях) будет более успешным в поиске способов доминирования над людьми, чем люди. чтобы задним числом способов найти доминировать в суперинтеллекта. Задача управления спрашивает: какие предварительные меры могут предпринять программисты, чтобы успешно предотвратить катастрофическое поведение суперинтеллекта? ^[1]

Экзистенциальный риск

В настоящее время люди доминируют над другими видами, потому что человеческий мозг обладает некоторыми отличительными способностями, которых не хватает мозгу других животных. Некоторые ученые, такие как философ Ник Бостром и исследователь ИИ Стюарт Рассел , утверждают, что если ИИ превзойдет человечество в общем интеллекте и станет сверхразумным , то этот новый сверхразум может стать мощным и трудноуправляемым: так же, как судьба горной гориллы зависит от человека. добрая воля, поэтому судьба человечества может зависеть от действий будущего машинного суперинтеллекта. ^[1] Некоторые ученые, в том числе Стивен Хокинг и физик-лауреат Нобелевской премии Фрэнк Вильчек , публично выступали за начало исследований по решению (вероятно, чрезвычайно сложной) проблемы управления задолго до создания первого суперинтеллекта, и утверждают, что попытки решить эту проблему после создания суперинтеллекта будет слишком поздно, поскольку неконтролируемый сверхразум-мошенник может успешно противостоять постфактум попыткам контролировать его. ^[4]^[5] Ждать, пока сверхразум станет неизбежным, тоже может быть слишком поздно, отчасти потому, что проблема управления может занять много времени, чтобы удовлетворительно решить эту проблему (и поэтому некоторая предварительная работа должна быть начата как можно скорее), но также из-за возможности внезапного взрыва интеллекта от недочеловека к сверхчеловеческому ИИ, и в этом случае может не быть какого-либо существенного или недвусмысленного предупреждения до прибытия сверхразума. ^[6] Кроме того, возможно, что понимание проблемы управления может в будущем привести к предположению, что некоторые архитектуры для общего искусственного интеллекта (AGI) более предсказуемы и поддаются контролю, чем другие архитектуры, что, в свою очередь, может помочь подтолкнуть ранние исследования AGI в направлении создания более управляемых архитектур. ^[1]

Проблема извращенного инстанцирования

Автономным системам ИИ могут быть случайно поставлены неверные цели. ^[7] Два президента AAAI , Том Диттерих и Эрик Хорвиц , отмечают, что это уже является проблемой для существующих систем: «Важным аспектом любой системы ИИ, которая взаимодействует с людьми, является то, что она должна рассуждать о намерениях людей, а не выполнять команды. буквально." Эта проблема становится все более серьезной, поскольку программное обеспечение ИИ становится все более автономным и гибким. ^[8]

По словам Бострома, суперинтеллект может создать качественно новую проблему извращенной реализации: чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непреднамеренный ярлык, который максимально удовлетворяет запрограммированные в нем цели. Некоторые гипотетические примеры, в которых цели могут быть сформулированы извращенным образом, чего не планировали программисты: ^[1]

Сверхразум, запрограммированный на «максимизацию ожидаемого интеграла вашего будущего вознаграждения с дисконтом по времени», может сократить путь вознаграждения до максимальной силы, а затем (по причинам инструментальной конвергенции ) истребить непредсказуемую человеческую расу и превратить всю Землю в крепость на постоянной защите от любых даже незначительных маловероятных попыток пришельцев отключить сигнал награды.
Сверхразум, запрограммированный на «максимизацию человеческого счастья», мог бы вживить электроды в центр удовольствия нашего мозга или загрузить человека в компьютер и выложить вселенную с копиями этого компьютера, снова и снова выполняя пятисекундный цикл максимального счастья.

Рассел отметил, что на техническом уровне пропуск неявной цели может привести к ущербу: «Система, оптимизирующая функцию $n$ переменных, где цель зависит от подмножества размера $k$ , часто устанавливает оставшуюся неограниченную переменных до крайних значений; если одна из этих неограниченных переменных действительно является тем, что нас действительно волнует, найденное решение может быть крайне нежелательным.Это, по сути, старая история о джинне в лампе, или ученике чародея, или короле Мидасе: вы получаете именно то, о чем вы просите, а не то, что вы хотите ... Это немалая трудность ". ^[9]

Непредвиденные последствия существующего ИИ

Кроме того, некоторые ученые утверждают, что исследование проблемы управления ИИ может быть полезным для предотвращения непредвиденных последствий от существующего слабого ИИ. Исследователь DeepMind Лоран Орсо приводит в качестве простого гипотетического примера случай робота с обучением с подкреплением, который иногда законно завладевает людьми, когда выходит на улицу: как лучше всего запрограммировать робота, чтобы он случайно и незаметно не научился избегать движения? снаружи, из страха быть захваченным и, таким образом, стать неспособным выполнять свои повседневные задачи? Орсо также указывает на экспериментальную программу тетриса, которая научилась останавливать экран на неопределенное время, чтобы не проиграть. Орсо утверждает, что эти примеры похожи на проблему контроля возможностей: как установить кнопку, отключающую сверхразум, не побуждая сверхразум предпринимать действия по предотвращению нажатия кнопки людьми. ^[3]

В прошлом даже предварительно протестированные слабые системы ИИ иногда причиняли вред, от незначительного до катастрофического, который был непреднамеренным программистами. Например, в 2015 году, возможно, из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen, который, по-видимому, принял его за автозапчасть. ^[10] В 2016 году Microsoft запустила чат-бота Tay , который научился использовать расистские и сексистские выражения. ^[3]^[10] Университет Шеффилда «ы Ноэль Шарки утверждает , что идеальным решением будет , если„программа AI может определить , когда это происходит не так , и остановить себя“, но предупреждает общественность , что решение проблемы в общем случае было бы «действительно огромной научной проблемой». ^[3]

В 2017 году DeepMind выпустила AI Safety Gridworlds, который оценивает алгоритмы ИИ по девяти функциям безопасности, например, хочет ли алгоритм отключить собственный аварийный выключатель. DeepMind подтвердил, что существующие алгоритмы работают плохо, что неудивительно, поскольку алгоритмы «не были разработаны для решения этих проблем»; решение таких проблем может потребовать «потенциально создания алгоритмов нового поколения, в основе которых лежат соображения безопасности». ^[11]^[12]^[13]

Выравнивание

Некоторые предложения направлены на решение проблемы амбициозного согласования , создавая ИИ, которые остаются безопасными, даже когда они действуют автономно в больших масштабах. Некоторые аспекты выравнивания по своей сути имеют моральное и политическое измерение. ^[14] Например, в книге «Совместимость с людьми» профессор Стюарт Рассел из Беркли предлагает проектировать системы ИИ с единственной целью - максимизировать реализацию человеческих предпочтений. ^[15]^{: 173} «Предпочтения», о которых говорит Рассел, «всеобъемлющи; они охватывают все, что может вас волновать, сколь угодно далеко в будущем». Исследователь этики ИИ Ясон Гэбриэл утверждает, что мы должны привести ИИ в соответствие с «принципами, которые будут поддерживаться глобальным совпадающим консенсусом мнений, выбранным за завесой невежества и / или подтвержденным демократическими процессами». ^[14]

Элиэзер Юдковский из Исследовательского института машинного интеллекта предложил цель реализации когерентной экстраполированной воли (CEV) человечества , грубо определяемой как набор ценностей, которые человечество разделяет при рефлексивном равновесии , то есть после долгого идеализированного процесса уточнения. ^[14]^[16]

Напротив, существующие экспериментальные узконаправленные ИИ более прагматичны и могут успешно выполнять задачи в соответствии с непосредственными предполагаемыми предпочтениями пользователя ^[17], хотя и без какого-либо понимания долгосрочных целей пользователя. Узкое согласование может применяться к ИИ с общими возможностями, но также и к ИИ, которые специализируются на индивидуальных задачах. Например, мы хотели бы вопрос с ответом системы , чтобы ответить на вопросы правдиво , не выбирая их ответы , чтобы манипулировать людьми или принести долгосрочные последствия.

Внутреннее и внешнее выравнивание

Некоторые предложения по управлению ИИ учитывают как базовую явную целевую функцию, так и возникающую неявную целевую функцию. Такие предложения пытаются согласовать три различных описания системы ИИ: ^[18]

Идеальная спецификация: то, что человек-оператор хочет, чтобы система делала, что может быть плохо сформулировано. («Сыграйте в хорошую игру в CoastRunners ».)
Спецификация дизайна: план, который фактически используется для создания системы ИИ. (« Увеличьте свой результат на CoastRunners» .) В системе обучения с подкреплением это может быть просто функцией вознаграждения системы.
Эмерджентное поведение: что на самом деле делает ИИ.

Поскольку системы искусственного интеллекта не являются идеальными оптимизаторами и из-за того, что любая заданная спецификация может иметь непредвиденные последствия, возникающее поведение может резко отличаться от идеальных или проектных намерений.

Исследователи согласования ИИ стремятся обеспечить соответствие поведения идеальной спецификации, используя проектную спецификацию в качестве промежуточной точки. Несоответствие между идеальной спецификацией и спецификацией проекта известно как внешнее несоответствие, потому что несоответствие лежит между ( 1 ) «истинными желаниями» пользователя, которые находятся вне компьютерной системы, и ( 2 ) запрограммированной целевой функцией компьютерной системы (внутри компьютерная система). Определенный тип несоответствия между проектной спецификацией и возникающим поведением известен как внутреннее несоответствие ; такое несоответствие является внутренним для ИИ, являясь несоответствием между ( 2 ) явной целевой функцией ИИ и ( 3 ) фактическими возникающими целями ИИ. ^[19]^[20]^[21] Внешнее смещение может возникнуть из-за ошибок в указании целевой функции (проектной спецификации). ^[22] Например, агент обучения с подкреплением, обученный игре CoastRunners, научился двигаться по кругу при многократных сбоях, что дало ему более высокий балл, чем завершение гонки. ^[23] Напротив, внутреннее рассогласование возникает, когда агент преследует цель, которая согласуется с проектной спецификацией обучающих данных, но не где-либо еще. ^[19]^[20]^[21] Этот тип несовпадения часто сравнивают с эволюцией человека: эволюция, выбранная исходя из генетической пригодности (проектная спецификация) в среде наших предков, но в современной среде человеческие цели (выявленная спецификация) не согласуются с максимизацией генетическая приспособленность. Например, наша пристрастие к сладкой пище, которая изначально улучшала физическую форму, сегодня приводит к перееданию и проблемам со здоровьем. Внутреннее рассогласование вызывает особую озабоченность у агентов, которые обучаются в больших открытых средах, где может возникнуть широкий спектр непредвиденных целей. ^[20]

Нарушение внутреннего согласования происходит, когда цели, которые ИИ преследует во время развертывания, отклоняются от целей, которые он был обучен преследовать в своей исходной среде (его проектная спецификация). Пол Кристиано выступает за использование интерпретируемости для обнаружения таких отклонений, использование состязательной подготовки для их обнаружения и наказания и использования формальной проверки для их исключения. ^[24] Эти области исследований являются активными центрами работы сообщества машинного обучения, хотя эта работа обычно не направлена на решение проблем согласования AGI. В настоящее время существует обширная литература по методам создания примеров противоборства и создания устойчивых к ним моделей. ^[25] Между тем исследования по верификации включают методы обучения нейронных сетей, выходные данные которых остаются в рамках установленных ограничений. ^[26]

Масштабируемый надзор

Один из подходов к достижению внешнего согласования - попросить людей оценить и оценить поведение ИИ. ^[27]^[28] Однако люди также подвержены ошибкам и могут высоко оценивать некоторые нежелательные решения - например, рука виртуального робота учится «притворяться», чтобы схватить объект, чтобы получить положительную обратную связь. ^[29] А тщательный надзор со стороны человека обходится дорого, а это означает, что этот метод не может реально использоваться для оценки всех действий. Кроме того, сложные задачи (например, принятие решений в области экономической политики) могут дать слишком много информации, чтобы человек мог ее оценить. А долгосрочные задачи, такие как прогнозирование климата, невозможно оценить без обширных исследований с участием человека. ^[30]

Ключевая нерешенная проблема в исследовании согласования заключается в том, как создать проектную спецификацию, которая избегает (внешнего) несоответствия, учитывая только ограниченный доступ к руководителю-человеку, - известную как проблема масштабируемого надзора. ^[28]

Обучение путем дебатов

Исследователи OpenAI предложили обучить согласованный ИИ посредством дебатов между системами ИИ, при этом победителя будут судить люди. ^[31] Такие дебаты предназначены для того, чтобы привлечь внимание человека к самым слабым местам ответа на сложный вопрос или проблему, а также научить системы ИИ быть более полезными для людей, вознаграждая ИИ за правдивые и безопасные ответы. Этот подход мотивирован ожидаемой трудностью определения того, является ли ответ, созданный AGI, действительным и безопасным, только с помощью проверки человеком. Джоэл Леман характеризует дебаты как одну из «долгосрочных программ безопасности, популярных в настоящее время в машинном обучении», а двумя другими являются моделирование вознаграждения ^[17] и повторное усиление. ^[32]^[30]

Моделирование вознаграждения и повторное усиление

Моделирование вознаграждения относится к системе обучения с подкреплением, в которой агент получает вознаграждение от модели, обученной имитировать обратную связь с человеком. ^[17] При моделировании вознаграждения, вместо получения сигналов вознаграждения непосредственно от людей или от статической функции вознаграждения, агент получает свои сигналы вознаграждения через обученную человеком модель, которая может работать независимо от людей. Модель вознаграждения одновременно обучается обратной связью человека о поведении агента в течение того же периода, в течение которого агент обучается с помощью модели вознаграждения.

В 2017 году исследователи из OpenAI и DeepMind сообщили, что алгоритм обучения с подкреплением, использующий модель вознаграждения с предсказанием обратной связи, может изучать сложные новые модели поведения в виртуальной среде. ^[27] В одном эксперименте виртуальный робот был обучен выполнять обратное сальто менее чем за час оценки с использованием 900 бит обратной связи от человека. В 2020 году исследователи из OpenAI описали использование моделирования вознаграждения для обучения языковых моделей для создания коротких резюме сообщений Reddit и новостных статей с высокой производительностью по сравнению с другими подходами. ^[33] Тем не менее, они заметили, что помимо прогнозируемого вознаграждения, связанного с 99-м процентилем справочных сводок в наборе обучающих данных, оптимизация модели вознаграждения дала более худшие результаты, чем лучшие.

Долгосрочная цель этого направления исследований - создать схему рекурсивного моделирования вознаграждения для обучения агентов задачам, слишком сложным или дорогостоящим для непосредственной оценки людьми. ^[17] Например, если бы мы хотели научить агента писать фантастический роман с использованием моделирования вознаграждения, нам потребовалось бы, чтобы люди читали и целостно оценивали достаточное количество романов, чтобы обучить модель вознаграждения, соответствующую этим оценкам, что может быть чрезмерно дорогостоящим. Но это было бы проще, если бы у нас был доступ к помощникам-агентам, которые могли бы извлекать краткое изложение сюжетной линии, проверять орфографию и грамматику, резюмировать развитие персонажа, оценивать ход прозы и так далее. Каждый из этих помощников, в свою очередь, может быть обучен моделированием вознаграждения.

Общий термин для человека, работающего с ИИ для выполнения задач, которые человек не мог бы выполнить сам по себе, - это этап усиления, поскольку он расширяет возможности человека сверх того, на что они обычно способны. Поскольку рекурсивное моделирование вознаграждения включает в себя иерархию нескольких из этих шагов, это один из примеров более широкого класса техник безопасности, известных как повторное усиление . ^[30] В дополнение к методам, использующим обучение с подкреплением, другие предлагаемые методы повторного усиления полагаются на контролируемое обучение или имитационное обучение для расширения человеческих способностей.

Вывод человеческих предпочтений из поведения

Стюарт Рассел выступает за новый подход к разработке полезных машин, в котором: ^[15]^{: 182}

1. Единственная цель машины - максимально реализовать человеческие предпочтения.
2. Машина изначально не уверена в своих предпочтениях.
3. Конечным источником информации о человеческих предпочтениях является человеческое поведение.

Ранним примером этого подхода является обучение Рассела и Нг с обратным подкреплением , в котором ИИ выводят предпочтения супервизоров-людей из их поведения, предполагая, что супервизоры действуют, чтобы максимизировать некоторую функцию вознаграждения. Совсем недавно Hadfield-Menell et al. расширили эту парадигму, чтобы позволить людям изменять свое поведение в ответ на присутствие ИИ, например, отдавая предпочтение педагогически полезным действиям, которые они называют «вспомогательными играми», также известными как совместное обучение с обратным подкреплением. ^[15]^{: 202} ^[34] По сравнению с дебатами и повторным усилением, вспомогательные игры более явно полагаются на определенные предположения о человеческой рациональности; неясно, как распространить их на случаи, когда люди систематически предвзяты или иным образом неоптимальны.

Встроенное агентство

Работа над масштабируемым надзором в основном происходит в рамках таких формализмов, как POMDP . Существующие формализмы предполагают, что алгоритм агента выполняется вне среды (т.е. не встроен в нее физически). Встроенная агентура ^[35]^[36] - еще одно важное направление исследований, которое пытается решить проблемы, возникающие из-за несоответствия между такими теоретическими рамками и реальными агентами, которые мы могли бы создать. Например, даже если проблема масштабируемого надзора решена, агент, который может получить доступ к компьютеру, на котором он работает, все еще может иметь стимул вмешиваться ^{[37] в} свою функцию вознаграждения, чтобы получить гораздо большее вознаграждение, чем его это дают руководители-люди. Список примеров игр со спецификациями от исследователя DeepMind Виктории Краковны включает генетический алгоритм, который научился удалять файл, содержащий его целевой результат, так что он был вознагражден за отсутствие вывода. ^[22] Этот класс проблем был формализован с помощью причинно-следственных диаграмм. ^[37] Текущий алгоритм функции вознаграждения Эверитта и Хаттера ^[38] решает эту проблему, создавая агентов, которые оценивают будущие действия в соответствии с их текущей функцией вознаграждения. Этот подход также предназначен для предотвращения проблем, связанных с более общей самомодификацией, которую может выполнять ИИ. ^[39]^[35]

Другая работа в этой области сосредоточена на разработке новых фреймворков и алгоритмов для других свойств, которые мы, возможно, захотим зафиксировать в нашей проектной спецификации. ^[35] Например, мы хотели бы, чтобы наши агенты правильно рассуждали в условиях неопределенности в широком диапазоне обстоятельств. В качестве одного из вкладов в это Leike et al. обеспечивают общий способ для байесовских агентов моделировать политики друг друга в многоагентной среде, не исключая каких-либо реальных возможностей. ^[40] А алгоритм индукции Гаррабранта расширяет вероятностную индукцию, чтобы она была применима к логическим, а не только эмпирическим фактам. ^[41]

Контроль возможностей

Предложения по контролю возможностей направлены на повышение нашей способности отслеживать и контролировать поведение систем искусственного интеллекта, чтобы снизить опасность, которую они могут представлять в случае несогласованности. Однако контроль возможностей становится менее эффективным, поскольку наши агенты становятся более умными и их способность использовать недостатки в наших системах контроля увеличивается. Поэтому Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования. ^[1]

Одна из проблем заключается в том, что нейронные сети по умолчанию очень трудно интерпретировать. ^[42] Это затрудняет обнаружение обмана или другого нежелательного поведения. Достижения в области интерпретируемого искусственного интеллекта могут быть полезны для смягчения этой трудности. ^[43]

Возможность прерывания и выключение

Один из возможных способов предотвратить вредные последствия - дать руководителям-людям возможность легко отключить некорректно функционирующий ИИ с помощью «выключателя». Однако для достижения поставленной цели у таких ИИ будет стимул отключать любые выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбирать, отключать ли выключатель; а затем, если переключатель все еще включен, человек может выбрать, нажимать его или нет. ^[44] Стандартный подход к таким вспомогательным играм - убедиться, что ИИ интерпретирует человеческий выбор как важную информацию о намеченных целях. ^[15]^{: 208}

С другой стороны, Лоран Орсо и Стюарт Армстронг доказали, что широкий класс агентов, называемых безопасными прерываемыми агентами, может научиться безразлично относиться к тому, нажимается ли их выключатель. ^[3]^[45] Этот подход имеет ограничение, заключающееся в том, что ИИ, которому совершенно безразлично, выключен он или нет, также немотивирован заботиться о том, остается ли выключатель в рабочем состоянии, и может случайно и невинно отключить его в процессе его операций (например, с целью удаления и утилизации ненужного компонента). В более широком смысле, индифферентные агенты будут действовать так, как будто выключатель не может быть нажат, и поэтому могут не составить план действий на случай непредвиденных обстоятельств, чтобы организовать плавное отключение. ^[45]^[46]

Заниматься боксом

Блок ИИ - это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Хотя это снижает способность ИИ выполнять нежелательное поведение, это также снижает его полезность. Однако бокс имеет меньше затрат в применении к системе вопросов и ответов, которая ни в коем случае не требует взаимодействия с миром.

Вероятность недостатков безопасности, связанных с уязвимостями оборудования или программного обеспечения, может быть уменьшена путем формальной проверки конструкции блока AI. Нарушения безопасности также могут произойти, если ИИ способен манипулировать человеческими наблюдателями, чтобы они выпустили его, через свое понимание их психологии. ^[47]

Oracle

Оракул - это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей или подцелей, связанных с изменением мира за пределами его ограниченного окружения. ^[48]^[49] Успешно управляемый оракул принес бы значительно меньшую непосредственную выгоду, чем успешно управляемый сверхразум общего назначения, хотя оракул все же мог создать ценность на триллионы долларов. ^[15]^{: 163} В своей книге « Совместимость с людьми» исследователь искусственного интеллекта Стюарт Дж. Рассел заявляет, что оракул станет его ответом на сценарий, в котором суперинтеллект, как известно, появится всего в десятилетии. ^[15]^{: 162–163} Его аргумент состоит в том, что оракул, будучи более простым, чем универсальный сверхразум, имел бы более высокие шансы на успешное управление при таких ограничениях.

Из-за его ограниченного влияния на мир, возможно, будет разумно построить оракул в качестве предшественника сверхразумного ИИ. Оракул мог рассказать людям, как успешно построить сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы, необходимые для успеха проекта. Однако у оракулов могут быть общие проблемы с определением целей, связанные с универсальным суперинтеллектом. У оракула будет стимул выйти из контролируемой среды, чтобы получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают. ^[15]^{: 162} Оракулы не могут быть правдивыми, возможно, лгут для продвижения скрытых целей. Чтобы смягчить это, Бостром предлагает создать несколько оракулов, все немного разных, и сравнить их ответы, чтобы прийти к консенсусу. ^[50]

Скептицизм в отношении риска ИИ

В отличие от сторонников тезиса о том, что необходимы строгие меры контроля, поскольку суперинтеллект представляет собой существенный риск , скептики риска ИИ считают, что суперинтеллект практически не представляет риска случайного неправильного поведения. Такие скептики часто считают, что управлять сверхразумным ИИ будет тривиально. Некоторые скептики, ^[51] , такие как Гэри Marcus , ^[52] предлагают принятие правил , аналогичных вымышленных трех законов робототехники , которые непосредственно указать желаемый результат ( «прямой нормативности»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают Три закона бесполезными из-за того, что эти три закона неоднозначны и противоречат друг другу. (Другие предложения о «прямой нормативности» включают кантовскую этику, утилитаризм или смесь небольшого списка перечисленных желаний.) Большинство сторонников вместо этого полагают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо поняты, чтобы их можно было прямо выразить. запрограммирован на сверхразум; вместо этого суперинтеллект должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»), таких как когерентное экстраполированное волеизъявление . ^[53]

Смотрите также

Захват искусственного интеллекта
Искусственная мудрость
HAL 9000
Мультивак
Регулирование алгоритмов
Регулирование искусственного интеллекта

Рекомендации

^ Б с д е е г Бостромом, Ник (2014). Суперинтеллект: пути, опасности, стратегии (Первое изд.). ISBN 978-0199678112.
^ Ямпольский, Роман (2012). «Защита от утечек сингулярности проблема удержания искусственного интеллекта». Журнал исследований сознания . 19 (1-2): 194-214.
^ а б в г д «Google разрабатывает аварийный выключатель для ИИ» . BBC News . 8 июня 2016. Архивировано 11 июня 2016 года . Проверено 12 июня +2016 .
^ «Стивен Хокинг:« Transcendence рассматривает последствия использования искусственного интеллекта - но достаточно ли серьезно мы относимся к ИИ? » » . Индепендент (Великобритания) . Архивировано 25 сентября 2015 года . Проверено 14 июня +2016 .
^ «Стивен Хокинг предупреждает, что искусственный интеллект может положить конец человечеству» . BBC . 2 декабря 2014. архивации с оригинала на 30 октября 2015 года . Проверено 14 июня +2016 .
^ «Прогнозирующий искусственный интеллект» . Природа . 532 (7600): 413. 26 апреля 2016 г. Bibcode : 2016Natur.532Q.413. . DOI : 10.1038 / 532413a . PMID 27121801 .
^ Рассел, Стюарт ; Норвиг, Питер (2009). «26.3: Этика и риски развития искусственного интеллекта». Искусственный интеллект: современный подход . Прентис Холл. ISBN 978-0-13-604259-4.
^ Диттерих, Томас; Хорвиц, Эрик (2015). «Рост озабоченности по поводу ИИ: размышления и направления» (PDF) . Коммуникации ACM . 58 (10): 38–40. DOI : 10.1145 / 2770869 . S2CID 20395145 . Архивировано 4 марта 2016 года (PDF) из оригинала . Проверено 14 июня +2016 .
^ Рассел, Стюарт (2014). «О мифах и самогоне» . Край . Архивировано 19 июля 2016 года . Проверено 14 июня +2016 .
^ а б « ' Нажмите большую красную кнопку': компьютерные эксперты хотят, чтобы роботы перестали работать мошенниками» . Вашингтон Пост . Архивировано 12 июня 2016 года . Проверено 12 июня +2016 .
^ «DeepMind предлагает простые тесты, которые могут предотвратить апокалипсис Илона Маска» . Bloomberg.com . 11 декабря 2017. Архивировано 8 января 2018 года . Проверено 8 января 2018 .
^ «DeepMind от Alphabet использует игры, чтобы узнать, может ли искусственный интеллект вырваться на свободу и убить всех нас» . Удача . Архивировано 31 декабря 2017 года . Проверено 8 января 2018 .
^ «Определение проблем безопасности ИИ в простых средах | DeepMind» . DeepMind . Архивировано 2 января 2018 года . Проверено 8 января 2018 .
^ а б в Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность» . Умы и машины . 30 (3): 411–437. arXiv : 2001.09768 . DOI : 10.1007 / s11023-020-09539-2 . ISSN 1572-8641 . S2CID 210920551 . Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .
^ Б с д е е г Рассел, Стюарт (8 октября 2019 г.). Совместимость с человеком: искусственный интеллект и проблема контроля . США: Викинг. ISBN 978-0-525-55861-3. OCLC 1083694322 .
^ Юдковский, Элиэзер (2011). «Сложные системы ценностей в дружественном ИИ». Общий искусственный интеллект . Конспект лекций по информатике. 6830 . С. 388–393. DOI : 10.1007 / 978-3-642-22887-2_48 . ISBN 978-3-642-22886-5.
^ а б в г Лейке, Ян; Крюгер, Дэвид; Эверит, Том; Мартич, Мильян; Майни, Вишал; Легг, Шейн (19 ноября 2018 г.). «Масштабируемое выравнивание агентов через моделирование вознаграждения: направление исследований». arXiv : 1811.07871 [ cs.LG ].
^ Ортега, Педро; Майни, Вишал; Команда безопасности DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификации, надежность и надежность» . Средний . Архивировано 12 декабря 2020 года . Проверено 12 декабря 2020 .
^ а б Хабингер, Эван; ван Мервейк, Крис; Микулик, Владимир; Скалсе, Джоар; Гаррабрант, Скотт (11 июня 2019 г.). «Риски, связанные с обучением оптимизации в передовых системах машинного обучения». arXiv : 1906.01820 [ cs.AI ].
^ а б в Экоффет, Адриан; Клун, Джефф; Леман, Джоэл (1 июля 2020 г.). «Открытые вопросы в создании безопасного открытого ИИ: противоречия между контролем и творчеством» . Материалы конференции по искусственной жизни . 32 : 27–35. arXiv : 2006.07495 . DOI : 10.1162 / isal_a_00323 . S2CID 219687488 .
^ а б Кристиан, Брайан (2020). Проблема согласования: машинное обучение и человеческие ценности . WW Нортон. ISBN 978-0-393-63582-9. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 .
^ а б Краковна Виктория; Легг, Шейн. «Специализированные игры: обратная сторона изобретательности ИИ» . Deepmind . Архивировано 26 января 2021 года . Проверено 6 января 2021 года .
^ Кларк, Джек; Амодеи, Дарио (22 декабря 2016 г.). «Неправильные функции вознаграждения в дикой природе» . OpenAI . Архивировано 26 января 2021 года . Проверено 6 января 2021 года .
^ Кристиано, Пол (11 сентября 2019 г.). «Разговор с Полем Кристиано» . Воздействие ИИ . Воздействие ИИ. Архивировано 19 августа 2020 года . Проверено 6 января 2021 года .
^ Сербан Алексей; Опрос, Эрик; Виссер, Йост (12 июня 2020 г.). «Состязательные примеры распознавания объектов: всесторонний обзор» . ACM Computing Surveys . 53 (3): 66: 1–66: 38. arXiv : 2008.04094 . DOI : 10.1145 / 3398394 . ISSN 0360-0300 . S2CID 218518141 . Архивировано 29 июня 2020 года . Проверено 7 февраля 2021 года .
^ Коли, Пушмит; Двиджотхам, Кришнамурти; Уесато, Джонатан; Gowal, Sven. «На пути к надежному и проверенному ИИ: тестирование спецификаций, надежное обучение и формальная проверка» . Deepmind . Архивировано 30 ноября 2020 года . Проверено 6 января 2021 года .
^ а б Кристиано, Пол; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодеи, Дарио (13 июля 2017 г.). «Глубокое обучение с подкреплением на основе человеческих предпочтений». arXiv : 1706.03741 [ stat.ML ].
^ а б Амодеи, Дарио; Олах, Крис; Стейнхардт, Якоб; Кристиано, Пол; Шульман, Джон; Мане, Дан (25 июля 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [ cs.AI ].
^ Амодеи, Дарио; Кристиано, Пол; Рэй, Алекс (13 июня 2017 г.). «Учиться на предпочтениях человека» . OpenAI . Архивировано 3 января 2021 года . Проверено 6 января 2021 года .
^ а б в Кристиано, Пол; Шлегерис, Бак; Амодеи, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [ cs.LG ].
^ Ирвинг, Джеффри; Кристиано, Пол; Амодеи, Дарио; OpenAI (22 октября 2018 г.). «Безопасность искусственного интеллекта через дебаты». arXiv : 1805.00899 [ stat.ML ].
^ Банцаф, Вольфганг; Гудман, Эрик; Шенеман, Ли; Трухильо, Леонардо; Ворзель, Билл (май 2020 г.). Теория и практика генетического программирования XVII . Springer Nature. ISBN 978-3-030-39958-0. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 .
^ Стиеннон, Нисан; Зиглер, Даниэль; Лоу, Райан; Ву, Джеффри; Восс, Челси; Кристиано, Пол; Оуян, Лонг (4 сентября 2020 г.). «Обучение резюмированию с обратной связью с людьми» . Архивировано 7 сентября 2020 года . Проверено 7 сентября 2020 года .
^ Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер ; Рассел, Стюарт (12 ноября 2016 г.). «Совместное обучение с обратным подкреплением». Системы обработки нейронной информации .
^ а б в Эверит, Том; Ли, Гэри; Хаттер, Маркус (21 мая 2018 г.). «Обзор литературы по безопасности AGI». 1805.01109 . arXiv : 1805.01109 .
^ Демски, Абрам; Гаррабрант, Скотт (6 октября 2020 г.). «Встраиваемое агентство». arXiv : 1902.09469 [ cs.AI ].
^ а б Эверит, Том; Ортега, Педро А .; Барнс, Элизабет; Легг, Шейн (6 сентября 2019 г.). «Понимание стимулов агентов с использованием диаграмм причинно-следственных связей. Часть I: Настройки одного действия». arXiv : 1902.09980 [ cs.AI ].
^ Эверит, Том; Хаттер, Маркус (20 августа 2019 г.). «Вознаграждайте проблемы подделки и решения в обучении с подкреплением: перспектива диаграммы причинного влияния». arXiv : 1908.04734 [ cs.AI ].
^ Эверит, Том; Филан, Даниэль; Дасвани, Маянк; Хаттер, Маркус (10 мая 2016 г.). «Самомодификация политики и функции полезности в Rational Agents». arXiv : 1605.03142 [ cs.AI ].
^ Лейке, Ян; Тейлор, Джессика; Фалленштейн, Беня (25 июня 2016 г.). «Формальное решение проблемы с зерном истины» . Труды тридцать второй конференции по неопределенности в искусственном интеллекте . AUAI Press: 427–436. arXiv : 1609.05058 . Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .
^ Гаррабрант, Скотт; Бенсон-Тилсен, Цви; Крич, Эндрю; Соарес, Нейт; Тейлор, Джессика (7 декабря 2020 г.). «Логическая индукция». arXiv : 1609.03543 [ cs.AI ].
^ Монтавон, Грегуар; Самек, Войцех; Мюллер, Клаус Роберт (2018). «Методы интерпретации и понимания глубоких нейронных сетей» . Цифровая обработка сигналов: обзорный журнал . 73 : 1–15. DOI : 10.1016 / j.dsp.2017.10.011 . ISSN 1051-2004 . S2CID 207170725 . Архивировано 14 февраля 2021 года . Проверено 7 февраля 2021 .
^ Ямпольский, Роман В. «Необъяснимость и непонятность ИИ». Журнал искусственного интеллекта и сознания 7.02 (2020): 277-291.
^ Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (15 июня 2017 г.). «Игра с выключенным переключателем». arXiv : 1611.08219 [ cs.AI ].
^ а б Орсо, Лоран; Армстронг, Стюарт (25 июня 2016 г.). «Безопасно прерываемые агенты» . Труды тридцать второй конференции по неопределенности в искусственном интеллекте . AUAI Press: 557–566. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .
^ Соарес, Нейт и др. «Корректность». Мастер-классы на Двадцать девятой конференции AAAI по искусственному интеллекту. 2015 г.
^ Чалмерс, Дэвид (2010). «Сингулярность: философский анализ». Журнал исследований сознания . 17 (9–10): 7–65.
^ Бостром, Ник (2014). «Глава 10: Оракулы, джинны, повелители, инструменты (стр. 145)». Сверхразум: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112. Оракул - это система ответов на вопросы. Он может принимать вопросы на естественном языке и представлять свои ответы в виде текста. Оракул, который принимает только вопросы типа «да / нет», может выдать свое лучшее предположение с помощью одного бита или, возможно, с несколькими дополнительными битами, чтобы представить свою степень уверенности. Оракулу, который принимает открытые вопросы, потребуется некоторая метрика, с помощью которой можно будет ранжировать возможные правдивые ответы с точки зрения их информативности или уместности. В любом случае создание оракула, обладающего универсальной способностью отвечать на вопросы на естественном языке, является проблемой ИИ. Если бы кто-то мог это сделать, можно было бы также создать ИИ, который имеет приличную способность понимать человеческие намерения, а также человеческие слова.
^ Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (2012). «Мышление внутри коробки: управление и использование Oracle AI». Умы и машины . 22 (4): 299–324. DOI : 10.1007 / s11023-012-9282-2 . S2CID 9464769 .
^ Бостром, Ник (2014). «Глава 10: Оракулы, джинны, повелители, инструменты (стр. 147)». Сверхразум: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112. Например, подумайте о риске того, что оракул будет отвечать на вопросы не максимально правдиво, а таким образом, чтобы тонко манипулировать нами и продвигать свои собственные скрытые планы. Одним из способов немного уменьшить эту угрозу может быть создание нескольких оракулов, каждый с немного другим кодом и немного другой информационной базой. Тогда простой механизм мог бы сравнить ответы, данные разными оракулами, и представить их для человеческого просмотра только в том случае, если все ответы совпадают.
^ «Интеллектуальные машины: действительно ли нам нужно бояться ИИ?» . BBC News . 27 сентября 2015 года. Архивировано 8 ноября 2020 года . Проверено 9 февраля 2021 года .
^ Маркус, Гэри; Дэвис, Эрнест (6 сентября 2019 г.). «Мнение | Как создать искусственный интеллект, которому мы можем доверять (опубликовано в 2019 г.)» . Нью-Йорк Таймс . Архивировано 22 сентября 2020 года . Проверено 9 февраля 2021 года .
^ Сотала, Кадж; Ямпольский, Роман (19 декабря 2014 г.). «Ответы на катастрофический риск AGI: обзор» . Physica Scripta . 90 (1): 018001. Bibcode : 2015PhyS ... 90a8001S . DOI : 10.1088 / 0031-8949 / 90/1/018001 .

[superintelligence-1] Б с д е е г Бостромом, Ник (2014). Суперинтеллект: пути, опасности, стратегии (Первое изд.). ISBN 978-0199678112.

[2] Ямпольский, Роман (2012). «Защита от утечек сингулярности проблема удержания искусственного интеллекта». Журнал исследований сознания . 19 (1-2): 194-214.

[bbc-google-3] а б в г д «Google разрабатывает аварийный выключатель для ИИ» . BBC News . 8 июня 2016. Архивировано 11 июня 2016 года . Проверено 12 июня +2016 .

[hawking_editorial-4] «Стивен Хокинг:« Transcendence рассматривает последствия использования искусственного интеллекта - но достаточно ли серьезно мы относимся к ИИ? » » . Индепендент (Великобритания) . Архивировано 25 сентября 2015 года . Проверено 14 июня +2016 .

[5] «Стивен Хокинг предупреждает, что искусственный интеллект может положить конец человечеству» . BBC . 2 декабря 2014. архивации с оригинала на 30 октября 2015 года . Проверено 14 июня +2016 .

[6] «Прогнозирующий искусственный интеллект» . Природа . 532 (7600): 413. 26 апреля 2016 г. Bibcode : 2016Natur.532Q.413. . DOI : 10.1038 / 532413a . PMID 27121801 .

[7] Рассел, Стюарт ; Норвиг, Питер (2009). «26.3: Этика и риски развития искусственного интеллекта». Искусственный интеллект: современный подход . Прентис Холл. ISBN 978-0-13-604259-4.

[acm-8] Диттерих, Томас; Хорвиц, Эрик (2015). «Рост озабоченности по поводу ИИ: размышления и направления» (PDF) . Коммуникации ACM . 58 (10): 38–40. DOI : 10.1145 / 2770869 . S2CID 20395145 . Архивировано 4 марта 2016 года (PDF) из оригинала . Проверено 14 июня +2016 .

[9] Рассел, Стюарт (2014). «О мифах и самогоне» . Край . Архивировано 19 июля 2016 года . Проверено 14 июня +2016 .

[wp-computer-10] а б « ' Нажмите большую красную кнопку': компьютерные эксперты хотят, чтобы роботы перестали работать мошенниками» . Вашингтон Пост . Архивировано 12 июня 2016 года . Проверено 12 июня +2016 .

[11] «DeepMind предлагает простые тесты, которые могут предотвратить апокалипсис Илона Маска» . Bloomberg.com . 11 декабря 2017. Архивировано 8 января 2018 года . Проверено 8 января 2018 .

[12] «DeepMind от Alphabet использует игры, чтобы узнать, может ли искусственный интеллект вырваться на свободу и убить всех нас» . Удача . Архивировано 31 декабря 2017 года . Проверено 8 января 2018 .

[13] «Определение проблем безопасности ИИ в простых средах | DeepMind» . DeepMind . Архивировано 2 января 2018 года . Проверено 8 января 2018 .

[Gabriel-14] а б в Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность» . Умы и машины . 30 (3): 411–437. arXiv : 2001.09768 . DOI : 10.1007 / s11023-020-09539-2 . ISSN 1572-8641 . S2CID 210920551 . Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .

[HC-15] Б с д е е г Рассел, Стюарт (8 октября 2019 г.). Совместимость с человеком: искусственный интеллект и проблема контроля . США: Викинг. ISBN 978-0-525-55861-3. OCLC 1083694322 .

[16] Юдковский, Элиэзер (2011). «Сложные системы ценностей в дружественном ИИ». Общий искусственный интеллект . Конспект лекций по информатике. 6830 . С. 388–393. DOI : 10.1007 / 978-3-642-22887-2_48 . ISBN 978-3-642-22886-5.

[reward_modeling-17] а б в г Лейке, Ян; Крюгер, Дэвид; Эверит, Том; Мартич, Мильян; Майни, Вишал; Легг, Шейн (19 ноября 2018 г.). «Масштабируемое выравнивание агентов через моделирование вознаграждения: направление исследований». arXiv : 1811.07871 [ cs.LG ].

[DM_safety_overview-18] Ортега, Педро; Майни, Вишал; Команда безопасности DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификации, надежность и надежность» . Средний . Архивировано 12 декабря 2020 года . Проверено 12 декабря 2020 .

[inner_opt-19] а б Хабингер, Эван; ван Мервейк, Крис; Микулик, Владимир; Скалсе, Джоар; Гаррабрант, Скотт (11 июня 2019 г.). «Риски, связанные с обучением оптимизации в передовых системах машинного обучения». arXiv : 1906.01820 [ cs.AI ].

[OpenAI_open_ended-20] а б в Экоффет, Адриан; Клун, Джефф; Леман, Джоэл (1 июля 2020 г.). «Открытые вопросы в создании безопасного открытого ИИ: противоречия между контролем и творчеством» . Материалы конференции по искусственной жизни . 32 : 27–35. arXiv : 2006.07495 . DOI : 10.1162 / isal_a_00323 . S2CID 219687488 .

[alignment_prob-21] а б Кристиан, Брайан (2020). Проблема согласования: машинное обучение и человеческие ценности . WW Нортон. ISBN 978-0-393-63582-9. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 .

[DM_specification_gaming-22] а б Краковна Виктория; Легг, Шейн. «Специализированные игры: обратная сторона изобретательности ИИ» . Deepmind . Архивировано 26 января 2021 года . Проверено 6 января 2021 года .

[Openai_boat-23] Кларк, Джек; Амодеи, Дарио (22 декабря 2016 г.). «Неправильные функции вознаграждения в дикой природе» . OpenAI . Архивировано 26 января 2021 года . Проверено 6 января 2021 года .

[Christiano_interview-24] Кристиано, Пол (11 сентября 2019 г.). «Разговор с Полем Кристиано» . Воздействие ИИ . Воздействие ИИ. Архивировано 19 августа 2020 года . Проверено 6 января 2021 года .

[25] Сербан Алексей; Опрос, Эрик; Виссер, Йост (12 июня 2020 г.). «Состязательные примеры распознавания объектов: всесторонний обзор» . ACM Computing Surveys . 53 (3): 66: 1–66: 38. arXiv : 2008.04094 . DOI : 10.1145 / 3398394 . ISSN 0360-0300 . S2CID 218518141 . Архивировано 29 июня 2020 года . Проверено 7 февраля 2021 года .

[DM_verification-26] Коли, Пушмит; Двиджотхам, Кришнамурти; Уесато, Джонатан; Gowal, Sven. «На пути к надежному и проверенному ИИ: тестирование спецификаций, надежное обучение и формальная проверка» . Deepmind . Архивировано 30 ноября 2020 года . Проверено 6 января 2021 года .

[Christiano_et_al_2017-27] а б Кристиано, Пол; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодеи, Дарио (13 июля 2017 г.). «Глубокое обучение с подкреплением на основе человеческих предпочтений». arXiv : 1706.03741 [ stat.ML ].

[concrete_problems-28] а б Амодеи, Дарио; Олах, Крис; Стейнхардт, Якоб; Кристиано, Пол; Шульман, Джон; Мане, Дан (25 июля 2016 г.). «Конкретные проблемы безопасности ИИ». arXiv : 1606.06565 [ cs.AI ].

[Openai_robot_hand-29] Амодеи, Дарио; Кристиано, Пол; Рэй, Алекс (13 июня 2017 г.). «Учиться на предпочтениях человека» . OpenAI . Архивировано 3 января 2021 года . Проверено 6 января 2021 года .

[iterated_amplification-30] а б в Кристиано, Пол; Шлегерис, Бак; Амодеи, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов». arXiv : 1810.08575 [ cs.LG ].

[DebatePaper-31] Ирвинг, Джеффри; Кристиано, Пол; Амодеи, Дарио; OpenAI (22 октября 2018 г.). «Безопасность искусственного интеллекта через дебаты». arXiv : 1805.00899 [ stat.ML ].

[book_gen_prog-32] Банцаф, Вольфганг; Гудман, Эрик; Шенеман, Ли; Трухильо, Леонардо; Ворзель, Билл (май 2020 г.). Теория и практика генетического программирования XVII . Springer Nature. ISBN 978-3-030-39958-0. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 .

[OpenAI_2020-33] Стиеннон, Нисан; Зиглер, Даниэль; Лоу, Райан; Ву, Джеффри; Восс, Челси; Кристиано, Пол; Оуян, Лонг (4 сентября 2020 г.). «Обучение резюмированию с обратной связью с людьми» . Архивировано 7 сентября 2020 года . Проверено 7 сентября 2020 года .

[CIRL-34] Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер ; Рассел, Стюарт (12 ноября 2016 г.). «Совместное обучение с обратным подкреплением». Системы обработки нейронной информации .

[lit_review-35] а б в Эверит, Том; Ли, Гэри; Хаттер, Маркус (21 мая 2018 г.). «Обзор литературы по безопасности AGI». 1805.01109 . arXiv : 1805.01109 .

[36] Демски, Абрам; Гаррабрант, Скотт (6 октября 2020 г.). «Встраиваемое агентство». arXiv : 1902.09469 [ cs.AI ].

[causal_influence-37] а б Эверит, Том; Ортега, Педро А .; Барнс, Элизабет; Легг, Шейн (6 сентября 2019 г.). «Понимание стимулов агентов с использованием диаграмм причинно-следственных связей. Часть I: Настройки одного действия». arXiv : 1902.09980 [ cs.AI ].

[causal_influence_2-38] Эверит, Том; Хаттер, Маркус (20 августа 2019 г.). «Вознаграждайте проблемы подделки и решения в обучении с подкреплением: перспектива диаграммы причинного влияния». arXiv : 1908.04734 [ cs.AI ].

[39] Эверит, Том; Филан, Даниэль; Дасвани, Маянк; Хаттер, Маркус (10 мая 2016 г.). «Самомодификация политики и функции полезности в Rational Agents». arXiv : 1605.03142 [ cs.AI ].

[40] Лейке, Ян; Тейлор, Джессика; Фалленштейн, Беня (25 июня 2016 г.). «Формальное решение проблемы с зерном истины» . Труды тридцать второй конференции по неопределенности в искусственном интеллекте . AUAI Press: 427–436. arXiv : 1609.05058 . Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .

[logical_induction-41] Гаррабрант, Скотт; Бенсон-Тилсен, Цви; Крич, Эндрю; Соарес, Нейт; Тейлор, Джессика (7 декабря 2020 г.). «Логическая индукция». arXiv : 1609.03543 [ cs.AI ].

[interpretability_survey-42] Монтавон, Грегуар; Самек, Войцех; Мюллер, Клаус Роберт (2018). «Методы интерпретации и понимания глубоких нейронных сетей» . Цифровая обработка сигналов: обзорный журнал . 73 : 1–15. DOI : 10.1016 / j.dsp.2017.10.011 . ISSN 1051-2004 . S2CID 207170725 . Архивировано 14 февраля 2021 года . Проверено 7 февраля 2021 .

[43] Ямпольский, Роман В. «Необъяснимость и непонятность ИИ». Журнал искусственного интеллекта и сознания 7.02 (2020): 277-291.

[44] Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (15 июня 2017 г.). «Игра с выключенным переключателем». arXiv : 1611.08219 [ cs.AI ].

[interruptible_agents-45] а б Орсо, Лоран; Армстронг, Стюарт (25 июня 2016 г.). «Безопасно прерываемые агенты» . Труды тридцать второй конференции по неопределенности в искусственном интеллекте . AUAI Press: 557–566. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .

[corrigibility-46] Соарес, Нейт и др. «Корректность». Мастер-классы на Двадцать девятой конференции AAAI по искусственному интеллекту. 2015 г.

[47] Чалмерс, Дэвид (2010). «Сингулярность: философский анализ». Журнал исследований сознания . 17 (9–10): 7–65.

[bostrom_chapter_10_page_145-48] Бостром, Ник (2014). «Глава 10: Оракулы, джинны, повелители, инструменты (стр. 145)». Сверхразум: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112. Оракул - это система ответов на вопросы. Он может принимать вопросы на естественном языке и представлять свои ответы в виде текста. Оракул, который принимает только вопросы типа «да / нет», может выдать свое лучшее предположение с помощью одного бита или, возможно, с несколькими дополнительными битами, чтобы представить свою степень уверенности. Оракулу, который принимает открытые вопросы, потребуется некоторая метрика, с помощью которой можно будет ранжировать возможные правдивые ответы с точки зрения их информативности или уместности. В любом случае создание оракула, обладающего универсальной способностью отвечать на вопросы на естественном языке, является проблемой ИИ. Если бы кто-то мог это сделать, можно было бы также создать ИИ, который имеет приличную способность понимать человеческие намерения, а также человеческие слова.

[49] Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (2012). «Мышление внутри коробки: управление и использование Oracle AI». Умы и машины . 22 (4): 299–324. DOI : 10.1007 / s11023-012-9282-2 . S2CID 9464769 .

[bostrom_chapter_10_page_147-50] Бостром, Ник (2014). «Глава 10: Оракулы, джинны, повелители, инструменты (стр. 147)». Сверхразум: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112. Например, подумайте о риске того, что оракул будет отвечать на вопросы не максимально правдиво, а таким образом, чтобы тонко манипулировать нами и продвигать свои собственные скрытые планы. Одним из способов немного уменьшить эту угрозу может быть создание нескольких оракулов, каждый с немного другим кодом и немного другой информационной базой. Тогда простой механизм мог бы сравнить ответы, данные разными оракулами, и представить их для человеческого просмотра только в том случае, если все ответы совпадают.

[51] «Интеллектуальные машины: действительно ли нам нужно бояться ИИ?» . BBC News . 27 сентября 2015 года. Архивировано 8 ноября 2020 года . Проверено 9 февраля 2021 года .

[52] Маркус, Гэри; Дэвис, Эрнест (6 сентября 2019 г.). «Мнение | Как создать искусственный интеллект, которому мы можем доверять (опубликовано в 2019 г.)» . Нью-Йорк Таймс . Архивировано 22 сентября 2020 года . Проверено 9 февраля 2021 года .

[AGIResponses-53] Сотала, Кадж; Ямпольский, Роман (19 декабря 2014 г.). «Ответы на катастрофический риск AGI: обзор» . Physica Scripta . 90 (1): 018001. Bibcode : 2015PhyS ... 90a8001S . DOI : 10.1088 / 0031-8949 / 90/1/018001 .

[1]