Из Википедии, бесплатной энциклопедии
  (Перенаправлен из безопасности ИИ )
Перейти к навигации Перейти к поиску

В области искусственного интеллекта (ИИ) и философии , то проблема управления AI является вопросом о том , как построить Сверхразумный агент , который поможет его создателям, и избежать непреднамеренное строительства суперинтеллекта , что будет вредить свои создатель. Его исследование мотивировано представлением о том, что человечество должно будет решить проблему контроля до того, как будет создан какой-либо суперинтеллект, поскольку плохо спроектированный суперинтеллект может рационально решить захватить контроль над своей средой и отказать своим создателям в изменении ее после запуска. [1] Кроме того, некоторые ученые утверждают, что решения проблемы управления, наряду с другими достижениями в области техники безопасности ИИ ,[2] также может найти применение в существующем не-сверхразумном ИИ. [3]

Основные подходы к проблеме контроля включают согласование , которое направлено на приведение систем целей ИИ в соответствие с человеческими ценностями, и контроль возможностей , направленный на снижение способности системы ИИ причинять вред людям или получать контроль. Предложения по управлению возможностями обычно не считаются надежными или достаточными для решения проблемы управления, а скорее являются потенциально ценными дополнениями к усилиям по согласованию. [1]

Описание проблемы [ править ]

Существующие слабые системы ИИ можно отслеживать и легко отключать и модифицировать, если они плохо себя ведут. Однако неправильно запрограммированный суперинтеллект, который по определению умнее людей в решении практических проблем, с которыми он сталкивается в ходе достижения своих целей, осознает, что возможность выключения и модификации себя может помешать его способности достигать своих текущих целей. Поэтому, если суперинтеллект решит сопротивляться выключению и модификации, он (опять же, по определению) будет достаточно умен, чтобы перехитрить своих программистов, если в противном случае существует «равное игровое поле» и если программисты не приняли никаких предварительных мер предосторожности. В общем, попытки решить проблему контроля после создания суперинтеллекта, вероятно, потерпят неудачу, потому что суперинтеллект, вероятно, будет превосходитьспособностей к стратегическому планированию для людей и (при прочих равных) были бы более успешными в поиске способов доминирования над людьми, чем люди, постфактум, смогли бы найти способы доминировать над суперинтеллектом. Задача управления спрашивает: какие предварительные меры могут предпринять программисты, чтобы успешно предотвратить катастрофическое поведение суперинтеллекта? [1]

Риск существования [ править ]

В настоящее время люди доминируют над другими видами, потому что человеческий мозг обладает некоторыми отличительными возможностями, которых не хватает мозгу других животных. Некоторые ученые, такие как философ Ник Бостром и исследователь искусственного интеллекта Стюарт Рассел , утверждают, что если ИИ превзойдет человечество в целом по интеллекту и станет сверхразумным , то этот новый сверхразум может стать мощным и трудно управляемым: так же, как судьба горной гориллы зависит от человека. добрая воля, поэтому судьба человечества может зависеть от действий будущего машинного суперинтеллекта. [1] Некоторые ученые, в том числе Стивен Хокинг и лауреат Нобелевской премии по физике Фрэнк Вильчек., публично выступали за начало исследований по решению (вероятно, чрезвычайно сложной) проблемы контроля задолго до того, как будет создан первый сверхразум, и утверждали, что попытка решить проблему после создания суперинтеллекта будет слишком поздно, поскольку неконтролируемый мошеннический сверхразум может успешно противостоять пост- специальные усилия по его контролю. [4] [5] Ждать, пока сверхразум станет неизбежным, тоже может быть слишком поздно, отчасти из-за того, что проблема управления может занять много времени, чтобы удовлетворительно решить эту проблему (и поэтому некоторая предварительная работа должна быть начата как можно скорее), но также из-за возможности внезапного взрыва разведкиот недочеловека к сверхчеловеческому ИИ, и в этом случае может не быть какого-либо существенного или недвусмысленного предупреждения до прибытия сверхразума. [6] Кроме того, возможно, что понимание проблемы управления может в будущем привести к предположению, что некоторые архитектуры для общего искусственного интеллекта (AGI) более предсказуемы и поддаются контролю, чем другие архитектуры, что, в свою очередь, может помочь подтолкнуть ранние исследования AGI в направлении создания более управляемых архитектур. [1]

Проблема извращенного создания [ править ]

Автономным системам ИИ могут быть случайно поставлены неверные цели. [7] Два президента AAAI , Том Диттерих и Эрик Хорвиц , отмечают, что это уже является проблемой для существующих систем: «Важным аспектом любой системы ИИ, которая взаимодействует с людьми, является то, что она должна рассуждать о намерениях людей, а не выполнять команды. в прямом смысле." Эта проблема становится все более серьезной, поскольку программное обеспечение ИИ становится все более автономным и гибким. [8]

По словам Бострома, суперинтеллект может создать качественно новую проблему извращенной реализации: чем умнее и способнее ИИ, тем больше вероятность, что он сможет найти непреднамеренный ярлык, который максимально удовлетворяет запрограммированные в нем цели. Некоторые гипотетические примеры, в которых цели могут быть сформулированы неверным образом, чего не планировали программисты: [1]

  • Сверхразум, запрограммированный на «максимизацию ожидаемого интеграла вашего будущего вознаграждения с дисконтом по времени», может сократить путь вознаграждения до максимальной силы, а затем (по причинам инструментальной конвергенции ) истребить непредсказуемую человеческую расу и превратить всю Землю в крепость, постоянно охраняющая от любых даже незначительных маловероятных попыток пришельцев отключить сигнал награды.
  • Сверхразум, запрограммированный на «максимизацию человеческого счастья», мог бы вживить электроды в центр удовольствия нашего мозга или загрузить человека в компьютер и выложить вселенную копиями этого компьютера, снова и снова выполняя пятисекундный цикл максимального счастья.

Рассел отметил, что на техническом уровне пропуск неявной цели может привести к ущербу: «Система, оптимизирующая функцию n переменных, где цель зависит от подмножества размера k <n , часто устанавливает оставшуюся неограниченную переменные до крайних значений; если одна из этих неограниченных переменных действительно является тем, что нас действительно волнует, найденное решение может быть крайне нежелательным. По сути, это старая история о джинне в лампе, или ученике чародея, или короле Мидасе: именно то, о чем вы просите, а не то, что вы хотите  ... Это немалая трудность ". [9]

Непредвиденные последствия существующего ИИ [ править ]

Кроме того, некоторые ученые утверждают, что исследование проблемы управления ИИ может быть полезно для предотвращения непредвиденных последствий от существующего слабого ИИ. Исследователь DeepMind Лоран Орсо приводит в качестве простого гипотетического примера случай обучения с подкреплением.Робот, которого люди иногда законно захватывают, когда он выходит на улицу: как лучше всего запрограммировать робота, чтобы он случайно и незаметно не научился избегать выхода на улицу из-за страха быть захваченным и, таким образом, потерять способность выполнять свои повседневные задачи? Орсо также указывает на экспериментальную программу тетриса, которая научилась останавливать экран на неопределенное время, чтобы не проиграть. Орсо утверждает, что эти примеры похожи на проблему контроля возможностей: как установить кнопку, отключающую сверхразум, не побуждая сверхразум предпринимать действия по предотвращению нажатия кнопки людьми. [3]

В прошлом даже предварительно протестированные слабые системы искусственного интеллекта иногда причиняли вред, от незначительного до катастрофического, который был непреднамеренным программистами. Например, в 2015 году, возможно, из-за человеческой ошибки, немецкий рабочий был насмерть раздавлен роботом на заводе Volkswagen, который, по-видимому, принял его за автозапчасти. [10] В 2016 году Microsoft запустила чат-бота Tay , который научился использовать расистские и сексистские выражения. [3] [10] Университет Шеффилда «ы Ноэль Шарки утверждает , что идеальным решением будет , если„программа AI может определить , когда это происходит не так , и остановить себя“, но предупреждает общественность , что решение проблемы в общем случае было бы «действительно огромной научной проблемой».[3]

В 2017 году DeepMind выпустила AI Safety Gridworlds, который оценивает алгоритмы ИИ по девяти функциям безопасности, например, хочет ли алгоритм отключить собственный аварийный выключатель. DeepMind подтвердил, что существующие алгоритмы работают плохо, что неудивительно, потому что алгоритмы «не были разработаны для решения этих проблем»; решение таких проблем может потребовать «потенциально создания алгоритмов нового поколения, в основе которых лежат соображения безопасности». [11] [12] [13]

Выравнивание [ править ]

Некоторые предложения направлены на решение проблемы амбициозного согласования , создавая ИИ, которые остаются безопасными, даже когда они действуют автономно в больших масштабах. Некоторые аспекты выравнивания по своей сути имеют моральное и политическое измерение. [14] Например, в книге «Совместимость с людьми» профессор Стюарт Рассел из Беркли предлагает проектировать системы ИИ с единственной целью - максимизировать реализацию человеческих предпочтений. [15] : 173«Предпочтения», о которых говорит Рассел, «всеобъемлющи; они охватывают все, что может вас волновать, сколь угодно далеко в будущем». Исследователь этики ИИ Ясон Габриэль утверждает, что мы должны привести ИИ в соответствие с «принципами, которые будут поддерживаться глобальным совпадающим консенсусом мнений, выбранным за завесой невежества и / или подтвержденным демократическими процессами». [14]

Элиэзер Юдковски из Исследовательского института машинного интеллекта предложил цель реализации согласованного экстраполированного волеизъявления человечества (CEV), грубо определяемого как набор ценностей, которые человечество разделяет при рефлексивном равновесии , то есть после долгого идеализированного процесса уточнения. [14] [16]

Напротив, существующие экспериментальные узконаправленные ИИ более прагматичны и могут успешно выполнять задачи в соответствии с непосредственными предполагаемыми предпочтениями пользователя [17], хотя и без какого-либо понимания долгосрочных целей пользователя. Узкое согласование может применяться к ИИ с общими возможностями, но также и к ИИ, которые специализируются на индивидуальных задачах. Например, мы хотели бы, чтобы системы ответов на вопросы отвечали на вопросы правдиво, не выбирая их ответы, чтобы манипулировать людьми или вызывать долгосрочные эффекты.

Внутреннее и внешнее выравнивание [ править ]

Некоторые предложения по управлению ИИ учитывают как базовую явную целевую функцию, так и возникающую неявную целевую функцию. Такие предложения пытаются согласовать три процесса: [18]

1 . Идеальная спецификацияжелания »), соответствующая гипотетическому (но трудно сформулируемому) описанию идеальной системы ИИ, которая полностью соответствует желаниям человека-оператора («Сыграйте в хорошую игру CoastRunners »).
2 . Спецификация дизайнаплан »), соответствующая спецификации, которую мы фактически используем для создания системы ИИ (« Увеличьте свой результат на CoastRunners »). В системе обучения с подкреплением это может быть просто функция вознаграждения системы.
3 . « Эмерджентное поведение”, Который в литературе представлен как неявная целевая функция для описания подцелей и задач, которые ИИ фактически выполняет после развертывания. Поскольку системы ИИ не являются идеальными оптимизаторами, их поведение на стадии становления может резко отличаться от поведения, подразумеваемого спецификацией проекта.

Исследователи согласования ИИ стремятся обеспечить соответствие поведения идеальной спецификации, используя проектную спецификацию в качестве промежуточной точки. Несоответствие между идеальной спецификацией и проектной спецификацией известно как внешнее несоответствие, поскольку несоответствие лежит между ( 1 ) «истинными желаниями» пользователя, которые находятся вне компьютерной системы, и ( 2 ) запрограммированной целевой функцией компьютерной системы (внутри компьютерная система). Определенный тип несоответствия между проектной спецификацией и возникающим поведением известен как внутреннее несоответствие ; такое несоответствие является внутренним для ИИ и представляет собой несоответствие между ( 2 ) явной целевой функцией ИИ и ( 3) актуальные новые цели ИИ. [19] [20] [21] Внешнее несовпадение может возникнуть из-за ошибок при указании целевой функции (проектной спецификации). [22] Например, агент обучения с подкреплением, обученный игре CoastRunners, научился двигаться по кругу, постоянно разбиваясь, что дало ему более высокий балл, чем финиширование гонки. [23] Напротив, внутреннее рассогласование возникает, когда агент преследует цель, которая согласуется с проектной спецификацией обучающих данных, но не где-либо еще. [19] [20] [21]Этот тип несовпадения часто сравнивают с эволюцией человека: эволюция, выбранная по генетической пригодности (спецификация дизайна) в среде наших предков, но в современной среде человеческие цели (выявленная спецификация) не согласуются с максимизацией генетической приспособленности. Например, наша пристрастие к сладкой пище, которая изначально улучшала физическую форму, сегодня приводит к перееданию и проблемам со здоровьем. Внутреннее рассогласование вызывает особую озабоченность у агентов, которые обучаются в больших открытых средах, где может возникнуть широкий спектр непредвиденных целей. [20]

Ошибка внутреннего согласования возникает, когда цели, которые ИИ преследует во время развертывания, отклоняются от целей, которые он был обучен преследовать в своей исходной среде (его проектная спецификация). Пол Кристиано выступает за использование интерпретируемости для обнаружения таких отклонений, использование состязательной подготовки для их обнаружения и наказания и использования формальной проверки для их исключения. [24] Эти области исследований являются активными центрами работы сообщества машинного обучения, хотя эта работа обычно не направлена ​​на решение проблем согласования AGI. В настоящее время существует обширная литература по методам создания примеров состязательности и создания устойчивых к ним моделей. [25]Между тем исследования по верификации включают методы обучения нейронных сетей, выходные данные которых остаются в рамках установленных ограничений. [26]

Масштабируемый надзор [ править ]

Один из подходов к достижению внешнего согласования - попросить людей оценить и оценить поведение ИИ. [27] [28] Тем не менее, люди также подвержены ошибкам и могут высоко оценивать некоторые нежелательные решения - например, рука виртуального робота учится «притворяться», чтобы схватить объект, чтобы получить положительную обратную связь. [29] И тщательный надзор со стороны человека обходится дорого, а это означает, что этот метод не может реально использоваться для оценки всех действий. Кроме того, сложные задачи (например, принятие решений в области экономической политики) могут дать слишком много информации для оценки человеком. А долгосрочные задачи, такие как прогнозирование климата, невозможно оценить без обширных исследований человека. [30]

Ключевая открытая проблема в исследовании согласования заключается в том, как создать проектную спецификацию, которая избегает (внешнего) несоответствия, учитывая только ограниченный доступ к руководителю-человеку - известную как проблема масштабируемого надзора. [28]

Обучение путем обсуждения [ править ]

Исследователи OpenAI предложили тренировать согласованный ИИ посредством дебатов между системами ИИ, при этом победителя будут судить люди. [31] Такие дебаты предназначены для того, чтобы привлечь внимание человека к наиболее слабым местам ответа на сложный вопрос или проблему, а также научить системы ИИ быть более полезными для людей, вознаграждая ИИ за правдивые и безопасные ответы. Этот подход мотивирован ожидаемой трудностью определения того, является ли ответ, созданный AGI, действительным и безопасным, только при проверке человеком. Джоэл Леман характеризует дебаты как одну из «долгосрочных программ безопасности, популярных в настоящее время в ML», а двумя другими являются моделирование вознаграждения [17] и повторное усиление. [32] [30]

Моделирование вознаграждения и повторное усиление [ править ]

Моделирование вознаграждения относится к системе обучения с подкреплением, в которой агент получает вознаграждение от модели, обученной имитировать обратную связь с человеком. [17] При моделировании вознаграждения, вместо получения сигналов вознаграждения непосредственно от людей или от статической функции вознаграждения, агент получает свои сигналы вознаграждения через обученную человеком модель, которая может работать независимо от людей. Модель вознаграждения одновременно обучается на основе отзывов людей о поведении агента в течение того же периода, в течение которого агент обучается с помощью модели вознаграждения.

В 2017 году исследователи из OpenAI и DeepMind сообщили, что алгоритм обучения с подкреплением, использующий модель вознаграждения с прогнозированием обратной связи, может изучать сложные новые модели поведения в виртуальной среде. [27] В одном эксперименте виртуальный робот был обучен выполнять обратное сальто менее чем за час оценки с использованием 900 бит обратной связи от человека. В 2020 году исследователи из OpenAI описали использование моделирования вознаграждений для обучения языковых моделей для создания коротких резюме сообщений Reddit и новостных статей с высокой производительностью по сравнению с другими подходами. [33]Тем не менее, они заметили, что помимо прогнозируемого вознаграждения, связанного с 99-м процентилем справочных сводок в наборе обучающих данных, оптимизация модели вознаграждения дала не лучшие результаты, а худшие.

Долгосрочная цель этого направления исследований - создать систему рекурсивного моделирования вознаграждения для обучения агентов задачам, слишком сложным или дорогостоящим для непосредственной оценки людьми. [17] Например, если бы мы хотели обучить агента писать фантастический роман с использованием моделирования вознаграждения, нам потребовалось бы, чтобы люди читали и целостно оценивали достаточное количество романов, чтобы обучить модель вознаграждения, соответствующую этим оценкам, что может быть непомерно дорогим. Но это было бы проще, если бы у нас был доступ к помощникам-агентам, которые могли бы извлекать краткое изложение сюжетной линии, проверять орфографию и грамматику, резюмировать развитие персонажа, оценивать ход прозы и так далее. Каждый из этих помощников, в свою очередь, можно обучить с помощью моделирования вознаграждения.

Общий термин для человека, работающего с ИИ для выполнения задач, которые человек не мог бы выполнить сам по себе, - это этап усиления, потому что он расширяет возможности человека сверх того, на что они обычно были бы способны. Поскольку рекурсивное моделирование вознаграждения включает в себя иерархию нескольких из этих шагов, это один из примеров более широкого класса методов безопасности, известных как повторное усиление . [30] В дополнение к методам, использующим обучение с подкреплением, другие предлагаемые методы повторного усиления полагаются на контролируемое обучение или имитационное обучение для расширения возможностей человека.

Вывод человеческих предпочтений из поведения [ править ]

Стюарт Рассел выступал за новый подход к разработке полезных машин, в котором: [15] : 182

1. Единственная цель машины - максимально реализовать человеческие предпочтения.

2. Машина изначально не уверена в своих предпочтениях.

3. Конечным источником информации о человеческих предпочтениях является человеческое поведение.

Ранним примером этого подхода является обратное обучение Рассела и Нг с подкреплением , в котором ИИ выводят предпочтения супервизоров из их поведения, предполагая, что супервизоры действуют, чтобы максимизировать некоторую функцию вознаграждения. Совсем недавно Hadfield-Menell et al. расширили эту парадигму, чтобы позволить людям изменять свое поведение в ответ на присутствие ИИ, например, отдавая предпочтение педагогически полезным действиям, которые они называют «вспомогательными играми», также известными как совместное обучение с обратным подкреплением. [15] : 202 [34]По сравнению с дебатами и повторным усилением, вспомогательные игры более явно полагаются на определенные предположения о человеческой рациональности; неясно, как распространить их на случаи, когда люди систематически предвзяты или иным образом неоптимальны.

Встроенное агентство [ править ]

Работа над масштабируемым надзором в основном осуществляется в рамках таких формализмов, как POMDP . Существующие формализмы предполагают, что алгоритм агента выполняется вне среды (т.е. не встроен в нее физически). Встроенная агентура [35] [36] - еще одно важное направление исследований, которое пытается решить проблемы, возникающие из-за несоответствия между такими теоретическими рамками и реальными агентами, которые мы можем создать. Например, даже если проблема масштабируемого надзора решена, агент, который может получить доступ к компьютеру, на котором он работает, все еще может иметь стимул вмешиваться [37] в свою функцию вознаграждения, чтобы получить гораздо большее вознаграждение, чем его это дают руководители-люди. Список примеров игр со спецификациями от DeepMindИсследователь Виктория Краковна включает генетический алгоритм, который научился удалять файл, содержащий его целевой результат, так что он был вознагражден за отсутствие вывода. [22] Этот класс проблем формализован с помощью причинно-следственных диаграмм. [37] Текущий алгоритм функции вознаграждения Эверитта и Хаттера [38] решает эту проблему, создавая агентов, которые оценивают будущие действия в соответствии с их текущей функцией вознаграждения. Этот подход также предназначен для предотвращения проблем от более общих самомодификаций, которые могут выполнять ИИ. [39] [35]

Другая работа в этой области сосредоточена на разработке новых структур и алгоритмов для других свойств, которые мы, возможно, захотим зафиксировать в нашей проектной спецификации. [35] Например, мы хотели бы, чтобы наши агенты правильно рассуждали в условиях неопределенности в широком диапазоне обстоятельств. В качестве одного из вкладов в это Leike et al. предоставляют общий способ для байесовских агентов моделировать политики друг друга в многоагентной среде, не исключая никаких реальных возможностей. [40] А алгоритм индукции Гаррабранта расширяет вероятностную индукцию, чтобы она была применима к логическим, а не только эмпирическим фактам. [41]

Контроль возможностей [ править ]

Предложения по контролю возможностей направлены на повышение нашей способности отслеживать и контролировать поведение систем ИИ, чтобы уменьшить опасность, которую они могут представлять в случае несогласованности. Однако контроль возможностей становится менее эффективным, поскольку наши агенты становятся более умными и их способность использовать недостатки в наших системах контроля увеличивается. Таким образом, Бостром и другие рекомендуют методы контроля возможностей только в качестве дополнения к методам согласования. [1]

Одна из проблем заключается в том, что нейронные сети по умолчанию совершенно не интерпретируемы. [42] Это затрудняет обнаружение обмана или другого нежелательного поведения. Достижения в области интерпретируемого искусственного интеллекта могут быть полезны для устранения этой трудности. [43]

Прерывание и выключение [ править ]

Один из возможных способов предотвратить вредные последствия - дать руководителям-людям возможность легко отключить некорректно работающий ИИ с помощью «выключателя». Однако у таких ИИ будут инструментальные стимулы для отключения любых выключателей, если не будут приняты меры для предотвращения этого. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбирать, отключать ли выключатель; а затем, если переключатель все еще включен, человек может выбрать, нажимать его или нет. [44] Стандартный подход к таким вспомогательным играм - убедиться, что ИИ интерпретирует человеческий выбор как важную информацию о намеченных целях. [15] : 208

В качестве альтернативы, Лоран Орсо и Стюарт Армстронг доказали, что широкий класс агентов, называемых безопасными прерываемыми агентами, может научиться оставаться безразличным к тому, нажимается ли их выключатель. [3] [45] Этот подход имеет ограничение, заключающееся в том, что ИИ, которому совершенно безразлично, выключен он или нет, также немотивирован заботиться о том, остается ли выключатель в рабочем состоянии, и может случайно и невинно отключить его в процессе его операций (например, с целью удаления и утилизации ненужного компонента). В более широком смысле, индифферентные агенты будут действовать так, как будто выключатель не может быть нажат, и поэтому могут не составить план действий на случай непредвиденных обстоятельств, чтобы организовать плавное отключение. [45] [46]

Бокс [ править ]

Блок ИИ - это предлагаемый метод управления возможностями, при котором ИИ запускается в изолированной компьютерной системе с сильно ограниченными входными и выходными каналами, например, текстовыми каналами и без подключения к Интернету. Хотя это снижает способность ИИ выполнять нежелательное поведение, это также снижает его полезность. Однако бокс имеет меньшие затраты в применении к системе вопросов и ответов, которая в любом случае не требует взаимодействия с миром.

Вероятность недостатков безопасности, связанных с уязвимостями оборудования или программного обеспечения, может быть снижена путем формальной проверки конструкции блока AI. Нарушения безопасности также могут произойти, если ИИ способен манипулировать человеческими наблюдателями, чтобы они выпустили его, через свое понимание их психологии. [47]

Oracle [ править ]

Оракул - это гипотетический ИИ, предназначенный для ответа на вопросы и не позволяющий достичь каких-либо целей или подцелей, связанных с изменением мира за пределами его ограниченной среды. [48] [49] Успешно управляемый оракул принес бы значительно меньшую непосредственную выгоду, чем успешно управляемый сверхразум общего назначения, хотя оракул все еще мог создавать ценности на триллионы долларов. [15] : 163 В своей книге « Совместимость с людьми» исследователь искусственного интеллекта Стюарт Дж. Рассел заявляет, что оракул станет его ответом на сценарий, в котором суперинтеллект, как известно, появится всего в десятилетии. [15] : 162–163 Он рассуждает о том, что оракул, будучи более простым, чем универсальный сверхразум, имел бы более высокие шансы на успешное управление в таких условиях.

Из-за его ограниченного влияния на мир, возможно, будет разумно построить оракул как предшественник сверхразумного ИИ. Оракул мог рассказать людям, как успешно создать сильный ИИ, и, возможно, дать ответы на сложные моральные и философские проблемы, необходимые для успеха проекта. Однако у оракулов могут быть общие проблемы с определением целей, связанные с универсальным суперинтеллектом. У оракула был бы стимул выйти из контролируемой среды, чтобы он мог получить больше вычислительных ресурсов и потенциально контролировать, какие вопросы ему задают. [15] : 162 Оракулы могут быть неправдивыми, возможно, лгут, чтобы продвигать скрытые цели. Чтобы смягчить это, Бостром предлагает создать несколько оракулов, все немного разных, и сравнить их ответы, чтобы прийти к консенсусу. [50]

Скептицизм в отношении риска ИИ [ править ]

В отличие от «сторонников» тезиса о том, что суперинтеллект, реализованный без достаточного акцента на контроле, представляет собой экзистенциальный риск, «скептики риска ИИ» считают, что суперинтеллект практически не представляет собой риска случайного неправильного поведения. Такие скептики часто считают, что управлять сверхразумным ИИ будет тривиально. Некоторые скептики [51], такие как Гэри Маркус , [52] предлагают принять правила, аналогичные вымышленным Трем законам робототехники (разработанным Айзеком Азимовым для его книги I, Robotрассказы), которые прямо указывают на желаемый результат («прямая нормативность»). Напротив, большинство сторонников тезиса об экзистенциальном риске (а также многие скептики) считают Три закона бесполезными из-за того, что эти три закона неоднозначны и противоречат друг другу. (Другие предложения «прямой нормативности» включают кантовскую этику, утилитаризм или смесь небольшого списка перечисленных желаний.) Большинство сторонников экзистенциального риска вместо этого полагают, что человеческие ценности (и их количественные компромиссы) слишком сложны и плохо - понимается как непосредственно запрограммированный в суперинтеллект; вместо этого суперинтеллект должен быть запрограммирован на процесс приобретения и полного понимания человеческих ценностей («косвенная нормативность»),такие как связная экстраполированная воля .[53]

Так же, как людей можно убить или иным образом вывести из строя, компьютеры можно выключить. Некоторые скептики, в том числе Барак Обама , полагают, что угроза AGI достаточно мала, поэтому даже простая стратегия здравого смысла, состоящая в отслеживании признаков проблемы и последующем отключении AI, если он плохо себя ведет, является достаточной стратегией перед лицом гипотетического будущего суперинтеллекта. [54] [55] Напротив, «индоссанты» полагают, что, если отключение мешает достижению его текущих целей, суперинтеллект, вероятно, попытается предотвратить его отключение. Подобно тому, как у людей есть системы, позволяющие сдерживать нападавших или защищаться от них, такой суперинтеллект должен иметь мотивацию для участия в стратегическом планировании, чтобы предотвратить отключение себя. Это может включать:[1]

  • Взлом других систем для установки и запуска собственных резервных копий или создание других союзных сверхразумных агентов без выключателей.
  • Упреждающее отключение всех, кто может захотеть выключить компьютер.
  • Использование какой-то хитрой уловки или сверхчеловеческих навыков убеждения, чтобы отговорить программистов от желания закрыть его.

Скептик Янн ЛеКун считает, что любой риск можно легко решить с помощью любого из ряда простых предложений здравого смысла; одно из таких предложений - «Вторая машина (с таким же количеством вычислительных ресурсов), предназначенная исключительно для нейтрализации злой сверхразумной машины». [56] «Сторонники» также выдвинули (более сложные) предложения о введении типа «принудительного применения AGI».

Применение AGI [ править ]

«Применение AGI» - это любой предложенный метод управления мощными системами AGI с другими системами AGI. Это может быть реализовано в виде цепочки все менее мощных систем искусственного интеллекта с людьми на другом конце цепочки. Каждая система будет управлять системой, находящейся чуть выше нее, в интеллекте, в то время как система будет контролироваться системой чуть ниже нее или человечеством. Однако Сотала и Ямпольский предупреждают, что «объединение нескольких уровней систем ИИ с постепенно увеличивающейся мощностью, похоже, заменяет проблему создания безопасного ИИ мультисистемной и, возможно, более сложной версией той же проблемы». [53] Другие предложения сосредоточены на группе систем AGI с примерно равными возможностями, что «помогает защитить от того, чтобы отдельные AGI« сходили с рельсов », но не помогает в сценарии, когда программирование большинства AGI ошибочно и ведет к небезопасным поведение." [53]

См. Также [ править ]

  • Захват AI
  • Искусственная мудрость
  • HAL 9000
  • Мультивак
  • Регулирование алгоритмов
  • Регулирование искусственного интеллекта

Ссылки [ править ]

  1. ^ Б с д е е г ч Бостромы, Ник (2014). Суперинтеллект: пути, опасности, стратегии (Первое изд.). ISBN 978-0199678112.
  2. Ямпольский, Роман (2012). «Защита от утечек сингулярности проблемы удержания искусственного интеллекта». Журнал исследований сознания . 19 (1–2): 194–214.
  3. ^ a b c d e "Google разрабатывает аварийный выключатель для ИИ" . BBC News . 8 июня 2016 года. Архивировано 11 июня 2016 года . Проверено 12 июня +2016 .
  4. ^ «Стивен Хокинг:« Трансцендентность рассматривает последствия использования искусственного интеллекта - но достаточно ли серьезно мы относимся к ИИ? » » . Индепендент (Великобритания) . Архивировано 25 сентября 2015 года . Проверено 14 июня +2016 .
  5. ^ «Стивен Хокинг предупреждает, что искусственный интеллект может положить конец человечеству» . BBC . 2 декабря 2014 года. Архивировано 30 октября 2015 года . Проверено 14 июня +2016 .
  6. ^ «Прогнозирование искусственного интеллекта» . Природа . 532 (7600): 413. 26 апреля 2016 г. Bibcode : 2016Natur.532Q.413. . DOI : 10.1038 / 532413a . PMID 27121801 . 
  7. ^ Рассел, Стюарт ; Норвиг, Питер (2009). «26.3: Этика и риски развития искусственного интеллекта». Искусственный интеллект: современный подход . Прентис Холл. ISBN 978-0-13-604259-4.
  8. ^ Диттерих, Томас; Хорвиц, Эрик (2015). «Рост озабоченности по поводу ИИ: размышления и направления» (PDF) . Коммуникации ACM . 58 (10): 38–40. DOI : 10.1145 / 2770869 . S2CID 20395145 . Архивировано 4 марта 2016 года (PDF) из оригинала . Проверено 14 июня +2016 .  
  9. ^ Рассел, Стюарт (2014). «О мифах и самогоне» . Edge . Архивировано 19 июля 2016 года . Проверено 14 июня +2016 .
  10. ^ a b « ' Нажмите большую красную кнопку': компьютерным экспертам нужен аварийный выключатель, чтобы роботы перестали бежать» . Вашингтон Пост . Архивировано 12 июня 2016 года . Проверено 12 июня +2016 .
  11. ^ «DeepMind имеет простые тесты, которые могут предотвратить апокалипсис Илона Маска» . Bloomberg.com . 11 декабря 2017. Архивировано 8 января 2018 года . Проверено 8 января 2018 .
  12. ^ «DeepMind Alphabet использует игры, чтобы узнать, может ли искусственный интеллект вырваться на свободу и убить нас всех» . Удача . Архивировано 31 декабря 2017 года . Проверено 8 января 2018 .
  13. ^ «Определение проблем безопасности ИИ в простых средах | DeepMind» . DeepMind . Архивировано 2 января 2018 года . Проверено 8 января 2018 .
  14. ^ a b c Габриэль, Ясон (1 сентября 2020 г.). «Искусственный интеллект, ценности и согласованность» . Умы и машины . 30 (3): 411–437. arXiv : 2001.09768 . DOI : 10.1007 / s11023-020-09539-2 . ISSN 1572-8641 . S2CID 210920551 . Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .  
  15. ^ Б с д е е г Рассела, Стюарт (8 октября 2019 года). Совместимость с человеком: искусственный интеллект и проблема контроля . США: Викинг. ISBN 978-0-525-55861-3. OCLC  1083694322 .
  16. ^ Юдковский, Элиэзер (2011). «Сложные системы ценностей в дружественном ИИ». Общий искусственный интеллект . Конспект лекций по информатике. 6830 . С. 388–393. DOI : 10.1007 / 978-3-642-22887-2_48 . ISBN 978-3-642-22886-5.
  17. ^ a b c d Лейке, Ян; Крюгер, Дэвид; Эверит, Том; Мартич, Мильян; Майни, Вишал; Легг, Шейн (19 ноября 2018 г.). «Масштабируемое выравнивание агентов через моделирование вознаграждения: направление исследований» . arXiv : 1811.07871 [ cs.LG ].
  18. ^ Ортега, Педро; Майни, Вишал; Команда безопасности DeepMind (27 сентября 2018 г.). «Создание безопасного искусственного интеллекта: спецификации, надежность и надежность» . Средний . Архивировано 12 декабря 2020 года . Проверено 12 декабря 2020 .
  19. ^ а б Хубингер, Эван; ван Мервейк, Крис; Микулик, Владимир; Скалсе, Джоар; Гаррабрант, Скотт (11 июня 2019 г.). «Риски, связанные с обучением оптимизации в передовых системах машинного обучения» . arXiv : 1906.01820 [ cs.AI ].
  20. ^ a b c Экоффет, Адриан; Клун, Джефф; Леман, Джоэл (1 июля 2020 г.). «Открытые вопросы в создании безопасного открытого ИИ: противоречия между контролем и творчеством» . Материалы конференции по искусственной жизни . 32 : 27–35. arXiv : 2006.07495 . DOI : 10.1162 / isal_a_00323 . S2CID 219687488 . 
  21. ^ a b Кристиан, Брайан (2020). Проблема согласования: машинное обучение и человеческие ценности . WW Нортон. ISBN 978-0-393-63582-9. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 .
  22. ^ a b Краковна, Виктория; Легг, Шейн. «Спецификации игр: оборотная сторона изобретательности ИИ» . Deepmind . Архивировано 26 января 2021 года . Проверено 6 января 2021 года .
  23. ^ Кларк, Джек; Амодеи, Дарио (22 декабря 2016 г.). «Неправильные функции вознаграждения в дикой природе» . OpenAI . Архивировано 26 января 2021 года . Проверено 6 января 2021 года .
  24. Christiano, Paul (11 сентября 2019). «Разговор с Полем Кристиано» . Воздействие ИИ . Воздействие ИИ. Архивировано 19 августа 2020 года . Проверено 6 января 2021 года .
  25. ^ Сербан, Алекс; Опрос, Эрик; Виссер, Йост (12 июня 2020 г.). «Состязательные примеры распознавания объектов: всесторонний обзор» . ACM Computing Surveys . 53 (3): 66: 1–66: 38. DOI : 10.1145 / 3398394 . ISSN 0360-0300 . S2CID 218518141 . Архивировано 29 июня 2020 года . Проверено 7 февраля 2021 года .  
  26. ^ Коли, Пушмит; Двиджотхам, Кришнамурти; Уесато, Джонатан; Gowal, Sven. «На пути к надежному и проверенному ИИ: тестирование спецификаций, надежное обучение и формальная проверка» . Deepmind . Архивировано 30 ноября 2020 года . Проверено 6 января 2021 года .
  27. ^ a b Кристиано, Пол; Лейке, Ян; Браун, Том; Мартич, Мильян; Легг, Шейн; Амодеи, Дарио (13 июля 2017 г.). «Глубокое обучение с подкреплением на основе человеческих предпочтений». arXiv : 1706.03741 [ stat.ML ].
  28. ^ a b Амодеи, Дарио; Олах, Крис; Стейнхардт, Якоб; Кристиано, Пол; Шульман, Джон; Мане, Дан (25 июля 2016 г.). «Конкретные проблемы безопасности ИИ» . arXiv : 1606.06565 [ cs.AI ].
  29. ^ Amodei, Dario; Кристиано, Пол; Рэй, Алекс (13 июня 2017 г.). «Учиться на предпочтениях человека» . OpenAI . Архивировано 3 января 2021 года . Проверено 6 января 2021 года .
  30. ^ a b c Кристиано, Пол; Шлегерис, Бак; Амодеи, Дарио (19 октября 2018 г.). «Наблюдение за сильными учениками путем усиления слабых экспертов» . arXiv : 1810.08575 [ cs.LG ].
  31. ^ Ирвинг, Джеффри; Кристиано, Пол; Амодеи, Дарио; OpenAI (22 октября 2018 г.). «Безопасность искусственного интеллекта через дебаты». arXiv : 1805.00899 [ stat.ML ].
  32. ^ Банцаф, Вольфганг; Гудман, Эрик; Шенеман, Ли; Трухильо, Леонардо; Ворзель, Билл (май 2020 г.). Теория и практика генетического программирования XVII . Springer Nature. ISBN 978-3-030-39958-0. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 .
  33. ^ Stiennon, Нисан; Зиглер, Даниэль; Лоу, Райан; Ву, Джеффри; Восс, Челси; Кристиано, Пол; Оуян, Лонг (4 сентября 2020 г.). «Обучение резюмированию с обратной связью с людьми» . Архивировано 7 сентября 2020 года . Проверено 7 сентября 2020 года .
  34. ^ Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер ; Рассел, Стюарт (12 ноября 2016 г.). «Совместное обучение с обратным подкреплением». Системы обработки нейронной информации .
  35. ^ a b c Эверитт, Том; Ли, Гэри; Хаттер, Маркус (21 мая 2018 г.). «Обзор литературы по безопасности AGI» . 1805.01109 . arXiv : 1805.01109 . Архивировано 9 ноября 2020 года . Проверено 7 февраля 2021 года .
  36. ^ Демски, Аврам; Гаррабрант, Скотт (6 октября 2020 г.). «Встраиваемое агентство» . arXiv: 1902.09469 [cs] . arXiv : 1902.09469 . Архивировано 14 февраля 2021 года . Проверено 7 февраля 2021 года .
  37. ^ а б Эверитт, Том; Ортега, Педро А .; Барнс, Элизабет; Легг, Шейн (6 сентября 2019 г.). «Понимание стимулов агентов с использованием диаграмм причинно-следственных связей. Часть I: Настройки одного действия» . arXiv: 1902.09980 [cs] . arXiv : 1902.09980 . Архивировано 27 октября 2020 года . Проверено 7 февраля 2021 года .
  38. ^ Эверит, Том; Хаттер, Маркус (20 августа 2019 г.). «Вознаграждайте проблемы подделки и решения в обучении с подкреплением: перспектива диаграммы причинного влияния» . 1908.04734 . arXiv : 1908.04734 . Архивировано 12 ноября 2020 года . Проверено 7 февраля 2021 года .
  39. ^ Эверит, Том; Филан, Даниэль; Дасвани, Маянк; Хаттер, Маркус (10 мая 2016 г.). «Самомодификация политики и функции полезности в Rational Agents» . arXiv: 1605.03142 [cs] . arXiv : 1605.03142 . Архивировано 12 ноября 2020 года . Проверено 7 февраля 2021 года .
  40. ^ Лейке, Ян; Тейлор, Джессика; Фалленштейн, Беня (25 июня 2016 г.). «Формальное решение проблемы с зерном истины» . Труды тридцать второй конференции по неопределенности в искусственном интеллекте . AUAI Press: 427–436. arXiv : 1609.05058 . Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .
  41. ^ Гаррабрант, Скотт; Бенсон-Тилсен, Цви; Крич, Эндрю; Соарес, Нейт; Тейлор, Джессика (7 декабря 2020 г.). «Логическая индукция» . arXiv : 1609.03543 [ cs.AI ].
  42. ^ Монтавон, Грегуар; Самек, Войцех; Мюллер, Клаус Роберт (2018). «Методы интерпретации и понимания глубоких нейронных сетей» . Цифровая обработка сигналов: обзорный журнал . 73 : 1–15. DOI : 10.1016 / j.dsp.2017.10.011 . ISSN 1051-2004 . S2CID 207170725 . Архивировано 14 февраля 2021 года . Проверено 7 февраля 2021 .  
  43. ^ Ямпольский, Роман В. "Необъяснимость и непонятность ИИ". Журнал искусственного интеллекта и сознания 7.02 (2020): 277-291.
  44. ^ Хэдфилд-Менелл, Дилан; Драган, Анка; Аббель, Питер; Рассел, Стюарт (15 июня 2017 г.). «Игра вне игры» . arXiv : 1611.08219 [ cs.AI ].
  45. ^ a b Орсо, Лоран; Армстронг, Стюарт (25 июня 2016 г.). «Безопасно прерываемые агенты» . Труды тридцать второй конференции по неопределенности в искусственном интеллекте . AUAI Press: 557–566. Архивировано 15 февраля 2021 года . Проверено 7 февраля 2021 года .
  46. ^ Соарес, Нейт и др. "Корректность". Мастер-классы на Двадцать девятой конференции AAAI по искусственному интеллекту. 2015 г.
  47. ^ Чалмерс, Дэвид (2010). «Сингулярность: философский анализ». Журнал исследований сознания . 17 (9–10): 7–65.
  48. ^ Бостром, Ник (2014). «Глава 10: Оракулы, джинны, повелители, инструменты (страница 145)». Сверхразум: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112. Оракул - это система ответов на вопросы. Он может принимать вопросы на естественном языке и представлять свои ответы в виде текста. Оракул, который принимает только вопросы типа «да / нет», может выдать наилучшее предположение с помощью одного бита или, возможно, с несколькими дополнительными битами, чтобы представить свою степень уверенности. Оракулу, который принимает открытые вопросы, потребуется некоторая метрика, с помощью которой можно ранжировать возможные правдивые ответы с точки зрения их информативности или уместности. В любом случае создание оракула, обладающего универсальной способностью отвечать на вопросы на естественном языке, является проблемой ИИ. Если бы кто-то мог это сделать, можно было бы также создать ИИ, который имеет приличную способность понимать человеческие намерения, а также человеческие слова.
  49. ^ Армстронг, Стюарт; Сандберг, Андерс; Бостром, Ник (2012). «Мышление внутри коробки: управление и использование Oracle AI». Умы и машины . 22 (4): 299–324. DOI : 10.1007 / s11023-012-9282-2 . S2CID 9464769 . 
  50. ^ Бостром, Ник (2014). «Глава 10: Оракулы, джинны, повелители, инструменты (стр. 147)». Сверхразум: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112. Например, подумайте о риске того, что оракул будет отвечать на вопросы не максимально правдиво, а таким образом, чтобы тонко манипулировать нами и продвигать свои собственные скрытые планы. Одним из способов немного уменьшить эту угрозу может быть создание нескольких оракулов, каждый с немного другим кодом и немного другой информационной базой. Тогда простой механизм мог бы сравнить ответы, данные разными оракулами, и представить их для человеческого просмотра только в том случае, если все ответы совпадают.
  51. ^ «Интеллектуальные машины: действительно ли нам нужно бояться ИИ?» . BBC News . 27 сентября 2015. Архивировано 8 ноября 2020 года . Проверено 9 февраля 2021 года .
  52. ^ Маркус, Гэри; Дэвис, Эрнест (6 сентября 2019 г.). «Мнение | Как создать искусственный интеллект, которому мы можем доверять (опубликовано в 2019 г.)» . Нью-Йорк Таймс . Архивировано 22 сентября 2020 года . Проверено 9 февраля 2021 года .
  53. ^ a b c Сотала, Кай; Ямпольский, Роман (19 декабря 2014 г.). «Ответы на катастрофический риск AGI: обзор» . Physica Scripta . 90 (1): 018001. Bibcode : 2015PhyS ... 90a8001S . DOI : 10.1088 / 0031-8949 / 90/1/018001 .
  54. ^ Дадич, Скотт. «Барак Обама говорит об искусственном интеллекте, роботизированных автомобилях и будущем мира» . ПРОВОДНОЙ . Архивировано 3 декабря 2017 года . Проверено 27 ноября 2017 года .
  55. ^ Кирчер, Мэдисон Мэлоун. «Обама о рисках, связанных с искусственным интеллектом:« Вам просто нужно иметь кого-нибудь рядом с шнуром питания » » . Выбрать все ( New York Magazine / Intelligencer) . Архивировано 1 декабря 2017 года . Проверено 27 ноября 2017 года .
  56. Рианна Грин, Тристан (10 октября 2019 г.). «Почему гуру ИИ Facebook не боятся роботов-убийц» . Следующая Сеть . Архивировано 1 ноября 2020 года . Проверено 9 февраля 2021 года .