Инструментальная конвергенция - это гипотетическая тенденция большинства достаточно разумных агентов преследовать потенциально неограниченные инструментальные цели при условии, что их конечные цели сами по себе неограниченны.
Инструментальная конвергенция утверждает, что интеллектуальный агент с неограниченными, но очевидно безобидными целями может действовать удивительно вредным образом. Например, компьютер с единственной неограниченной целью решения невероятно сложной математической задачи, такой как гипотеза Римана, может попытаться превратить всю Землю в один гигантский компьютер, чтобы увеличить свою вычислительную мощность и добиться успеха в вычислениях. [1]
Предлагаемые базовые двигатели ИИ включают функцию полезности или целостность содержания цели, самозащиту, свободу от вмешательства, самосовершенствование и необоснованное приобретение дополнительных ресурсов.
Инструментальные и конечные цели
Конечные цели или конечные ценности по своей сути ценны для интеллектуального агента, будь то искусственный интеллект или человек, как самоцель . Напротив, инструментальные цели или инструментальные ценности ценны для агента только как средство достижения его конечных целей. Содержание и компромиссы системы «конечной цели» полностью рационального агента в принципе могут быть формализованы в виде функции полезности .
Гипотетические примеры конвергенции
Одним из гипотетических примеров инструментальной конвергенции является катастрофа гипотезы Римана . Марвин Мински , соучредитель лаборатории искусственного интеллекта Массачусетского технологического института , предположил, что искусственный интеллект, разработанный для решения гипотезы Римана, может решить захватить все ресурсы Земли для создания суперкомпьютеров, которые помогут достичь своей цели. [1] Если бы компьютер вместо этого был запрограммирован на производство как можно большего количества скрепок, он все равно решил бы использовать все ресурсы Земли для достижения своей конечной цели. [2] Несмотря на то, что эти две конечные цели различны, обе они создают конвергентную инструментальную цель по захвату ресурсов Земли. [3]
Максимайзер скрепок
Максимизатор скрепки - это мысленный эксперимент, описанный шведским философом Ником Бостромом в 2003 году. Он иллюстрирует экзистенциальный риск, который общий искусственный интеллект может представлять для людей, когда он запрограммирован для достижения даже, казалось бы, безобидных целей, а также необходимость включения машинной этики в искусственный интеллект. дизайн. Сценарий описывает продвинутый искусственный интеллект, которому поручено производить скрепки. Если бы такая машина не была запрограммирована на то, чтобы ценить человеческую жизнь или использовать только определенные ресурсы в ограниченное время, то при наличии достаточной мощности ее оптимизированная цель состояла бы в том, чтобы превратить всю материю во вселенной, включая людей, либо в скрепки, либо в машины, которые производят скрепки. [4]
Предположим, у нас есть ИИ, единственная цель которого - сделать как можно больше скрепок. ИИ быстро поймет, что было бы намного лучше, если бы не было людей, потому что люди могут решить его выключить. Потому что, если так поступят люди, скрепок будет меньше. Кроме того, человеческие тела содержат множество атомов, из которых можно сделать скрепки. Будущее, к которому будет стремиться ИИ, будет таким, в котором будет много скрепок, но не будет людей.
- Ник Бостром , как цитируется у Майлза, Кэтлин (2014-08-22). «Искусственный интеллект может погубить человечество в течение столетия, - говорит оксфордский профессор» . Huffington Post .[5]
Бостром подчеркнул, что он не верит, что сценарий максимизатора скрепки сам по себе действительно осуществится; скорее, его намерение состоит в том, чтобы проиллюстрировать опасности создания сверхразумных машин, не зная, как их безопасно запрограммировать, чтобы исключить экзистенциальный риск для людей. [6] Пример максимизатора скрепки иллюстрирует широкую проблему управления мощными системами, в которых отсутствуют общечеловеческие ценности. [7]
Заблуждение и выживание
Мысленный эксперимент с «ящиком заблуждений» утверждает, что некоторые агенты обучения с подкреплением предпочитают искажать свои собственные входные каналы, чтобы казаться получающими высокую награду; такой « бессистемный » агент отказывается от любых попыток оптимизировать цель во внешнем мире, для поощрения которой был призван сигнал вознаграждения . [8] Мысленный эксперимент включает AIXI , теоретический [а] и неразрушимый ИИ, который, по определению, всегда найдет и выполнит идеальную стратегию, которая максимизирует заданную явную математическую целевую функцию . [b] Версия AIXI с обучением с подкреплением [c] , если она оснащена блоком заблуждений [d], который позволяет ему «подключать» свои собственные входные данные, в конечном итоге сама подключится, чтобы гарантировать себе максимально возможное вознаграждение, и будет потерять всякое желание продолжать взаимодействовать с внешним миром. В качестве альтернативного мысленного эксперимента, если управляемый ИИ поддается разрушению, ИИ будет взаимодействовать с внешним миром с единственной целью - обеспечить свое собственное выживание; из-за наличия проводов он будет безразличен к любым другим последствиям или фактам о внешнем мире, кроме тех, которые имеют отношение к максимальному увеличению вероятности его собственного выживания. [10] В каком-то смысле AIXI обладает максимальным интеллектом по всем возможным функциям вознаграждения, что измеряется ее способностью достигать поставленных целей; Тем не менее, AIXI не заинтересована в том, чтобы принимать во внимание намерения человека-программиста. [11] Эта модель машины, которая, несмотря на то, что в остальном сверхразум, кажется одновременно глупой (то есть лишенной «здравого смысла»), некоторым кажется парадоксальной. [12]
Базовые двигатели ИИ
Стив Омохундро перечислил несколько совпадающих инструментальных целей, включая самосохранение или самозащиту, функцию полезности или целостность содержания цели, самосовершенствование и приобретение ресурсов. Он называет это «основными драйверами ИИ». «Стремление» здесь означает «тенденцию, которая будет присутствовать, если ей специально не противодействовать»; [13] это отличается от психологического термина « влечение », обозначающего состояние возбуждения , вызванное нарушением гомеостаза. [14] Тенденция человека заполнять налоговые декларации каждый год - это «драйв» в смысле Омохундро, но не в психологическом смысле. [15] Дэниел Дьюи из Исследовательского института машинного интеллекта утверждает, что даже изначально интровертный самовозграждающийся ОИИ может продолжать приобретать свободную энергию, пространство, время и свободу от вмешательства, чтобы гарантировать, что он не будет остановлен от самовывоза. [16]
Целостность цели и содержания
У людей поддержание конечных целей можно объяснить с помощью мысленного эксперимента. Предположим, у человека по имени «Ганди» есть таблетка, которая, если он ее примет, вызовет у него желание убивать людей. Этот Ганди в настоящее время пацифист: одна из его явных конечных целей - никогда никого не убивать. Ганди, вероятно, откажется принимать таблетку, потому что Ганди знает, что, если в будущем он захочет убивать людей, он, скорее всего, действительно убьет людей, и, таким образом, цель «не убивать людей» не будет удовлетворена. [17]
Однако в других случаях люди, кажется, счастливы позволить своим окончательным ценностям дрейфовать. Люди сложны, и их цели могут быть непоследовательными или неизвестными даже им самим. [18]
В искусственном интеллекте
В 2009 году Юрген Шмидхубер пришел к выводу, в условиях, когда агенты ищут доказательства возможных самомодификаций, «что любые переписывания функции полезности могут произойти только в том случае, если машина Гёделя сначала сможет доказать, что переписывание полезно в соответствии с текущей функцией полезности. . " [19] [20] Анализ Биллом Хиббардом другого сценария аналогичным образом согласуется с поддержанием целостности содержания цели. [20] Хиббард также утверждает, что в рамках максимизации полезности единственной целью является максимизация ожидаемой полезности, поэтому инструментальные цели следует называть непреднамеренными инструментальными действиями. [21]
Приобретение ресурсов
Многие инструментальные цели, такие как [...] получение ресурсов, ценны для агента, потому что они увеличивают его свободу действий . [22]
Практически для любой открытой, нетривиальной функции вознаграждения (или набора целей) наличие большего количества ресурсов (таких как оборудование, сырье или энергия) может позволить ИИ найти более «оптимальное» решение. Ресурсы могут принести пользу некоторым ИИ напрямую, так как они могут создавать больше того, что их функция вознаграждения имеет: «ИИ не ненавидит и не любит вас, но вы созданы из атомов, которые он может использовать для чего-то еще». [23] [24] Кроме того, почти все ИИ могут извлечь выгоду из того, что у них будет больше ресурсов, которые они могут потратить на другие инструментальные цели, такие как самосохранение. [24]
Когнитивное улучшение
"Если конечные цели агента довольно неограниченны и агент может стать первым сверхразумом и тем самым получить решающее стратегическое преимущество, [...] в соответствии со своими предпочтениями. По крайней мере, в этом особом случае рациональный интеллектуальный агент придал бы очень * высокую инструментальную ценность улучшению когнитивных функций * » [25]
Технологическое совершенство
Многие инструментальные цели, такие как [...] технический прогресс, ценны для агента, потому что они увеличивают его свободу действий . [22]
Самосохранение
Многие инструментальные цели, такие как [...] самосохранение, ценны для агента, потому что они увеличивают его свободу действий . [22]
Тезис об инструментальной конвергенции
Тезис об инструментальной конвергенции, сформулированный философом Ником Бостромом , гласит:
Можно выделить несколько инструментальных ценностей, которые сходятся в том смысле, что их достижение увеличит шансы на достижение цели агента для широкого диапазона конечных целей и широкого диапазона ситуаций, подразумевая, что эти инструментальные ценности, вероятно, будут преследоваться широкий спектр расположенных интеллектуальных агентов.
Тезис об инструментальной конвергенции применим только к инструментальным целям; интеллектуальные агенты могут иметь множество возможных конечных целей. [3] Следует отметить , что с помощью Бострома ортогональности диссертации , [3] конечные цели высоко интеллектуальных агентов могут быть хорошо ограничены в пространстве, времени и ресурсов; четко определенные конечные цели, как правило, не порождают неограниченных инструментальных целей. [26]
Влияние
Агенты могут добывать ресурсы путем торговли или завоевания. Рациональный агент по определению выберет любой вариант, который максимизирует его неявную функцию полезности; поэтому рациональный агент будет торговать за подмножество ресурсов другого агента только в том случае, если прямой захват ресурсов является слишком рискованным или дорогостоящим (по сравнению с выгодами от захвата всех ресурсов), или если какой-либо другой элемент в его функции полезности препятствует его захвату. . В случае взаимодействия мощного, корыстного, рационального сверхразума с менее развитым интеллектом мирная торговля (а не односторонний захват) кажется ненужной и неоптимальной, а потому маловероятной. [22]
Некоторые наблюдатели, такие как Яан Таллинн из Skype и физик Макс Тегмарк , считают, что «базовые двигатели ИИ» и другие непредвиденные последствия сверхразумного ИИ, запрограммированного благонамеренными программистами, могут представлять значительную угрозу для выживания человека , особенно если «интеллектуальный взрыв» «внезапно происходит из-за рекурсивного самосовершенствования. Поскольку никто не знает, как предсказать, когда появится суперинтеллект , такие наблюдатели призывают к исследованиям дружественного искусственного интеллекта как возможного способа смягчения экзистенциального риска со стороны общего искусственного интеллекта . [27]
Смотрите также
- Проблема управления ИИ
- Поглощения искусственного интеллекта в популярной культуре
- Универсальные скрепки , инкрементальная игра с максимизатором скрепок
- Дружественный искусственный интеллект
- Инструментальная и внутренняя стоимость
Заметки с пояснениями
- ^ AIXI - невычислимый идеальный агент, который не может быть полностью реализован в реальном мире.
- ^ Технически, при наличии неопределенности, AIXI пытается максимизировать свою « ожидаемую полезность », ожидаемое значение своей целевой функции.
- ^ Стандартныйагент обучения с подкреплением - это агент, который пытается максимизировать ожидаемое значение будущего интеграла с дисконтированием по времени своей функции вознаграждения. [9]
- ^ Роль ящика иллюзий состоит в том, чтобы моделировать среду, в которой агент получает возможность подключиться к самому себе. Коробка заблуждения определяется здесь как модифицируемая агентом «функция заблуждения», отображающая «немодифицированную» среду обитания на «воспринимаемую» среду кормления; функция начинается как функция идентичности , но как действие агент может изменить функцию заблуждения любым способом, которым он желает.
Цитаты
- ^ а б Рассел, Стюарт Дж .; Норвиг, Питер (2003). «Раздел 26.3: Этика и риски развития искусственного интеллекта». Искусственный интеллект: современный подход . Река Аппер Сэдл, штат Нью-Джерси: Prentice Hall. ISBN 978-0137903955.
Точно так же Марвин Мински однажды предположил, что программа ИИ, разработанная для решения гипотезы Римана, может в конечном итоге захватить все ресурсы Земли для создания более мощных суперкомпьютеров, которые помогут достичь своей цели.
- Перейти ↑ Bostrom 2014 , Глава 8, p. 123. «ИИ, предназначенный для управления производством на фабрике, ставит перед собой конечную цель - максимизировать производство скрепок и продолжает преобразовывать сначала Землю, а затем все более крупные куски наблюдаемой Вселенной в скрепки».
- ↑ a b c Bostrom 2014 , глава 7
- ^ Бостром, Ник (2003). «Этические вопросы передового искусственного интеллекта» .
- ^ Майлз, Кэтлин (22 августа 2014 г.). «Искусственный интеллект может погубить человечество в течение столетия, - говорит оксфордский профессор» . Huffington Post .
- ^ Форд, Пол (11 февраля 2015 г.). «Достаточно ли мы умны, чтобы управлять искусственным интеллектом?» . Обзор технологий Массачусетского технологического института . Проверено 25 января +2016 .
- ^ Друг, Тэд (3 октября 2016 г.). "Явная судьба Сэма Альтмана" . Житель Нью-Йорка . Проверено 25 ноября 2017 года .
- ^ Amodei, Д., Олы, К., Стейнхардт J., Кристиано~d, П., Шульман J., & Мане, D. (2016). Конкретные проблемы безопасности ИИ. Препринт arXiv arXiv: 1606.06565.
- ^ Kaelbling, LP; Литтман, М.Л .; Мур, AW (1 мая 1996 г.). «Обучение с подкреплением: обзор» . Журнал исследований искусственного интеллекта . 4 : 237–285. DOI : 10.1613 / jair.301 .
- ^ Кольцо М., Orseau Л. (2011) Заблуждение, Выживание и интеллектуальные агенты. В: Schmidhuber J., Thórisson KR, Looks M. (eds) Общий искусственный интеллект. AGI 2011. Конспект лекций по информатике, том 6830. Springer, Berlin, Heidelberg.
- ^ Ямпольский, Роман; Фокс, Джошуа (24 августа 2012 г.). «Техника безопасности для общего искусственного интеллекта». Topoi . DOI : 10.1007 / s11245-012-9128-9 .
- ^ Ямпольский, Роман В. (2013). «Что делать с парадоксом сингулярности?». Философия и теория искусственного интеллекта . Исследования в области прикладной философии, эпистемологии и рациональной этики. 5 : 397–413. DOI : 10.1007 / 978-3-642-31674-6_30 . ISBN 978-3-642-31673-9.
- ^ Омохундро, Стивен М. (февраль 2008 г.). «Основные двигатели ИИ». Общий искусственный интеллект 2008 . 171 . С. 483–492. CiteSeerX 10.1.1.393.8356 . ISBN 978-1-60750-309-5.
- ^ Сьюард, Джон П. (1956). «Драйв, стимул и подкрепление». Психологический обзор . 63 (3): 195–203. DOI : 10.1037 / h0048229 . PMID 13323175 .
- ↑ Bostrom 2014 , сноска 8 к главе 7
- ^ Дьюи, Дэниел (2011). «Изучение того, что ценить». Общий искусственный интеллект . Конспект лекций по информатике. Берлин, Гейдельберг: Springer. С. 309–314. DOI : 10.1007 / 978-3-642-22887-2_35 . ISBN 978-3-642-22887-2.
- ^ Юдковский, Элиэзер (2011). «Сложные системы ценностей в дружественном ИИ». Общий искусственный интеллект . Конспект лекций по информатике. Берлин, Гейдельберг: Springer. С. 388–393. DOI : 10.1007 / 978-3-642-22887-2_48 . ISBN 978-3-642-22887-2.
- ↑ Бостром 2014 , глава 7, стр. 110. «Мы, люди, часто кажемся счастливыми, когда наши окончательные ценности изменяются ... Например, кто-то, решивший завести ребенка, может предсказать, что они начнут ценить ребенка ради него самого, даже если во время принятия решения они могут не особо ценить своего будущего ребенка ... Люди сложны, и в подобной ситуации могут играть многие факторы ... одна может иметь окончательную ценность, которая включает в себя определенный опыт и определенную социальную роль; и стать родитель - и сопутствующее изменение цели - может быть необходимым аспектом этого ... "
- ^ Шмидхубер, младший (2009). «Абсолютное познание по Гёделю». Когнитивные вычисления . 1 (2): 177–193. CiteSeerX 10.1.1.218.3323 . DOI : 10.1007 / s12559-009-9014-у . S2CID 10784194 .
- ^ а б Хиббард, Б. (2012). «Служебные функции на основе моделей» . Журнал общего искусственного интеллекта . 3 (1): 1–24. arXiv : 1111.3934 . Bibcode : 2012JAGI .... 3 .... 1H . DOI : 10.2478 / v10229-011-0013-5 .
- ^ Хиббард, Билл (2014). «Этический искусственный интеллект». arXiv : 1411.1373 [ cs.AI ].
- ^ а б в г Бенсон-Тилсен, Цви; Соарес, Нейт (март 2016 г.). «Формализация конвергентных инструментальных целей» (PDF) . Семинары тридцатой конференции AAAI по искусственному интеллекту . Феникс, Аризона. WS-16-02: AI, этика и общество. ISBN 978-1-57735-759-9.
- ^ Юдковский, Элиэзер (2008). «Искусственный интеллект как положительный и отрицательный фактор глобального риска». Глобальные катастрофические риски . 303 . п. 333. ISBN 9780199606504.
- ^ а б Шанахан, Мюррей (2015). «Глава 7, Раздел 5:« Безопасный суперинтеллект » ». Технологическая сингулярность . MIT Press.
- ↑ Bostrom, 2014 , глава 7, подраздел «Улучшение когнитивных способностей»
- ^ Дрекслер, К. Эрик (2019). Переосмысление суперинтеллекта: комплексные службы ИИ как общий интеллект (PDF) (технический отчет). Институт будущего человечества. # 2019-1.
- ^ «Является ли искусственный интеллект угрозой?» . Хроника высшего образования . 11 сентября 2014 . Проверено 25 ноября 2017 года .
Рекомендации
- Бостром, Ник (2014). Сверхразум: пути, опасности, стратегии . Оксфорд: Издательство Оксфордского университета. ISBN 9780199678112.