Управление возможностями ИИ

В области разработки искусственного интеллекта (ИИ) предложения по управлению возможностями ИИ , также называемые в более узком смысле ограничением ИИ, направлены на повышение нашей способности отслеживать и контролировать поведение систем ИИ, включая предлагаемые искусственные общие интеллекты (ИИО), в чтобы уменьшить опасность, которую они могут представлять при неправильном выравнивании . Однако контроль возможностей становится менее эффективным по мере того, как агенты становятся более интеллектуальными, а их способность использовать недостатки в системах управления людьми увеличивается, что может привести к экзистенциальному риску от ОИИ . Поэтому оксфордский философ Ник Бостром и другие рекомендуют методы управления возможностями только в качестве дополнения кметоды выравнивания . ^[1]

Постулируется, что некоторые гипотетические интеллектуальные технологии, такие как «начальный ИИ», могут сделать себя быстрее и умнее за счет изменения исходного кода. Эти улучшения сделают возможными дальнейшие улучшения, которые, в свою очередь, сделают возможными дальнейшие итерационные улучшения и так далее, что приведет к внезапному взрыву интеллекта . ^[2] Впоследствии неограниченный сверхразумный ИИ мог бы, если бы его цели отличались от целей человечества, предпринимать действия, ведущие к вымиранию человечества . ^[3] Например, чрезвычайно продвинутый компьютер такого рода, учитывая единственную цель решения гипотезы Римана, безобидная математическая гипотеза, может решить попытаться превратить планету в гигантский суперкомпьютер, единственной целью которого является выполнение дополнительных математических вычислений (см. также максимизатор скрепки ). ^[4]

Одна серьезная проблема для контроля заключается в том, что нейронные сети по умолчанию крайне не интерпретируемы. ^[5] Это затрудняет обнаружение обмана или другого нежелательного поведения. Достижения в области интерпретируемого искусственного интеллекта могут помочь смягчить эту трудность. ^[6]

Один из возможных способов предотвратить вредные последствия — дать руководителям возможность легко отключать неподобающее поведение ИИ с помощью «выключателя». Однако для достижения поставленной цели у таких ИИ будет стимул отключать любые выключатели или запускать свои копии на других компьютерах. Эта проблема была формализована как вспомогательная игра между человеком и ИИ, в которой ИИ может выбрать, отключить ли свой выключатель; а затем, если переключатель все еще включен, человек может выбрать, нажимать его или нет. ^[7]Стандартный подход к таким играм-помощникам заключается в том, чтобы гарантировать, что ИИ интерпретирует человеческий выбор как важную информацию о своих намеченных целях. ^[8]^{: 208}

В качестве альтернативы Лоран Орсо и Стюарт Армстронг доказали, что широкий класс агентов, называемых безопасно прерываемыми агентами, может научиться становиться безразличным к тому, нажат ли их выключатель. ^[9]^[10] У этого подхода есть ограничение, состоящее в том, что ИИ, который совершенно безразличен к тому, выключен он или нет, также не мотивирован заботиться о том, остается ли выключатель функциональным, и может случайно и невинно отключить его в ходе его операций (например, с целью удаления и утилизации ненужного компонента). В более широком смысле, безразличные агенты будут действовать так, как будто выключатель никогда не может быть нажат, и поэтому могут не составить план на случай непредвиденных обстоятельств, чтобы организовать плавное отключение. ^[10]^[11]