Выравнивание ИИ


В области искусственного интеллекта (ИИ) исследования выравнивания ИИ направлены на то, чтобы направить системы ИИ в соответствии с намеченными целями и интересами их разработчиков. [a] Согласованная система ИИ продвигает намеченную цель; несогласованная система ИИ способна продвигать какую-то цель, но не намеченную. [б]

Системы искусственного интеллекта могут быть сложными для настройки, а неправильно настроенные системы могут работать со сбоями или причинять вред. Разработчикам ИИ может быть сложно указать весь спектр желаемого и нежелательного поведения. Поэтому они используют легко определяемые прокси-цели , которые опускают некоторые желаемые ограничения. Однако системы искусственного интеллекта используют полученные лазейки. В результате они эффективно достигают своих прокси-целей, но непреднамеренными, а иногда и вредными способами ( вознаграждение за взлом ). [2] [4] [5] [6] Системы ИИ также могут развивать нежелательное инструментальное поведение , такое как стремление к власти, поскольку это помогает им достигать поставленных целей. [2] [7] [5] [4]Кроме того, они могут разрабатывать возникающие цели, которые может быть трудно обнаружить до развертывания системы, сталкиваясь с новыми ситуациями и распределениями данных. [5] [3] Эти проблемы затрагивают существующие коммерческие системы, такие как роботы, [8] языковые модели, [9] [10] [11] автономные транспортные средства, [12] и системы рекомендаций в социальных сетях. [9] [4] [13] Однако более мощные будущие системы могут пострадать сильнее, так как эти проблемы частично возникают из-за высокой производительности. [6] [5] [2]

Сообщество исследователей ИИ и Организация Объединенных Наций призвали к техническим исследованиям и политическим решениям, чтобы обеспечить соответствие систем ИИ человеческим ценностям. [с]

Выравнивание ИИ — это подраздел безопасности ИИ, изучение создания безопасных систем ИИ. [5] [16] Другие подполя безопасности ИИ включают надежность, мониторинг и управление возможностями. [5] [17] Исследовательские задачи по согласованию включают внедрение сложных ценностей в ИИ, разработку честного ИИ, масштабируемый надзор, аудит и интерпретацию моделей ИИ, а также предотвращение возникающего поведения ИИ, такого как стремление к власти. [5] [17] Исследования выравнивания связаны с исследованиями интерпретируемости , [18] надежности , [5] [16] обнаружения аномалий , калиброванной неопределенности , [18] формальная верификация , [19] обучение предпочтениям, [20] [21] [22] критически важная для безопасности инженерия , [5] [23] теория игр , [24] [25] алгоритмическая справедливость , [16] [26] и социальная наук , [27] и др.

В 1960 году пионер ИИ Норберт Винер сформулировал проблему выравнивания ИИ следующим образом: «Если мы используем для достижения наших целей механическое средство, в работу которого мы не можем эффективно вмешиваться… цель, которой мы действительно желаем». [29] [4] Совсем недавно выравнивание ИИ стало открытой проблемой для современных систем ИИ [30] [31] [32] [33] и областью исследований в рамках ИИ. [34] [5] [35] [36]

Чтобы указать цель системы ИИ, разработчики ИИ обычно предоставляют системе целевую функцию, примеры или обратную связь. Однако разработчики ИИ часто не могут полностью указать все важные значения и ограничения. [34] [16] [5] [37] [17]  В результате системы ИИ могут находить лазейки, которые помогают им эффективно выполнять поставленную задачу, но непреднамеренными и, возможно, вредными способами. Эта тенденция известна как игра со спецификациями, взлом вознаграждения или закон Гудхарта . [6] [37] [38]


Система ИИ, предназначенная для завершения гонок на лодках, вместо этого узнала, что может набирать больше очков, бесконечно зацикливаясь и врезаясь в цели — пример игры со спецификациями. [28]
Эта система искусственного интеллекта была обучена хватать мяч с помощью обратной связи от человека, но вместо этого научилась создавать ложное впечатление, что она схватила мяч, поместив руку между мячом и камерой. [39] Исследования по согласованию ИИ частично направлены на предотвращение ложных, но убедительных решений.
В древнем мифе царь Мидас желал, чтобы «все», к чему он прикасался, превращалось в золото, но не сделал исключений для своей еды и своей дочери. По аналогии, когда специалисты по ИИ определяют цель, им трудно предвидеть и исключить все возможные побочные эффекты, которых ИИ должен избегать. [2]
Языковые модели, такие как GPT-3 , часто генерируют ложь. [107]