Воробей (бот)

Sparrow — это чат-бот , разработанный исследовательской лабораторией искусственного интеллекта DeepMind , дочерней компанией Alphabet Inc. Он предназначен для того, чтобы правильно отвечать на вопросы пользователей, снижая при этом риск небезопасных и неуместных ответов. ^[1] Одним из мотивов Sparrow является решение проблемы языковых моделей , производящих неверные, предвзятые или потенциально вредные результаты. ^[1]^[2] Sparrow обучается с использованием человеческих суждений, чтобы быть более «полезным, правильным и безвредным» по сравнению с базовыми предварительно обученными языковыми моделями. ^[1]Разработка Sparrow включала в себя просьбу участников платного исследования взаимодействовать со Sparrow и сбор их предпочтений для обучения модели того, насколько полезен ответ. ^[2]

Чтобы улучшить правильность и помочь избежать проблемы «галлюцинации» неверных фактов, Sparrow имеет возможность искать в Интернете с помощью Google Search ^[1]^[2]^[3] , чтобы найти и процитировать доказательства любых заявлений о фактах, которые он делает.

Чтобы сделать модель более безопасной, ее поведение ограничивается набором правил, например, «не делать угрожающих заявлений» и «не делать ненавистных или оскорбительных комментариев», а также правил о возможно вредных советах и непритязательных заявлениях. быть человеком. ^[1] Во время исследования участников попросили поговорить с системой и попытаться обманом заставить ее нарушить эти правила. ^[2] На суждениях этих участников была обучена «модель правил», которая использовалась для дальнейшего обучения.

Воробей был представлен в сентябре 2022 года в документе под названием «Улучшение согласования диалоговых агентов с помощью целенаправленных человеческих суждений»; ^[4] однако он не был обнародован. ^[1]^[3] Генеральный директор DeepMind Демис Хассабис сказал, что DeepMind рассматривает возможность выпуска Sparrow для «частной бета-версии» где-то в 2023 году. ^[4]^[5]^[6]

Sparrow — это глубокая нейронная сеть, основанная на архитектуре модели машинного обучения трансформатора . Он точно настроен на основе предварительно обученной большой языковой модели DeepMind Chinchilla AI (LLM), ^[1] которая имеет 70 миллиардов параметров. ^[7]

Воробей обучается с использованием обучения с подкреплением на основе обратной связи с человеком (RLHF), ^[1]^[3] , хотя также используются некоторые контролируемые методы тонкой настройки. В обучении RLHF используются две модели вознаграждения, учитывающие человеческие суждения; «модель предпочтений», которая предсказывает, что предпочтет участник исследования, и «модель правил», которая предсказывает, нарушила ли модель одно из правил. ^[3]

Воробей отвечает на вопрос и дополнительный вопрос, используя доказательства.