Обучение с подкреплением на основе отзывов людей


В машинном обучении обучение с подкреплением на основе отзывов человека ( RLHF ) или обучение с подкреплением на основе человеческих предпочтений — это метод, который обучает «модель вознаграждения» непосредственно на основе отзывов человека и использует эту модель в качестве функции вознаграждения для оптимизации политики агента с помощью обучения с подкреплением . (RL) с помощью алгоритма оптимизации, такого как Proximal Policy Optimization . [1] [2] Модель вознаграждения заранее обучается оптимизируемой политике, чтобы предсказывать, является ли данный результат хорошим (высокое вознаграждение) или плохим (низкое вознаграждение). RLHF может повысить надежностьи исследование агентов RL, особенно когда функция вознаграждения разрежена или зашумлена. [3]

Человеческая обратная связь собирается, когда людей просят ранжировать случаи поведения агента. [4] [5] [6] Затем эти рейтинги можно использовать для подсчета результатов, например, с помощью рейтинговой системы Эло . [2]

Проще говоря, RLHF обучает модели ИИ, изучая ответы людей о его производительности. Если модель ИИ делает прогноз или предпринимает действия, которые неверны или неоптимальны, человеческая обратная связь может быть использована для исправления ошибки или предложения лучшего ответа. Со временем это помогает модели учиться и улучшать свои ответы. RLHF используется в задачах, где трудно определить четкое алгоритмическое решение, но где люди могут легко оценить качество вывода ИИ (например, если задача состоит в том, чтобы создать убедительную историю, люди могут оценивать разные истории, созданные ИИ, по их качеству). , и ИИ может использовать их отзывы для улучшения своих навыков создания историй).

RLHF применялся к различным областям обработки естественного языка, таким как диалоговые агенты, суммирование текста и понимание естественного языка. [7] Обычное обучение с подкреплением, когда агенты учатся на своих собственных действиях на основе «функции вознаграждения», трудно применить к задачам обработки естественного языка , потому что вознаграждение часто нелегко определить или измерить, особенно при работе со сложными задачами, которые связаны с человеческими ценностями или предпочтениями. RLHF может позволить языковым моделям давать ответы, соответствующие этим сложным значениям, генерировать более подробные ответы и отклонять вопросы, которые либо неуместны, либо выходят за рамки области знаний модели. [8] Некоторыми примерами языковых моделей, обученных RLHF, являются модели OpenAI.ChatGPT и его предшественник InstructGPT, [5] [9] , а также Sparrow от DeepMind . [10]

RLHF также применялся в других областях, таких как разработка ботов для видеоигр . Например, OpenAI и DeepMind обучили агентов играть в игры Atari на основе человеческих предпочтений. [11] [12] Агенты продемонстрировали высокую эффективность во многих испытанных средах, часто превосходя возможности человека. [13]

Одной из основных проблем RLHF является масштабируемость и стоимость обратной связи с человеком, которая может быть медленной и дорогой по сравнению с неконтролируемым обучением. Качество и согласованность обратной связи с людьми также могут варьироваться в зависимости от задачи, интерфейса и индивидуальных предпочтений людей. Даже когда человеческая обратная связь возможна, модели RLHF могут по-прежнему демонстрировать нежелательное поведение, которое не фиксируется человеческой обратной связью, или использовать лазейки в модели вознаграждения, что выявляет проблемы согласования и надежности . [14]