Тонкая настройка (машинное обучение)


В машинном обучении тонкая настройка — это подход к передаче обучения , при котором веса предварительно обученной модели обучаются на новых данных. [1] Точная настройка может быть выполнена на всей нейронной сети или только на подмножестве ее слоев, и в этом случае слои, которые не подвергаются точной настройке, «замораживаются» (не обновляются на этапе обратного распространения ). [2] Модель также может быть дополнена «адаптерами», которые состоят из гораздо меньшего количества параметров, чем исходная модель, и точно настроены с эффективным использованием параметров путем настройки весов адаптеров и оставления остальных весов модели замороженными. . [3]

Для некоторых архитектур, таких как сверточные нейронные сети , обычно заморожены более ранние слои (ближайшие к входному слою), потому что они охватывают функции более низкого уровня, в то время как более поздние слои часто различают функции высокого уровня, которые могут быть более связаны с задача, на которой обучается модель. [2] [4]

Модели, предварительно обученные на больших и общих корпусах, обычно настраиваются путем повторного использования параметров модели в качестве отправной точки и добавления слоя для конкретной задачи, обученного с нуля. [5] Точная настройка полной модели также распространена и часто дает лучшие результаты, но требует больших вычислительных ресурсов. [6]

Тонкая настройка обычно выполняется с помощью обучения с учителем , но существуют также методы тонкой настройки модели с использованием слабого контроля . [7] Точная настройка может быть объединена с обучением с подкреплением на основе обратной связи с человеком для создания языковых моделей, таких как ChatGPT (тонкая версия GPT-3 ) и Sparrow . [8] [9]

Адаптация низкого ранга (LoRA) — это основанный на адаптере метод для эффективной тонкой настройки моделей. Основная идея состоит в том, чтобы разработать матрицу низкого ранга, которая затем добавляется к исходной матрице. [10]

Точная настройка на основе адаптера обеспечивает производительность, близкую к производительности точной настройки полной модели, при этом резко сокращая количество измененных весов, которые необходимо сохранить на диск. Языковая модель с миллиардами параметров может быть настроена LoRA с сохранением всего нескольких миллионов параметров или даже меньшего количества.