Закон нейронного масштабирования

В машинном обучении нейронный закон масштабирования — это закон масштабирования , связывающий параметры семейства нейронных сетей. ^[1]^[2]

В целом нейронную модель можно охарактеризовать 4 параметрами: размер модели, размер обучающего набора данных, стоимость обучения, производительность после обучения. Каждая из этих четырех переменных может быть точно определена как действительное число, и эмпирически установлено, что они связаны простыми статистическими законами , называемыми «законами масштабирования».

Один конкретный закон масштабирования (« масштабирование шиншиллы ») гласит, что для большой языковой модели (LLM), авторегрессивно обученной для одной эпохи, с косинусным графиком скорости обучения , мы имеем: ^[3]

Статистические законы аппроксимировались по экспериментальным данным с . ${\ displaystyle N \ in [7 \ times 10 ^ {7}, 1,6 \ times 10 ^ {10}], D \ in [5 \ times 10 ^ {9}, 5 \ times 10 ^ {11}], C \в [10^{18},10^{24}]}$

Поскольку есть 4 переменные, связанные 2 уравнениями, введение 1 дополнительного ограничения и 1 дополнительной цели оптимизации позволяет нам решать для всех четырех переменных. В частности, для любого фиксированного мы можем однозначно решить для всех 4 переменных, что минимизирует . Это дает нам оптимум для любого фиксированного : ${\ Displaystyle С}$ ${\ Displaystyle L}$ ${\ displaystyle D_ {opt} (C), N_ {opt} (C)}$ ${\ Displaystyle С}$

Существуют и другие оценки размера модели «эффективной шиншиллы» и размера набора обучающих данных. Вышеизложенное основано на статистической модели . Можно также напрямую подобрать статистический закон для без обхода, для чего получается: ${\ displaystyle L = {\ frac {A} {N ^ {\ alpha}}} + {\ frac {B} {D ^ {\ beta}}} + L_ {0}}$ ${\ displaystyle D_ {opt} (C), N_ {opt} (C)}$