Закон нейронного масштабирования


В машинном обучении нейронный закон масштабирования — это закон масштабирования , связывающий параметры семейства нейронных сетей. [1] [2]

В целом нейронную модель можно охарактеризовать 4 параметрами: размер модели, размер обучающего набора данных, стоимость обучения, производительность после обучения. Каждая из этих четырех переменных может быть точно определена как действительное число, и эмпирически установлено, что они связаны простыми статистическими законами , называемыми «законами масштабирования».

Один конкретный закон масштабирования (« масштабирование шиншиллы ») гласит, что для большой языковой модели (LLM), авторегрессивно обученной для одной эпохи, с косинусным графиком скорости обучения , мы имеем: [3]

Статистические законы аппроксимировались по экспериментальным данным с .

Поскольку есть 4 переменные, связанные 2 уравнениями, введение 1 дополнительного ограничения и 1 дополнительной цели оптимизации позволяет нам решать для всех четырех переменных. В частности, для любого фиксированного мы можем однозначно решить для всех 4 переменных, что минимизирует . Это дает нам оптимум для любого фиксированного :

Существуют и другие оценки размера модели «эффективной шиншиллы» и размера набора обучающих данных. Вышеизложенное основано на статистической модели . Можно также напрямую подобрать статистический закон для без обхода, для чего получается: