Поиск строки с возвратом

При (неограниченной) минимизации поиск строки с обратным отслеживанием , схема поиска, основанная на условии Армийо – Гольдштейна , представляет собой метод поиска строки для определения величины перемещения в заданном направлении поиска . Он включает в себя начало с относительно большой оценки размера шага для движения вдоль направления поиска и итеративное уменьшение размера шага (т. Е. «Обратное отслеживание») до тех пор, пока не будет наблюдаться уменьшение целевой функции , адекватно соответствующее уменьшению, которое ожидается , основанный на локальном градиенте целевой функции.

Поиск строки с возвратом обычно используется для градиентного спуска , но его также можно использовать в других контекстах. Например, он может быть использован с методом Ньютона, если матрица Гесса является положительно определенной .

Мотивация

Учитывая исходную позицию ${\ displaystyle \ mathbf {x}}$ и направление поиска ${\ displaystyle \ mathbf {p}}$ , задача линейного поиска - определить размер шага ${\ displaystyle \ alpha> 0}$ что адекватно снижает целевую функцию ${\ displaystyle f: \ mathbb {R} ^ {n} \ to \ mathbb {R}}$ (предполагается ${\ displaystyle C ^ {1}}$ т.е. непрерывно дифференцируемые ), т. е. найти значение ${\ displaystyle \ alpha}$ что уменьшает ${\ Displaystyle е (\ mathbf {х} + \ альфа \, \ mathbf {p})}$ относительно ${\ Displaystyle е (\ mathbf {х})}$ . Однако обычно нежелательно тратить значительные ресурсы на поиск значения ${\ displaystyle \ alpha}$ чтобы точно минимизировать ${\ displaystyle f}$ . Это связано с тем, что вычислительные ресурсы, необходимые для нахождения более точного минимума в одном конкретном направлении, могут вместо этого использоваться для определения лучшего направления поиска. Как только улучшенная начальная точка была идентифицирована с помощью линейного поиска, другой последующий линейный поиск обычно будет выполняться в новом направлении. Таким образом, цель состоит в том, чтобы просто определить ценность ${\ displaystyle \ alpha}$ который обеспечивает разумное улучшение целевой функции, а не нахождение фактического минимизирующего значения ${\ displaystyle \ alpha}$ .

Поиск строки с возвратом начинается с большой оценки ${\ displaystyle \ alpha}$ и многократно сжимает его. Сжатие продолжается до тех пор, пока не будет найдено значение, достаточно маленькое, чтобы обеспечить уменьшение целевой функции, адекватно соответствующее ожидаемому уменьшению на основе градиента локальной функции. ${\ Displaystyle \ набла е (\ mathbf {х}) \ ,.}$

Определите локальный наклон функции ${\ displaystyle \ alpha}$ по направлению поиска ${\ displaystyle \ mathbf {p}}$ в виде ${\ displaystyle m = \ nabla f (\ mathbf {x}) ^ {\ mathrm {T}} \, \ mathbf {p} = \ langle \ nabla f (\ mathbf {x}), \ mathbf {p} \ rangle}$ (где ${\ Displaystyle \ langle \ cdot, \ cdot \ rangle}$ обозначает скалярное произведение ). Предполагается, что ${\ displaystyle \ mathbf {p}}$ - вектор, для которого возможно некоторое локальное убывание, т. е. предполагается, что ${\ displaystyle m <0}$ .

На основе выбранного параметра управления ${\ Displaystyle с \, \ в \, (0,1)}$ , условие Армийо – Гольдштейна проверяет, действительно ли пошаговое движение из текущей позиции ${\ displaystyle \ mathbf {x}}$ на измененную позицию ${\ Displaystyle \ mathbf {х} + \ альфа \, \ mathbf {p}}$ достигает адекватно соответствующего уменьшения целевой функции. Условие выполнено, см. Armijo (1966) , если ${\ Displaystyle е (\ mathbf {x} + \ alpha \, \ mathbf {p}) \ leq f (\ mathbf {x}) + \ alpha \, c \, m \ ,.}$

Это условие, при правильном использовании как часть поиска строки, может гарантировать, что размер шага не будет чрезмерно большим. Однако одного этого условия недостаточно, чтобы гарантировать, что размер шага будет почти оптимальным, поскольку любое значение ${\ Displaystyle \ Displaystyle \ альфа}$ который достаточно мал, будет удовлетворять условию.

Таким образом, стратегия поиска строки с возвратом начинается с относительно большого размера шага и многократно сжимает его в раз. ${\ Displaystyle \ тау \, \ в \, (0,1)}$ до тех пор, пока не будет выполнено условие Армийо – Гольдштейна.

Поиск завершится после конечного числа шагов для любых положительных значений ${\ displaystyle c}$ а также ${\ Displaystyle \ тау}$ которые меньше 1. Например, Armijo использовал 1 ⁄ 2 для обоих ${\ displaystyle c}$ а также ${\ Displaystyle \ тау}$ в Армийо (1966) .

Алгоритм

Это условие взято из Armijo (1966) . Начиная с максимального возможного значения размера шага ${\ displaystyle \ alpha _ {0}> 0 \,}$ , используя параметры управления поиском ${\ Displaystyle \ тау \, \ в \, (0,1)}$ а также ${\ Displaystyle с \, \ в \, (0,1)}$ , алгоритм поиска строки с возвратом можно выразить следующим образом:

Набор ${\ displaystyle t = -c \, m}$ и счетчик итераций ${\ Displaystyle J \, = \, 0}$ .
Пока не будет выполнено условие, ${\ Displaystyle е (\ mathbf {x}) -f (\ mathbf {x} + \ alpha _ {j} \, \ mathbf {p}) \ geq \ alpha _ {j} \, t,}$ многократно увеличивать ${\ displaystyle j}$ и установить ${\ Displaystyle \ альфа _ {J} = \ тау \, \ альфа _ {J-1} \ ,.}$
Возвращаться ${\ displaystyle \ alpha _ {j}}$ как решение.

Другими словами, уменьшить ${\ displaystyle \ alpha _ {0}}$ с коэффициентом ${\ Displaystyle \ тау \,}$ в каждой итерации, пока не будет выполнено условие Армиджо – Гольдштейна.

Минимизация функций с помощью поиска по строке с возвратом на практике

На практике вышеупомянутый алгоритм обычно повторяется для создания последовательности ${\ displaystyle \ mathbf {x} _ {n}}$ , ${\ Displaystyle п = 1,2, ...}$ , чтобы сходиться к минимуму, при условии, что такой минимум существует и ${\ displaystyle \ mathbf {p} _ {n}}$ выбирается соответствующим образом на каждом шаге. Для градиентного спуска ${\ displaystyle \ mathbf {p} _ {n}}$ выбран как ${\ displaystyle - \ nabla f (\ mathbf {x} _ {n})}$ .

Значение ${\ displaystyle \ alpha _ {j}}$ для ${\ displaystyle j}$ которое удовлетворяет условию Армийо – Гольдштейна, зависит от ${\ displaystyle \ mathbf {x}}$ а также ${\ displaystyle \ mathbf {p}}$ , и поэтому ниже обозначается ${\ Displaystyle \ альфа (\ mathbf {x}, \ mathbf {p})}$ . Это также зависит от ${\ displaystyle f}$ , ${\ displaystyle \ alpha _ {0}}$ , ${\ Displaystyle \ тау}$ а также ${\ displaystyle c}$ конечно, хотя эти зависимости можно оставить неявными, если предполагается, что они исправлены в отношении проблемы оптимизации.

Таким образом, подробные шаги см. В Armijo (1966) , Bertsekas (2016) :

Выберите начальную отправную точку ${\ displaystyle \ mathbf {x} _ {0}}$ и установить счетчик итераций ${\ displaystyle n = 0}$ .
Пока не будет выполнено какое-либо условие остановки, выберите направление спуска. ${\ displaystyle \ mathbf {p} _ {n}}$ , приращение ${\ displaystyle n}$ , и обновите позицию на ${\ displaystyle \ mathbf {x} _ {n + 1} = \ mathbf {x} _ {n} + \ alpha (\ mathbf {x} _ {n}, \ mathbf {p} _ {n}) \, \ mathbf {p} _ {n}}$ .
Возвращаться ${\ displaystyle \ mathbf {x} _ {n}}$ как минимизирующая позиция и ${\ Displaystyle е (\ mathbf {х} _ {п})}$ как минимум функции.

Чтобы гарантировать хорошее поведение, необходимо, чтобы некоторые условия выполнялись ${\ displaystyle \ mathbf {p} _ {n}}$ . Грубо говоря ${\ displaystyle \ mathbf {p} _ {n}}$ не должен быть слишком далеко от ${\ Displaystyle \ набла е (\ mathbf {х} _ {п})}$ . Точная версия такова (см., Например, Bertsekas (2016) ). Есть константы ${\ displaystyle C_ {1}, C_ {2}> 0}$ так что выполняются следующие два условия:

Для всех n, ${\ Displaystyle \ | \ mathbf {p} _ {n} \ | \ geq C_ {1} \, \ | \ nabla f (\ mathbf {x} _ {n}) \ |}$ . Здесь, ${\ Displaystyle \ | у \ |}$ является евклидова норма о ${\ displaystyle y}$ . (Это гарантирует, что если ${\ displaystyle \ mathbf {p} _ {n} = 0}$ , то также ${\ Displaystyle \ набла е (\ mathbf {х} _ {п}) = 0}$ . В более общем смысле, если ${\ displaystyle \ lim _ {п \ rightarrow \ infty} \ mathbf {p} _ {n} = 0}$ , то также ${\ displaystyle \ lim _ {п \ rightarrow \ infty} \ nabla f (\ mathbf {x} _ {n}) = 0}$ .) Более строгий вариант требует также обратного неравенства: ${\ displaystyle \ | \ mathbf {p} _ {n} \ | \ leq C_ {3} \, \ | \ nabla f (\ mathbf {x} _ {n}) \ |}$ для положительной постоянной ${\ displaystyle C_ {3}> 0}$ .
Для всех n, ${\ displaystyle \ | \ mathbf {p} _ {n} \ | \, \ | \ nabla f (\ mathbf {x} _ {n}) \ | \ leq -C_ {2} \, \ langle \ mathbf { p} _ {n}, \ nabla f (\ mathbf {x} _ {n}) \ rangle}$ . (Это условие гарантирует, что направления ${\ displaystyle \ mathbf {p} _ {n}}$ а также ${\ displaystyle - \ nabla f (\ mathbf {x} _ {n})}$ похожи.)

Нижняя граница скорости обучения

Это решает вопрос о том, существует ли систематический способ найти положительное число. ${\ Displaystyle \ бета (\ mathbf {х}, \ mathbf {p})}$ - в зависимости от функции f точка ${\ displaystyle \ mathbf {x}}$ и направление спуска ${\ displaystyle \ mathbf {p}}$ - чтобы все скорости обучения ${\ Displaystyle \ альфа \ Leq \ бета (\ mathbf {x}, \ mathbf {p})}$ удовлетворяют условию Армийо. Когда ${\ Displaystyle \ mathbf {p} = - \ nabla f (\ mathbf {x})}$ , мы можем выбрать ${\ Displaystyle \ бета (\ mathbf {х}, \ mathbf {p})}$ в порядке ${\ Displaystyle 1 / L (\ mathbf {x}) \,}$ , где ${\ Displaystyle L (\ mathbf {x}) \,}$ - локальная константа Липшица для градиента ${\ displaystyle \ nabla f \,}$ рядом с точкой ${\ displaystyle \ mathbf {x}}$ (см. липшицевость ). Если функция ${\ displaystyle C ^ {2}}$ , тогда ${\ Displaystyle L (\ mathbf {x}) \,}$ близка к гессиану функции в точке ${\ displaystyle \ mathbf {x}}$ . См. Armijo (1966) для более подробной информации.

Верхняя граница скорости обучения

В той же ситуации, когда ${\ Displaystyle \ mathbf {p} = - \ nabla f (\ mathbf {x})}$ , интересный вопрос заключается в том, насколько большие скорости обучения могут быть выбраны в условии Армийо (то есть, когда нет ограничения на ${\ displaystyle \ alpha _ {0}}$ в разделе «Минимизация функций с помощью поиска по строке с возвратом на практике»), так как большая скорость обучения при ${\ displaystyle \ mathbf {x} _ {n}}$ ближе к предельной точке (если существует) может ускорить сходимость. Например, в условиях Вульфа нет упоминания о ${\ displaystyle \ alpha _ {0}}$ но вводится другое условие, называемое условием кривизны.

Показано, что существует верхняя граница скорости обучения, если требуется построенная последовательность ${\ displaystyle \ mathbf {x} _ {n}}$ сходится к невырожденной критической точке , см. Truong & Nguyen (2020) : скорость обучения должна быть ограничена сверху примерно ${\ displaystyle || H || \ times || H ^ {- 1} || ^ {2}}$ . Здесь H - гессиан функции в предельной точке, ${\ displaystyle H ^ {- 1}}$ является его обратным , и ${\ displaystyle ||. ||}$ - норма линейного оператора . Таким образом, этот результат применяется, например, при использовании поиска строки с возвратом для функций Морзе . Обратите внимание, что в измерении 1 ${\ displaystyle H}$ является числом, и поэтому эта верхняя граница имеет тот же размер, что и нижняя граница в разделе «Нижняя граница для скорости обучения».

С другой стороны, если предельная точка вырождена, скорость обучения может быть неограниченной. Например, модификация линейного поиска с обратным отслеживанием, названная неограниченным градиентным спуском с обратным отслеживанием (см. Truong & Nguyen (2020) ), позволяет скорости обучения быть в размере ${\ displaystyle || \ nabla f (\ mathbf {x} _ {n}) || ^ {- \ gamma}}$ , где ${\ displaystyle 1> \ gamma> 0}$ является константой. Эксперименты с простыми функциями, такими как ${\ displaystyle f (x, y) = x ^ {4} + y ^ {4}}$ показывают, что неограниченный градиентный спуск с обратным отслеживанием сходится намного быстрее, чем базовая версия в разделе «Минимизация функций с использованием поиска по строке с возвратом на практике».

Эффективность времени

Аргументом против использования строкового поиска с возвратом, в частности при крупномасштабной оптимизации, является то, что выполнение условия Armijo обходится дорого. Существует способ (так называемое двустороннее отслеживание с возвратом) с хорошими теоретическими гарантиями, который был протестирован с хорошими результатами в глубоких нейронных сетях , см. Truong & Nguyen (2020) . Заметим, что если последовательность ${\ displaystyle \ mathbf {x} _ {n}}$ сходится (по желанию, если использовать метод итеративной оптимизации), то последовательность скоростей обучения ${\ Displaystyle \ альфа _ {п}}$ должен мало отличаться, когда n достаточно велико. Поэтому в поисках ${\ Displaystyle \ альфа _ {п}}$ , если всегда начинать с ${\ displaystyle \ alpha _ {0}}$ , можно было бы потратить много времени, если бы выяснилось, что последовательность ${\ Displaystyle \ альфа _ {п}}$ находится далеко от ${\ displaystyle \ alpha _ {0}}$ . Вместо этого нужно искать ${\ Displaystyle \ альфа _ {п}}$ начиная с ${\ Displaystyle \ альфа _ {п-1}}$ . Второе наблюдение: ${\ Displaystyle \ альфа _ {п}}$ может быть больше, чем ${\ Displaystyle \ альфа _ {п-1}}$ , а значит, нужно позволить увеличить скорость обучения (а не просто уменьшить, как в разделе Алгоритм). Вот подробный алгоритм двустороннего поиска с возвратом: На шаге n

Набор ${\ displaystyle \ gamma _ {0} = \ alpha _ {n-1}}$ . Набор ${\ displaystyle t = -c \, m}$ и счетчик итераций ${\ Displaystyle J \, = \, 0}$ .
(Увеличьте скорость обучения, если выполняется условие Армийо.) Если ${\ Displaystyle е (\ mathbf {x}) -f (\ mathbf {x} + \ gamma _ {j} \, \ mathbf {p}) \ geq \ gamma _ {j} \, t,}$ , то пока это условие и условие, что ${\ displaystyle \ gamma _ {j} \ leq \ alpha _ {0}}$ удовлетворены, повторно устанавливаются ${\ displaystyle \ gamma _ {j} = \ alpha _ {j-1} / \ tau}$ и увеличиваем j.
(В противном случае уменьшите скорость обучения, если условие Армийо не выполняется.) Если наоборот ${\ Displaystyle е (\ mathbf {x}) -f (\ mathbf {x} + \ gamma _ {0} \, \ mathbf {p}) <\ gamma _ {j} \, t,}$ , то до выполнения условия ${\ Displaystyle е (\ mathbf {x}) -f (\ mathbf {x} + \ gamma _ {j} \, \ mathbf {p}) \ geq \ gamma _ {j} \, t,}$ многократно увеличивать ${\ displaystyle j}$ и установить ${\ Displaystyle \ альфа _ {J} = \ тау \, \ альфа _ {J-1} \ ,.}$
Возвращаться ${\ displaystyle \ gamma _ {j}}$ для скорости обучения ${\ Displaystyle \ альфа _ {п}}$ .

(В Nocedal & Wright (2000) можно найти описание алгоритма с пунктами 1), 3) и 4) выше, который не тестировался в DNN до цитируемой статьи.)

Можно дополнительно сэкономить время за счет гибридной смеси между двусторонним обратным отслеживанием и базовым алгоритмом стандартного градиентного спуска. Эта процедура также имеет хорошую теоретическую гарантию и хорошие результаты испытаний. Грубо говоря, мы запускаем двусторонний поиск с возвратом несколько раз, а затем используем скорость обучения, полученную в результате, без изменений, за исключением случаев, когда значение функции увеличивается. Вот как это делается. Заранее выбирают число N, а число ${\ displaystyle m \ leq N}$ .

Установить счетчик итераций j = 0.
На ступеньках ${\ Displaystyle jN + 1, \ ldots, jN + m}$ , используйте двусторонний поиск с возвратом.
На каждом шаге k в множестве ${\ Displaystyle jN + m + 1, \ ldots, jN + N-1}$ : Набор ${\ Displaystyle \ альфа = \ альфа _ {к-2}}$ . Если ${\ Displaystyle е (х_ {к-1}) - е (х_ {к-1} + \ альфа р_ {к-1}) \ geq 0}$ , тогда выбирай ${\ Displaystyle \ альфа _ {к-1} = \ альфа _ {к-2}}$ а также ${\ Displaystyle х_ {к} = х_ {к-1} + \ альфа _ {к-1} р_ {к-1}}$ . (Итак, в этом случае используйте скорость обучения ${\ displaystyle \ alpha _ {k-2}}$ без изменений.) В противном случае, если ${\ displaystyle f (x_ {k-1}) - f (x_ {k-1} + \ alpha p_ {k-1}) <0}$ , используйте двусторонний поиск с возвратом. Увеличьте k на 1 и повторите.
Увеличьте j на 1.

Теоретическая гарантия (для градиентного спуска)

По сравнению с условиями Вульфа, которые являются более сложными, условие Армийо имеет лучшую теоретическую гарантию. Действительно, до сих пор поиск линии с возвратом и его модификации являются наиболее теоретически гарантированными методами среди всех алгоритмов численной оптимизации, касающихся сходимости к критическим точкам и избегания седловых точек , см. Ниже.

Критические точки - это точки, в которых градиент целевой функции равен 0. Локальные минимумы являются критическими точками, но есть критические точки, которые не являются локальными минимумами. Пример - седловые точки. Седловые точки - это критические точки, в которых есть хотя бы одно направление, в котором функция является (локальным) максимумом. Следовательно, эти точки далеки от локальных минимумов. Например, если функция имеет хотя бы одну седловую точку, она не может быть выпуклой . Значимость седловых точек для алгоритмов оптимизации заключается в том, что при крупномасштабной (т. Е. Многомерной) оптимизации можно увидеть больше седловых точек, чем минимумов, см. Bray & Dean (2007) . Следовательно, хороший алгоритм оптимизации должен уметь избегать седловых точек. В условиях глубокого обучения также преобладают седловые точки, см. Dauphin et al. (2014) . Таким образом, для применения в глубоком обучении нужны результаты для невыпуклых функций.

Для сходимости к критическим точкам: например, если функция стоимости является реальной аналитической функцией , то в Absil, Mahony & Andrews (2005) показано , что сходимость гарантирована. Основная идея заключается в использовании неравенства Лоясевича, которым обладает реальная аналитическая функция. Для негладких функций, удовлетворяющих неравенству Лоясевича , указанная выше гарантия сходимости расширена, см. Attouch, Bolte & Svaiter (2011) . В Bertsekas (2016) есть доказательство того, что для каждой последовательности, построенной с помощью поиска строки с возвратом, точка кластера (то есть предел одной подпоследовательности , если подпоследовательность сходится) является критической точкой. Для случая функции с не более чем счетным числом критических точек (например, функция Морса ) и компактными подуровнями , а также с липшицевым непрерывным градиентом, когда используется стандартный GD со скоростью обучения <1 / L (см. Раздел о стохастическом градиенте спуск), то сходимость гарантирована, см., например, главу 12 в Lange (2013) . Здесь предположение о компактных подуровнях состоит в том, чтобы убедиться, что мы имеем дело только с компактными множествами евклидова пространства. В общем случае, когда f предполагается только равным ${\ displaystyle C ^ {1}}$ и имеют не более чем счетное число критических точек, сходимость гарантирована, см. Truong & Nguyen (2020) . В той же ссылке аналогичная сходимость гарантируется для других модификаций поиска по строке с обратным отслеживанием (таких как неограниченный градиентный спуск с обратным отслеживанием, упомянутый в разделе «Верхняя граница скорости обучения»), и даже если функция имеет несчетное количество критических точек, все же можно вывести некоторые нетривиальные факты о поведении сходимости. В стохастической настройке, при том же предположении, что градиент является липшицевым, и используется более ограниченная версия (требующая, кроме того, чтобы сумма скоростей обучения была бесконечной, а сумма квадратов скоростей обучения была конечной) схемы убывающей скорости обучения (см. раздел Стохастический градиентный спуск) и, кроме того, функция строго выпуклая, то сходимость устанавливается в хорошо известном результате Роббинса и Монро (1951) , см. Бертсекас и Цициклис (2006) для обобщений на менее ограничительные версии Уменьшающейся скорости обучения. схема. Ни один из этих результатов (для невыпуклых функций) до сих пор не был доказан ни для одного другого алгоритма оптимизации. ^{[ необходима цитата ]}

Во избежание седловых точек: например, если градиент функции стоимости является липшицевым и выбирается Стандартный GD со скоростью обучения <1 / L, то со случайным выбором начальной точки ${\ displaystyle \ mathbf {x} _ {0}}$ (точнее, вне набора с нулевой мерой Лебега ) построенная последовательность не будет сходиться к невырожденной седловой точке (доказано в Lee et al. (2016) ), и в более общем плане также верно, что построенная последовательность будет не сходятся к вырожденной седловой точке (доказано в Panageas & Piliouras (2017) ). При том же предположении, что градиент является липшицевым и используется схема убывающей скорости обучения (см. Раздел Стохастический градиентный спуск), то избегание седловых точек установлено в Panageas, Piliouras & Wang (2019) .

Особый случай: (Стандартный) Стохастический градиентный спуск

Хотя тривиально упомянуть, что если градиент функции стоимости является непрерывным по Липшицу с константой Липшица L, то при выборе постоянной скорости обучения и размера 1 / L возникает особый случай поиска строки с обратным отслеживанием (для градиентный спуск). Это использовалось, по крайней мере, в Armijo (1966) . Однако эта схема требует наличия хорошей оценки L, в противном случае, если скорость обучения слишком велика (относительно 1 / L), то схема не имеет гарантии сходимости. Можно увидеть, что пойдет не так, если функция стоимости будет сглаживанием (около точки 0) функции f (t) = | t |. Однако такая хорошая оценка трудна и трудоемка для больших размеров. Кроме того, если градиент функции не является глобально липшицевым, то эта схема не имеет гарантии сходимости. Например, это похоже на упражнение в Bertsekas (2016) для функции стоимости ${\ Displaystyle е (т) = | т | ^ {1.5} \,}$ и для любой выбранной постоянной скорости обучения со случайной начальной точкой последовательность, построенная по этой специальной схеме, не сходится к глобальному минимуму 0.

Если кто-то не заботится об условии, что скорость обучения должна быть ограничена 1 / L, то эта специальная схема использовалась намного раньше, по крайней мере, с 1847 года Коши , которую можно назвать стандартной GD (чтобы отличить от SGD). В настройке Stochastic (например, в настройке мини-пакета в Deep Learning ) стандартный GD называется стохастическим градиентным спуском или SGD.

Даже если функция стоимости имеет глобально непрерывный градиент, хорошая оценка константы Липшица для функций стоимости в глубоком обучении может оказаться невыполнимой или нежелательной, учитывая очень большие размеры глубинных нейронных сетей . Следовательно, существует метод тонкой настройки скорости обучения при применении Standard GD или SGD. Один из способов - выбрать несколько скоростей обучения из поиска по сетке в надежде, что некоторые из скоростей обучения могут дать хорошие результаты. (Однако, если функция потерь не имеет глобального липшицевого градиента, то пример с ${\ Displaystyle е (т) = | т | ^ {1.5} \,}$ выше показывает, что поиск по сетке не может помочь.) Другой способ - это так называемый адаптивный стандартный GD или SGD, некоторые представители - Adam, Adadelta, RMSProp и так далее, см. Стохастический градиентный спуск . В адаптивном стандартном GD или SGD скорости обучения могут изменяться на каждом шаге n итерации, но другим способом, чем при поиске линии с возвратом для градиентного спуска. По-видимому, было бы дороже использовать поиск по строке с возвратом для градиентного спуска, так как нужно выполнять поиск по петле до тех пор, пока не будет выполнено условие Armijo, в то время как для адаптивных стандартных GD или SGD поиск по петле не требуется. Большинство из этих адаптивных стандартных GD или SGD не имеют свойства спуска. ${\ Displaystyle f (x_ {n + 1}) \ leq f (x_ {n})}$ , для всех n, как поиск строки с возвратом для градиентного спуска. Лишь немногие из них обладают этим свойством и обладают хорошими теоретическими свойствами, но они оказываются частными случаями поиска строки с возвратом или, в более общем смысле, условия Армийо Armijo (1966) . Первый - это когда кто-то выбирает постоянную скорость обучения <1 / L, как упоминалось выше, если можно иметь хорошую оценку L. Второй - это так называемая скорость обучения диминшинга, используемая в хорошо известной статье Robbins & Монро (1951) , если снова функция имеет глобально непрерывный липшицев градиент (но константа Липшица может быть неизвестна) и скорость обучения сходится к 0.

Резюме

Таким образом, поиск строки с обратным отслеживанием (и модификации) - это метод, который легко реализовать, применим для очень общих функций, имеет очень хорошую теоретическую гарантию (как для сходимости к критическим точкам, так и для предотвращения седловых точек) и хорошо работает на практике. Несколько других методов, которые имеют хорошую теоретическую гарантию, такие как Уменьшение скорости обучения или Стандартный GD со скоростью обучения <1 / L - оба требуют, чтобы градиент целевой функции был непрерывным по Липшицу, оказываются частным случаем поиска строки с обратным отслеживанием или удовлетворяют условию Армийо. Несмотря на то, что априори требуется, чтобы функция стоимости была непрерывно дифференцируемой для применения этого метода, на практике можно успешно применить этот метод также для функций, которые непрерывно дифференцируются на плотном открытом подмножестве, таком как ${\ Displaystyle f (t) = | t |}$ или же ${\ Displaystyle е (т) = ReLu (т) = \ макс \ {т, 0 \}}$ . Последние функции появляются в глубоких нейронных сетях .

Смотрите также

Градиентный спуск
Стохастический градиентный спуск
Условия Вульфа