для некоторой гладкости . Каждый шаг часто включает приблизительное решение подзадачи.
где - текущее наилучшее предположение, - направление поиска и - длина шага.
Неточный поиск по строкам обеспечивает эффективный способ вычисления приемлемой длины шага, который уменьшает целевую функцию «в достаточной степени», а не минимизирует целевую функцию с точностью до минимума . Алгоритм линейного поиска может использовать условия Вульфа в качестве требования для любого предположения перед поиском нового направления поиска .
Говорят, что длина шага удовлетворяет условиям Вульфа , ограниченным направлением , если выполняются следующие два неравенства:
с . (При рассмотрении условия (ii) напомним, что для того, чтобы убедиться, что это направление спуска, мы имеем , как и в случае градиентного спуска , где или Ньютона – Рафсона , где с положительным определением.)
обычно выбирается довольно маленьким, в то время как намного больше; Нокедал и Райт приводят примерные значения
и для методов Ньютона или квазиньютона, а также для метода нелинейных сопряженных градиентов . [3] Неравенство i) известно как правило Армиджо [4] и ii) как условие кривизны ; i) гарантирует, что длина шага уменьшается «в достаточной степени», и ii) гарантирует, что наклон был уменьшен в достаточной степени. Условия i) и ii) можно интерпретировать как обеспечивающие соответственно верхнюю и нижнюю границы допустимых значений длины шага.
Обозначим одномерную функцию, ограниченную направлением, как . Условия Вульфа могут привести к значению длины шага, не близкому к минимизатору . Если мы изменим условие кривизны на следующее,
затем я) и III) вместе образуют так называемые сильные условия Wolfe , а силы лежат близко к критической точке в .
Основная причина наложения условий Вульфа в алгоритме оптимизации заключается в обеспечении сходимости градиента к нулю. В частности, если косинус угла между и градиентом,
отделена от нуля и тогда выполняются условия i) и ii) .
Дополнительная мотивация в случае квазиньютоновского метода заключается в том, что если , если матрица обновляется по формуле BFGS или DFP , то если положительно определено, ii) подразумевает также положительно определенное.
Перейти ↑ Wolfe, P. (1969). «Условия сходимости методов восхождения». SIAM Обзор . 11 (2): 226–235. DOI : 10.1137 / 1011036 . JSTOR 2028111 .
Перейти ↑ Wolfe, P. (1971). «Условия сходимости методов восхождения. II: Некоторые исправления». SIAM Обзор . 13 (2): 185–188. DOI : 10.1137 / 1013035 .
^ Armijo, Ларри (1966). «Минимизация функций, имеющих липшицевы первые частные производные» . Pacific J. Math . 16 (1): 1–3. DOI : 10.2140 / pjm.1966.16.1 .
Дальнейшее чтение [ править ]
«Методы линейного поиска». Численная оптимизация . Серия Springer по исследованию операций и финансовому инжинирингу. 2006. С. 30–32. DOI : 10.1007 / 978-0-387-40065-5_3 . ISBN 978-0-387-30303-1.
«Квазиньютоновские методы». Численная оптимизация . Серия Springer по исследованию операций и финансовому инжинирингу. 2006. С. 135–163. DOI : 10.1007 / 978-0-387-40065-5_6 . ISBN 978-0-387-30303-1.