Квазиньютоновский метод

Квазиньютоновские методы - это методы, используемые для поиска нулей или локальных максимумов и минимумов функций в качестве альтернативы методу Ньютона. Их можно использовать, если якобиан или гессиан недоступны или слишком дороги для вычисления на каждой итерации. «Полный» метод Ньютона требует якобиана для поиска нулей или гессиана для поиска экстремумов.

Поиск нулей: поиск корней

Метод Ньютона для нахождения нулей функции ${\ displaystyle g}$ нескольких переменных задается ${\ displaystyle x_ {n + 1} = x_ {n} - [J_ {g} (x_ {n})] ^ {- 1} g (x_ {n})}$ , где ${\ displaystyle [J_ {g} (x_ {n})] ^ {- 1}}$ является левым обратным к матрице Якоби ${\ displaystyle J_ {g} (x_ {n})}$ из ${\ displaystyle g}$ оценивается для ${\ displaystyle x_ {n}}$ .

Строго говоря, любой метод, заменяющий точный якобиан ${\ displaystyle J_ {g} (x_ {n})}$ с приближением - это квазиньютоновский метод. ^[1] Например, метод аккорда (где ${\ displaystyle J_ {g} (x_ {n})}$ заменяется на ${\ displaystyle J_ {g} (x_ {0})}$ для всех итераций) - простой пример. Приведенные ниже методы оптимизации относятся к важному подклассу квазиньютоновских методов - методам секущих. ^[2]

Использование методов, разработанных для поиска экстремумов, для поиска нулей не всегда является хорошей идеей, поскольку большинство методов, используемых для поиска экстремумов, требуют, чтобы используемая матрица была симметричной. Хотя это верно в контексте поиска экстремумов, это редко выполняется при поиске нулей. «Хороший» и «плохой» методы Бройдена - это два метода, обычно используемых для поиска экстремумов, которые также могут применяться для поиска нулей. Другие методы , которые могут быть использованы , являются колонного обновления метод , то метод обратной колонного обновление , то квазиньютоновский метод наименьших квадратов и квазиньютоновский обратным методом наименьших квадратов .

Совсем недавно квазиньютоновские методы стали применяться для поиска решения множественных связанных систем уравнений (например, задач взаимодействия жидкость-структура или задач взаимодействия в физике). Они позволяют найти решение, решая каждую составляющую систему отдельно (что проще, чем глобальная система) циклическим, итеративным способом, пока не будет найдено решение глобальной системы. ^[2]^[3]

Поиск экстремумов: оптимизация

Отметив, что поиск минимума или максимума скалярнозначной функции - это не что иное, как поиск нулей градиента этой функции, квазиньютоновские методы могут быть легко применены для поиска экстремумов функции. Другими словами, если ${\ displaystyle g}$ это градиент ${\ displaystyle f}$ , затем поиск нулей вектор-функции ${\ displaystyle g}$ соответствует поиску экстремумов скалярнозначной функции ${\ displaystyle f}$ ; якобиан ${\ displaystyle g}$ теперь становится гессенской ${\ displaystyle f}$ . Основное отличие состоит в том, что матрица Гессе является симметричной матрицей , в отличие от якобиана при поиске нулей . Большинство квазиньютоновских методов, используемых при оптимизации, используют это свойство.

В оптимизации , методы квазиньютоновские (частный случай из методов переменных-метрики ) являются алгоритмами для нахождения локального максимума и минимума из функций . Квазиньютоновские методы основаны на методе Ньютона для поиска стационарной точки функции, где градиент равен 0. Метод Ньютона предполагает, что функция может быть локально аппроксимирована квадратичной функцией в области около оптимума, и использует первый и второй производные, чтобы найти стационарную точку. В более высоких измерениях метод Ньютона использует градиент и матрицу Гессе вторых производных функции, которую необходимо минимизировать.

В квазиньютоновских методах вычисление матрицы Гессе не требуется. Гессен обновляется путем анализа последовательных векторов градиента. Квазиньютоновские методы являются обобщением метода секущих для нахождения корня первой производной для многомерных задач. В нескольких измерениях секущее уравнения недоопределенное , а также методы квазиньютоновские отличаются тем , как они ограничивают решение, как правило , путем добавления простого обновления низкого ранга с текущей оценкой гессиана.

Первый квазиньютоновский алгоритм был предложен Уильямом К. Дэвидоном , физиком, работающим в Аргоннской национальной лаборатории . Он разработал первый квазиньютоновский алгоритм в 1959 году: формулу обновления DFP , которая позже была популяризирована Флетчером и Пауэллом в 1963 году, но сегодня используется редко. Наиболее распространенными квазиньютоновскими алгоритмами в настоящее время являются формула SR1 (для «симметричного ранга один»), метод BHHH , широко распространенный метод BFGS (независимо предложенный Бройденом, Флетчером, Голдфарбом и Шанно в 1970 году) и его низкий -расширение памяти L-BFGS . Класс Бройдена представляет собой линейную комбинацию методов DFP и BFGS.

Формула SR1 не гарантирует, что матрица обновления будет поддерживать положительную определенность, и может использоваться для неопределенных проблем. Метод Бройдена не требует, чтобы матрица обновления была симметричной, и используется для нахождения корня общей системы уравнений (а не градиента) путем обновления якобиана (а не гессиана).

Одним из главных преимуществ квазиньютоновских методов перед методом Ньютона является то, что матрица Гессе (или, в случае квазиньютоновских методов, ее аппроксимация) ${\ displaystyle B}$ переворачивать не нужно. Метод Ньютона и его производные, такие как методы внутренней точки , требуют инвертирования гессиана, что обычно реализуется путем решения системы линейных уравнений и часто является довольно дорогостоящим. Напротив, квазиньютоновские методы обычно дают оценку ${\ displaystyle B ^ {- 1}}$ напрямую.

Как и в методе Ньютона, для нахождения минимума функции используется приближение второго порядка. ${\ displaystyle f (x)}$ . Ряд Тейлора из ${\ displaystyle f (x)}$ вокруг итерации

{\ Displaystyle f (x_ {k} + \ Delta x) \ приблизительно f (x_ {k}) + \ nabla f (x_ {k}) ^ {\ mathrm {T}} \, \ Delta x + {\ frac { 1} {2}} \ Delta x ^ {\ mathrm {T}} B \, \ Delta x,}

где ( ${\ displaystyle \ nabla f}$ ) - градиент , а ${\ displaystyle B}$ приближение к матрице Гессе . ^[4] Градиент этого приближения (относительно ${\ displaystyle \ Delta x}$ ) является

{\ displaystyle \ nabla f (x_ {k} + \ Delta x) \ приблизительно \ nabla f (x_ {k}) + B \, \ Delta x,}

и установка этого градиента на ноль (что является целью оптимизации) обеспечивает шаг Ньютона:

{\ displaystyle \ Delta x = -B ^ {- 1} \ nabla f (x_ {k}).}

Гессенское приближение ${\ displaystyle B}$ выбран, чтобы удовлетворить

{\ displaystyle \ nabla f (x_ {k} + \ Delta x) = \ nabla f (x_ {k}) + B \, \ Delta x,}

которое называется секущим уравнением (ряд Тейлора самого градиента). Более чем в одном измерении ${\ displaystyle B}$ является недоопределенной . В одном измерении решение для ${\ displaystyle B}$ и применение шага Ньютона с обновленным значением эквивалентно методу секущей . Различные квазиньютоновские методы различаются выбором решения секущего уравнения (в одном измерении все варианты эквивалентны). Большинство методов (но с исключениями, такими как метод Бройдена ) ищут симметричное решение ( ${\ displaystyle B ^ {T} = B}$ ); кроме того, варианты, перечисленные ниже, могут быть мотивированы поиском обновления ${\ displaystyle B_ {k + 1}}$ это как можно ближе к ${\ displaystyle B_ {k}}$ в какой-то норме ; это, ${\ displaystyle B_ {k + 1} = \ operatorname {argmin} _ {B} \ | B-B_ {k} \ | _ {V}}$ , где ${\ displaystyle V}$ - некоторая положительно определенная матрица , определяющая норму. Примерное начальное значение ${\ displaystyle B_ {0} = \ beta I}$ часто бывает достаточно для достижения быстрой сходимости, хотя нет общей стратегии выбора ${\ displaystyle \ beta}$ . ^[5] Обратите внимание, что ${\ displaystyle B_ {0}}$ должно быть положительно-определенным. Неизвестный ${\ displaystyle x_ {k}}$ обновляется с применением шага Ньютона, рассчитанного с использованием текущей приближенной матрицы Гессе ${\ displaystyle B_ {k}}$ :

${\ displaystyle \ Delta x_ {k} = - \ alpha _ {k} B_ {k} ^ {- 1} \ nabla f (x_ {k})}$ , с участием ${\ displaystyle \ alpha}$ выбран так, чтобы удовлетворять условиям Вульфа ;
${\ displaystyle x_ {k + 1} = x_ {k} + \ Delta x_ {k}}$ ;
Градиент, вычисленный в новой точке ${\ Displaystyle \ набла е (х_ {к + 1})}$ , а также

{\ displaystyle y_ {k} = \ nabla f (x_ {k + 1}) - \ nabla f (x_ {k})}

используется для обновления приблизительного гессенского ${\ displaystyle B_ {k + 1}}$ , или прямо обратное ${\ displaystyle H_ {k + 1} = B_ {k + 1} ^ {- 1}}$ по формуле Шермана – Моррисона .

Ключевым свойством обновлений BFGS и DFP является то, что если ${\ displaystyle B_ {k}}$ положительно определен, и ${\ displaystyle \ alpha _ {k}}$ выбирается так, чтобы выполнялись условия Вульфа, то ${\ displaystyle B_ {k + 1}}$ также положительно определен.

Наиболее популярные формулы обновления:

Метод	${\ Displaystyle \ Displaystyle B_ {к + 1} =}$	${\ Displaystyle Н_ {к + 1} = В_ {к + 1} ^ {- 1} =}$
BFGS	${\ displaystyle B_ {k} + {\ frac {y_ {k} y_ {k} ^ {\ mathrm {T}}} {y_ {k} ^ {\ mathrm {T}} \ Delta x_ {k}}} - {\ frac {B_ {k} \ Delta x_ {k} (B_ {k} \ Delta x_ {k}) ^ {\ mathrm {T}}} {\ Delta x_ {k} ^ {\ mathrm {T} } B_ {k} \, \ Delta x_ {k}}}}$	${\ displaystyle \ left (I - {\ frac {\ Delta x_ {k} y_ {k} ^ {\ mathrm {T}}} {y_ {k} ^ {\ mathrm {T}} \ Delta x_ {k}) }} \ right) H_ {k} \ left (I - {\ frac {y_ {k} \ Delta x_ {k} ^ {\ mathrm {T}}} {y_ {k} ^ {\ mathrm {T}} \ Delta x_ {k}}} \ right) + {\ frac {\ Delta x_ {k} \ Delta x_ {k} ^ {\ mathrm {T}}} {y_ {k} ^ {\ mathrm {T}} \, \ Delta x_ {k}}}}$
Broyden	${\ Displaystyle B_ {k} + {\ frac {y_ {k} -B_ {k} \ Delta x_ {k}} {\ Delta x_ {k} ^ {\ mathrm {T}} \, \ Delta x_ {k }}} \, \ Delta x_ {k} ^ {\ mathrm {T}}}$	${\ displaystyle H_ {k} + {\ frac {(\ Delta x_ {k} -H_ {k} y_ {k}) \ Delta x_ {k} ^ {\ mathrm {T}} H_ {k}} {\ Дельта x_ {k} ^ {\ mathrm {T}} H_ {k} \, y_ {k}}}}$
Семья Бройден	${\ displaystyle (1- \ varphi _ {k}) B_ {k + 1} ^ {\ text {BFGS}} + \ varphi _ {k} B_ {k + 1} ^ {\ text {DFP}}, \ quad \ varphi \ in [0,1]}$
DFP	${\ displaystyle \ left (I - {\ frac {y_ {k} \, \ Delta x_ {k} ^ {\ mathrm {T}}} {y_ {k} ^ {\ mathrm {T}} \, \ Delta x_ {k}}} \ right) B_ {k} \ left (I - {\ frac {\ Delta x_ {k} y_ {k} ^ {\ mathrm {T}}} {y_ {k} ^ {\ mathrm {T}} \, \ Delta x_ {k}}} \ right) + {\ frac {y_ {k} y_ {k} ^ {\ mathrm {T}}} {y_ {k} ^ {\ mathrm {T }} \, \ Delta x_ {k}}}}$	${\ displaystyle H_ {k} + {\ frac {\ Delta x_ {k} \ Delta x_ {k} ^ {\ mathrm {T}}} {\ Delta x_ {k} ^ {\ mathrm {T}} \, y_ {k}}} - {\ frac {H_ {k} y_ {k} y_ {k} ^ {\ mathrm {T}} H_ {k}} {y_ {k} ^ {\ mathrm {T}} H_ {k} y_ {k}}}}$
SR1	${\ Displaystyle B_ {k} + {\ frac {(y_ {k} -B_ {k} \, \ Delta x_ {k}) (y_ {k} -B_ {k} \, \ Delta x_ {k}) ^ {\ mathrm {T}}} {(y_ {k} -B_ {k} \, \ Delta x_ {k}) ^ {\ mathrm {T}} \, \ Delta x_ {k}}}}$	${\ displaystyle H_ {k} + {\ frac {(\ Delta x_ {k} -H_ {k} y_ {k}) (\ Delta x_ {k} -H_ {k} y_ {k}) ^ {\ mathrm {T}}} {(\ Delta x_ {k} -H_ {k} y_ {k}) ^ {\ mathrm {T}} y_ {k}}}}$

Другие методы - это метод Пирсона, метод Маккормика, симметричный метод Пауэлла Бройдена (PSB) и метод Гринштадта. ^[2]

Связь с обращением матрицы

Когда ${\ displaystyle f}$ выпуклая квадратичная функция с положительно определенным гессианом ${\ displaystyle B}$ , можно было бы ожидать, что матрицы ${\ displaystyle H_ {k}}$ генерируется квазиньютоновским методом, чтобы сходиться к обратному гессиану ${\ displaystyle H = B ^ {- 1}}$ . Это действительно так для класса квазиньютоновских методов, основанных на обновлениях с наименьшими изменениями. ^[6]

Известные реализации

Реализации квазиньютоновских методов доступны на многих языках программирования. Известные реализации включают:

GNU Octave в своей fsolveфункции использует форму BFGS с расширениями доверенной области .

Научная библиотека GNU реализует алгоритм Бройдена-Флетчера-Гольдфарба-Шанно ( BFGS ).

Mathematica включает в себя квазиньютоновские решатели. ^[7]
NAG библиотека содержит несколько подпрограмм ^[8] для минимизации или максимизации функции ^[9] , которые используют алгоритмов квазиньютоновских.
В MATLAB в Optimization Toolbox , то fminuncфункция использует (среди других методов) BFGS квазиньютоновский метод. ^[10] Многие методы с ограничениями из набора инструментов Оптимизация используют BFGS и вариант L-BFGS . ^[11]
R «ы optimобщего назначения подпрограмма оптимизатор использует BFGS метод с помощью method="BFGS". ^[12]
Scipy .optimize имеет fmin_bfgs. В SciPy расширение Python , то scipy.optimize.minimizeфункция включает в себя, наряду с другими методами, в BFGS реализации. ^[13]

Смотрите также

Метод BFGS
- L-BFGS
- OWL-QN
Метод Бройдена
Формула обновления DFP
Метод Ньютона
Метод Ньютона в оптимизации
Формула SR1

дальнейшее чтение

Боннанс, JF; Gilbert, J. Ch .; Lemaréchal, C .; Сагастизабал, Калифорния (2006). Численная оптимизация: теоретические и численные аспекты (второе изд.). Springer. ISBN 3-540-35445-Х.
Флетчер, Роджер (1987), Практические методы оптимизации (2-е изд.), Нью-Йорк: John Wiley & Sons , ISBN 978-0-471-91547-8.
Нокедаль, Хорхе; Райт, Стивен Дж. (1999). «Квазиньютоновские методы» . Численная оптимизация . Нью-Йорк: Спрингер. С. 192–221. ISBN 0-387-98793-2.
Нажмите, WH; Теукольский, С.А. Феттерлинг, штат Вашингтон; Фланнери, ВР (2007). «Раздел 10.9. Квазиньютон или методы переменной метрики в многомерности» . Числовые рецепты: искусство научных вычислений (3-е изд.). Нью-Йорк: Издательство Кембриджского университета. ISBN 978-0-521-88068-8.
Весы, LE (1985). Введение в нелинейную оптимизацию . Нью-Йорк: Макмиллан. С. 84–106. ISBN 0-333-32552-4.

[1] Бройдена, CG (1972). «Квазиньютоновские методы». В Мюррей, W. (ред.). Численные методы безусловной оптимизации . Лондон: Academic Press. С. 87–106. ISBN 0-12-512250-0.

[Haelterman-2] а б в Хельтерман, Роб (2009). «Аналитическое исследование квазиньютоновского метода наименьших квадратов для задач взаимодействия» . Докторская диссертация, Гентский университет . Проверено 14 августа 2014 .

[3] Роб Хэлтерман, Дирк Ван Эстер, Даан Верлейен (2015). «Ускорение решения физической модели внутри токамака с помощью (обратного) метода обновления столбцов» . Журнал вычислительной и прикладной математики . 279 : 133–144. DOI : 10.1016 / j.cam.2014.11.005 .CS1 maint: использует параметр авторов ( ссылка )

[4] ttps://mathinsight.org/taylors_theorem_multivariable_introduction

[5] Нокедаль, Хорхе; Райт, Стивен Дж. (2006). Численная оптимизация . Нью-Йорк: Спрингер. С. 142 . ISBN 0-387-98793-2.

[Gower_and_Richtarik-6] Роберт Мансел Гауэр; Питер Рихтарик (2015). «Рандомизированные квазиньютоновские обновления представляют собой алгоритмы обращения линейно сходящейся матрицы». arXiv : 1602.01768 [ math.NA ].

[7] ttp://reference.wolfram.com/mathematica/tutorial/UnconstrainedOptimizationQuasiNewtonMethods.html

[8] Группа численных алгоритмов. «Указатель ключевых слов: квазиньютон» . Руководство библиотеки NAG, Марк 23 . Проверено 9 февраля 2012 .

[9] Группа численных алгоритмов. «E04 - Минимизация или максимизация функции» (PDF) . Руководство библиотеки NAG, Марк 23 . Проверено 9 февраля 2012 .

[10] ttp://www.mathworks.com/help/toolbox/optim/ug/fminunc.html

[11] ttp://www.mathworks.com/help/toolbox/optim/ug/brnoxzl.html

[12] [1]

[13] ttp://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.minimize.html

[1]