Метод Ньютона в оптимизации

В исчислении , метод Ньютона является итерационным методом для нахождения корней из в дифференцируемой функции $F$ , которые являются решениями уравнения $F (х) = 0$ . Таким образом , метод Ньютона может быть применен к производной $F'$ из в дважды дифференцируемой функции $F$ , чтобы найти корни производной (решения $F' (х) = 0$ ), также известный как критическую точку (математика) S из $ж$ . Эти решения могут быть минимумами, максимумами или седловыми точками, см. Раздел «Несколько переменных» в Критической точке (математика), а также раздел «Геометрическая интерпретация» в этой статье. Это актуально при оптимизации , которая направлена на поиск (глобальных) минимумов функции $f$ .

Сравнение градиентного спуска (зеленый) и метода Ньютона (красный) для минимизации функции (с небольшими размерами шага). В методе Ньютона используется информация о кривизне (т.е. вторая производная), чтобы выбрать более прямой путь.

Метод Ньютона

Центральная проблема оптимизации - это минимизация функций. Давайте сначала рассмотрим случай функций одной переменной, т. Е. Функций одной действительной переменной. Позже мы рассмотрим более общий и более практичный многомерный случай.

Для дважды дифференцируемой функции ${\ displaystyle f: \ mathbb {R} \ to \ mathbb {R}}$ , мы стремимся решить задачу оптимизации

{\ displaystyle \ min _ {x \ in \ mathbb {R}} f (x).}

Метод Ньютона пытается решить эту проблему путем построения последовательности ${\ displaystyle \ {x_ {k} \}}$ от первоначального предположения (отправная точка) ${\ displaystyle x_ {0} \ in \ mathbb {R}}$ который сходится к минимизатору ${\ displaystyle x _ {*}}$ из ${\ displaystyle f}$ используя последовательность Тейлоровских аппроксимаций второго порядка ${\ displaystyle f}$ вокруг итерации. Разложение Тейлора второго порядка функции $f$ вокруг ${\ displaystyle x_ {k}}$ является

{\ Displaystyle f (x_ {k} + t) \ приблизительно f (x_ {k}) + f '(x_ {k}) t + {\ frac {1} {2}} f' '(x_ {k}) t ^ {2}.}

Следующая итерация ${\ displaystyle x_ {k + 1}}$ определяется так, чтобы минимизировать это квадратичное приближение в ${\ displaystyle t}$ , и установка ${\ Displaystyle х_ {к + 1} = х_ {к} + т}$ . Если вторая производная положительна, квадратичное приближение является выпуклой функцией от ${\ displaystyle t}$ , а его минимум можно найти, установив производную равной нулю. С

{\ displaystyle \ displaystyle 0 = {\ frac {\ rm {d}} {{\ rm {d}} t}} \ left (f (x_ {k}) + f '(x_ {k}) t + {\ гидроразрыв {1} {2}} f '' (x_ {k}) t ^ {2} \ right) = f '(x_ {k}) + f' '(x_ {k}) t,}

минимум достигается для

{\ displaystyle t = - {\ frac {f '(x_ {k})} {f' '(x_ {k})}}.}

Собирая все вместе, метод Ньютона выполняет итерацию

{\ displaystyle x_ {k + 1} = x_ {k} + t = x_ {k} - {\ frac {f '(x_ {k})} {f' '(x_ {k})}}.}.

Геометрическая интерпретация

Геометрическая интерпретация методы Ньютона является то , что при каждой итерации, она сводится к подгонкам параболы на графику из ${\ displaystyle f (x)}$ по пробной стоимости ${\ displaystyle x_ {k}}$ , имеющий тот же наклон и кривизну, что и график в этой точке, а затем переход к максимуму или минимуму этой параболы (в более высоких измерениях это также может быть седловая точка ), см. ниже. Обратите внимание, что если ${\ displaystyle f}$ случается быть квадратичной функцией, то точная экстремум находится в одном шаге. Применяя это простое наблюдение к простым квадратичным функциям стоимости, мы получаем различное поведение метода Ньютона:

- Для функции ${\ Displaystyle е (х) = х ^ {2}}$ , у которого глобальный минимум равен 0, метод Ньютона сходится к 0 после 1 шага.

- Для функции ${\ displaystyle f (x) = - x ^ {2}}$ , у которого глобальный максимум равен 0, метод Ньютона сходится к 0 после 1 шага.

Высшие измерения

Приведенную выше итерационную схему можно обобщить на ${\ displaystyle d> 1}$ размеров, заменив производную градиентом (разные авторы используют разные обозначения градиента, в том числе ${\ displaystyle f '(x) = \ nabla f (x) = g_ {f} (x) \ in \ mathbb {R} ^ {d}}$ ), А также взаимный второй производной с обратным из матрицы Гесса (разные авторы используют различные обозначения для гессиана, в том числе ${\ displaystyle f '' (x) = \ nabla ^ {2} f (x) = H_ {f} (x) \ in \ mathbb {R} ^ {d \ times d}}$ ). Таким образом, получается итерационная схема

{\ displaystyle x_ {k + 1} = x_ {k} - [f '' (x_ {k})] ^ {- 1} f '(x_ {k}), \ qquad k \ geq 0.}

Часто метод Ньютона модифицируют, чтобы включить небольшой размер шага. ${\ Displaystyle 0 <\ гамма \ leq 1}$ вместо ${\ displaystyle \ gamma = 1}$ :

{\ displaystyle x_ {k + 1} = x_ {k} - \ gamma [f '' (x_ {k})] ^ {- 1} f '(x_ {k}).}

Это часто делается для того, чтобы гарантировать выполнение условий Вульфа или более простых и эффективных условий Армийо на каждом этапе метода. Для размеров шага, отличных от 1, метод часто называют расслабленным или затухающим методом Ньютона.

Конвергенция

Если $f$ - сильно выпуклая функция с липшицевым гессианом, то при условии, что ${\ displaystyle x_ {0}}$ достаточно близко к ${\ displaystyle x _ {*} = \ arg \ min f (x)}$ , последовательность ${\ displaystyle x_ {0}, x_ {1}, x_ {2}, \ dots}$ сгенерированный методом Ньютона будет сходиться к (обязательно уникальному) минимизатору ${\ displaystyle x _ {*}}$ из ${\ displaystyle f}$ квадратично быстро. ^{[ необходима цитата ]} То есть,

{\ displaystyle \ | x_ {k + 1} -x _ {*} \ | \ leq {\ frac {1} {2}} \ | x_ {k} -x _ {*} \ | ^ {2}, \ qquad \ forall k \ geq 0.}

Вычисление направления Ньютона

Нахождение обратной величины гессиана в больших измерениях для вычисления направления Ньютона ${\ displaystyle h = - (f '' (x_ {k})) ^ {- 1} f '(x_ {k})}$ может быть дорогостоящей операцией. В таких случаях вместо прямого обращения гессиана лучше вычислить вектор ${\ displaystyle h}$ как решение системы линейных уравнений

{\ displaystyle [f '' (x_ {k})] h = -f '(x_ {k})}

которое может быть решено различными факторизациями или приближенно (но с большой точностью) итерационными методами . Многие из этих методов применимы только к определенным типам уравнений, например, факторизация Холецкого и сопряженный градиент будут работать, только если ${\ displaystyle f '' (x_ {k})}$ положительно определенная матрица. Хотя это может показаться ограничением, часто это полезный индикатор того, что что-то пошло не так; например, если приближается проблема минимизации и ${\ displaystyle f '' (x_ {k})}$ не является положительно определенным, то итерации сходятся к седловой точке, а не к минимуму.

С другой стороны, если выполняется оптимизация с ограничениями (например, с множителями Лагранжа ), проблема может стать проблемой поиска седловой точки, и в этом случае гессиан будет симметричным неопределенным, а решение ${\ displaystyle x_ {k + 1}}$ нужно будет сделать с помощью метода, который будет работать для таких, например, ${\ Displaystyle ЛПНП ^ {\ top}}$ вариант факторизации Холецкого или метод сопряженных остатков .

Также существуют различные квазиньютоновские методы , в которых приближение гессиана (или его обратного напрямую) строится на основе изменений градиента.

Если гессиан близок к необратимой матрице , инвертированный гессиан может быть численно нестабильным, и решение может расходиться. В этом случае в прошлом были испробованы определенные обходные пути, которые с переменным успехом решали определенные проблемы. Например, можно изменить гессиан, добавив матрицу поправок ${\ displaystyle B_ {k}}$ чтобы сделать ${\ displaystyle f '' (x_ {k}) + B_ {k}}$ положительно определенный. Один из подходов состоит в том, чтобы диагонализовать гессен и выбрать ${\ displaystyle B_ {k}}$ чтобы ${\ displaystyle f '' (x_ {k}) + B_ {k}}$ имеет те же собственные векторы, что и гессиан, но каждое отрицательное собственное значение заменено на ${\ displaystyle \ epsilon> 0}$ .

Подход, используемый в алгоритме Левенберга-Марквардта (который использует приближенный гессиан), заключается в добавлении масштабированной единичной матрицы к гессиану, ${\ displaystyle \ mu I}$ , при необходимости масштабирования на каждой итерации. Для больших ${\ displaystyle \ mu}$ и малый гессиан, итерации будут вести себя как градиентный спуск с размером шага ${\ displaystyle 1 / \ mu}$ . Это приводит к более медленной, но более надежной сходимости, когда гессен не дает полезной информации.

Некоторые предостережения

В исходной версии метода Ньютона есть несколько предостережений:

Во-первых: это не работает, если гессиан не обратим. Это ясно из самого определения метода Ньютона, который требует взятия обратного гессиана.

Во-вторых: он может вообще не сходиться, но может войти в цикл, имеющий более 1 балла. См. Раздел «Анализ отказов» в методе Ньютона .

В-третьих: он может сходиться к седловой точке, а не к локальному минимуму, см. Раздел «Геометрическая интерпретация» в этой статье.

Популярные модификации метода Ньютона, такие как квазиньютоновские методы или алгоритм Левенберга-Марквардта, упомянутые выше, также имеют оговорки:

Например, обычно требуется, чтобы функция стоимости была (сильно) выпуклой, а гессиан был глобально ограниченным или липшицевым, например, это упоминается в разделе «Сходимость» данной статьи. Если посмотреть на статьи Левенберга и Марквардта в справочнике по алгоритму Левенберга-Марквардта , которые являются исходными источниками для упомянутого метода, можно увидеть, что в статье Левенберга практически нет теоретического анализа, а в статье Марквардта анализирует только локальную ситуацию и не доказывает результат глобальной конвергенции. Можно сравнить с методом поиска линии с обратным прослеживанием для градиентного спуска, который имеет хорошую теоретическую гарантию при более общих предположениях, может быть реализован и хорошо работает в практических крупномасштабных задачах, таких как глубокие нейронные сети.

Смотрите также

Заметки

Внешние ссылки

Коренблюм, Даниэль (29 августа 2015 г.). «Визуализация Ньютона-Рафсона (1D)» . Bl.ocks . ffe9653768cb80dfc0da.

Метод Ньютона в оптимизации