Матрица Гессе

В математике , то матрица Гесса или Гессиан является квадратной матрицей второго порядка в частных производных скалярной-значной функции , или скалярного поля . Он описывает локальную кривизну функции многих переменных. Матрица Гессе была разработана в XIX веке немецким математиком Людвигом Отто Гессе и позже названа в его честь. Первоначально Гессе использовал термин «функциональные детерминанты».

Определения и свойства

Предположим, что $f : ℝ n \to ℝ$ - функция, принимающая на вход вектор $x \in ℝ n$ и выводящая скаляр $f (x) \in ℝ$ . Если все вторые частные производные функции $f$ существуют и непрерывны в области определения функции, то матрица Гессе $H$ функции $f$ является квадратной матрицей размера $n \times n$ , обычно определяемой и располагаемой следующим образом:

{\ displaystyle \ mathbf {H} _ {f} = {\ begin {bmatrix} {\ dfrac {\ partial ^ {2} f} {\ partial x_ {1} ^ {2}}} и {\ dfrac {\ partial ^ {2} f} {\ partial x_ {1} \, \ partial x_ {2}}} & \ cdots & {\ dfrac {\ partial ^ {2} f} {\ partial x_ {1} \, \ частичный x_ {n}}} \\ [2.2ex] {\ dfrac {\ partial ^ {2} f} {\ partial x_ {2} \, \ partial x_ {1}}} & {\ dfrac {\ partial ^ {2} f} {\ partial x_ {2} ^ {2}}} & \ cdots & {\ dfrac {\ partial ^ {2} f} {\ partial x_ {2} \, \ partial x_ {n}} } \\ [2.2ex] \ vdots & \ vdots & \ ddots & \ vdots \\ [2.2ex] {\ dfrac {\ partial ^ {2} f} {\ partial x_ {n} \, \ partial x_ {1 }}} & {\ dfrac {\ partial ^ {2} f} {\ partial x_ {n} \, \ partial x_ {2}}} & \ cdots & {\ dfrac {\ partial ^ {2} f} { \ partial x_ {n} ^ {2}}} \ end {bmatrix}},}

или, сформулировав уравнение для коэффициентов с использованием индексов i и j,

{\ displaystyle (\ mathbf {H} _ {f}) _ {i, j} = {\ frac {\ partial ^ {2} f} {\ partial x_ {i} \, \ partial x_ {j}}} .}

Матрица Гессе является симметричной матрицей , поскольку из гипотезы непрерывности вторых производных следует, что порядок дифференцирования не имеет значения ( теорема Шварца ).

Определитель Гессе матрицы называется Hessian детерминант . ^[1]

Гессиан матрица функции $F$ является матрицей Якоби от градиента функции $F$ ; то есть: $H (f (x)) = J (\nabla f (x))$ .

Приложения

Точки перегиба

Если $F$ является однородным многочленом от трех переменных, уравнения $F = 0$ является неявным уравнением из кривых плоских проективных . В точки перегиба кривой в точности не-особые точки , где гессенская определитель равен нулю. Из теоремы Безу следует, что кубическая плоская кривая имеет не более 9 точек перегиба, поскольку определитель Гессе является многочленом степени 3.

Тест второй производной

Гессе матрица выпуклой функции является неотрицательно определенной . Уточнение этого свойства позволяет нам проверить, является ли критическая точка $x$ локальным максимумом, локальным минимумом или седловой точкой, следующим образом:

Если гессиан положительно определен в $точке x$ , то $f$ достигает изолированного локального минимума в $точке x$ . Если гессиан отрицательно определен в $точке x$ , то $f$ достигает изолированного локального максимума в $точке x$ . Если гессиан имеет как положительные, так и отрицательные собственные значения , то $x$ является седловой точкой для $f$ . В противном случае тест будет безрезультатным. Это означает, что в локальном минимуме гессиан положительно-полуопределенный, а в локальном максимуме гессиан отрицательно-полуопределенный.

Обратите внимание, что для положительно-полуопределенного и отрицательно-полуопределенного гессиана проверка неубедительна (критическая точка, в которой гессиан является полуопределенным, но не определенным, может быть локальным экстремумом или седловой точкой). Однако с точки зрения теории Морса можно сказать больше .

Тест второй производной для функций одной и двух переменных прост. В одной переменной гессиан содержит только одну вторую производную; если он положительный, то $x$ - локальный минимум, а если он отрицательный, то $x$ - локальный максимум; если он равен нулю, то проверка не дает результатов. В двух переменных можно использовать определитель , потому что определитель является произведением собственных значений. Если он положительный, то собственные значения либо положительны, либо отрицательны. Если он отрицательный, то два собственных значения имеют разные знаки. Если он равен нулю, то проверка второй производной неубедительна.

Эквивалентно, условия второго порядка, которые достаточны для локального минимума или максимума, могут быть выражены в терминах последовательности главных (крайних левых) миноров (определителей подматриц ) гессиана; эти условия являются частным случаем тех, которые приведены в следующем разделе для гессианов с границами для оптимизации с ограничениями - случая, когда количество ограничений равно нулю. В частности, достаточным условием минимума является то, что все эти главные миноры должны быть положительными, тогда как достаточным условием для максимума является то, что миноры чередуются по знаку, а минор 1 × 1 является отрицательным.

Критические точки

Если градиент (вектор частных производных) функции $f$ равен нулю в некоторой точке $x$ , то $f$ имеет критическую точку (или стационарную точку ) в $x$ . Определитель Гесса в $й$ называется, в некоторых контекстах, дискриминантом . Если этот определитель равен нулю , то $х$ называется вырожденной критической точкой из $F$ , или неморсовской критическая точка из $F$ . В противном случае она невырождена и называется критической точкой Морса функции $f$ .

Матрица Гесса играет важную роль в теории Морса и теории катастроф , так как его ядро и собственные позволяют классификацию критических точек. ^[2]^[3]^[4]

Определитель матрицы Гессе при вычислении в критической точке функции равен гауссовой кривизне функции, рассматриваемой как многообразие. Собственные значения гессиана в этой точке являются основными кривизнами функции, а собственные векторы - основными направлениями кривизны. (См. Гауссова кривизна § Отношение к главной кривизне .)

Использование в оптимизации

Матрицы Гессе используются в крупномасштабных задачах оптимизации в рамках методов типа Ньютона, поскольку они являются коэффициентом квадратичного члена локального разложения Тейлора функции. Это,

{\ displaystyle y = f (\ mathbf {x} + \ Delta \ mathbf {x}) \ приблизительно f (\ mathbf {x}) + \ nabla f (\ mathbf {x}) \ Delta \ mathbf {x} + {\ frac {1} {2}} \, \ Delta \ mathbf {x} ^ {\ mathrm {T}} \ mathbf {H} (\ mathbf {x}) \, \ Delta \ mathbf {x}}

где $\nabla f$ - градиент $(\partial f / \partial х 1, ..., \partial f / \partial x n)$ . Вычисление и хранение всей матрицы Гесса занимает $Θ (п 2)$ память, которая является неосуществимой для многомерных функций , таких как функции потерь от нейронных сетей , условного случайных полех и других статистических моделей с большим числом параметров. Для таких ситуаций были разработаны алгоритмы усеченного Ньютона и квазиньютона . Последнее семейство алгоритмов использует приближения к гессиану; один из самых популярных квазиньютоновских алгоритмов - BFGS . ^[5]

Такие аппроксимации могут использовать тот факт, что алгоритм оптимизации использует гессиан только как линейный оператор $H (v)$ , и действовать, сначала замечая, что гессиан также появляется в локальном разложении градиента:

{\ Displaystyle \ набла е (\ mathbf {x} + \ Delta \ mathbf {x}) = \ nabla f (\ mathbf {x}) + \ mathbf {H} (\ mathbf {x}) \, \ Delta \ mathbf {x} + {\ mathcal {O}} (\ | \ Delta \ mathbf {x} \ | ^ {2})}

Полагая $Δ x = r v$ для некоторого скаляра $r$ , это дает

{\ Displaystyle \ mathbf {H} (\ mathbf {x}) \, \ Delta \ mathbf {x} = \ mathbf {H} (\ mathbf {x}) r \ mathbf {v} = r \ mathbf {H} (\ mathbf {x}) \ mathbf {v} = \ nabla f (\ mathbf {x} + r \ mathbf {v}) - \ nabla f (\ mathbf {x}) + {\ mathcal {O}} ( г ^ {2}),}

т.е.

{\ displaystyle \ mathbf {H} (\ mathbf {x}) \ mathbf {v} = {\ frac {1} {r}} {\ Bigl [} \ nabla f (\ mathbf {x} + r \ mathbf { v}) - \ nabla f (\ mathbf {x}) {\ Bigr]} + {\ mathcal {O}} (r)}

поэтому, если градиент уже вычислен, приблизительный гессиан может быть вычислен линейным (по размеру градиента) числом скалярных операций. (Хотя эта схема аппроксимации проста в программировании, она не является численно стабильной, так как $r$ необходимо сделать маленьким, чтобы ${\ Displaystyle {\ mathcal {O}} (г)}$ член, но при уменьшении теряет точность в первом члене. ^[6] )

Другие приложения

Матрица Гессе обычно используется для выражения операторов обработки изображений при обработке изображений и компьютерном зрении (см. Лапласиан Гаусса (LoG) blob-детектор, детерминант Hessian (DoH) blob-детектор и масштабное пространство ). Матрица Гессе также может использоваться в анализе в нормальном режиме для расчета различных молекулярных частот в инфракрасной спектроскопии . ^[7]

Обобщения

Гессен с окаймлением

Граничат Гессиан используется для второй производной теста в некоторых ограниченных задачах оптимизации с. Учитывая функцию $f,$ рассмотренную ранее, но добавив функцию ограничения $g$ такую, что $g (x) = c$ , гессиан с границей является гессианом функции Лагранжа ${\ displaystyle \ Lambda (\ mathbf {x}, \ lambda) = f (\ mathbf {x}) + \ lambda [g (\ mathbf {x}) -c]}$ : ^[8]

{\ displaystyle \ mathbf {H} (\ Lambda) = {\ begin {bmatrix} {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial \ lambda ^ {2}}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial \ lambda \ partial \ mathbf {x}}} \\\ left ({\ dfrac {\ partial ^ {2} \ Lambda} {\ partial \ lambda \ partial \ mathbf {x }}} \ right) ^ {\ mathsf {T}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial \ mathbf {x} ^ {2}}} \ end {bmatrix}} = { \ begin {bmatrix} 0 & {\ dfrac {\ partial g} {\ partial x_ {1}}} & {\ dfrac {\ partial g} {\ partial x_ {2}}} & \ cdots & {\ dfrac {\ частичный g} {\ partial x_ {n}}} \\ [2.2ex] {\ dfrac {\ partial g} {\ partial x_ {1}}} & {\ dfrac {\ partial ^ {2} \ Lambda} { \ partial x_ {1} ^ {2}}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial x_ {1} \, \ partial x_ {2}}} & \ cdots & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial x_ {1} \, \ partial x_ {n}}} \\ [2.2ex] {\ dfrac {\ partial g} {\ partial x_ {2}}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial x_ {2} \, \ partial x_ {1}}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial x_ { 2} ^ {2}}} & \ cdots & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial x_ {2} \, \ partial x_ {n}}} \\ [2.2ex] \ vdots & \ vdots & \ vdo ts & \ ddots & \ vdots \\ [2.2ex] {\ dfrac {\ partial g} {\ partial x_ {n}}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial x_ {n } \, \ partial x_ {1}}} & {\ dfrac {\ partial ^ {2} \ Lambda} {\ partial x_ {n} \, \ partial x_ {2}}} & \ cdots & {\ dfrac { \ partial ^ {2} \ Lambda} {\ partial x_ {n} ^ {2}}} \ end {bmatrix}} = {\ begin {bmatrix} 0 & {\ dfrac {\ partial g} {\ partial \ mathbf { x}}} \\\ left ({\ dfrac {\ partial g} {\ partial \ mathbf {x}}} \ right) ^ {\ mathsf {T}} & {\ dfrac {\ partial ^ {2} \ Лямбда} {\ partial \ mathbf {x} ^ {2}}} \ end {bmatrix}}}

Если есть, скажем, m ограничений, то ноль в верхнем левом углу - это блок нулей размером m × m , и есть m граничных строк вверху и m граничных столбцов слева.

Приведенные выше правила, утверждающие, что экстремумы характеризуются (среди критических точек с неособым гессианом) положительно-определенным или отрицательно-определенным гессианом, здесь неприменимы, поскольку гессиан с границей не может быть ни отрицательно-определенным, ни положительно-определенным, поскольку ${\ Displaystyle \ mathbf {z} ^ {\ mathsf {T}} \ mathbf {H} \ mathbf {z} = 0}$ если ${\ displaystyle \ mathbf {z}}$ - любой вектор, единственный ненулевой элемент которого является его первым.

Тест второй производной состоит здесь из знаковых ограничений определителей некоторого набора n - m подматриц гессиана с краями. ^[9] Интуитивно можно представить, что m ограничений сводят проблему к задаче с n - m свободными переменными. (Например, максимизация $f (x 1, x 2, x 3) с$ учетом ограничения $x 1 + x 2 + x 3 = 1$ может быть сведена к максимизации $f (x 1, x 2, 1 - x 1 - x 2)$ без ограничения.)

В частности, знаковые условия накладываются на последовательность ведущих основных миноров (определителей выровненных по левому верху подматриц) ограниченного гессиана, для которого первые 2 m главных миноров не учитываются, а наименьший минор состоит из усеченных первых 2 m +1 строк и столбцов, следующая состоит из усеченных первых 2 m +2 строк и столбцов и так далее, причем последняя представляет собой весь гессен с окаймлением; если 2 m +1 больше, чем n + m , то наименьший ведущий главный минор - это сам гессиан. ^[10] Таким образом, необходимо рассмотреть n - m несовершеннолетних, каждый из которых оценивается в определенной точке, рассматриваемой как кандидат на максимум или минимум . Достаточным условием локального максимума является то, что эти миноры чередуются по знаку с наименьшим, имеющим знак (–1) ^{m +1} . Достаточным условием локального минимума является то, что все эти миноры имеют знак (–1) ^m . (В неограниченном случае m = 0 эти условия совпадают с условиями, при которых неограниченный гессиан должен быть отрицательно определенным или положительно определенным соответственно).

Векторозначные функции

Если вместо этого $f$ является векторным полем $f : ℝ n \to ℝ m$ , т.е.

{\ displaystyle \ mathbf {f} (\ mathbf {x}) = {\ big (} f_ {1} (\ mathbf {x}), f_ {2} (\ mathbf {x}), \ dots, f_ { m} (\ mathbf {x}) {\ big)},}

тогда набор вторых частных производных - это не матрица размера $n \times n$ , а скорее тензор третьего порядка . Это можно представить как массив из $m$ матриц Гессе, по одной для каждого компонента $f$ :

{\ Displaystyle \ mathbf {H} (\ mathbf {f}) = {\ big (} \ mathbf {H} (f_ {1}), \ mathbf {H} (f_ {2}), \ dots, \ mathbf {H} (f_ {m}) {\ big)}.}

Этот тензор вырождается в обычную матрицу Гессе при $m = 1$ .

Обобщение на сложный случай

В контексте нескольких сложных переменных гессиан можно обобщить. Предполагать ${\ displaystyle f \ двоеточие \ mathbb {C} ^ {n} \ longrightarrow \ mathbb {C}}$ , и мы пишем ${\ displaystyle f \ left (z_ {1}, \ ldots, z_ {n} \ right)}$ . Тогда можно обобщить гессиан на ${\ displaystyle {\ frac {\ partial ^ {2} f} {\ partial z_ {i} \ partial {\ overline {z_ {j}}}}}}}$ . Обратите внимание, что если ${\ displaystyle f}$ удовлетворяет n-мерным условиям Коши – Римана , то комплексная матрица Гессе тождественно равна нулю.

Обобщения на римановы многообразия

Позволять ${\ displaystyle (M, g)}$ - риманово многообразие и ${\ displaystyle \ nabla}$ его связь Леви-Чивита . Позволять ${\ displaystyle f: M \ to \ mathbb {R}}$ - гладкая функция. Мы можем определить тензор Гессе

{\ displaystyle \ operatorname {Hess} (f) \ in \ Gamma (T ^ {*} M \ otimes T ^ {*} M)}

от

{\ displaystyle \ operatorname {Hess} (f): = \ nabla \ nabla f = \ nabla df,}

где мы воспользовались преимуществом того, что первая ковариантная производная функции совпадает с ее обычной производной. Выбор местных координат ${\ Displaystyle \ {х ^ {я} \}}$ мы получаем локальное выражение для гессиана как

{\ displaystyle \ operatorname {Hess} (f) = \ nabla _ {i} \, \ partial _ {j} f \ dx ^ {i} \! \ otimes \! dx ^ {j} = \ left ({\ frac {\ partial ^ {2} f} {\ partial x ^ {i} \ partial x ^ {j}}} - \ Gamma _ {ij} ^ {k} {\ frac {\ partial f} {\ partial x ^ {k}}} \ right) dx ^ {i} \ otimes dx ^ {j}}

где ${\ displaystyle \ Gamma _ {ij} ^ {k}}$ являются символами связи Кристоффеля . Другие эквивалентные формы для гессиана даются формулами

{\ displaystyle \ operatorname {Hess} (f) (X, Y) = \ langle \ nabla _ {X} \ operatorname {grad} f, Y \ rangle}

а также

{\ displaystyle \ operatorname {Hess} (f) (X, Y) = X (Yf) -df (\ nabla _ {X} Y).}

Смотрите также

Определитель матрицы Гессе ковариант; см. Инвариант двоичной формы
Идентичность поляризации , полезная для быстрых вычислений с использованием гессенских гессен.
Матрица якобиана
Уравнения Гессе

Заметки

^ Бинмор, Кен ; Дэвис, Джоан (2007). Концепции и методы исчисления . Издательство Кембриджского университета. п. 190. ISBN 978-0-521-77541-0. OCLC 717598615 .
^ Каллахан, Джеймс Дж. (2010). Расширенный расчет: геометрический вид . Springer Science & Business Media. п. 248. ISBN 978-1-4419-7332-0.
^ Casciaro, B .; Fortunato, D .; Francaviglia, M .; Масиелло, А., ред. (2011). Последние достижения в общей теории относительности . Springer Science & Business Media. п. 178. ISBN 9788847021136.
^ Доменико П.Л. Кастриджано; Сандра А. Хейс (2004). Теория катастроф . Westview Press. п. 18. ISBN 978-0-8133-4126-2.
^ Нокедаль, Хорхе ; Райт, Стивен (2000). Численная оптимизация . Springer Verlag. ISBN 978-0-387-98793-4.
^ Перлмуттер, Барак А. (1994). «Быстрое точное умножение на гессиан» (PDF) . Нейронные вычисления . 6 (1): 147–160. DOI : 10.1162 / neco.1994.6.1.147 .
^ Мотт, Адам Дж .; Рез, Питер (24 декабря 2014 г.). «Расчет инфракрасных спектров белков» . Европейский биофизический журнал . 44 (3): 103–112. DOI : 10.1007 / s00249-014-1005-6 . ISSN 0175-7571 .
^ Халлам, Арне (7 октября 2004 г.). «Econ 500: Количественные методы в экономическом анализе I» (PDF) . Штат Айова .
^ Нойдекер, Хайнц; Магнус, Ян Р. (1988). Матричное дифференциальное исчисление с приложениями в статистике и эконометрике . Нью-Йорк: Джон Вили и сыновья . п. 136. ISBN. 978-0-471-91516-4.
^ Чан, Альфа К. (1984). Фундаментальные методы математической экономики (Третье изд.). Макгроу-Хилл. п. 386 . ISBN 978-0-07-010813-4.

дальнейшее чтение

Льюис, Дэвид В. (1991). Матричная теория . Сингапур: World Scientific. ISBN 978-981-02-0689-5.
Магнус, Ян Р .; Neudecker, Хайнц (1999). «Второй дифференциал». Матричное дифференциальное исчисление: с приложениями в статистике и эконометрике (пересмотренное издание). Нью-Йорк: Вили. С. 99–115. ISBN 0-471-98633-X.

Внешние ссылки

"Гессиан функции" , Математическая энциклопедия , EMS Press , 2001 [1994]
Вайсштейн, Эрик В. «Гессен» . MathWorld .

[1] Бинмор, Кен ; Дэвис, Джоан (2007). Концепции и методы исчисления . Издательство Кембриджского университета. п. 190. ISBN 978-0-521-77541-0. OCLC 717598615 .

[2] Каллахан, Джеймс Дж. (2010). Расширенный расчет: геометрический вид . Springer Science & Business Media. п. 248. ISBN 978-1-4419-7332-0.

[3] Casciaro, B .; Fortunato, D .; Francaviglia, M .; Масиелло, А., ред. (2011). Последние достижения в общей теории относительности . Springer Science & Business Media. п. 178. ISBN 9788847021136.

[4] Доменико П.Л. Кастриджано; Сандра А. Хейс (2004). Теория катастроф . Westview Press. п. 18. ISBN 978-0-8133-4126-2.

[5] Нокедаль, Хорхе ; Райт, Стивен (2000). Численная оптимизация . Springer Verlag. ISBN 978-0-387-98793-4.

[6] Перлмуттер, Барак А. (1994). «Быстрое точное умножение на гессиан» (PDF) . Нейронные вычисления . 6 (1): 147–160. DOI : 10.1162 / neco.1994.6.1.147 .

[7] Мотт, Адам Дж .; Рез, Питер (24 декабря 2014 г.). «Расчет инфракрасных спектров белков» . Европейский биофизический журнал . 44 (3): 103–112. DOI : 10.1007 / s00249-014-1005-6 . ISSN 0175-7571 .

[8] Халлам, Арне (7 октября 2004 г.). «Econ 500: Количественные методы в экономическом анализе I» (PDF) . Штат Айова .

[9] Нойдекер, Хайнц; Магнус, Ян Р. (1988). Матричное дифференциальное исчисление с приложениями в статистике и эконометрике . Нью-Йорк: Джон Вили и сыновья . п. 136. ISBN. 978-0-471-91516-4.

[10] Чан, Альфа К. (1984). Фундаментальные методы математической экономики (Третье изд.). Макгроу-Хилл. п. 386 . ISBN 978-0-07-010813-4.

[1]