Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В математике , то матрица Гесса или Гессиан является квадратной матрицей второго порядка в частных производных скалярной-значной функции , или скалярного поля . Он описывает локальную кривизну функции многих переменных. Матрица Гессе была разработана в XIX веке немецким математиком Людвигом Отто Гессе и позже названа в его честь. Первоначально Гессе использовал термин «функциональные детерминанты».

Определения и свойства [ править ]

Предположим, что f  : ℝ n → ℝ - функция, принимающая на вход вектор x ∈ ℝ n и выводящая скаляр f ( x ) ∈ ℝ . Если все вторые частные производные функции f существуют и непрерывны в области определения функции, то матрица Гессе H функции f представляет собой квадратную матрицу размера n × n , обычно определяемую и упорядоченную следующим образом:

или, сформулировав уравнение для коэффициентов с использованием индексов i и j,

Матрица Гессе является симметричной матрицей , поскольку гипотеза непрерывности вторых производных подразумевает, что порядок дифференцирования не имеет значения ( теорема Шварца ).

Определитель Гессе матрицы называется Hessian детерминант . [1]

Гессиан матрица функции F является матрицей Якоби от градиента функции F  ; то есть: H ( f ( x )) = J (∇ f ( x )) .

Приложения [ править ]

Точки перегиба [ править ]

Если F является однородным многочленом от трех переменных, уравнения F = 0 является неявным уравнением из кривых плоских проективных . В точки перегиба кривой в точности не-особые точки , где гессенская определитель равен нулю. Из теоремы Безу следует, что кубическая плоская кривая имеет не более 9 точек перегиба, поскольку определитель Гессе является многочленом степени 3.

Тест второй производной [ править ]

Гессе матрица выпуклой функции является неотрицательно определенной . Уточнение этого свойства позволяет нам проверить, является ли критическая точка x локальным максимумом, локальным минимумом или седловой точкой, следующим образом:

Если гессиан положительно определен в точке x , то f достигает изолированного локального минимума в точке x . Если гессиан отрицательно определен в точке x , то f достигает изолированного локального максимума в точке x . Если гессиан имеет как положительные, так и отрицательные собственные значения , то x является седловой точкой для f . В противном случае тест будет безрезультатным. Это означает, что в локальном минимуме гессиан положительно-полуопределенный, а в локальном максимуме гессиан отрицательно-полуопределенный.

Обратите внимание, что для положительно-полуопределенного и отрицательно-полуопределенного гессианов этот тест неубедителен (критическая точка, в которой гессиан является полуопределенным, но не определенным, может быть локальным экстремумом или седловой точкой). Однако с точки зрения теории Морса можно сказать больше .

Тест второй производной для функций одной и двух переменных прост. В одной переменной гессиан содержит только одну вторую производную; если он положительный, то x - локальный минимум, а если отрицательный, то x - локальный максимум; если он равен нулю, то проверка не дает результатов. В двух переменных можно использовать определитель , потому что определитель является произведением собственных значений. Если он положительный, то собственные значения либо положительны, либо отрицательны. Если он отрицательный, то два собственных значения имеют разные знаки. Если он равен нулю, то проверка второй производной неубедительна.

Эквивалентно, условия второго порядка, которые достаточны для локального минимума или максимума, могут быть выражены в терминах последовательности главных (крайних левых) миноров (определителей подматриц ) гессиана; эти условия являются частным случаем тех, которые приведены в следующем разделе для гессианов с границами для оптимизации с ограничениями - случая, когда количество ограничений равно нулю. В частности, достаточным условием для минимума является то, что все эти главные миноры должны быть положительными, в то время как достаточным условием для максимума является то, что миноры чередуются по знаку, а минор 1 × 1 является отрицательным.

Критические моменты [ править ]

Если градиент (вектор частных производных) функции f равен нулю в некоторой точке x , то f имеет критическую точку (или стационарную точку ) в x . Определитель Гесса в й называется, в некоторых контекстах, дискриминантом . Если этот определитель равен нулю , то х называется вырожденной критической точкой из F , или неморсовской критическая точка из F . В противном случае это является невырожденной, и называется Морзе критическая точка изf .

Матрица Гесса играет важную роль в теории Морса и теории катастроф , так как его ядро и собственные позволяют классификацию критических точек. [2] [3] [4]

Определитель матрицы Гессе при вычислении в критической точке функции равен гауссовой кривизне функции, рассматриваемой как многообразие. Собственные значения гессиана в этой точке являются основными кривизнами функции, а собственные векторы - основными направлениями кривизны. (См. Гауссова кривизна § Отношение к главной кривизне .)

Использование в оптимизации [ править ]

Матрицы Гессе используются в крупномасштабных задачах оптимизации в рамках методов ньютоновского типа, поскольку они являются коэффициентом квадратичного члена локального разложения Тейлора функции. То есть,

где f - градиент (f/х 1, ..., f/x n) . Вычисление и хранение всей матрицы Гесса занимает Θ ( п 2 ) память, которая является неосуществимой для многомерных функций , таких как функции потерь от нейронных сетей , условного случайных полех и других статистических моделей с большим числом параметров. Для таких ситуаций были разработаны алгоритмы усеченного Ньютона и квазиньютона . Последнее семейство алгоритмов использует приближения к гессиану; один из самых популярных квазиньютоновских алгоритмов - BFGS . [5]

Такие приближения могут использовать тот факт, что алгоритм оптимизации использует гессиан только как линейный оператор H ( v ) , и действовать, сначала замечая, что гессиан также появляется в локальном разложении градиента:

Полагая Δ x = r v для некоторого скаляра r , это дает

т.е.

поэтому, если градиент уже вычислен, приблизительный гессиан может быть вычислен линейным (по размеру градиента) числом скалярных операций. (Хотя эта схема аппроксимации проста в программировании, она не является численно стабильной, так как r необходимо сделать малым, чтобы предотвратить ошибку из-за члена, но при его уменьшении теряется точность в первом члене. [6] )

Другие приложения [ править ]

Матрица Гессе обычно используется для выражения операторов обработки изображений при обработке изображений и компьютерном зрении (см. Лапласиан Гаусса (LoG) blob-детектор, детерминант Hessian (DoH) blob-детектор и масштабное пространство ). Матрица Гессе также может использоваться в анализе в нормальном режиме для расчета различных молекулярных частот в инфракрасной спектроскопии . [7]

Обобщения [ править ]

Гессен с окаймлением [ править ]

Граничат Гессиан используется для второй производной теста в некоторых ограниченных задачах оптимизации с. Учитывая функцию f, рассмотренную ранее, но добавив функцию ограничения g такую, что g ( x ) = c , гессиан с границей является гессианом функции Лагранжа : [8]

Если есть, скажем, m ограничений, то ноль в верхнем левом углу - это блок нулей размером m × m , и есть m граничных строк вверху и m граничных столбцов слева.

Вышеупомянутые правила, утверждающие, что экстремумы характеризуются (среди критических точек с неособым гессианом) положительно-определенным или отрицательно-определенным гессианом, здесь неприменимы, поскольку гессиан с границей не может быть ни отрицательно-определенным, ни положительно-определенным, как если бы он любой вектор, единственный ненулевой элемент которого является его первым.

Тест второй производной состоит здесь из знаковых ограничений определителей некоторого набора n - m подматриц гессиана с краями. [9] Интуитивно можно представить, что m ограничений сводят проблему к задаче с n - m свободными переменными. (Например, максимизация f ( x 1 , x 2 , x 3 ) с учетом ограничения x 1 + x 2 + x 3 = 1 может быть сведена к максимизации f ( x1 , x 2 , 1 - x 1 - x 2 ) без ограничения.)

В частности, знаковые условия накладываются на последовательность ведущих основных миноров (определители выровненных по левому верху подматриц) ограниченного гессиана, для которого не учитываются первые 2 m ведущих основных миноров, а наименьший минор состоит из усеченных первых 2 m +1 строк и столбцов, следующая состоит из усеченных первых 2 m +2 строк и столбцов и так далее, причем последняя представляет собой весь гессен с окаймлением; если 2 m +1 больше, чем n + m , то наименьший ведущий главный минор - это сам гессиан. [10] Таким образом, есть n - mнесовершеннолетние для рассмотрения, каждый из которых оценивается в определенной точке, рассматриваемой как максимальный или минимальный уровень кандидата . Достаточным условием локального максимума является то, что эти миноры чередуются по знаку с наименьшим, имеющим знак (–1) m +1 . Достаточным условием локального минимума является то, что все эти миноры имеют знак (–1) m . (В неограниченном случае m = 0 эти условия совпадают с условиями, при которых неограниченный гессиан должен быть отрицательно определенным или положительно определенным соответственно).

Векторнозначные функции [ править ]

Если вместо этого f является векторным полем f  : ℝ n → ℝ m , т.е.

тогда набор вторых частных производных - это не матрица размера n × n , а скорее тензор третьего порядка . Это можно представить как массив из m матриц Гессе, по одной для каждого компонента f :

Этот тензор вырождается в обычную матрицу Гессе при m = 1 .

Обобщение на сложный случай [ править ]

В контексте нескольких сложных переменных гессиан может быть обобщен. Допустим , и мы пишем . Тогда можно обобщить гессиан на . Заметим, что если удовлетворяет n-мерным условиям Коши – Римана , то комплексная матрица Гессе тождественно равна нулю.

Обобщения на римановы многообразия [ править ]

Пусть - риманово многообразие и его связность Леви-Чивита . Позвольте быть гладкой функцией. Мы можем определить тензор Гессе

к

где мы воспользовались преимуществом того, что первая ковариантная производная функции совпадает с ее обычной производной. Выбирая локальные координаты, получаем локальное выражение для гессиана как

где являются символами Кристоффеля соединения. Другие эквивалентные формы для гессиана даются

и

См. Также [ править ]

  • Определитель матрицы Гессе ковариант; см. Инвариант двоичной формы
  • Идентичность поляризации , полезная для быстрых вычислений с использованием гессенских уравнений
  • Матрица якобиана
  • Уравнения Гессе

Примечания [ править ]

  1. ^ Бинмор, Кен ; Дэвис, Джоан (2007). Концепции и методы исчисления . Издательство Кембриджского университета. п. 190. ISBN 978-0-521-77541-0. OCLC  717598615 .
  2. ^ Каллахан, Джеймс Дж. (2010). Расширенный расчет: геометрический вид . Springer Science & Business Media. п. 248. ISBN 978-1-4419-7332-0.
  3. ^ Casciaro, B .; Fortunato, D .; Francaviglia, M .; Масиелло, А., ред. (2011). Последние достижения в общей теории относительности . Springer Science & Business Media. п. 178. ISBN 9788847021136.
  4. ^ Доменико П.Л. Кастриджано; Сандра А. Хейс (2004). Теория катастроф . Westview Press. п. 18. ISBN 978-0-8133-4126-2.
  5. ^ Нокедаль, Хорхе ; Райт, Стивен (2000). Численная оптимизация . Springer Verlag. ISBN 978-0-387-98793-4.
  6. ^ Перлмуттер, Барак А. (1994). «Быстрое точное умножение на гессиан» (PDF) . Нейронные вычисления . 6 (1): 147–160. DOI : 10.1162 / neco.1994.6.1.147 .
  7. ^ Мотт, Адам Дж .; Рез, Питер (24 декабря 2014 г.). «Расчет инфракрасных спектров белков» . Европейский биофизический журнал . 44 (3): 103–112. DOI : 10.1007 / s00249-014-1005-6 . ISSN 0175-7571 . 
  8. Халлам, Арне (7 октября 2004 г.). «Econ 500: Количественные методы в экономическом анализе I» (PDF) . Штат Айова .
  9. ^ Нойдекер, Хайнц; Магнус, Ян Р. (1988). Матричное дифференциальное исчисление с приложениями в статистике и эконометрике . Нью-Йорк: Джон Вили и сыновья . п. 136. ISBN. 978-0-471-91516-4.
  10. Перейти ↑ Chiang, Alpha C. (1984). Фундаментальные методы математической экономики (Третье изд.). Макгроу-Хилл. п. 386 . ISBN 978-0-07-010813-4.

Дальнейшее чтение [ править ]

  • Льюис, Дэвид В. (1991). Матричная теория . Сингапур: World Scientific. ISBN 978-981-02-0689-5.
  • Магнус, Ян Р .; Neudecker, Хайнц (1999). «Второй дифференциал». Матричное дифференциальное исчисление: с приложениями в статистике и эконометрике (пересмотренное издание). Нью-Йорк: Вили. С. 99–115. ISBN 0-471-98633-X.

Внешние ссылки [ править ]

  • «Гессиан функции» , Энциклопедия математики , EMS Press , 2001 [1994]
  • Вайсштейн, Эрик В. «Гессен» . MathWorld .