В математике , и в частности в линейной алгебре , обратное преобразование Мура – Пенроуза из матрицы является наиболее широко известным обобщением на обратной матрицы . [1] [2] [3] [4] Он был описан независимо друг от друга EH Мура [5] в 1920 году, Арне Бжерхаммар [6] в 1951 году, и Роджер Пенроуз [7] в 1955 г. Ранее Фредгольм был введен понятие псевдообратного интегрального оператора в 1903 году. При обращении к матрице термин псевдообратный , без дальнейшего уточнения, часто используется для обозначения обратного Мура – Пенроуза. Термин обобщенная обратная иногда используется как синоним псевдообратного.
Обычно псевдообратное выражение используется для вычисления "наилучшего соответствия" ( методом наименьших квадратов ) решения системы линейных уравнений , не имеющей решения (см. Ниже в разделе "Приложения" ). Другое использование - найти решение с минимальной ( евклидовой ) нормой для системы линейных уравнений с несколькими решениями. Псевдообратная матрица упрощает формулировку и доказательство результатов линейной алгебры.
Псевдообратная матрица определена и уникальна для всех матриц, элементы которых являются действительными или комплексными числами. Его можно вычислить с помощью разложения по сингулярным числам .
Обозначение
В нижеследующем обсуждении приняты следующие условные обозначения.
- будет обозначать одно из полей действительных или комплексных чисел, обозначаемых, , соответственно. Векторное пространство матрицы над обозначается .
- Для , а также обозначают транспонирование и эрмитово транспонирование (также называемое сопряженным транспонированием ) соответственно. Если, тогда .
- Для , (что означает " диапазон ") обозначает пространство столбца (изображение) (пространство, покрытое векторами-столбцами ) а также обозначает ядро (пустое пространство).
- Наконец, для любого положительного целого числа , обозначает единичная матрица .
Определение
Для псевдообратная к A определяется как матрицаудовлетворяет всем следующим четырем критериям, известным как условия Мура – Пенроуза: [7] [8]
- не обязательно должна быть общей единичной матрицей, но она отображает все векторы-столбцы матрицы A на себя;
- действует как слабый инверс ;
- это эрмитова ;
- тоже эрмитский.
существует для любой матрицы A , но, когда последняя имеет полный ранг (т. е. ранг матрицы A равен), тогда можно выразить в виде простой алгебраической формулы.
В частности, когда имеет линейно независимые столбцы (и, следовательно, матрица обратима), можно вычислить как
Этот конкретный псевдообратный вариант представляет собой левый обратный , поскольку в этом случае.
Когда A имеет линейно независимые строки (матрица обратима), можно вычислить как
Это прямо обратное , так как.
Характеристики
Существование и уникальность
Псевдообратная матрица существует и единственна: для любой матрицы , имеется ровно одна матрица , который удовлетворяет четырем свойствам определения. [8]
Матрица, удовлетворяющая первому условию определения, называется обобщенной обратной. Если матрица также удовлетворяет второму определению, она называется обобщенно рефлексивной обратной . Обобщенные инверсии существуют всегда, но в общем случае не уникальны. Уникальность - следствие двух последних условий.
Основные свойства
- Если есть настоящие записи, значит, тоже .
- Если является обратимым , его Псевдообратным является обратным. Это,. [9] : 243
- Псевдообратной нулевой матрицы является ее транспонирование.
- Псевдообратная псевдообратная матрица - это исходная матрица: . [9] : 245
- Псевдообращение коммутирует с транспонированием, комплексным сопряжением и выполнением сопряженного транспонирования: [9] : 245
- , , .
- Псевдообратная скалярная величина, кратная является обратным кратным :
- для .
Идентичности
Следующие идентификаторы могут использоваться для отмены определенных подвыражений или раскрытия выражений, содержащих псевдообратные символы. Доказательства этих свойств можно найти на подстранице доказательств .
Приведение к эрмитовскому регистру
Вычисление псевдообратного преобразования сводится к его построению в эрмитовом случае. Это возможно благодаря эквивалентности:
в виде а также эрмитские.
Продукты
Предполагать . Тогда следующие варианты эквивалентны: [10]
Ниже приведены достаточные условия для :
- имеет ортонормированные столбцы (тогда ), или же
- имеет ортонормированные строки (тогда ), или же
- имеет линейно независимые столбцы (тогда ) а также имеет линейно независимые строки (тогда ), или же
- , или же
- .
Следующее является необходимым условием для :
Последнее достаточное условие дает равенства
NB: равенство не держит в целом. См. Контрпример:
Проекторы
а также являются операторами ортогонального проектирования , то есть, они являются эрмитовы (, ) и идемпотентный ( а также ). Следующее имеет место:
- а также
- является ортогональным проектором на диапазон от(что равно ортогональному дополнению ядра).
- ортогональный проектор на диапазон (что равно ортогональному дополнению ядра ).
- ортогональный проектор на ядро .
- ортогональный проектор на ядро . [8]
Последние два свойства подразумевают следующие тождества:
Другое свойство следующее: если эрмитово и идемпотентно (истинно тогда и только тогда, когда оно представляет собой ортогональную проекцию), то для любой матрицы выполняется следующее уравнение: [11]
Это можно доказать, задав матрицы , , и проверяя, что действительно является псевдообратной для путем проверки того, что определяющие свойства псевдообратной верны, когда эрмитово и идемпотентно.
Из последнего свойства следует, что если эрмитово и идемпотентно для любой матрицы
Наконец, если является ортогональной проекционной матрицей, то ее псевдообратная матрица тривиально совпадает с самой матрицей, т. е. .
Геометрическая конструкция
Если рассматривать матрицу как линейную карту над полем тогда можно разложить следующим образом. Мы пишемна прямую сумму ,для ортогонального дополнения ,для ядра карты идля изображения карты. Заметь а также . Ограничениетогда является изоморфизмом. Это означает, что на является обратным к этому изоморфизму и равен нулю на
Другими словами: найти для данного в , первый проект перпендикулярно диапазону , найти точку В диапазоне. Затем сформируйте, то есть найти эти векторы в что отправляет в . Это будет аффинное подпространство в параллельно ядру . Элемент этого подпространства, имеющий наименьшую длину (то есть ближайший к началу координат), является ответоммы ищем. Его можно найти, взяв произвольный член и проецируя его ортогонально на ортогональное дополнение ядра .
Это описание тесно связано с решением минимальной нормы линейной системы .
Подпространства
Ограничить отношения
Псевдообратные ограничения:
Непрерывность
В отличие от обычного обращения матриц, процесс взятия псевдообратных матриц не является непрерывным : если последовательность сходится к матрице (в максимальной норме или , скажем, в норме Фробениуса ), то не нужно сходиться к . Однако если все матрицы иметь тот же ранг, что и , сведется к . [12]
Производная
Производная вещественнозначной псевдообратной матрицы, которая имеет постоянный ранг в точке можно вычислить через производную исходной матрицы: [13]
Примеры
Поскольку для обратимых матриц псевдообратная матрица равна обычной обратной, ниже рассматриваются только примеры необратимых матриц.
- Для псевдообратная (Обычно псевдообратной нулевой матрицей является ее транспонирование.) Уникальность этой псевдообратной матрицы видна из требования , поскольку умножение на нулевую матрицу всегда дает нулевую матрицу.
- Для псевдообратная
Действительно, и поэтому
По аналогии, и поэтому - Для
- Для (Знаменатели .)
- Для
- Для псевдообратная Для этой матрицы существует левая обратная, поэтому она равна, действительно,
Особые случаи
Скаляры
Также возможно определить псевдообратную форму для скаляров и векторов. Это равносильно обращению с ними как с матрицами. Псевдообратная к скаляру равно нулю, если равен нулю, и величина, обратная иначе:
Векторы
Псевдообратный нулевой вектор (полностью нулевой) - это транспонированный нулевой вектор. Псевдообратное значение ненулевого вектора - это сопряженный транспонированный вектор, деленный на его квадрат величины:
Линейно независимые столбцы
Если столбцы вявляются линейно независимыми (так , что), тогда обратимо. В этом случае явная формула: [14]
Следует, что тогда является левым обратным к : .
Линейно независимые строки
Если строки из линейно независимы (так что ), тогда обратимо. В этом случае явная формула:
Следует, что это правая инверсия : .
Ортонормированные столбцы или строки
Это частный случай либо полного ранга столбца, либо полного ранга строки (описанного выше). Если имеет ортонормированные столбцы () или ортонормированные строки (), тогда:
Нормальные матрицы
Если - нормальная матрица ; то есть коммутирует со своим сопряженным транспонированием; тогда его псевдообратное значение может быть вычислено путем его диагонализации, отображения всех ненулевых собственных значений в их обратные и отображения нулевых собственных значений в ноль. Следствие состоит в том, что коммутация с его транспонированием подразумевает, что он коммутирует со своим псевдообратным.
Ортогональные проекционные матрицы
Это частный случай нормальной матрицы с собственными значениями 0 и 1. Если ортогональная проекционная матрица, т. е. а также , то псевдообратная матрица тривиально совпадает с самой матрицей:
Циркулянтные матрицы
Для циркулянтной матрицы , разложение по сингулярным числам задается преобразованием Фурье , то есть сингулярные значения являются коэффициентами Фурье. Позволятьбыть дискретным преобразованием Фурье матрицы (ДПФ) , то [15]
Строительство
Разложение по рангу
Позволять обозначим ранг в. потомможно (ранг) разложить как где а также имеют ранг . потом.
QR-метод
Для вычисление продукта или же а их обратные значения на практике часто являются источником ошибок округления числовых значений и вычислительных затрат. Альтернативный подход с использованием QR - разложение по может использоваться вместо этого.
Рассмотрим случай, когда имеет полный ранг столбца, так что . Тогда разложение Холецкого , где - верхняя треугольная матрица , может использоваться. Умножение на обратное затем легко выполняется путем решения системы с несколькими правыми частями,
которая может быть решена прямой заменой с последующей обратной заменой .
Разложение Холецкого можно вычислить без формирования явно, с помощью альтернативно с помощью QR - разложения в, где имеет ортонормированные столбцы, , а также верхнетреугольный. потом
так фактор Холецкого .
Случай полного ранга строки рассматривается аналогично с использованием формулы и используя аналогичный аргумент, поменяв ролями а также .
Разложение по сингулярным числам (SVD)
Простым и точным в вычислительном отношении способом вычислить псевдообратное значение является использование разложения по сингулярным числам . [14] [8] [16] Если является сингулярным разложением , тогда . Для прямоугольной диагональной матрицы, такой как, мы получаем псевдообратную величину, взяв величину, обратную каждому ненулевому элементу на диагонали, оставляя нули на месте, а затем транспонируя матрицу. При численных вычислениях ненулевыми считаются только элементы, превышающие некоторый небольшой допуск, а остальные заменяются нулями. Например, в функциях pinv MATLAB , GNU Octave или NumPy допуск принимается равным t = ε⋅max ( m , n ) ⋅max (Σ) , где ε - машинный эпсилон .
В стоимости вычислений этого метода преобладает стоимость вычисления SVD, которая в несколько раз выше, чем умножение матрицы на матрицу, даже если используется современная реализация (например, LAPACK ).
Вышеупомянутая процедура показывает, почему взятие псевдообратной матрицы не является непрерывной операцией: если исходная матрица имеет сингулярное значение 0 (диагональный элемент матрицы выше), затем изменив немного может превратить этот ноль в крошечное положительное число, тем самым резко влияя на псевдообратную матрицу, поскольку теперь мы должны взять обратную величину крошечного числа.
Блочные матрицы
Оптимизированные подходы существуют для вычисления псевдообратной матрицы блочно-структурированных матриц.
Итерационный метод Бен-Исраэля и Коэна
Другой метод вычисления псевдообратной формулы (см. Инверсию Дразина ) использует рекурсию
что иногда называют последовательностью сверхмощности. Эта рекурсия дает последовательность, квадратично сходящуюся к псевдообратной к если он запущен с подходящим удовлетворение . Выбор (где , с участием обозначает наибольшее сингулярное значение ) [17] утверждалось, что он не может конкурировать с методом, использующим SVD, упомянутым выше, потому что даже для умеренно плохо обусловленных матриц требуется много времени, прежде чемвходит в область квадратичной сходимости. [18] Однако, если начать с уже близко к обратному преобразованию Мура – Пенроуза и , Например , сходимость быстрая (квадратичная).
Обновление псевдообратной
Для случаев, когда имеет полный ранг строки или столбца и обратную матрицу корреляции ( для с полным рангом строки или для полного ранга столбца), псевдообратная для матриц, связанных с можно вычислить, применив формулу Шермана – Моррисона – Вудбери для обновления обратной корреляционной матрицы, что может потребовать меньше усилий. В частности, если связанная матрица отличается от исходной только измененной, добавленной или удаленной строкой или столбцом, существуют дополнительные алгоритмы, которые используют взаимосвязь. [19] [20]
Точно так же можно обновить коэффициент Холецкого при добавлении строки или столбца без явного создания обратной корреляционной матрицы. Однако обновление псевдообратной матрицы в общем случае недостаточного ранга намного сложнее. [21] [22]
Программные библиотеки
Качественные реализации SVD, QR и обратной подстановки доступны в стандартных библиотеках , таких как LAPACK . Написание собственной реализации SVD - это крупный проект в области программирования, требующий значительного опыта работы с числами . Однако в особых обстоятельствах, таких как параллельные вычисления или встроенные вычисления , альтернативные реализации с помощью QR или даже использование явного обратного могут быть предпочтительны, и пользовательские реализации могут быть неизбежны.
Пакет Python NumPy обеспечивает псевдообратное вычисление через свои функции matrix.I
и linalg.pinv
; он pinv
использует алгоритм на основе SVD. SciPy добавляет функцию, scipy.linalg.pinv
которая использует решатель наименьших квадратов.
Пакет MASS для R обеспечивает вычисление обратной ginv
функции Мура – Пенроуза через функцию. [23]ginv
функция вычисляет Псевдообращение , используя разложение по сингулярным значениям , представленную svd
функции в пакете базового R. Альтернативой является использование pinv
функции, доступной в пакете pracma.
Язык программирования Octave обеспечивает псевдообратное обращение через стандартную функцию пакета pinv
и pseudo_inverse()
метод.
В Julia (язык программирования) пакет LinearAlgebra стандартной библиотеки обеспечивает реализацию обратного преобразования Мура-Пенроуза, pinv()
реализованного посредством разложения по сингулярным числам. [24]
Приложения
Линейный метод наименьших квадратов
Псевдообратная матрица дает решение системы линейных уравнений методом наименьших квадратов . [25] Для, заданной системой линейных уравнений
в общем, вектор это решает, что система может не существовать, или, если она существует, она не может быть уникальной. Псевдообратная матрица решает проблему наименьших квадратов следующим образом:
- , у нас есть где а также обозначает евклидову норму . Это слабое неравенство выполняется с равенством тогда и только тогда, когда для любого вектора ; это обеспечивает бесконечное количество решений по минимизации, если только имеет полный ранг столбца, и в этом случае - нулевая матрица. [26] Решение с минимальной евклидовой нормой:[26]
Этот результат легко распространяется на системы с несколькими правыми частями, когда евклидова норма заменяется нормой Фробениуса. Позволять.
- , у нас есть где а также обозначает норму Фробениуса .
Получение всех решений линейной системы
Если линейная система
имеет любые решения, все они даются [27]
для произвольного вектора . Решение (я) существует тогда и только тогда, когда. [27] Если верно последнее, то решение единственно тогда и только тогда, когда имеет полный ранг столбца, и в этом случае - нулевая матрица. Если решения существуют, ноне имеет полного столбца ранга, то мы имеем неопределенную систему , все бесконечные решения которой даются этим последним уравнением.
Решение с минимальной нормой линейной системы
Для линейных систем with non-unique solutions (such as under-determined systems), the pseudoinverse may be used to construct the solution of minimum Euclidean norm among all solutions.
- If is satisfiable, the vector is a solution, and satisfies for all solutions.
This result is easily extended to systems with multiple right-hand sides, when the Euclidean norm is replaced by the Frobenius norm. Let .
- If is satisfiable, the matrix is a solution, and satisfies for all solutions.
Condition number
Using the pseudoinverse and a matrix norm, one can define a condition number for any matrix:
A large condition number implies that the problem of finding least-squares solutions to the corresponding system of linear equations is ill-conditioned in the sense that small errors in the entries of can lead to huge errors in the entries of the solution.[28]
Обобщения
Besides for matrices over real and complex numbers, the conditions hold for matrices over biquaternions, also called "complex quaternions".[29]
In order to solve more general least-squares problems, one can define Moore–Penrose inverses for all continuous linear operators between two Hilbert spaces and , using the same four conditions as in our definition above. It turns out that not every continuous linear operator has a continuous linear pseudoinverse in this sense.[28] Those that do are precisely the ones whose range is closed in .
A notion of pseudoinverse exists for matrices over an arbitrary field equipped with an arbitrary involutive automorphism. In this more general setting, a given matrix doesn't always have a pseudoinverse. The necessary and sufficient condition for a pseudoinverse to exist is that where denotes the result of applying the involution operation to the transpose of . When it does exist, it is unique.[30] Example: Consider the field of complex numbers equipped with the identity involution (as opposed to the involution considered elsewhere in the article); do there exist matrices that fail to have pseudoinverses in this sense? Consider the matrix . Observe that while . So this matrix doesn't have a pseudoinverse in this sense.
In abstract algebra, a Moore–Penrose inverse may be defined on a *-regular semigroup. This abstract definition coincides with the one in linear algebra.
Смотрите также
- Proofs involving the Moore–Penrose inverse
- Drazin inverse
- Hat matrix
- Inverse element
- Linear least squares (mathematics)
- Pseudo-determinant
- Von Neumann regular ring
Заметки
- ^ Ben-Israel & Greville 2003, p. 7.
- ^ Campbell & Meyer, Jr. 1991, p. 10.
- ^ Nakamura 1991, p. 42.
- ^ Rao & Mitra 1971, p. 50–51.
- ^ Moore, E. H. (1920). "On the reciprocal of the general algebraic matrix". Bulletin of the American Mathematical Society. 26 (9): 394–95. doi:10.1090/S0002-9904-1920-03322-7.
- ^ Bjerhammar, Arne (1951). "Application of calculus of matrices to method of least squares; with special references to geodetic calculations". Trans. Roy. Inst. Tech. Stockholm. 49.
- ^ a b Penrose, Roger (1955). "A generalized inverse for matrices". Proceedings of the Cambridge Philosophical Society. 51 (3): 406–13. Bibcode:1955PCPS...51..406P. doi:10.1017/S0305004100030401.
- ^ a b c d e Golub, Gene H.; Charles F. Van Loan (1996). Matrix computations (3rd ed.). Baltimore: Johns Hopkins. pp. 257–258. ISBN 978-0-8018-5414-9.
- ^ a b c Stoer, Josef; Bulirsch, Roland (2002). Introduction to Numerical Analysis (3rd ed.). Berlin, New York: Springer-Verlag. ISBN 978-0-387-95452-3..
- ^ Greville, T. N. E. (1966-10-01). "Note on the Generalized Inverse of a Matrix Product". SIAM Review. 8 (4): 518–521. doi:10.1137/1008107. ISSN 0036-1445.
- ^ Maciejewski, Anthony A.; Klein, Charles A. (1985). "Obstacle Avoidance for Kinematically Redundant Manipulators in Dynamically Varying Environments". International Journal of Robotics Research. 4 (3): 109–117. doi:10.1177/027836498500400308. hdl:10217/536. S2CID 17660144.
- ^ Rakočević, Vladimir (1997). "On continuity of the Moore–Penrose and Drazin inverses" (PDF). Matematički Vesnik. 49: 163–72.
- ^ Golub, G. H.; Pereyra, V. (April 1973). "The Differentiation of Pseudo-Inverses and Nonlinear Least Squares Problems Whose Variables Separate". SIAM Journal on Numerical Analysis. 10 (2): 413–32. Bibcode:1973SJNA...10..413G. doi:10.1137/0710036. JSTOR 2156365.
- ^ a b Ben-Israel & Greville 2003.
- ^ Stallings, W. T.; Boullion, T. L. (1972). "The Pseudoinverse of an r-Circulant Matrix". Proceedings of the American Mathematical Society. 34 (2): 385–88. doi:10.2307/2038377. JSTOR 2038377.
- ^ Linear Systems & Pseudo-Inverse
- ^ Ben-Israel, Adi; Cohen, Dan (1966). "On Iterative Computation of Generalized Inverses and Associated Projections". SIAM Journal on Numerical Analysis. 3 (3): 410–19. Bibcode:1966SJNA....3..410B. doi:10.1137/0703035. JSTOR 2949637.pdf
- ^ Söderström, Torsten; Stewart, G. W. (1974). "On the Numerical Properties of an Iterative Method for Computing the Moore–Penrose Generalized Inverse". SIAM Journal on Numerical Analysis. 11 (1): 61–74. Bibcode:1974SJNA...11...61S. doi:10.1137/0711008. JSTOR 2156431.
- ^ Gramß, Tino (1992). Worterkennung mit einem künstlichen neuronalen Netzwerk (PhD dissertation). Georg-August-Universität zu Göttingen. OCLC 841706164.
- ^ Emtiyaz, Mohammad (February 27, 2008). "Updating Inverse of a Matrix When a Column is Added/Removed" (PDF). Cite journal requires
|journal=
(help) - ^ Meyer, Jr., Carl D. (1973). "Generalized inverses and ranks of block matrices". SIAM J. Appl. Math. 25 (4): 597–602. doi:10.1137/0125057.
- ^ Meyer, Jr., Carl D. (1973). "Generalized inversion of modified matrices". SIAM J. Appl. Math. 24 (3): 315–23. doi:10.1137/0124033.
- ^ "R: Generalized Inverse of a Matrix".
- ^ "LinearAlgebra.pinv".
- ^ Penrose, Roger (1956). "On best approximate solution of linear matrix equations". Proceedings of the Cambridge Philosophical Society. 52 (1): 17–19. Bibcode:1956PCPS...52...17P. doi:10.1017/S0305004100030929.
- ^ a b Planitz, M. (October 1979). "Inconsistent systems of linear equations". Mathematical Gazette. 63 (425): 181–85. doi:10.2307/3617890. JSTOR 3617890.
- ^ a b James, M. (June 1978). "The generalised inverse". Mathematical Gazette. 62 (420): 109–14. doi:10.1017/S0025557200086460.
- ^ a b Hagen, Roland; Roch, Steffen; Silbermann, Bernd (2001). "Section 2.1.2". C*-algebras and Numerical Analysis. CRC Press.
- ^ Tian, Yongge (2000). "Matrix Theory over the Complex Quaternion Algebra". p.8, Theorem 3.5. arXiv:math/0004005.
- ^ Pearl, Martin H. (1968-10-01). "Generalized inverses of matrices with entries taken from an arbitrary field". Linear Algebra and Its Applications. 1 (4): 571–587. doi:10.1016/0024-3795(68)90028-1. ISSN 0024-3795.
Рекомендации
- Ben-Israel, Adi; Greville, Thomas N.E. (2003). Generalized inverses: Theory and applications (2nd ed.). New York, NY: Springer. doi:10.1007/b97366. ISBN 978-0-387-00293-4.
- Campbell, S. L.; Meyer, Jr., C. D. (1991). Generalized Inverses of Linear Transformations. Dover. ISBN 978-0-486-66693-8.
- Nakamura, Yoshihiko (1991). Advanced Robotics: Redundancy and Optimization. Addison-Wesley. ISBN 978-0201151985.
- Rao, C. Radhakrishna; Mitra, Sujit Kumar (1971). Generalized Inverse of Matrices and its Applications. New York: John Wiley & Sons. p. 240. ISBN 978-0-471-70821-6.
Внешние ссылки
- Pseudoinverse on PlanetMath
- Interactive program & tutorial of Moore–Penrose Pseudoinverse
- "Moore–Penrose inverse". PlanetMath.
- Weisstein, Eric W. "Pseudoinverse". MathWorld.
- Weisstein, Eric W. "Moore–Penrose Inverse". MathWorld.
- The Moore–Penrose Pseudoinverse. A Tutorial Review of the Theory
- Online Moore-Penrose Inverse calculator