Теорема Кэли – Гамильтона

В линейной алгебре , то теорема Кэлей-Гамильтон (названная в честь математиков Кэлей и Уильям Роуэн Гамильтон ) гласит , что каждая квадратная матрица над коммутативным кольцом (такие как реальное или сложным поле ) удовлетворяет свое собственное характеристическое уравнение .

Артур Кэли , FRS (1821–1895) широко известен как ведущий британский математик XIX века. Кейли в 1848 году поехал в Дублин, чтобы посетить лекции о кватернионах Гамильтона, их первооткрывателя. Позже Кэли произвел на него впечатление тем, что был вторым, кто опубликовал работу над ними. ^[1] Кэли доказал теорему для матриц размерности 3 и меньше, опубликовав доказательство для двумерного случая. ^[2]^[3] Что касается матриц размера

n \times n

, Кэли заявил, что «... я не счел нужным браться за формальное доказательство теоремы в общем случае матрицы любой степени».

Уильям Роуэн Гамильтон (1805–1865), ирландский физик, астроном и математик, первый иностранный член Американской национальной академии наук . Сохраняя противоположную позицию относительно того, как следует изучать геометрию, Гамильтон всегда оставался в лучших отношениях с Кэли. ^[1]

Гамильтон доказал, что для линейной функции кватернионов существует определенное уравнение, зависящее от линейной функции, которому удовлетворяет сама линейная функция. ^[4]^[5]^[6]

Если является заданная $п$ $\times$ $п$ матрица и $я$ $п$ является $п$ $\times$ $п$ единичная матрица , то характеристический полином из $А$ определяется как ^[7] ${\ Displaystyle р (\ лямбда) = \ det (\ лямбда I_ {п} -A)}$ , где $det$ - детерминантная операция, а $λ$ - переменная для скалярного элемента базового кольца. Поскольку элементы матрицы ${\ displaystyle (\ lambda I_ {n} -A)}$ являются (линейными или константой) многочленов от $Л$ , определитель также $п$ -го порядка унитарного многочлена в $λ$ , ${\ displaystyle p (\ lambda) = \ lambda ^ {n} + c_ {n-1} \ lambda ^ {n-1} + \ cdots + c_ {1} \ lambda + c_ {0} ~.}$ Можно создать аналогичный многочлен ${\ displaystyle p (A)}$ в матрице $A$ вместо скалярной переменной $λ$ , определяемой как ${\ displaystyle p (A) = A ^ {n} + c_ {n-1} A ^ {n-1} + \ cdots + c_ {1} A + c_ {0} I_ {n} ~.}$ Теорема Кэли – Гамильтона утверждает, что этот многочлен приводит к нулевой матрице , то есть ${\ Displaystyle р (А) = \ mathbf {0}}$ . Теорема позволяет ^$п$ быть выражено в виде линейной комбинации низших матричных степеней $A$ . Когда кольцо является полем, теорема Кэли – Гамильтона эквивалентна утверждению, что минимальный многочлен квадратной матрицы делит ее характеристический многочлен. Теорема была впервые доказана в 1853 г. ^[8] в терминах обратных линейных функций кватернионов , некоммутативного кольца, Гамильтоном. ^[4]^[5]^[6] Это соответствует частному случаю некоторых вещественных матриц $размером 4 \times 4$ или комплексных матриц $2 \times 2$ . Теорема верна для общих кватернионных матриц. ^[9]^{[nb 1]} Кэли в 1858 г. сформулировал это для матриц $3 \times 3$ и меньше, но опубликовал доказательство только для случая $2 \times 2$ . ^[2] Общий случай был впервые доказан Фердинандом Фробениусом в 1878 году. ^[10]

Примеры

Матрицы $1 \times 1$

Для матрицы $A$ $= ($ $a$ $1,1$ $)$ размером $1 \times 1$ характеристический многочлен равен $p$ $(λ) =$ $λ$ $-$ $a$ , поэтому $p$ $($ $A$ $) = ($ $a$ $) -$ $a$ $1,1$ $= 0$ тривиально.

$2 \times 2$ матрицы

В качестве конкретного примера пусть

{\ displaystyle A = {\ begin {pmatrix} 1 & 2 \\ 3 & 4 \ end {pmatrix}}.}

Его характеристический полином дается выражением

{\ displaystyle p (\ lambda) = \ det (\ lambda I_ {2} -A) = \ det {\ begin {pmatrix} \ lambda -1 & -2 \\ - 3 & \ lambda -4 \ end {pmatrix}} = (\ lambda -1) (\ lambda -4) - (- 2) (- 3) = \ lambda ^ {2} -5 \ lambda -2.}

Теорема Кэли – Гамильтона утверждает, что если мы определим

{\ Displaystyle p (X) = X ^ {2} -5X-2I_ {2},}

тогда

{\ displaystyle p (A) = A ^ {2} -5A-2I_ {2} = {\ begin {pmatrix} 0 & 0 \\ 0 & 0 \\\ end {pmatrix}}.}

Мы можем проверить вычислением, что действительно

{\ displaystyle A ^ {2} -5A-2I_ {2} = {\ begin {pmatrix} 7 & 10 \\ 15 & 22 \\\ end {pmatrix}} - {\ begin {pmatrix} 5 & 10 \\ 15 & 20 \\\ end { pmatrix}} - {\ begin {pmatrix} 2 & 0 \\ 0 & 2 \\\ end {pmatrix}} = {\ begin {pmatrix} 0 & 0 \\ 0 & 0 \\\ end {pmatrix}}.}

Для общей матрицы $2 \times 2$ ,

{\ displaystyle A = {\ begin {pmatrix} a & b \\ c & d \\\ end {pmatrix}},}

характеристический полином равен $p$ $($ $λ$ $) =$ $λ$ $2$ $- ($ $a$ $+$ $d$ $)$ $λ$ $+ ($ $ad$ $-$ $bc$ $)$ , поэтому теорема Кэли – Гамильтона утверждает, что

{\ displaystyle p (A) = A ^ {2} - (a + d) A + (ad-bc) I_ {2} = {\ begin {pmatrix} 0 & 0 \\ 0 & 0 \\\ end {pmatrix}};}

что действительно всегда так, что становится очевидным после обработки записей $A$ ² .

Приложения

Определитель и обратная матрица

Для общего $п \times п$ обратимой матрицы $А$ , то есть, один с ненулевой определитель, $А$ ^-1 , таким образом , может быть записана в виде $(п - 1)$ -го порядка полиномиального выражения в $A$ : Как указано, Кэли-Гамильтона теорема сводится к тому личность

${\ Displaystyle p (A) = A ^ {n} + c_ {n-1} A ^ {n-1} + \ cdots + c_ {1} A + (- 1) ^ {n} \ det (A) I_ {n} = 0.}$

Коэффициенты $гр I$ задаются элементарных симметрических многочленов от собственных значений $А$ . Используя тождества Ньютона , элементарные симметричные многочлены, в свою очередь, могут быть выражены через степенные суммы симметричных многочленов собственных значений:

{\ displaystyle s_ {k} = \ sum _ {i = 1} ^ {n} \ lambda _ {i} ^ {k} = \ operatorname {tr} (A ^ {k}),}

где $tr (A k)$ - след матрицы $A k$ . Таким образом, мы можем выразить $с I$ в терминах следа степеней $A$ .

В общем, формула для коэффициентов $c i$ задается в терминах полных экспоненциальных многочленов Белла как ^{[nb 2]}

{\ displaystyle c_ {nk} = {\ frac {(-1) ^ {k}} {k!}} B_ {k} (s_ {1}, - 1! s_ {2}, 2! s_ {3} , \ ldots, (- 1) ^ {k-1} (k-1)! s_ {k}).}

В частности, определитель $A$ равен $(-1) n c 0$ . Таким образом, определитель можно записать как тождество трассы :

{\ displaystyle \ det (A) = {\ frac {1} {n!}} B_ {n} (s_ {1}, - 1! s_ {2}, 2! s_ {3}, \ ldots, (- 1) ^ {n-1} (n-1)! S_ {n}).}

Точно так же характеристический многочлен можно записать как

{\ displaystyle - (- 1) ^ {n} \ det (A) I_ {n} = A (A ^ {n-1} + c_ {n-1} A ^ {n-2} + \ cdots + c_ {1} I_ {n}),}

и, умножая обе части на $A -1$ (примечание $- (- 1) n = (-1) n -1$ ), мы получаем выражение для обратного к $A$ в качестве тождества следа,

{\ displaystyle {\ begin {align} A ^ {- 1} & = {\ frac {(-1) ^ {n-1}} {\ det A}} (A ^ {n-1} + c_ {n -1} A ^ {n-2} + \ cdots + c_ {1} I_ {n}), \\ [5pt] & = {\ frac {1} {\ det A}} \ sum _ {k = 0 } ^ {n-1} (- 1) ^ {n + k-1} {\ frac {A ^ {nk-1}} {k!}} B_ {k} (s_ {1}, - 1! s_ {2}, 2! S_ {3}, \ ldots, (- 1) ^ {k-1} (k-1)! S_ {k}). \ End {выравнивается}}}

Другой метод получения этих коэффициентов $c k$ для общей матрицы размера $n \times n$ , при условии, что ни один корень не равен нулю, основан на следующем альтернативном выражении для определителя :

{\ displaystyle p (\ lambda) = \ det (\ lambda I_ {n} -A) = \ lambda ^ {n} \ exp (\ operatorname {tr} (\ log (I_ {n} -A / \ lambda) )).}

Следовательно, в силу ряда Меркатора ,

{\ displaystyle p (\ lambda) = \ lambda ^ {n} \ exp \ left (- \ operatorname {tr} \ sum _ {m = 1} ^ {\ infty} {({A \ over \ lambda}) ^ {m} \ over m} \ right),}

где экспоненциальные только потребности быть расширены до порядка $Й - п$ , так как $р (Х)$ имеет порядок $п$ , чистые отрицательные степени $Х$ автоматически нуля по теореме о С-Н. (Опять же, для этого требуется кольцо, содержащее рациональные числа.) Дифференцирование этого выражения по $λ$ позволяет выразить коэффициенты характеристического полинома для общего $n$ как определители матриц размера $m \times m$ , ^{[nb 3]}

{\ displaystyle c_ {nm} = {\ frac {(-1) ^ {m}} {m!}} {\ begin {vmatrix} \ operatorname {tr} A & m-1 & 0 & \ cdots \\\ operatorname {tr} A ^ {2} & \ operatorname {tr} A & m-2 & \ cdots \\\ vdots & \ vdots &&& \ vdots \\\ operatorname {tr} A ^ {m-1} & \ operatorname {tr} A ^ {m- 2} & \ cdots & \ cdots & 1 \\\ operatorname {tr} A ^ {m} & \ operatorname {tr} A ^ {m-1} & \ cdots & \ cdots & \ operatorname {tr} A \ end { vmatrix}} ~.}

Примеры

Например, первые несколько полиномов Белла: $B 0$ = 1, $B 1 (x 1) = x 1$ , $B 2 (x 1, x 2) = x 21 + x 2$ и $B 3 (x 1, x 2, x 3) = x 31 + 3 х 1 х 2 + х 3$ .

Используя их для задания коэффициентов $c i$ характеристического полинома матрицы $2 \times 2,$ получаем

{\ displaystyle {\ begin {align} c_ {2} = B_ {0} = 1, \\ [4pt] c_ {1} = {\ frac {-1} {1!}} B_ {1} (s_ { 1}) = - s_ {1} = - \ operatorname {tr} (A), \\ [4pt] c_ {0} = {\ frac {1} {2!}} B_ {2} (s_ {1} , -1! S_ {2}) = {\ frac {1} {2}} (s_ {1} ^ {2} -s_ {2}) = {\ frac {1} {2}} ((\ operatorname {tr} (A)) ^ {2} - \ operatorname {tr} (A ^ {2})). \ end {align}}}

Коэффициент $c 0$ дает определитель матрицы $2 \times 2$ , $c 1$ минус ее след, а его обратный равен

{\ displaystyle A ^ {- 1} = {\ frac {-1} {\ det A}} (A + c_ {1} I_ {2}) = {\ frac {-2 (A- \ operatorname {tr} (A) I_ {2})} {(\ operatorname {tr} (A)) ^ {2} - \ operatorname {tr} (A ^ {2})}}.}.

Из общей формулы для c _n-k , выраженной через полиномы Белла, очевидно , что выражения

{\ displaystyle - \ operatorname {tr} (A) \ quad {\ text {and}} \ quad {\ tfrac {1} {2}} (\ operatorname {tr} (A) ^ {2} - \ operatorname { tr} (A ^ {2}))}

всегда дают коэффициенты $c n -1$ при $λ n -1$ и $c n -2$ при $λ n -2$ в характеристическом полиноме любой матрицы размера $n \times n$ , соответственно. Итак, для матрицы $A$ $3 \times 3$ утверждение теоремы Кэли – Гамильтона также можно записать как

{\ displaystyle A ^ {3} - (\ operatorname {tr} A) A ^ {2} + {\ frac {1} {2}} \ left ((\ operatorname {tr} A) ^ {2} - \ имя оператора {tr} (A ^ {2}) \ right) A- \ det (A) I_ {3} = O,}

где правая часть обозначает матрицу $3 \times 3,$ все элементы которой сведены к нулю. Точно так же этот определитель в случае $n = 3$ теперь равен

{\ displaystyle {\ begin {align} \ det (A) & = {\ frac {1} {3!}} B_ {3} (s_ {1}, - 1! s_ {2}, 2! s_ {3 }) = {\ frac {1} {6}} (s_ {1} ^ {3} + 3s_ {1} (- s_ {2}) + 2s_ {3}) \\ [5pt] & = {\ tfrac {1} {6}} \ left ((\ operatorname {tr} A) ^ {3} -3 \ operatorname {tr} (A ^ {2}) (\ operatorname {tr} A) +2 \ operatorname {tr } (A ^ {3}) \ right). \ End {align}}}

Это выражение дает отрицательное значение коэффициента $c n -3$ при $λ n -3$ в общем случае, как показано ниже.

Точно так же можно написать для матрицы $A$ $4 \times 4$ ,

{\ displaystyle A ^ {4} - (\ operatorname {tr} A) A ^ {3} + {\ tfrac {1} {2}} {\ bigl (} (\ operatorname {tr} A) ^ {2} - \ operatorname {tr} (A ^ {2}) {\ bigr)} A ^ {2} - {\ tfrac {1} {6}} {\ bigl (} (\ operatorname {tr} A) ^ {3 } -3 \ operatorname {tr} (A ^ {2}) (\ operatorname {tr} A) +2 \ operatorname {tr} (A ^ {3}) {\ bigr)} A + \ det (A) I_ { 4} = O,}

где теперь определитель $c n -4$ ,

{\ displaystyle {\ tfrac {1} {24}} \ left ((\ operatorname {tr} A) ^ {4} -6 \ operatorname {tr} (A ^ {2}) (\ operatorname {tr} A) ^ {2} +3 (\ operatorname {tr} (A ^ {2})) ^ {2} +8 \ operatorname {tr} (A ^ {3}) \ operatorname {tr} (A) -6 \ operatorname {tr} (A ^ {4}) \ right),}

и так далее для матриц большего размера. Все более сложные выражения для коэффициентов $c k$ выводятся из тождеств Ньютона или алгоритма Фаддеева – Леверье .

n -я степень матрицы

Теорема Кэли – Гамильтона всегда обеспечивает связь между степенями $A$ (хотя и не всегда простейшую), что позволяет упростить выражения, включающие такие степени, и вычислить их без необходимости вычислять степень $A n$ или любые более высокие степени $A$ .

Например, для ${\ displaystyle A = {\ begin {pmatrix} 1 & 2 \\ 3 & 4 \ end {pmatrix}}}$ теорема дает

{\ Displaystyle A ^ {2} = 5A + 2I_ {2} \ ,.}

Затем, чтобы вычислить $A 4$ , наблюдайте

{\ displaystyle A ^ {3} = (5A + 2I_ {2}) A = 5A ^ {2} + 2A = 5 (5A + 2I_ {2}) + 2A = 27A + 10I_ {2},}

{\ displaystyle A ^ {4} = A ^ {3} A = (27A + 10I_ {2}) A = 27A ^ {2} + 10A = 27 (5A + 2I_ {2}) + 10A = 145A + 54I_ { 2} \ ,.}

Так же,

{\ displaystyle A ^ {- 1} = {\ frac {A-5I_ {2}} {2}} ~.}

Обратите внимание, что мы смогли записать степень матрицы как сумму двух членов. Фактически, степень матрицы любого порядка $k$ может быть записана как матричный полином степени не выше $n - 1$ , где $n$ - размер квадратной матрицы. Это случай, когда теорему Кэли – Гамильтона можно использовать для выражения матричной функции, которую мы систематически обсудим ниже.

Матричные функции

Учитывая аналитическую функцию

{\ Displaystyle е (х) = \ сумма _ {к = 0} ^ {\ infty} a_ {k} x ^ {k}}

и характеристический полином $р (х)$ степени $п$ из в $N \times N$ матрицы $A$ , функция может быть выражена с помощью длинного деления , как

{\ Displaystyle е (х) = д (х) п (х) + г (х),}

где $q (x)$ - некоторый фактор-полином, а $r (x)$ - полином остатка такой, что $0 \leq deg r (x) < n$ .

По теореме Кэли – Гамильтона замена $x$ матрицей $A$ дает $p (A) = 0$ , поэтому

{\ Displaystyle f (A) = r (A).}

Таким образом, аналитическая функция матрицы $A$ может быть выражена как матричный полином степени меньше $n$ .

Пусть полином остатка равен

{\ displaystyle r (x) = c_ {0} + c_ {1} x + \ cdots + c_ {n-1} x ^ {n-1}.}

Поскольку $p (λ) = 0$ , вычисление функции $f (x)$ на $n$ собственных значениях матрицы $A$ дает

{\ displaystyle f (\ lambda _ {i}) = r (\ lambda _ {i}) = c_ {0} + c_ {1} \ lambda _ {i} + \ cdots + c_ {n-1} \ lambda _ {i} ^ {n-1}, \ qquad \ mathrm {for} \ qquad i = 1,2, ..., n.}

Это составляет систему из $n$ линейных уравнений, которые можно решить для определения коэффициентов $c i$ . Таким образом, есть

{\ displaystyle f (A) = \ sum _ {k = 0} ^ {n-1} c_ {k} A ^ {k}.}

Когда собственные значения повторяются, то есть $λ i = λ j$ для некоторого $i \neq j$ , два или более уравнения идентичны; и, следовательно, линейные уравнения не могут быть решены однозначно. Для таких случаев для собственного значения $λ$ с кратностью $m$ первые $m - 1$ производные $p (x)$ обращаются в нуль в собственном значении. Это приводит к дополнительным $m - 1$ линейно независимым решениям

{\ displaystyle {\ frac {\ mathrm {d} ^ {k} f (x)} {\ mathrm {d} x ^ {k}}} {\ Big |} _ {x = \ lambda} = {\ frac {\ mathrm {d} ^ {k} r (x)} {\ mathrm {d} x ^ {k}}} {\ Big |} _ {x = \ lambda} \ qquad {\ text {for}} \ qquad k = 1,2, \ ldots, m-1,}

которые вместе с другими дают необходимые $n$ уравнений для решения относительно $c i$ .

Нахождение многочлена, проходящего через точки $(λ i, f (λ i)),$ по сути, является проблемой интерполяции и может быть решено с использованием методов интерполяции Лагранжа или Ньютона , что приводит к формуле Сильвестра .

Например, предположим, что задача состоит в том, чтобы найти полиномиальное представление

{\ displaystyle f (A) = e ^ {At} \ qquad \ mathrm {where} \ qquad A = {\ begin {pmatrix} 1 & 2 \\ 0 & 3 \ end {pmatrix}}.}

Характеристический многочлен $р (х) = (х - 1) (х - 3) = х 2 - 4 х + 3$ , а собственные значения $Х = 1, 3$ . Пусть $r (x) = c 0 + c 1 x$ . Вычисляя $f (λ) = r (λ)$ в собственных значениях, получаем два линейных уравнения: $e t = c 0 + c 1$ и $e 3 t = c 0 + 3 c 1$ .

Решение уравнений дает $c 0 = (3 e t - e 3 t) / 2$ и $c 1 = (e 3 t - e t) / 2$ . Таким образом, следует, что

{\ displaystyle e ^ {At} = c_ {0} I_ {2} + c_ {1} A = {\ begin {pmatrix} c_ {0} + c_ {1} & 2c_ {1} \\ 0 & c_ {0} + 3c_ {1} \ end {pmatrix}} = {\ begin {pmatrix} e ^ {t} & e ^ {3t} -e ^ {t} \\ 0 & e ^ {3t} \ end {pmatrix}}.}

Если бы вместо этого функция была $f (A) = sin At$ , тогда коэффициенты были бы $c 0 = (3 sin t - sin 3 t) / 2$ и $c 1 = (sin 3 t - sin t) / 2$ ; следовательно

{\ displaystyle \ sin (At) = c_ {0} I_ {2} + c_ {1} A = {\ begin {pmatrix} \ sin t & \ sin 3t- \ sin t \\ 0 & \ sin 3t \ end {pmatrix }}.}

В качестве еще одного примера при рассмотрении

{\ displaystyle f (A) = e ^ {At} \ qquad \ mathrm {где} \ qquad A = {\ begin {pmatrix} 0 & 1 \\ - 1 & 0 \ end {pmatrix}},}

тогда характеристический многочлен $p (x) = x 2 + 1$ , а собственные значения $λ = \pm i$ .

Как и раньше, вычисление функции по собственным значениям дает нам линейные уравнения $e it = c 0 + ic 1$ и $e - it = c 0 - ic 1$ ; решение которого дает $c 0 = (e it + e - it) / 2 = cos t$ и $c 1 = (e it - e - it) / 2 i = sin t$ . Таким образом, в этом случае

{\ displaystyle e ^ {At} = (\ cos t) I_ {2} + (\ sin t) A = {\ begin {pmatrix} \ cos t & \ sin t \\ - \ sin t & \ cos t \ end { pmatrix}},}

которая является матрицей вращения .

Стандартные примеры такого использования является экспоненциальным отображением из алгебры Ли в виде матричной группы Ли в группу. Он задается матричной экспонентой ,

{\ displaystyle \ exp: {\ mathfrak {g}} \ rightarrow G; \ qquad tX \ mapsto e ^ {tX} = \ sum _ {n = 0} ^ {\ infty} {\ frac {t ^ {n} X ^ {n}} {n!}} = I + tX + {\ frac {t ^ {2} X ^ {2}} {2}} + \ cdots, t \ in \ mathbb {R}, X \ in {\ mathfrak {g}}.}

Такие выражения давно известны для $SU (2)$ ,

{\ Displaystyle е ^ {я (\ theta / 2) ({\ hat {n}} \ cdot \ sigma)} = I_ {2} \ cos \ theta / 2 + i ({\ hat {n}} \ cdot \ sigma) \ sin \ theta / 2,}

где $σ$ являются матрицы Паули и для $SO (3)$ ,

{\ Displaystyle е ^ {я \ тета ({\ шляпа {п}} \ cdot \ mathbf {J})} = I_ {3} + я ({\ шляпа {n}} \ cdot \ mathbf {J}) \ sin \ theta + ({\ hat {n}} \ cdot \ mathbf {J}) ^ {2} (\ cos \ theta -1),}

что является формулой вращения Родригеса . Обозначения см. В группе вращений SO (3) # Замечание по алгебре Ли .

Совсем недавно выражения появились для других групп, таких как группа Лоренца $SO (3, 1)$ , ^[11] $O (4, 2)$ ^[12] и $SU (2, 2)$ , ^[13], а также $GL (n, R)$ . ^[14] В группе $O (4, 2)$ является конформной группой из пространства - времени , $SU (2, 2)$ его просто соединена крышка (чтобы быть точными, односвязном крышка подключенного компонента $SO + (4, 2)$ из $O (4, 2)$ ). Полученные выражения применимы к стандартному представлению этих групп. Они требуют знания (некоторых) собственных значений матрицы для возведения в степень. Для $SU (2)$ (а значит, и для $SO (3)$ ) получены замкнутые выражения для всех неприводимых представлений, т. Е. Любого спина. ^[15]

Фердинанд Георг Фробениус (1849–1917), немецкий математик. Его основными интересами были эллиптические функции , дифференциальные уравнения , а затем теория групп .
В 1878 году он дал первое полное доказательство теоремы Кэли – Гамильтона. ^[10]

Алгебраическая теория чисел

Теорема Кэли – Гамильтона - эффективный инструмент для вычисления минимального многочлена от целых алгебраических чисел. Например, учитывая конечное расширение ${\ displaystyle \ mathbb {Q} [\ alpha _ {1}, \ ldots, \ alpha _ {k}]}$ из ${\ displaystyle \ mathbb {Q}}$ и целое алгебраическое число ${\ displaystyle \ alpha \ in \ mathbb {Q} [\ alpha _ {1}, \ ldots, \ alpha _ {k}]}$ что является ненулевой линейной комбинацией ${\ displaystyle \ alpha _ {1} ^ {n_ {1}} \ cdots \ alpha _ {k} ^ {n_ {k}}}$ мы можем вычислить минимальный многочлен от ${\ displaystyle \ alpha}$ найдя матрицу, представляющую ${\ displaystyle \ mathbb {Q}}$ -линейное преобразование

{\ displaystyle \ cdot \ alpha: \ mathbb {Q} [\ alpha _ {1}, \ ldots, \ alpha _ {k}] \ to \ mathbb {Q} [\ alpha _ {1}, \ ldots, \ альфа _ {k}]}

Если мы назовем эту матрицу преобразования ${\ displaystyle A}$ , то мы можем найти минимальный многочлен, применяя теорему Кэли – Гамильтона к ${\ displaystyle A}$ . ^[16]

Доказательства

Теорема Кэли – Гамильтона является непосредственным следствием существования жордановой нормальной формы для матриц над алгебраически замкнутыми полями . В этом разделе представлены прямые доказательства.

Как показывают приведенные выше примеры, получение утверждения теоремы Кэли – Гамильтона для матрицы размера $n \times n$

{\ displaystyle A = (a_ {ij}) _ {i, j = 1} ^ {n}}

требует двух шагов: сначала коэффициенты $c i$ характеристического полинома определяются разверткой как полином по $t$ определителя

{\ displaystyle {\ begin {align} p (t) & = \ det (tI_ {n} -A) = {\ begin {vmatrix} t-a_ {1,1} & - a_ {1,2} & \ cdots & -a_ {1, n} \\ - a_ {2,1} & t-a_ {2,2} & \ cdots & -a_ {2, n} \\\ vdots & \ vdots & \ ddots & \ vdots \\ - a_ {n, 1} & - a_ {n, 2} & \ cdots & t-a_ {n, n} \ end {vmatrix}} \\ [5pt] & = t ^ {n} + c_ {n -1} t ^ {n-1} + \ cdots + c_ {1} t + c_ {0}, \ end {align}}}

а затем эти коэффициенты используются в линейной комбинации степеней $A,$ которая приравнивается к нулевой матрице $n \times n$ :

{\ displaystyle A ^ {n} + c_ {n-1} A ^ {n-1} + \ cdots + c_ {1} A + c_ {0} I_ {n} = {\ begin {pmatrix} 0 & \ cdots & 0 \\\ vdots & \ ddots & \ vdots \\ 0 & \ cdots & 0 \ end {pmatrix}}.}

Боковая левая рука может быть выработана к $п \times п$ матрицы, элементы которой являются (огромные) полиномиальные выражения в наборе записей $я$ $,$ $J$ из $А$ , так Кэли-Гамильтона теорема утверждает , что каждый из этих $п$ $2$ выражения равных $0$ . Для любого фиксированного значения $n$ эти тождества могут быть получены путем утомительных, но простых алгебраических манипуляций. Однако ни одно из этих вычислений не может показать, почему теорема Кэли – Гамильтона должна быть верной для матриц всех возможных размеров $n$ , поэтому требуется единообразное доказательство для всех $n$ .

Предварительные мероприятия

Если вектор $v$ размера $п$ является собственным вектором из $А$ с собственным значением $λ$ , другими словами , если $A \cdot v = λv$ , то

{\ Displaystyle {\ begin {выровнено} п (А) \ cdot v & = A ^ {n} \ cdot v + c_ {n-1} A ^ {n-1} \ cdot v + \ cdots + c_ {1} A \ cdot v + c_ {0} I_ {n} \ cdot v \\ [6pt] & = \ lambda ^ {n} v + c_ {n-1} \ lambda ^ {n-1} v + \ cdots + c_ { 1} \ lambda v + c_ {0} v = p (\ lambda) v, \ end {выровнено}}}

который является вектором нуль , так как $р (λ) = 0$ (собственные значения $А$ именно те корни из $р (т)$ ). Это верно для всех возможных собственных значений $λ$ , поэтому две матрицы, приравненные теоремой, безусловно, дают одинаковый (нулевой) результат при применении к любому собственному вектору. Теперь , если допускает базис из собственных векторов, других слова , если является диагонализируемо , то Кэли-Гамильтон теорема должен быть выполнен для $А$ , так как две матрицы , которые дают то же значение , когда применяются к каждому элементу основы должна быть равны.

{\ displaystyle A = XDX ^ {- 1}, \ quad D = \ operatorname {diag} (\ lambda _ {i}), \ quad i = 1,2, ..., n}

{\ displaystyle p_ {A} (\ lambda) = | \ lambda IA ​​| =}

произведение собственных значений

{\ displaystyle \ lambda IA ​​= \ prod _ {i = 1} ^ {n} (\ lambda - \ lambda _ {i}) \ Equiv \ sum _ {k = 0} ^ {n} c_ {k} \ lambda ^ {k}}

{\ Displaystyle p_ {A} (A) = \ sum c_ {k} A ^ {k} = Xp_ {A} (D) X ^ {- 1} = XCX ^ {- 1}}

{\ displaystyle C_ {ii} = \ sum _ {k = 0} ^ {n} c_ {k} \ lambda _ {i} ^ {k} = \ prod _ {j = 1} ^ {n} (\ lambda _ {i} - \ lambda _ {j}) = 0, \ qquad C_ {i, j \ neq i} = 0}

{\ displaystyle \, следовательно, p_ {A} (A) = XCX ^ {- 1} = O.}

Рассмотрим теперь функцию ${\ Displaystyle е \ двоеточие M_ {n} \ to M_ {n}}$ который отображает ${\ Displaystyle п \ раз п}$ матрицы для ${\ Displaystyle п \ раз п}$ матрицы, заданные формулой ${\ Displaystyle е (А) = п_ {А} (А)}$ , т.е. которая принимает матрицу ${\ displaystyle A}$ и вставляет его в собственный характеристический многочлен. Не все матрицы диагонализуемы, но для матриц с комплексными коэффициентами многие из них: набор ${\ displaystyle D}$ диагонализуемая комплексная квадратная матрица заданного размера плотна во множестве всех таких квадратных матриц ^[17] (для диагонализуемости матрицы достаточно, например, чтобы ее характеристический многочлен не имел кратных корней). Теперь рассматривается как функция ${\ Displaystyle е \ двоеточие \ mathbb {C} ^ {n ^ {2}} \ to \ mathbb {C} ^ {n ^ {2}}}$ (поскольку матрицы имеют ${\ Displaystyle п ^ {2}}$ записей) мы видим, что эта функция непрерывна . Это верно, потому что элементы изображения матрицы задаются полиномами в элементах матрицы. С

${\ displaystyle e (D) = \ left \ {{\ begin {pmatrix} 0 & \ cdots & 0 \\\ vdots & \ ddots & \ vdots \\ 0 & \ cdots & 0 \ end {pmatrix}} \ right \}}$

и поскольку множество ${\ displaystyle D}$ плотно, по непрерывности эта функция должна отображать все множество ${\ Displaystyle п \ раз п}$ матрицы к нулевой матрице. Следовательно, теорема Кэли – Гамильтона верна для комплексных чисел и, следовательно, должна также выполняться для ${\ displaystyle \ mathbb {Q}}$ - или же ${\ Displaystyle \ mathbb {R}}$ -значные матрицы.

Хотя это обеспечивает действительное доказательство, аргумент не очень удовлетворителен, поскольку тождества, представленные теоремой, никоим образом не зависят от природы матрицы (диагонализуемой или нет), ни от типа разрешенных элементов (для матриц с вещественные элементы (диагонализуемые) не образуют плотного множества, и кажется странным, что пришлось бы рассматривать комплексные матрицы, чтобы увидеть, что для них выполняется теорема Кэли – Гамильтона). Поэтому сейчас мы будем рассматривать только аргументы, которые доказывают теорему непосредственно для любой матрицы, используя только алгебраические манипуляции; они также имеют то преимущество, что работают с матрицами с элементами в любом коммутативном кольце .

Существует множество таких доказательств теоремы Кэли – Гамильтона, некоторые из которых будут приведены здесь. Они различаются количеством абстрактных алгебраических понятий, необходимых для понимания доказательства. В простейших доказательствах используются только те понятия, которые необходимы для формулировки теоремы (матрицы, многочлены с числовыми элементами, определители), но используются технические вычисления, которые делают несколько загадочным тот факт, что они приводят именно к правильному выводу. Можно избежать таких деталей, но за счет использования более тонких алгебраических понятий: многочлены с коэффициентами в некоммутативном кольце или матрицы с необычными типами элементов.

Сопрягать матрицы

Во всех приведенных ниже доказательствах используется понятие сопряженной матрицы $adj (M)$ к матрице $M$ размера $n \times n$ , транспонированной матрицы ее кофакторов .

Это матрица, коэффициенты которой задаются полиномиальными выражениями от коэффициентов матрицы $M$ (фактически, некоторыми определителями $(n - 1) \times (n - 1)$ ) таким образом, что выполняются следующие фундаментальные соотношения:

{\ Displaystyle \ OperatorName {прил.} (M) \ cdot M = \ det (M) I_ {n} = M \ cdot \ OperatorName {прил.} (M) ~.}

Эти соотношения являются прямым следствием основных свойств определителей: оценка элемента $(i, j)$ матричного произведения слева дает расширение по столбцу $j$ определителя матрицы, полученной из $M$ заменой столбца $i$ на копия столбца $j$ , который является $det (M),$ если $i = j,$ и нулем в противном случае; матричное произведение справа аналогично, но для разложения по строкам.

Будучи следствием простой манипуляции с алгебраическими выражениями, эти соотношения действительны для матриц с элементами в любом коммутативном кольце (для определения определителей в первую очередь необходимо предполагать коммутативность). Это важно отметить здесь, потому что эти отношения будут применяться ниже для матриц с нечисловыми элементами, такими как полиномы.

Прямое алгебраическое доказательство

В этом доказательстве используются именно те объекты, которые необходимы для формулировки теоремы Кэли – Гамильтона: матрицы с полиномами в качестве элементов. Матрица $t I n - A$ , определитель которой является характеристическим многочленом матрицы $A,$ является такой матрицей, и, поскольку многочлены образуют коммутативное кольцо, она имеет сопряженный

{\ displaystyle B = \ operatorname {adj} (tI_ {n} -A).}

Тогда согласно правому фундаментальному соотношению сопряженного элемента имеем

{\ Displaystyle (tI_ {n} -A) B = \ det (tI_ {n} -A) I_ {n} = p (t) I_ {n} ~.}

Поскольку $B$ также является матрицей с полиномами от $t в$ качестве элементов, для каждого $i можно$ собрать коэффициенты $t i$ в каждой записи, чтобы сформировать матрицу $B i$ чисел, так что один имеет

{\ displaystyle B = \ sum _ {i = 0} ^ {n-1} t ^ {i} B_ {i} ~.}

(Из того, как определены элементы $B$ , ясно, что не встречаются степени выше $t n -1$ ). Хотя это выглядит как многочлен с матрицами в качестве коэффициентов, мы не будем рассматривать такое понятие; это просто способ записать матрицу с полиномиальными элементами как линейную комбинацию $n$ постоянных матриц, а коэффициент $t i$ был записан слева от матрицы, чтобы подчеркнуть эту точку зрения.

Теперь можно разложить матричное произведение в нашем уравнении на билинейность

{\ displaystyle {\ begin {align} p (t) I_ {n} & = (tI_ {n} -A) B \\ & = (tI_ {n} -A) \ sum _ {i = 0} ^ { n-1} t ^ {i} B_ {i} \\ & = \ sum _ {i = 0} ^ {n-1} tI_ {n} \ cdot t ^ {i} B_ {i} - \ sum _ {i = 0} ^ {n-1} A \ cdot t ^ {i} B_ {i} \\ & = \ sum _ {i = 0} ^ {n-1} t ^ {i + 1} B_ { i} - \ sum _ {i = 0} ^ {n-1} t ^ {i} AB_ {i} \\ & = t ^ {n} B_ {n-1} + \ sum _ {i = 1} ^ {n-1} t ^ {i} (B_ {i-1} -AB_ {i}) - AB_ {0} ~. \ end {выровнено}}}

Письмо

{\ displaystyle p (t) I_ {n} = t ^ {n} I_ {n} + t ^ {n-1} c_ {n-1} I_ {n} + \ cdots + tc_ {1} I_ {n } + c_ {0} I_ {n} ~,}

получается равенство двух матриц с полиномиальными элементами, записанными как линейные комбинации постоянных матриц со степенями $t в$ качестве коэффициентов.

Такое равенство может иметь место только в том случае, если в любой позиции матрицы запись, умноженная на заданную степень $t$ $i,$ одинакова с обеих сторон; Отсюда следует, что постоянные матрицы с коэффициентом $t$ $i$ в обоих выражениях должны быть равны. Записывая эти уравнения затем для $i$ от $n$ до 0, можно найти

{\ displaystyle B_ {n-1} = I_ {n}, \ qquad B_ {i-1} -AB_ {i} = c_ {i} I_ {n} \ quad {\ text {for}} 1 \ leq i \ leq n-1, \ qquad -AB_ {0} = c_ {0} I_ {n} ~.}

Наконец, умножьте уравнение коэффициентов $t i$ слева на $A i$ и просуммируйте:

${\ textstyle A ^ {n} B_ {n-1} + \ sum \ limits _ {i = 1} ^ {n-1} \ left (A ^ {i} B_ {i-1} -A ^ {i +1} B_ {i} \ right) -AB_ {0} = A ^ {n} + c_ {n-1} A ^ {n-1} + \ cdots + c_ {1} A + c_ {0} I_ {n} ~.}$

Левые части образуют телескопическую сумму и полностью сокращаются; правые части складываются в ${\ displaystyle p (A)}$ :

{\ Displaystyle 0 = п (А) ~.}

Это завершает доказательство.

Доказательство с использованием многочленов с матричными коэффициентами

Это доказательство аналогично первому, но пытается придать смысл понятию полинома с матричными коэффициентами, которое было предложено выражениями, встречающимися в этом доказательстве. Это требует особой осторожности, поскольку несколько необычно рассматривать многочлены с коэффициентами в некоммутативном кольце, и не все рассуждения, которые справедливы для коммутативных многочленов, могут быть применены в этой ситуации.

Примечательно, что в то время как арифметика многочленов над коммутативным кольцом моделирует арифметику полиномиальных функций , это не относится к некоммутативному кольцу (фактически, в этом случае нет очевидного понятия полиномиальной функции, которая замкнута относительно умножения). Таким образом, при рассмотрении полиномов от $t$ с матричными коэффициентами переменная $t$ не должна рассматриваться как «неизвестная», а как формальный символ, которым следует управлять в соответствии с заданными правилами; в частности, нельзя просто установить $t$ на определенное значение.

{\ Displaystyle (е + г) (х) = \ сумма _ {я} \ влево (е_ {я} + г_ {я} \ право) х ^ {я} = \ сумма _ {я} {е_ {я} x ^ {i}} + \ sum _ {i} {g_ {i} x ^ {i}} = f (x) + g (x).}

Позволять ${\ Displaystyle М (п, р)}$ быть кольцом ${\ Displaystyle п \ раз п}$ матрицы с записями в некотором кольце R (например, действительными или комплексными числами), имеющим $A$ в качестве элемента. Матрицы с полиномами в качестве коэффициентов от $t$ , например ${\ displaystyle tI_ {n} -A}$ или его адъюгат B в первом доказательстве, являются элементами ${\ Displaystyle М (п, р [т])}$ .

Собирая одинаковые степени $t$ , такие матрицы можно записать как «полиномы» от $t$ с постоянными матрицами в качестве коэффициентов; написать ${\ Displaystyle М (п, р) [т]}$ для множества таких многочленов. Поскольку это множество находится в биекции с ${\ Displaystyle М (п, р [т])}$ , на нем соответственно определяются арифметические операции, в частности умножение задается формулой

{\ displaystyle \ left (\ sum _ {i} M_ {i} t ^ {i} \ right) \ left (\ sum _ {j} N_ {j} t ^ {j} \ right) = \ sum _ { i, j} (M_ {i} N_ {j}) t ^ {i + j},}

соблюдение порядка матриц коэффициентов из двух операндов; очевидно, это дает некоммутативное умножение.

Таким образом, тождество

{\ displaystyle (tI_ {n} -A) B = p (t) I_ {n}.}

из первого доказательства можно рассматривать как доказательство, включающее умножение элементов в ${\ Displaystyle М (п, р) [т]}$ .

На этом этапе возникает соблазн просто установить $t$ равным матрице $A$ , что делает первый множитель слева равным нулевой матрице, а правую часть - равным $p (A)$ ; однако это недопустимая операция, когда коэффициенты не коммутируются. Можно определить «карту правой оценки» ЭВ _$A$ : M [ т ] → M , который заменяет каждый т ^я матрица мощности $А$ ^я из $А$ , где один оговаривает , что власть всегда будет умножена на праве к соответствующему коэффициенту.

Но это отображение не является гомоморфизмом колец: правая оценка произведения в целом отличается от произведения правых оценок. Это так, потому что умножение многочленов на матричные коэффициенты не моделирует умножение выражений, содержащих неизвестные: произведение ${\ Displaystyle Mt ^ {я} Nt ^ {j} = (M \ cdot N) t ^ {я + j}}$ определяется в предположении , что $т$ коммутирует с $N$ , но это может потерпеть неудачу , если $т$ заменяется на матрицу $A$ .

Эту трудность можно обойти в конкретной ситуации, поскольку указанное выше отображение правой оценки действительно становится кольцевым гомоморфизмом, если матрица $A$ находится в центре кольца коэффициентов, так что она коммутирует со всеми коэффициентами многочленов (аргумент, доказывающий это, прост, именно потому, что коммутация $t$ с коэффициентами теперь оправдана после оценки).

Теперь $A$ не всегда находится в центре M , но мы можем заменить M кольцом меньшего размера, если оно содержит все коэффициенты рассматриваемых многочленов: ${\ displaystyle I_ {n}}$ , $A$ , а коэффициенты ${\ displaystyle B_ {i}}$ многочлена B . Очевидный выбор для такого подкольцу является центратор Z из $А$ , подкольцо всех матриц, коммутирующих с $А$ ; по определению находится в центре Z .

Этот централизатор, очевидно, содержит ${\ displaystyle I_ {n}}$ , и $A$ , но нужно показать, что он содержит матрицы ${\ displaystyle B_ {i}}$ . Для этого нужно объединить два фундаментальных соотношения для адъюгатов, выписав адъюгат B в виде полинома:

{\ displaystyle {\ begin {align} \ left (\ sum _ {i = 0} ^ {m} B_ {i} t ^ {i} \ right) (tI_ {n} -A) & = (tI_ {n } -A) \ sum _ {i = 0} ^ {m} B_ {i} t ^ {i} \\\ sum _ {i = 0} ^ {m} B_ {i} t ^ {i + 1} - \ sum _ {i = 0} ^ {m} B_ {i} At ^ {i} & = \ sum _ {i = 0} ^ {m} B_ {i} t ^ {i + 1} - \ sum _ {i = 0} ^ {m} AB_ {i} t ^ {i} \\\ sum _ {i = 0} ^ {m} B_ {i} At ^ {i} & = \ sum _ {i = 0} ^ {m} AB_ {i} t ^ {i}. \ End {align}}}

Приравнивание коэффициентов показывает, что для каждого i мы имеем $A$ B _i = B _i $A,$ как и нужно . Найдя подходящие условия, в которых ev _$A$ действительно является гомоморфизмом колец, можно завершить доказательство, как было предложено выше:

{\ displaystyle {\ begin {align} \ operatorname {ev} _ {A} {\ bigl (} p (t) I_ {n} {\ bigr)} & = \ operatorname {ev} _ {A} ((tI_ {n} -A) B) \\ [5pt] p (A) & = \ operatorname {ev} _ {A} (tI_ {n} -A) \ cdot \ operatorname {ev} _ {A} (B) \\ [5pt] p (A) & = (AI_ {n} -A) \ cdot \ operatorname {ev} _ {A} (B) = O \ cdot \ operatorname {ev} _ {A} (B) = О. \ end {align}}}

Это завершает доказательство.

Синтез первых двух доказательств

В первом доказательстве, один был в состоянии определить коэффициенты $B I$ из $B$ на основе правой фундаментального соотношения для только adjugate. На самом деле первые $п$ полученных уравнения можно интерпретировать как определение фактора - $B$ в евклидове деления многочлена $р (т) я п$ слева от унитарного многочлена $I н т - А$ , в то время как окончательное уравнение выражает тот факт , что остаток равен нулю. Это деление выполняется в кольце многочленов с матричными коэффициентами. В самом деле, даже над некоммутативным кольцом евклидово деление на монический многочлен $P$ определено и всегда дает однозначное частное и остаток с тем же условием степени, что и в коммутативном случае, при условии, что указано, с какой стороны нужно, чтобы $P.$ быть фактором (здесь он слева).

Чтобы убедиться, что частное и остаток уникальны (что является важной частью утверждения здесь), достаточно написать ${\ Displaystyle PQ + r = PQ '+ r'}$ в виде ${\ Displaystyle P (Q-Q ') = r'-r}$ и заметим, что поскольку $P$ моничен, $P (Q - Q ')$ не может иметь степень меньше, чем у $P$ , если $Q = Q'$ .

Но используемые здесь делимое $p (t) I n$ и делитель $I n t - A$ лежат в подкольце $(R [A]) [t]$ , где $R [A]$ - подкольцо кольца матриц $M (n, R)$ , порожденный $A$ : $R$ -линейной оболочка всех степеней $A$ . Следовательно, евклидово деление на самом деле может быть выполнено внутри этого коммутативного кольца многочленов, и, конечно, тогда оно дает такое же частное $B$ и остаток 0, что и в большем кольце; в частности, это показывает, что $B$ на самом деле лежит в $(R [A]) [t]$ .

Но в этой коммутативной настройке допустимо установить $t$ равным $A$ в уравнении

{\ displaystyle p (t) I_ {n} = (tI_ {n} -A) B;}

другими словами, чтобы применить оценочную карту

{\ Displaystyle \ OperatorName {ev} _ {A} :( R [A]) [t] \ к R [A]}

который является гомоморфизмом колец, что дает

{\ displaystyle p (A) = 0 \ cdot \ operatorname {ev} _ {A} (B) = 0}

как и во втором доказательстве, по желанию.

В дополнении к доказательству теоремы, приведенное рассуждение говорит нам о том , что коэффициенты $B$ $I$ из $B$ являются многочленами $А$ , а из второго доказательства мы только знали , что они лежат в централизаторном $Z$ от $A$ ; в общем случае $Z$ является подкольцом большего размера, чем $R$ $[$ $A$ $]$ , и не обязательно коммутативным. В частности, постоянный член $B$ $0$ $= adj (-$ $A$ $)$ лежит в $R$ $[$ $A$ $]$ . Поскольку $A$ - произвольная квадратная матрица, это доказывает, что $adj ($ $A$ $)$ всегда может быть выражен как полином от $A$ (с коэффициентами, которые зависят от $A$ $)$ .

Фактически уравнения, найденные в первом доказательстве, позволяют последовательно выразить ${\ displaystyle B_ {n-1}, \ ldots, B_ {1}, B_ {0}}$ как многочлены от $A$ , что приводит к тождеству

${\ displaystyle \ operatorname {прил} (-A) = \ sum _ {i = 1} ^ {n} c_ {i} A ^ {i-1},}$

справедливо для всех матриц размера $n \times n$ , где

{\ displaystyle p (t) = t ^ {n} + c_ {n-1} t ^ {n-1} + \ cdots + c_ {1} t + c_ {0}}

является характеристическим полиномом $A$ .

Обратите внимание, что из этого тождества также следует утверждение теоремы Кэли – Гамильтона: можно переместить $adj (- A)$ в правую часть, умножить полученное уравнение (слева или справа) на $A$ и использовать тот факт, что

{\ displaystyle -A \ cdot \ operatorname {adj} (-A) = \ operatorname {adj} (-A) \ cdot (-A) = \ det (-A) I_ {n} = c_ {0} I_ { n}.}

Доказательство с использованием матриц эндоморфизмов

Как было упомянуто выше, матрица р ( ) в формулировке теоремы получается первой оценкой детерминанта , а затем заменяя матрицу А для т ; делая эту замену в матрицу ${\ displaystyle tI_ {n} -A}$ перед оценкой определителя не имеет смысла. Тем не менее, можно дать интерпретацию, в которой p ( A ) получается непосредственно как значение определенного определителя, но это требует более сложной настройки, одной из матриц над кольцом, в которой можно интерпретировать обе записи ${\ displaystyle A_ {i, j}}$ из А , и все А сам. Для этого можно взять кольцо M ( n , R ) матриц размера n × n над R , где запись ${\ displaystyle A_ {i, j}}$ реализуется как ${\ displaystyle A_ {i, j} I_ {n}}$ , и A как себя. Но рассмотрение матриц с матрицами в качестве элементов может вызвать путаницу с блочными матрицами , что не предназначено, поскольку это дает неправильное понятие определителя (напомним, что определитель матрицы определяется как сумма произведений ее элементов, а в случае блочной матрицы это обычно не то же самое, что соответствующая сумма произведений ее блоков!). Это яснее , чтобы отличить А от эндоморфизма ф о с п - мерного векторным пространством V (или свободного R - модуль , если R не является поле) , определенными им в качестве основы ${\ displaystyle e_ {1}, \ ldots, e_ {n}}$ , и взять матрицы над кольцом End ( V ) всех таких эндоморфизмов. Тогда φ ∈ End ( V ) - возможный элемент матрицы, а A обозначает элемент M ( n , End ( V )) , элемент i , j которого является эндоморфизмом скалярного умножения на ${\ displaystyle A_ {i, j}}$ ; по аналогии ${\ displaystyle I_ {n}}$ будет интерпретироваться как элемент M ( n , End ( V )). Однако, поскольку End ( V ) не является коммутативным кольцом, на M ( n , End ( V )) не определен определитель ; это можно сделать только для матриц над коммутативным подкольцом End ( V ). Теперь элементы матрицы ${\ displaystyle \ varphi I_ {n} -A}$ все лежат в подкольце R [ φ ], порожденном единицей и φ , которое коммутативно. Тогда определено детерминантное отображение M ( n , R [ φ ]) → R [ φ ] и ${\ Displaystyle \ Det (\ varphi I_ {п} -A)}$ вычисляет значение p ( φ ) характеристического полинома A в точке φ (это выполняется независимо от отношения между A и φ ); теорема Кэли – Гамильтона утверждает, что p ( φ ) является нулевым эндоморфизмом.

В этой форме следующее доказательство может быть получено из доказательства (Atiyah & MacDonald 1969 , Prop. 2.4) (которое на самом деле является более общим утверждением, связанным с леммой Накаямы ; в этом предложении за идеал берется все кольцо R ). Тот факт, что A - матрица функции φ в базисе e ₁ , ..., e _n, означает, что

{\ displaystyle \ varphi (e_ {i}) = \ sum _ {j = 1} ^ {n} A_ {j, i} e_ {j} \ quad {\ text {for}} i = 1, \ ldots, п.}

Их можно интерпретировать как n компонентов одного уравнения в V ⁿ , члены которого могут быть записаны с использованием произведения матрица-вектор M ( n , End ( V )) × V ⁿ → V ⁿ , которое определяется как обычно, но с отдельными элементами ψ ∈ End ( V ) и v в V "умножаются" путем формирования ${\ Displaystyle \ psi (v)}$ ; это дает:

{\ displaystyle \ varphi I_ {n} \ cdot E = A ^ {\ operatorname {tr}} \ cdot E,}

где ${\ displaystyle E \ in V ^ {n}}$ - это элемент, компонент i которого равен e _i (другими словами, это базис e ₁ , ..., e _n матрицы V, записанный как столбец векторов). Записывая это уравнение как

{\ displaystyle (\ varphi I_ {n} -A ^ {\ operatorname {tr}}) \ cdot E = 0 \ in V ^ {n}}

узнается транспонирование матрицы $\varphi I_{n}-A$ considered above, and its determinant (as element of M(n, R[φ])) is also p(φ). To derive from this equation that p(φ) = 0 ∈ End(V), one left-multiplies by the adjugate matrix of $\varphi I_{n}-A^{\operatorname {tr} }$ , which is defined in the matrix ring M(n, R[φ]), giving

{\begin{aligned}0&=\operatorname {adj} (\varphi I_{n}-A^{\operatorname {tr} })\cdot ((\varphi I_{n}-A^{\operatorname {tr} })\cdot E)\\&=(\operatorname {adj} (\varphi I_{n}-A^{\operatorname {tr} })\cdot (\varphi I_{n}-A^{\operatorname {tr} }))\cdot E\\&=(\det(\varphi I_{n}-A^{\operatorname {tr} })I_{n})\cdot E\\&=(p(\varphi )I_{n})\cdot E;\end{aligned}}

the associativity of matrix-matrix and matrix-vector multiplication used in the first step is a purely formal property of those operations, independent of the nature of the entries. Now component i of this equation says that p(φ)(e_i) = 0 ∈ V; thus p(φ) vanishes on all e_i, and since these elements generate V it follows that p(φ) = 0 ∈ End(V), completing the proof.

One additional fact that follows from this proof is that the matrix A whose characteristic polynomial is taken need not be identical to the value φ substituted into that polynomial; it suffices that φ be an endomorphism of V satisfying the initial equations

\varphi (e_{i})=\sum _{j}A_{j,i}e_{j}

for some sequence of elements e₁,...,e_n that generate V (which space might have smaller dimension than n, or in case the ring R is not a field it might not be a free module at all).

A bogus "proof": p(A) = det(AI_n − A) = det(A − A) = 0

One persistent elementary but incorrect argument^[18] for the theorem is to "simply" take the definition

p(\lambda )=\det(\lambda I_{n}-A)

and substitute $A$ for $λ$ , obtaining

p(A)=\det(AI_{n}-A)=\det(A-A)=0~.

There are many ways to see why this argument is wrong. First, in Cayley–Hamilton theorem, p(A) is an n×n matrix. However, the right hand side of the above equation is the value of a determinant, which is a scalar. So they cannot be equated unless n = 1 (i.e. A is just a scalar). Second, in the expression $\det(\lambda I_{n}-A)$ , the variable λ actually occurs at the diagonal entries of the matrix $\lambda I_{n}-A$ . To illustrate, consider the characteristic polynomial in the previous example again:

\det {\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}.

If one substitutes the entire matrix A for λ in those positions, one obtains

\det {\begin{pmatrix}{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-1&-2\\-3&{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-4\end{pmatrix}},

in which the "matrix" expression is simply not a valid one. Note, however, that if scalar multiples of identity matrices instead of scalars are subtracted in the above, i.e. if the substitution is performed as

\det {\begin{pmatrix}{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-I_{2}&-2I_{2}\\-3I_{2}&{\begin{pmatrix}1&2\\3&4\end{pmatrix}}-4I_{2}\end{pmatrix}},

then the determinant is indeed zero, but the expanded matrix in question does not evaluate to $AI_{n}-A$ ; nor can its determinant (a scalar) be compared to p(A) (a matrix). So the argument that $p(A)=\det(AI_{n}-A)=0$ still does not apply.

Actually, if such an argument holds, it should also hold when other multilinear forms instead of determinant is used. For instance, if we consider the permanent function and define $q(\lambda )=\operatorname {perm} (\lambda I_{n}-A)$ , then by the same argument, we should be able to "prove" that q(A) = 0. But this statement is demonstrably wrong. In the 2-dimensional case, for instance, the permanent of a matrix is given by

\operatorname {perm} {\begin{pmatrix}a&b\\c&d\end{pmatrix}}=ad+bc.

So, for the matrix A in the previous example,

{\begin{aligned}q(\lambda )&=\operatorname {perm} (\lambda I_{2}-A)=\operatorname {perm} {\begin{pmatrix}\lambda -1&-2\\-3&\lambda -4\end{pmatrix}}\\[6pt]&=(\lambda -1)(\lambda -4)+(-2)(-3)=\lambda ^{2}-5\lambda +10.\end{aligned}}

Yet one can verify that

q(A)=A^{2}-5A+10I_{2}=12I_{2}\not =0.

One of the proofs for Cayley–Hamilton theorem above bears some similarity to the argument that $p(A)=\det(AI_{n}-A)=0$ . By introducing a matrix with non-numeric coefficients, one can actually let A live inside a matrix entry, but then $AI_{n}$ is not equal to A, and the conclusion is reached differently.

Proofs using methods of abstract algebra

Basic properties of Hasse–Schmidt derivations on the exterior algebra $A=\bigwedge M$ of some B-module M (supposed to be free and of finite rank) have been used by Gatto & Salehyan (2016, §4) to prove the Cayley–Hamilton theorem. See also Gatto & Scherbak (2015).

Абстракция и обобщения

The above proofs show that the Cayley–Hamilton theorem holds for matrices with entries in any commutative ring R, and that p(φ) = 0 will hold whenever φ is an endomorphism of an R module generated by elements e₁,...,e_n that satisfies

\varphi (e_{j})=\sum a_{ij}e_{i},\qquad j=1,\ldots ,n.

This more general version of the theorem is the source of the celebrated Nakayama lemma in commutative algebra and algebraic geometry.

Смотрите также

Companion matrix

Замечания

^ Due to the non-commutative nature of the multiplication operation for quaternions and related constructions, care needs to be taken with definitions, most notably in this context, for the determinant. The theorem holds as well for the slightly less well-behaved split-quaternions, see Alagös, Oral & Yüce (2012). The rings of quaternions and split-quaternions can both be represented by certain $2 \times 2$ complex matrices. (When restricted to unit norm, these are the groups $SU(2)$ and $SU(1, 1)$ respectively.) Therefore it is not surprising that the theorem holds.
There is no such matrix representation for the octonions, since the multiplication operation is not associative in this case. However, a modified Cayley–Hamilton theorem still holds for the octonions, see Tian (2000).
^ An explicit expression for these coefficients is
$c_{i}=\sum _{k_{1},k_{2},\ldots ,k_{n}}\prod _{l=1}^{n}{\frac {(-1)^{k_{l}+1}}{l^{k_{l}}k_{l}!}}\operatorname {tr} (A^{l})^{k_{l}},$
where the sum is taken over the sets of all integer partitions $k l \geq 0$ satisfying the equation
$\sum _{l=1}^{n}lk_{l}=n-i.$
^ See, e.g., p. 54 of Brown 1994, which solves Jacobi's formula,
$\partial p(\lambda )/\partial \lambda =p(\lambda )\sum _{m=0}^{\infty }\lambda ^{-(m+1)}\operatorname {tr} A^{m}=p(\lambda )~\operatorname {tr} {\frac {I}{\lambda I-A}}\equiv \operatorname {tr} B~,$
where $B$ is the adjugate matrix of the next section. There also exists an equivalent, related recursive algorithm introduced by Urbain Le Verrier and Dmitry Konstantinovich Faddeev—the Faddeev–LeVerrier algorithm, which reads
${\begin{aligned}M_{0}&\equiv O&c_{n}&=1\qquad &(k=0)\\[5pt]M_{k}&\equiv AM_{k-1}-{\frac {1}{k-1}}(\operatorname {tr} (AM_{k-1}))I\qquad \qquad &c_{n-k}&=-{\frac {1}{k}}\operatorname {tr} (AM_{k})\qquad &k=1,\ldots ,n~.\end{aligned}}$
(see, e.g., p 88 of Gantmacher 1960.) Observe $A -1 = - M n / c 0$ as the recursion terminates. See the algebraic proof in the following section, which relies on the modes of the adjugate, $B k \equiv M n - k$ . Specifically, $(\lambda I-A)B=Ip(\lambda )$ and the above derivative of $p$ when one traces it yields
$\lambda p'-np=\operatorname {tr} (AB)~,$ ( Hou 1998), and the above recursions, in turn.

Заметки

^ a b Crilly 1998
^ a b Cayley 1858, pp. 17–37
^ Cayley 1889, pp. 475–496
^ a b Hamilton 1864a
^ a b Hamilton 1864b
^ a b Hamilton 1862
^ Atiyah & MacDonald 1969
^ Hamilton 1853, p. 562
^ Zhang 1997
^ a b Frobenius 1878
^ Zeni & Rodrigues 1992
^ Barut, Zeni & Laufer 1994a
^ Barut, Zeni & Laufer 1994b
^ Laufer 1997
^ Curtright, Fairlie & Zachos 2014
^ Stein, William. Algebraic Number Theory, a Computational Approach (PDF). p. 29.
^ Bhatia 1997, p. 7
^ Garrett 2007, p. 381

Внешние ссылки

"Cayley–Hamilton theorem", Encyclopedia of Mathematics, EMS Press, 2001 [1994]
A proof from PlanetMath.
The Cayley–Hamilton theorem at MathPages

[10] Due to the non-commutative nature of the multiplication operation for quaternions and related constructions, care needs to be taken with definitions, most notably in this context, for the determinant. The theorem holds as well for the slightly less well-behaved split-quaternions, see Alagös, Oral & Yüce (2012). The rings of quaternions and split-quaternions can both be represented by certain $2 \times 2$ complex matrices. (When restricted to unit norm, these are the groups $SU(2)$ and $SU(1, 1)$ respectively.) Therefore it is not surprising that the theorem holds.
There is no such matrix representation for the octonions, since the multiplication operation is not associative in this case. However, a modified Cayley–Hamilton theorem still holds for the octonions, see Tian (2000).

[12] An explicit expression for these coefficients is
$c_{i}=\sum _{k_{1},k_{2},\ldots ,k_{n}}\prod _{l=1}^{n}{\frac {(-1)^{k_{l}+1}}{l^{k_{l}}k_{l}!}}\operatorname {tr} (A^{l})^{k_{l}},$
where the sum is taken over the sets of all integer partitions $k l \geq 0$ satisfying the equation
$\sum _{l=1}^{n}lk_{l}=n-i.$

[13] See, e.g., p. 54 of Brown 1994, which solves Jacobi's formula,
$\partial p(\lambda )/\partial \lambda =p(\lambda )\sum _{m=0}^{\infty }\lambda ^{-(m+1)}\operatorname {tr} A^{m}=p(\lambda )~\operatorname {tr} {\frac {I}{\lambda I-A}}\equiv \operatorname {tr} B~,$
where $B$ is the adjugate matrix of the next section. There also exists an equivalent, related recursive algorithm introduced by Urbain Le Verrier and Dmitry Konstantinovich Faddeev—the Faddeev–LeVerrier algorithm, which reads
${\begin{aligned}M_{0}&\equiv O&c_{n}&=1\qquad &(k=0)\\[5pt]M_{k}&\equiv AM_{k-1}-{\frac {1}{k-1}}(\operatorname {tr} (AM_{k-1}))I\qquad \qquad &c_{n-k}&=-{\frac {1}{k}}\operatorname {tr} (AM_{k})\qquad &k=1,\ldots ,n~.\end{aligned}}$
(see, e.g., p 88 of Gantmacher 1960.) Observe $A -1 = - M n / c 0$ as the recursion terminates. See the algebraic proof in the following section, which relies on the modes of the adjugate, $B k \equiv M n - k$ . Specifically, $(\lambda I-A)B=Ip(\lambda )$ and the above derivative of $p$ when one traces it yields
$\lambda p'-np=\operatorname {tr} (AB)~,$ ( Hou 1998), and the above recursions, in turn.

[Crilly_1-1] Crilly 1998

[Cayley_1-2] Cayley 1858, pp. 17–37

[3] Cayley 1889, pp. 475–496

[Hamilton_1864a-4] Hamilton 1864a

[Hamilton_1864b-5] Hamilton 1864b

[Hamilton_1862-6] Hamilton 1862

[7] Atiyah & MacDonald 1969

[Hamilton_1853-8] Hamilton 1853, p. 562

[9] Zhang 1997

[Frobenius_1878-11] Frobenius 1878

[14] Zeni & Rodrigues 1992

[15] Barut, Zeni & Laufer 1994a

[16] Barut, Zeni & Laufer 1994b

[17] Laufer 1997

[18] Curtright, Fairlie & Zachos 2014

[19] Stein, William. Algebraic Number Theory, a Computational Approach (PDF). p. 29.

[20] Bhatia 1997, p. 7

[21] Garrett 2007, p. 381

[1]