前言

笔者在尝试用自己的语言解释线性代数中关于特征值和特征向量/对角化和谱分解/相似的相关内容，因为是用自己的语言解释，所以内容可能欠缺严谨，敬请见谅

特征值和特征向量

笔者希望在此引出的一个概念就是：
::: align-center
在研究事物时，我们通常深入研究的，令这个事物区别于其他事物的，应是这个事物的特征

:::
线性映射也是如此，我们希望得到可以反映出一个线性映射整体行为的一个事物，并希望这个事物对于此线性映射是独一无二的，这样我们便可以通过这个“特征”方便的识别和处理这个线性映射的有关问题

万变不离其宗，那么线性映射的“宗”是什么，顾名思义，它应该是那些不会受线性映射前后某种影响的向量，而如果我们需要研究不会受影响的这些向量，首先我们需要对线性映射本身有更大的要求，那就是
::: align-center
此线性映射必须为线性变换，即定义域与陪域的维度必须相同

:::
现在有了这条限制以后，我们考虑一个线性变换A，使得对原像集的某个向量 $x$ ，研究是否有满足
::: align-center
$Ax=\lambda x$

:::
的这个 $x$ 存在（注意我们实际上放宽了要求，只需要线性映射前后的这两个向量共线就可以了）

由线性映射的表示矩阵的知识，我们可以将其考虑为一个矩阵方程，其中 $A$ 一定是方阵

将其移项整理，可得：
::: align-center
$(A-\lambda I)x=0$ （或 $(\lambda I-A)x=0$ ）

:::

这是一个齐次方程，我们在寻找方程的非零解 $x$ （研究零向量并没有意义，容易知道对于所有线性映射，零向量映射后还是零向量，所以零向量显然不是我们要找的特征值）

由矩阵的几大空间的知识，我们知道要使得这个齐次方程有能够容纳非零解的空间，此线性变换 $(\lambda I-A)$ 的零空间的维度一定要大于零，这意味着这个线性变换是一个“坍缩列空间维度的映射”（由秩-零化度定理 $rankA+nullityA=n$ 可得此线性映射的实际列空间维度指标秩一定小于理论的最大列空间维度 $n$ )，所以反映线性映射前后列空间伸缩程度的指标行列式一定为0（注意这与线性变换定义域和陪域维度相同的定义并不矛盾，我们的列空间是像集，在这里它是整个陪域内维度更小的一部分，例如陪域是一个二维平面，在这里我们线性变换的像集可能是一条直线。陪域依然是二维平面，这是由线性变换的定义规定的，而实际上变换的像可能在的列空间维数，是需要我们用秩去推导得出的），故我们得出
::: align-center
$\det(\lambda I-A)=0$

:::

这是一个代数方程，其根有可能在实域，也有可能在复数域，我们指定
::: align-center
给定n阶方阵 $A$ ，如果对 $\lambda\in\mathbb{C}$ ，存在非零向量 $x\in\mathbb{C}^n$ ，使得 $Ax=\lambda x$ ，则称数 $\lambda$ 为方阵 $A$ （在 $\mathbb{C}$ 上的一个特征值），而称非零向量 $x$ 为方阵 $A$ 的一个属于特征值 $\lambda$ 的特征向量

:::

对角化和谱分解

简介

在介绍完特征值和特征向量以后，读者可能会想是否存在某种变换，使得对于一个线性变换来说，我们可以通过类似“傅里叶变换”的方式，获得这个线性变换的“频谱”，其中包含了这个线性变换的所有特征

我们首先反向考虑，如果此线性变换有特征值和特征向量，不妨将这些特征向量按列排布，形成按列分块矩阵
::: align-center
$X=\begin{bmatrix}x_1&x_2&\cdots&x_n\end{bmatrix}$

:::
其中 $x_1,x_2,\cdots,x_n$ 是特征向量，那么根据上面我们所考虑的，将此矩阵施加线性变换 $A$ ，我们将会得到下面的这个矩阵
::: align-center
$\begin{bmatrix}\lambda_1x_1&\lambda_2x_2&\cdots&\lambda_nx_n\end{bmatrix}$

:::
其中 $\lambda_1,\lambda_2,\cdots,\lambda_n$ 是特征值
可以将上面的这个矩阵拆分开，容易知道上面的这个矩阵与 $X$ 的关系为 $X$ 每列进行列倍乘变换，如此我们可以将其分解为 $X$ 右乘一个初等列倍乘矩阵 $\Lambda$
::: align-center
$\begin{bmatrix}\lambda_1x_1&\lambda_2x_2&\cdots&\lambda_nx_n\end{bmatrix}=X\Lambda$

:::
其中
::: align-center
$\Lambda=\begin{bmatrix}\lambda_1\\&\lambda_2\\&&\ddots\\&&&\lambda_n\end{bmatrix}$

:::
那么我们现在就在考虑
::: align-center
$AX=X\Lambda$

:::

如果 $X$ 可逆，那么我们就可以得到
::: align-center
$A=X\Lambda X^{-1}$

:::

那么此时 $A$ 就被我们成功“分解”了， $X\Lambda X^{-1}$ 由 $A$ 的特征值和特征向量组成，它包含了 $A$ 的所有信息，有了 $A$ 的“谱” $X\Lambda X^{-1}$ ，我们就能知道 $A$

再正向考虑，现在我们知道了：
::: align-center
对于方阵 $A$ ，如果存在可逆矩阵 $X$ 使得 $X^{-1}AX=\Lambda$ 是对角矩阵，则称 $A$ 是（在 $\mathbb{C}$ 上）可对角化的， $X$ 把 $A$ 对角化，或 $X$ 对角化 $A$ ，当 $A$ 可对角化时，分解 $A=X\Lambda X^{-1}$ 称为 $A$ 的谱分解（或称特征分解）

:::

条件

在前面的推导中，我们可以知道影响 $A$ 是否可以对角化的约束是 $X$ 是否可逆，而 $X$ 是否可逆与 $X$ 内的特征向量相互是否线性无关构成充要条件，所以我们可以得出
::: align-center
对 $n$ 阶方阵 $A$ ， $A$ 可对角化，当且仅当 $A$ 有 $n$ 个线性无关的特征向量

:::

但是读者可能又会问：
::: align-center
矩阵的特征向量何时相互线性无关？

:::
事实上，我们有
::: align-center
方阵的属于不同特征值的特征向量一定线性无关

:::

证明（1）：
设方阵 $A$ 有特征向量 $x_1,x_2,\cdots,x_r$ ，分别属于特征值 $\lambda_1,\lambda_2,\lambda_r$ ,且它们两两不同，我们采用数学归纳法
a.当 $r=1$ 时，因为特征向量不是零向量，显然基本归纳条件成立
b.假设任意 $r-1$ 个特征向量相互线性无关，不妨令 $x_2,\cdots,x_r$ 相互线性无关
c.我们考虑 $r$ 个特征向量的线性无关性，也就是
::: align-center
$k_1x_1+k_2x_2+\cdots+k_rx_r=0$ （*）

:::

的解 $k_i,i=1,2,\cdots,n$

要与b.建立联系，我们需要上述等式变出特征向量，那么考虑将上述等式左乘 $A$ ，则有
::: align-center
$A(k_1x_1+\cdots+k_rx_r)=(\lambda_1k_1x_1+\cdots+\lambda_rk_rx_r)=0$

:::
现在将此方程减去（*）式乘 $\lambda_1$ ，我们得到
::: align-center
$k_2(\lambda_2-\lambda_1)x_2+\cdots+k_r(\lambda_r-\lambda_1)=0$

:::
由归纳假设b.，我们知道
::: align-center
$k_i(\lambda_i-\lambda_1)=0,i=2,\cdots,r$

:::
由基本假设 $\lambda_1,\lambda_2,\lambda_r$ 相互不同，我们得到 $k_i=0,i=2,\cdots,r$

再考虑（*）式，现在只剩下
::: align-center
$k_1x_1=0$

:::
因为特征向量一定不是零向量，那么 $k_1=0$ ，故（*）式的解 $k_i,i=1,2,\cdots,n$ 全部为零， $x_1,x_2,\cdots,x_r$ 线性无关

还有一种使用范德蒙德矩阵证明的方法，这里不多做叙述，读者感兴趣可以另作了解

充分条件

由上面的证明立即得矩阵可对角化的一个充分条件：
::: align-center
有 $n$ 个不同特征值的 $n$ 阶方阵，即特征值都是单特征值的方阵是可对角化的

:::

充要条件

很显然上面的条件不是方阵可对角化的充要条件，因为它没有考虑有属于同一个特征值的多个特征向量时的情况，此时代数方程 $\det (\lambda I-A)=0$ 有重根，或者我们说此时方阵 $A$ 有代数重数大于1的特征值，此时是否可对角化将变得复杂

为此我们需要首先引入几何重数的概念：
::: align-center
给定 $n$ 阶方阵 $A$ 及其特征值 $\lambda_0$ ，称特征子空间 $\mathcal{N}(\lambda_0I-A)$ 的维数为 $\lambda_0$ 作为 $A$ 的特征值的几何重数

:::
读者可能会想为什么我们要这样定义

事实上，代数方程 $\det (\lambda I-A)=0$ 的解没有重根时，我们由上面的推导可以得出这些不同特征值解对应的特征向量一定线性无关，从而方阵可对角化，但当出现重根时，我们已经无法区分这些有相同特征值的向量是否相互线性无关了，但是我们知道，在线性空间中相互线性无关的向量是可以作为空间的基的，而空间基的数量又和维数有关，所以我们可以在几何上考虑对于某个特征值 $\lambda_0$ ，方程 $\lambda_0 I-A=0$ 的解空间维数，也即 $\lambda_0 I-A=0$ 的原像集 $\mathcal{N}(\lambda I-A)$ 的维数，它可以帮助我们确定当前特征值 $\lambda_0$ 下相互线性无关特征向量的个数

下面说明一个基本原则：
::: align-center
方阵的特征值的几何重数不大于其代数重数

:::

这里笔者不想进行严格证明，读者容易想到一个特征值解的代数重数就是该特征值对应的特征向量中最多有可能线性无关的特征向量的个数，而几何重数代表的是实际上的个数，故立即得上面的结论

下面我们再给出当实际上这些相同特征值的特征向量全部线性无关时，即代数重数等于几何重数时，以及不等于时的情况的定义：
::: align-center
几何重数和代数重数相等的特征值，称为半单特征值，几何重数小于代数重数的特征值，称为亏损特征值

:::

由此我们终于完整细化描述了特征值与矩阵对角化的所有情况，如此我们就可以完善矩阵可对角化的充要条件：
::: align-center
$n$ 阶方阵 $A$ 可对角化，当且仅当其特征值都半单

:::
这里笔者也不做严谨证明，相信读者根据上面的思路容易得出此结论

另外，关于判断某个特征值 $\lambda_0$ 是否半单的问题，只需要判断齐次方程 $\lambda_0 I-A=0$ 的解空间维数（几何重数）与方程 $\lambda I-A=0$ 关于 $\lambda_0$ 的代数重数的关系，前面的问题可以通过求其系数矩阵 $\lambda I-A$ 的秩结合秩-零化度定理得到的零空间维数来判断

Jordan块

考虑矩阵
::: align-center
$J_{n}(\lambda)=\begin{bmatrix} \lambda & 1\\ & \lambda & \ddots\\ &&\ddots & 1\\ &&&\lambda \end{bmatrix}_{n\times n}$

:::
若我们考虑计算它的特征值，即计算代数方程 $\det(\mu I-A)=0$ ，
行列式内的矩是一个对角矩阵，它的行列式为 $(\mu-\lambda)^n=0$ ，立即得它只有一个特征值 $\lambda$ ，且代数重数为 $n$ ，考虑其几何重数，即代入 $\mu=\lambda$ 求解 $\mu I-A=0$ 的秩，容易知此时矩阵的最后一行变为全零行，其余行有首元1，故立即得秩为n-1，解空间维度为1，则它的几何重数为1

故对于这个n阶Jordan块，当 $n>1$ 时 $\lambda$ 是亏损特征值，当 $n>1$ 时它不可对角化

马尔科夫链

此部分解释较为不严谨，请读者见谅

简介

俄国数学家马尔科夫研究并提出一个用数学方法就能解释自然变化的一般规律模型，其被命名为马尔科夫链。马尔科夫链为状态空间中经过从一个状态到另一个状态的转换的的随机过程，该过程要求具备无记忆性，即下一状态的概率分布只能由当前状态决定，在时间序列中它前面的事件均与之无关。这种特定类型的“无记忆性”称作马尔科夫性质

转移概率矩阵

通过马尔科夫链的模型转换，我们可以将事件的状态转换成转移概率矩阵（又称状态分布矩阵，马尔科夫矩阵等，以下称为马儿科夫矩阵）

马尔科夫矩阵 $A$ 有两个特点

$A$ 中的所有元素都是非负的
$A$ 中的每一列之和都等于1

将一个马尔科夫矩阵进行方幂运算仍然会得到马尔科夫矩阵

差分方程的稳态

当处理一个以矩阵表示的差分方程时，它能够达到稳态的条件包括

1是特征值之一
其他特征值的绝对值比1小

在矩阵可对角化（见下）的条件下，假设特征值为1的特征向量为 $x_{1i_1},i_1=1,2,\cdots, S_{i1}$ 其他特征值 $k_i,i=2,3,\cdots,n$ 的特征向量表示为 $x_{2i_2},x_{3i_3},\cdots,x_{ni_n}$ ，此时这个矩阵的这些特征向量相互线性无关，则它们可以构成线性空间 $\mathbb{R}^n$ 的基底，如此 $A^tx$ 可以用它们表示
::: align-center
$A^tx=\sum_{i}\sum_{j}c_{1j_1}(1)^tx_{1i_1}+c_{2j_2}k_2^tx_{2i_2}+\cdots+c_{nj_n}k_n^tx_{ni_n}$

:::

此时因为其他非1的特征值绝对值均比1小，当 $t\to\infty$ 时， $A^tx$ 的结果为定值
::: align-center
$A^tx=\sum_{i}\sum_{j}c_{1j_1}x_{1i_1}$

:::
即达到稳态

特征值为1的特征向量在此称为稳态向量

马尔科夫矩阵与过程稳态

马尔科夫矩阵的每一列之和为1，这个性质保证了马尔科夫矩阵一定有一个特征值1

已知马尔科夫矩阵的每一列之和均为1，减去 $\lambda I=I$ 这个单位矩阵后每一列之和为零，那么此矩阵的所有行向量之和一定是零向量，即行向量之间可以相互线性表示，立即得此矩阵是奇异矩阵，即有 $\det(A- I)=0$ ，故得马尔科夫矩阵有特征值1

若马尔科夫矩阵满足其他特定的性质（其他特征值的绝对值比1小，可对角化等），那么此马尔科夫过程可以达到稳态

应用：人口流动

诸如我们要研究人口流动问题：
A城市人口每年迁出10%到B城市，B城市的人口每年迁入20%到A城市，现在城市A的人口数为0，B有1000人，研究若干年后A，B城市人口的分布

可以列出差分方程组
::: align-center
$\left\{\begin{matrix} f_{k+1}=0.9f_k+0.2v_k\\ v_{k+1}=0.1f_k+0.8v_k \end{matrix}\right .$

:::
将其写为矩阵形式
::: align-center
$\begin{bmatrix}0.9 & 0.2\\0.1 & 0.8\end{bmatrix}\begin{bmatrix}f_k\\v_k\end{bmatrix}=\begin{bmatrix}f_{k+1}\\v_{k+1}\end{bmatrix}$

:::
其中上面的矩阵为马尔科夫矩阵

已知此矩阵一定有一个特征值 $\lambda_1=1$ ，之后，利用特征多项式的结论
::: align-center
$trace(A)=\lambda_1+\lambda_2+\cdots+\lambda_n$

:::
得到另一个特征值为 $\lambda_2=0.7$
之后解 $A-\lambda I=0$ 得两个特征向量 $\begin{bmatrix}2\\1\end{bmatrix}$ 和 $\begin{bmatrix}-1\\1\end{bmatrix}$ ，写出k年后人口迁移的结果
::: align-center
$u_k=C_1\lambda_1^kx_1+C_2\lambda_2^kx_2$

:::
代入数据以及初值条件 $u_0=\begin{bmatrix}0\\1000\end{bmatrix}$ ，得 $C_1=\frac{1000}{3},C_2=\frac{2000}{3}$

取 $k\to\infty$ ，得
::: align-center
$\lim_{k\to\infty}u_k=\frac{1000}{3}\begin{bmatrix}2\\1\end{bmatrix}$

:::
即若干年后A城市约有666人，B城市约有333人

相似

在同济书和清华书上均未能给出相似的解释，这里笔者尝试用自己的语言给出

过渡矩阵和坐标变换

下面的内容部分来自于同济书

在线性空间内取两个基向量组 $a_1,a_2,\cdots,a_n$ 和 $b_1,b_2,\cdots,b_n$ ，因为两个向量组都是空间的基，故它们间可以相互线性表示，不妨设其为
::: align-center
$\left\{ \begin{aligned} &b_1=p_{11}a_1+p_{21}a_2+\cdots+p_{n1}a_n\\ &b_2=p_{12}a_1+p_{22}a_2+\cdots+p_{n2}a_n\\ &\cdots\\ &b_n=p_{1n}a_1+p_{2n}a_2+\cdots+p_{nn}a_n \end{aligned} \right .$

:::
注：读者可能会发现这样写与我们通常写的线性方程组不太相同，实际上这是同济书上为了后续对基向量组运算直观而刻意为之的，事实上，读者可以自己写出上述方程在我们经常写的线性方程组下的形式，等式两边同取转置后可得到相同结果

利用矩阵，可以将上述方程组写为下面的式子：
::: align-center
$\begin{bmatrix}b_1&b_2&\cdots&b_n\end{bmatrix}=\begin{bmatrix}a_1&a_2&\cdots&a_n\end{bmatrix}P$

:::
这里
::: align-center
$P=\begin{bmatrix} p_{11}&p_{12}&\cdots&p_{1n}\\ p_{21}&p_{22}&\cdots&p_{2n}\\ \vdots&\vdots&&\vdots\\ p_{n1}&p_{n2}&\cdots&p_{1n} \end{bmatrix}$

:::
此式即为基变换公式，而矩阵 $P$ 称为从基 $a_1,a_2,\cdots,a_n$ 到基 $b_1,b_2,\cdots,b_n$ 的过渡矩阵

现在我们考虑一个向量 $\alpha$ ，假设它在基 $a_1,a_2,\cdots,a_n$ 下的坐标为向量 $x$ ，在基 $b_1,b_2,\cdots,b_n$ 下的坐标为向量 $y$ ，我们可得
::: align-center
$\alpha=x_1a_1+x_2a_2+\cdots+x_na_n=\begin{bmatrix}a_1&a_2&\cdots&a_n\end{bmatrix}x,x=\begin{bmatrix}x_1\\x_2\\\vdots\\ x_n\end{bmatrix}$

:::
和
::: align-center
$\alpha=y_1b_1+y_2b_2+\cdots+y_nb_n=\begin{bmatrix}b_1&b_2&\cdots&b_n\end{bmatrix}y,=\begin{bmatrix}y_1\\y_2\\\vdots \\y_n\end{bmatrix}$

:::
若从基 $a_1,a_2,\cdots,a_n$ 到基 $b_1,b_2,\cdots,b_n$ 的过渡矩阵为 $P$ ，则
::: align-center
$\begin{aligned} &\alpha=\begin{bmatrix}a_1&a_2&\cdots&a_n\end{bmatrix}x=\begin{bmatrix}b_1&b_2&\cdots&b_n\end{bmatrix}y\\ &=\begin{bmatrix}a_1&a_2&\cdots&a_n\end{bmatrix}Py \end{aligned}$

:::
从而得
::: align-center
$x=Py$ 或 $y=P^{-1}x$

:::
此式即为坐标变换公式

从基变换到相似

我们考虑同一个线性变换，但是被施加线性变换的两个线性空间的基不同，所以该线性变换在这两个线性空间上的表示矩阵应该是不同的，但是线性变换的效果是等效的，也就是说，我们在考虑线性变换在不同基下的表示矩阵保持等效性的问题

现在我们假设线性变换在基 $a_1,a_2,\cdots,a_n$ （1）下表示矩阵为 $A$ ，在 $b_1,b_2,\cdots,b_n$ （2）下的表示矩阵为 $B$ ，（1）到（2）的过渡矩阵为 $P$

考虑（1）下的一个向量 $x$ ，经过变换后它应为 $Ax$
现在我们将 $Ax$ 经坐标变换公式变换到（2）下，得 $P^{-1}Ax$
再将原来的向量 $x$ 变换到（2）下的 $y$ ，得 $P^{-1}A(Py)$
因为有前提线性变换需在不同基下等效，所以对于（2）下的变换 $B$ ，必有 $By=P^{-1}APy$

由此，推导出
::: align-center
$B=P^{-1}AP$

:::
我们称此时的 $A,B$ 是相似的

它的严格定义为：
::: align-center
对方阵 $A,B$ ，如果存在可逆矩阵 $X$ 使得 $X^{-1}AX=B$ ，则称 $A$ 和 $B$ 相似，或 $A$ 相似于 $B$

:::

相似变换、相似和对角化的关系

我们现在考虑相似关系作为等价关系的从属概念
对应于相似关系的等价变换称为相似变换，即
::: align-center
$T:A\mapsto X^{-1}AX$

:::
相似变换可以用来转化问题，例如解决 $A$ 对应的线性变换的原像问题 $Ax=y$ ，等价于解决相似于 $A$ 的矩阵 $X^{-1}AX$ 对应的原像问题 $Bx'=y'$ ，其中 $x'=X^{-1}x$ ， $y'=X^{-1}y$ （坐标变换得到）

特别地，如果 $A$ 可对角化，由相似的概念也即其相似于对角矩阵 $\Lambda$ 时，解决原像问题 $\Lambda x'=y'$ 将变得较为简单，这也佐证了我们在QR分解文章中提到的类似思想“换一套空间基思考问题，可能会更简单”

如果 $A$ 可对角化，则称对角化得到的矩阵为 $A$ 的相似标准形，由下面相似的性质中的推论可知，在 $A$ 可对角化时，它的相似标准形在对角元素相差一个排列次序的意义下唯一

注：读者需要格外注意相似/对角化/谱分解之间的关系，由于相似关系是等价的， $A$ 和 $B$ 相似可以描述为
::: align-center
$X^{-1}AX=B$

:::
也可以描述为
::: align-center
$A=P^{-1}BP$

:::
但两种情况下 $X/P$ 的含义是不同的
特别地：

在前一种情况：当 $A$ 可对角化，且 $X$ 是 $A$ 的特征向量排成的矩阵时， $B$ 就是 $A$ 的对角化结果，它是一个对角矩阵， $B$ 被称为 $A$ 的相似标准型，此时 $A$ 有谱分解 $A=XBX^{-1}$
在后一种情况：当 $B$ 可对角化，且 $P$ 是 $B$ 的特征向量排成的矩阵时， $A$ 就是 $B$ 的对角化结果，它是一个对角矩阵， $A$ 被称为 $B$ 的相似标准型，此时 $B$ 有谱分解 $A=XAX^{-1}$

若考虑更一般的，不可对角化的情形，对于方针来说，请见下方的Jordan分解，若对于更一般的矩阵，请见下方的奇异值分解

相似的性质

由于相似中变化的只是空间的基，而效果是相同的（它是一个等价变换），相似变换中有一些非常好的性质

具体地，方阵的相似关系中有如下不变量：

秩
特征多项式、特征值，特征值的代数重数、迹、行列式
特征值的几何重数

证：
(1) $rank(X^{-1}AX)=rank(A)$ ，因为 $X$ 可逆，即 $X$ 列满秩，它并不改变 $A$ 的秩，秩是不变量
(2)首先我们说明数量矩阵 $\lambda I$ 与自己相似，即 $X^{-1}(\lambda I)X=\lambda I$
其次由数量矩阵与自己相似，考虑 $\det(\lambda I-X^{-1}AX)=\det(X^{-1}(\lambda I-A)X)$ ，将其拆分后即得 $\det(\lambda I-X^{-1}AX)=\det(\lambda I-A)$ ，特征多项式是不变量
又因为特征多项式决定了特征值，特征值的代数重数、迹、行列式都是不变量
（3）这里不做证明

对于对角矩阵有一个推论
推论：两个对角矩阵相似当且仅当它们的对角元素除排列次序外相同
证：
充分性：对角元素相同的两个矩阵可以使用置换矩阵得到相似关系
必要性：如果两个对角矩阵相似，则它们的特征多项式相同，而对角元素除了一个排列次序外，被特征多项式唯一地确定

Jordan分解

考虑对给定矩阵，与之相似的矩阵中，最简单的矩阵是什么，可以有Jordan分解
定理（Jordan 分解） 对 $n$ 阶方阵 $A$ ，存在可逆矩阵 $X$ ，使得
::: align-center
$X^{-1}AX=J=\begin{bmatrix} J_{n_1}(\lambda_1)\\ &&J_{n_2}(\lambda_2)\\ &&&\ddots\\ &&&&J_{n_r}(\lambda_r) \end{bmatrix}$

:::
其中 $J_{n_i}(\lambda_i)=\begin{bmatrix} \lambda_i&1\\ &\lambda_i&\ddots\\ &&\ddots&1\\ &&&\lambda_i \end{bmatrix}_{n_i\times n_i}$ 是 $n_i$ 阶Jordan块，而 $n_1+n_2+\cdots+n_r=n$ ，且除了这些Jordan块的排列次序外， $J$ 被 $A$ 唯一确定。

$J$ 又称为 $A$ 的Jordan标准型

可以知道对角矩阵具有非常好的性质，因为我们可以直接从对角矩阵中观察线性变换在每一个方向上的作用。将一个方阵对角化相当于寻找一组基，使得这个线性变换在这组基的每一个向量上都只有伸缩变换。然而并不是每个方阵都可以对角化，在不可对角化的情况下，我们也需要寻找一个相对简洁的表示方式，上面的Jordan分解就提供了一种近似对角化的方法

通过一个方阵的Jordan标准型，我们可以得知：

此方阵是否可以对角化
容易知道，当一个方阵的Jordan标准形是对角矩阵，那么这个矩阵是可对角化的
此方阵特征值的代数重数和几何重数
在Jordan标准形中，特征值 $\lambda_i$ 在Jordan矩阵对角线中出现的总次数（即 $J(\lambda_i)$ 的阶数）就是 $\lambda_i$ 的代数重数。若特征值 $\lambda_i$ 在Jordan矩阵的Jordan块中出现过的次数，就是 $\lambda_i$ 的几何重数

e.g.矩阵 $A$ 的Jordan标准形为
$J=\begin{bmatrix} 2&1&0&0&0&0&0&0\\ 0&2&1&0&0&0&0&0\\ 0&0&2&0&0&0&0&0\\ 0&0&0&2&0&0&0&0\\ 0&0&0&0&3&1&0&0\\ 0&0&0&0&0&3&0&0\\ 0&0&0&0&0&0&0&1\\ 0&0&0&0&0&0&0&0 \end{bmatrix}$

我们可以看到 $J=diag(J(\lambda_1),J(\lambda_2),J(\lambda_3))=diag(J(2),J(3),J(0))$
其中 $J(2)$ 由一个3阶和1阶Jordan块组成， $J(3)$ 由一个2阶Jordan块组成， $J(0)$ 由一个2阶Jordan块组成。故知
此矩阵有

特征值2，代数重数3，几何重数2（亏损特征值）
特征值3，代数重数2，几何重数1（亏损特征值）
特征值0，代数重数2，几何重数1（亏损特征值）

可见，从一个方阵的Jordan标准形来观察此线性变换的特征值是非常简单的

要计算一个方阵 $A$ 的Jordan分解，需要：
（1）求 $A$ 的特征值
（2）确定每个特征值的几何重数，从而决定此特征值一共有多少个Jordan块
（3）确定每个Jordan块的阶数
这里需要使用到 $r_{l+1}+r_{l-1}-2r_l$ 来确定阶数为 $l$ 的Jordan块数，其中 $r_l=rank((A-\lambda_i I)^l)$ ，其中 $r_0=n,r_1=n-\alpha_i$ ， $\alpha_i$ 为该特征值的几何重数

之后对于 $J$ 和 $X$ ：
设 $\lambda_i$ 代数重数为 $k$ ，几何重数为 $\alpha$ （由前面知此特征值的Jordan块一共有 $\alpha$ 个）
（1）选择这个特征值对应的 $\alpha$ 个线性无关的特征向量，求出 $A-\lambda_i I$ 的结果 $v_{i,\alpha_j}^{(0)},\alpha_j=1,2,\cdots,\alpha$ 作为基础特征向量
（2）从每个 $v_{i,\alpha_j}^{(0)}$ 出发，计算 $(A-\lambda_iI)v_{i,\alpha_j}^{(1)}=v_{i,\alpha_j}^{(0)}$ 得到 $v_{i,\alpha_j}^{(1)}$ ，依次得到广义特征向量 $v_{i,\alpha_j}^{(s_j)}$
（3）按照前面计算的Jordan块的阶数 $l$ 分配广义特征向量与Jordan块

e.g. 若 $\alpha =6$ ，阶数 $l=1$ 的Jordan块在前面计算出为1个， $l=2$ 的块为2个， $l=3$ 的块为3个

则选择此特征值3个线性无关的特征向量中的一个，计算 $v_{i,1}^{(0)}$
选择另一个，计算 $v_{i,2}^{(0)}$ 和 $v_{i,2}^{(1)}$ ，排列成 $v_{i,2}^{(1)}\rightarrow v_{i,2}^{(0)}$
选择第三个，计算 $v_{i,2}^{(0)}$ ， $v_{i,2}^{(1)}$ ， $v_{i,2}^{(2)}$ 排列成 $v_{i,3}^{(2)}\rightarrow v_{i,3}^{(1)}\rightarrow v_{i,3}^{(0)}$

接下来，将 $l=3,2,1$ 的共计 $3+2+1=6$ 个块从上到下排列为 $J$ ，将广义特征向量链 $v_{i,3}^{(2)}\rightarrow v_{i,3}^{(1)}\rightarrow v_{i,3}^{(0)}, v_{i,2}^{(1)}\rightarrow v_{i,2}^{(0)}, v_{i,1}^{(0)}$ 从右到左排列成 $X$

最后就可以得到矩阵 $A$ 的Jordan分解 $X^{-1}AX=J$

有诸多结论依赖方阵的Jordan标准形，例如常微分方程，和求矩阵函数求解的一些结论等，这些结论通过利用Jordan标准形保留的特征值信息得到结果。此部分涉及诸多结论，本文章在此不介绍

Jordan分解只适用于方阵，如果推广到任意实矩阵，则有奇异值分解（SVD），请见这篇文章，它被广泛地用于无监督学习的数据降维压缩中

同时对角化（合同对角化）

定义（同时对角化） 设 $A,B$ 是 $n$ 阶方阵，如果存在可逆矩阵 $X$ 使得 $X^{-1}AX=\Lambda_1$ 和 $X^{-1}BX=\Lambda_2$ 都是对角矩阵，则称 $A,B$ 可以同时对角化

可以合同对角化的 $n$ 阶方阵，以下叙述等价

$A,B$ 可以同时对角化
存在 $n$ 个线性无关的向量，同时是 $A,B$ 的特征向量
$A,B$ 可交换，即 $AB=BA$