矩阵对角化

Diagonalizing a Matrix
利用线性变换，将可对角化的一般矩阵转化为对角矩阵（如果不能对角化，可以化为 Jordan矩阵）

一、矩阵对角化的原理

对可对角化的矩阵 $A$ , 计算特征值和特征向量，得到两个特殊矩阵：

\begin{array}{r} A \vec{x} = λ \vec{x} \end{array}

对角矩阵 $Λ$ ：对角线上的各个元素为特征值
矩阵 $X$ ：各个列向量为对角矩阵上的特征值元素所对应的特征向量

\begin{array}{r} A X = A (\begin{array}{c} x_{1} & \dots & x_{n} \end{array}) = (\begin{array}{c} λ_{1} x_{1} & \dots & λ_{n} x_{n} \end{array}) \end{array}

\begin{array}{r} X Λ = (\begin{array}{c} x_{1} & \dots & x_{n} \end{array}) (\begin{array}{c} λ_{1} \\ ⋱ \\ λ_{n} \end{array}) = (\begin{array}{c} λ_{1} x_{1} & \dots & λ_{n} x_{n} \end{array}) \end{array}

所以有 $A X = X Λ$ ，进一步可以将（可对角化的）矩阵进行对角化：

\begin{array}{r} A = X Λ X^{- 1} Λ = X^{- 1} A X \end{array}

利用矩阵对角化，可以方便地计算矩阵的幂：

\begin{array}{r} A^{k} = (X Λ X^{- 1}) (X Λ X^{- 1}) \dots (X Λ X^{- 1}) = X Λ^{k} X^{- 1} \end{array}

相似矩阵：Similar Matrix
如果 $A = B C B^{- 1}$ ，只要 $B$ 可逆，则称 $A$ 和 $C$ 相似，且 $A$ 和 $C$ 有相同的特征值
假设有 $C x = λ x$ , 则： $A B x = B C B^{- 1} B x = B C x = B λ x = λ (B x)$
所以 $A$ 也有相同的特征值 $λ$

二、矩阵对角化的条件

之前反复出现的条件：可对角化，具体指的是什么呢？

几何重数 Geometric Multiplicity ：线性独立的特征向量的数目
代数重数 Algebraic Multiplicity ：特征值 的最大重复数
如果 GM < AM，则 A 不能被对角化

三、应用实例

研究微分方程和差分方程
求解差分方程：斐波那契数列
求解微分方程：微分方程组

AI 结构化补充（2026-05-02）

Diagonalizing a Matrix
利用线性变换，将可对角化的一般矩阵转化为对角矩阵（如果不能对角化，可以化为 Jordan矩阵）

严格地说，设 $A$ 是域 $F$ 上的 $n$ 阶方阵。若存在可逆矩阵 $X \in F^{n \times n}$ 与对角矩阵 $Λ \in F^{n \times n}$ ，使

X^{- 1} A X = Λ,

则称 $A$ 在 $F$ 上可对角化。域不能省略：实矩阵可能不能在 $R$ 上对角化，却可以在 $C$ 上对角化，例如平面旋转矩阵的特征值通常是复数。

一、矩阵对角化的原理

对可对角化的矩阵 $A$ , 计算特征值和特征向量，得到两个特殊矩阵：

\begin{array}{r} A \vec{x} = λ \vec{x} \end{array}

对角矩阵 $Λ$ ：对角线上的各个元素为特征值
矩阵 $X$ ：各个列向量为对角矩阵上的特征值元素所对应的特征向量

\begin{array}{r} A X = A (\begin{array}{c} x_{1} & \dots & x_{n} \end{array}) = (\begin{array}{c} λ_{1} x_{1} & \dots & λ_{n} x_{n} \end{array}) \end{array}

\begin{array}{r} X Λ = (\begin{array}{c} x_{1} & \dots & x_{n} \end{array}) (\begin{array}{c} λ_{1} \\ ⋱ \\ λ_{n} \end{array}) = (\begin{array}{c} λ_{1} x_{1} & \dots & λ_{n} x_{n} \end{array}) \end{array}

所以有 $A X = X Λ$ ，进一步可以将（可对角化的）矩阵进行对角化：

\begin{array}{r} A = X Λ X^{- 1} Λ = X^{- 1} A X \end{array}

$A = X Λ X^{- 1}$ 的精确条件是 $X$ 可逆，也就是 $n$ 阶矩阵 $A$ 有 $n$ 个线性无关特征向量。 $X$ 的列是右特征向量， $Λ$ 的对角元是对应特征值； $X^{- 1}$ 的各行给出与这组基配对的左侧坐标。

利用矩阵对角化，可以方便地计算矩阵的幂：

\begin{array}{r} A^{k} = (X Λ X^{- 1}) (X Λ X^{- 1}) \dots (X Λ X^{- 1}) = X Λ^{k} X^{- 1} \end{array}

相似矩阵：Similar Matrix
如果 $A = B C B^{- 1}$ ，只要 $B$ 可逆，则称 $A$ 和 $C$ 相似，且 $A$ 和 $C$ 有相同的特征值
假设有 $C x = λ x$ , 则： $A (B x) = B C B^{- 1} B x = B C x = B λ x = λ (B x)$
所以 $A$ 也有相同的特征值 $λ$

二、矩阵对角化的条件

之前反复出现的条件：可对角化，具体指的是什么呢？

几何重数 Geometric Multiplicity ：线性独立的特征向量的数目
代数重数 Algebraic Multiplicity ：特征值 的最大重复数
如果 GM < AM，则 A 不能被对角化

更完整的判别是： $A$ 在 $F$ 上可对角化，当且仅当特征多项式在 $F$ 中完全分裂，并且每个特征值 $λ$ 的几何重数等于代数重数：

\dim \ker (A - λ I) = m_{a} (λ) .

在复数域中，特征多项式总能分裂，所以主要障碍是特征向量是否足够；在实数域中，还要先检查是否存在非实特征值。

三、应用实例

研究微分方程和差分方程
求解差分方程：斐波那契数列
求解微分方程：微分方程组

可对角化边界

矩阵对角化的核心分解是

X^{- 1} A X = Λ, A = X Λ X^{- 1},

其中 $X$ 的列是 $n$ 个线性无关特征向量， $Λ$ 的对角元是对应特征值。这个前提不能省略：有特征值不等于有足够多的特征向量。

互异特征值保证对应特征向量线性无关，因此给出可对角化的充分条件。重特征值不必导致失败，但必须检查几何重数是否等于代数重数；若某个重根缺少足够特征向量，只能转向 Jordan 形式或其他标准形。

对角化的几何含义是把空间分解成若干一维不变方向：

V = E_{λ_{1}} \oplus \dots \oplus E_{λ_{s}},

其中每个 $E_{λ}$ 是特征子空间。在这些方向上，线性变换只做标量伸缩。若只能分解出二维旋转平面或广义特征向量链，就不能在原域上写成纯对角形式。

核心公式链

把特征向量按列排成

X = [x_{1} \dots x_{n}], Λ = diag (λ_{1}, \dots, λ_{n}),

则每个列等式 $A x_{i} = λ_{i} x_{i}$ 合并为

A X = X Λ .

如果这些特征向量线性无关， $X^{- 1}$ 存在，公式可以改写成两种等价的对角化形式：

X^{- 1} A X = Λ, A = X Λ X^{- 1} .

这个链条强调了两个边界： $Λ$ 的对角元顺序必须和 $X$ 的列顺序一致；没有满秩 $X$ 时， $X^{- 1}$ 不存在，公式就不能成立。

唯一性只发生在有限意义上。特征值的多重集合由 $A$ 唯一决定，但 $Λ$ 的对角顺序可以任意交换，只要同步交换 $X$ 的列。每个特征向量也可以乘以非零标量；在重特征值对应的特征子空间内，还可以任取一组基。因此 $X$ 通常远不唯一，真正不变的是各特征子空间及其维数。

三角矩阵例子

三角矩阵的特征值可直接从对角线读出。例如

A = (\begin{matrix} 1 & 5 \\ 0 & 6 \end{matrix})

的特征值是 $1, 6$ ，可取特征向量

x_{1} = (\begin{matrix} 1 \\ 0 \end{matrix}), x_{2} = (\begin{matrix} 1 \\ 1 \end{matrix}), X = (\begin{matrix} 1 & 1 \\ 0 & 1 \end{matrix}) .

于是

X^{- 1} A X = (\begin{matrix} 1 & - 1 \\ 0 & 1 \end{matrix}) (\begin{matrix} 1 & 5 \\ 0 & 6 \end{matrix}) (\begin{matrix} 1 & 1 \\ 0 & 1 \end{matrix}) = (\begin{matrix} 1 & 0 \\ 0 & 6 \end{matrix}) .

同一分解也给出矩阵幂：

A^{k} = X Λ^{k} X^{- 1} = (\begin{matrix} 1 & 6^{k} - 1 \\ 0 & 6^{k} \end{matrix}) .

可对角化与可逆性

没有重复特征值时，不同特征值对应的特征向量自动线性无关，所以 $n$ 阶矩阵若有 $n$ 个互异特征值，就一定可对角化。反过来，重复特征值只表示需要检查特征向量是否足够，并不自动失败。

可逆性和可对角化不是同一件事。可逆性只看特征值中是否有 $0$ ；可对角化看能否找到足够多线性无关特征向量。矩阵

(\begin{matrix} 1 & 1 \\ 0 & 1 \end{matrix})

行列式为 $1$ ，所以可逆，但它只有一条特征向量方向，不能对角化；而

(\begin{matrix} 0 & 0 \\ 0 & 1 \end{matrix})

已经是对角矩阵，所以可对角化，却不可逆。

还要注意两个极端情形。标量矩阵 $A = λ I$ 已经是对角矩阵，且任意基都是特征向量基，因此对角化最不唯一。Jordan 块

(\begin{matrix} λ & 1 \\ 0 & λ \end{matrix})

只有一个特征方向，虽然特征值完全落在当前域中，也不能对角化；失败原因不是缺少特征值，而是缺少足够多的一维不变方向。