矩阵对角化

Diagonalizing a Matrix
利用线性变换,将可对角化的一般矩阵转化为对角矩阵(如果不能对角化,可以化为 Jordan矩阵

一、矩阵对角化的原理

可对角化的矩阵 A, 计算特征值和特征向量,得到两个特殊矩阵:

Ax=λx
  1. 对角矩阵 Λ:对角线上的各个元素为特征值
  2. 矩阵 X:各个列向量为对角矩阵上的特征值元素所对应的特征向量
AX=A(x1xn)=(λ1x1λnxn)XΛ=(x1xn)(λ1λn)=(λ1x1λnxn)

所以有 AX=XΛ,进一步可以将(可对角化的)矩阵进行对角化:

A=XΛX1Λ=X1AX

利用矩阵对角化,可以方便地计算矩阵的幂

Ak=(XΛX1)(XΛX1)(XΛX1)=XΛkX1

相似矩阵Similar Matrix
如果 A=BCB1 ,只要 B 可逆,则称 AC 相似,且 AC 有相同的特征值
假设有 Cx=λx, 则:ABx=BCB1Bx=BCx=Bλx=λ(Bx)
所以 A 也有相同的特征值 λ

二、矩阵对角化的条件

之前反复出现的条件:可对角化,具体指的是什么呢?

几何重数 Geometric Multiplicity :线性独立的特征向量的数目
代数重数 Algebraic Multiplicity :特征值 的最大重复数
如果 GM < AM,则 A 不能被对角化

三、应用实例

研究微分方程和差分方程
求解差分方程:斐波那契数列
求解微分方程:微分方程组


AI 结构化补充(2026-05-02)

Diagonalizing a Matrix
利用线性变换,将可对角化的一般矩阵转化为对角矩阵(如果不能对角化,可以化为 Jordan矩阵

严格地说,设 A 是域 F 上的 n 阶方阵。若存在可逆矩阵 XFn×n 与对角矩阵 ΛFn×n,使

X1AX=Λ,

则称 AF 上可对角化。域不能省略:实矩阵可能不能在 R 上对角化,却可以在 C 上对角化,例如平面旋转矩阵的特征值通常是复数。

一、矩阵对角化的原理

可对角化的矩阵 A, 计算特征值和特征向量,得到两个特殊矩阵:

Ax=λx
  1. 对角矩阵 Λ:对角线上的各个元素为特征值
  2. 矩阵 X:各个列向量为对角矩阵上的特征值元素所对应的特征向量
AX=A(x1xn)=(λ1x1λnxn)XΛ=(x1xn)(λ1λn)=(λ1x1λnxn)

所以有 AX=XΛ,进一步可以将(可对角化的)矩阵进行对角化:

A=XΛX1Λ=X1AX

A=XΛX1 的精确条件是 X 可逆,也就是 n 阶矩阵 An 个线性无关特征向量。X 的列是右特征向量,Λ 的对角元是对应特征值;X1 的各行给出与这组基配对的左侧坐标。

利用矩阵对角化,可以方便地计算矩阵的幂

Ak=(XΛX1)(XΛX1)(XΛX1)=XΛkX1

相似矩阵Similar Matrix
如果 A=BCB1 ,只要 B 可逆,则称 AC 相似,且 AC 有相同的特征值
假设有 Cx=λx, 则:A(Bx)=BCB1Bx=BCx=Bλx=λ(Bx)
所以 A 也有相同的特征值 λ

二、矩阵对角化的条件

之前反复出现的条件:可对角化,具体指的是什么呢?

几何重数 Geometric Multiplicity :线性独立的特征向量的数目
代数重数 Algebraic Multiplicity :特征值 的最大重复数
如果 GM < AM,则 A 不能被对角化

更完整的判别是:AF 上可对角化,当且仅当特征多项式在 F 中完全分裂,并且每个特征值 λ 的几何重数等于代数重数:

dimker(AλI)=ma(λ).

在复数域中,特征多项式总能分裂,所以主要障碍是特征向量是否足够;在实数域中,还要先检查是否存在非实特征值。

三、应用实例

研究微分方程和差分方程
求解差分方程:斐波那契数列
求解微分方程:微分方程组

可对角化边界

矩阵对角化的核心分解是

X1AX=Λ,A=XΛX1,

其中 X 的列是 n 个线性无关特征向量,Λ 的对角元是对应特征值。这个前提不能省略:有特征值不等于有足够多的特征向量。

互异特征值保证对应特征向量线性无关,因此给出可对角化的充分条件。重特征值不必导致失败,但必须检查几何重数是否等于代数重数;若某个重根缺少足够特征向量,只能转向 Jordan 形式或其他标准形。

对角化的几何含义是把空间分解成若干一维不变方向:

V=Eλ1Eλs,

其中每个 Eλ 是特征子空间。在这些方向上,线性变换只做标量伸缩。若只能分解出二维旋转平面或广义特征向量链,就不能在原域上写成纯对角形式。

核心公式链

把特征向量按列排成

X=[x1  xn],Λ=diag(λ1,,λn),

则每个列等式 Axi=λixi 合并为

AX=XΛ.

如果这些特征向量线性无关,X1 存在,公式可以改写成两种等价的对角化形式:

X1AX=Λ,A=XΛX1.

这个链条强调了两个边界:Λ 的对角元顺序必须和 X 的列顺序一致;没有满秩 X 时,X1 不存在,公式就不能成立。

唯一性只发生在有限意义上。特征值的多重集合由 A 唯一决定,但 Λ 的对角顺序可以任意交换,只要同步交换 X 的列。每个特征向量也可以乘以非零标量;在重特征值对应的特征子空间内,还可以任取一组基。因此 X 通常远不唯一,真正不变的是各特征子空间及其维数。

三角矩阵例子

三角矩阵的特征值可直接从对角线读出。例如

A=(1506)

的特征值是 1,6,可取特征向量

x1=(10),x2=(11),X=(1101).

于是

X1AX=(1101)(1506)(1101)=(1006).

同一分解也给出矩阵幂:

Ak=XΛkX1=(16k106k).

可对角化与可逆性

没有重复特征值时,不同特征值对应的特征向量自动线性无关,所以 n 阶矩阵若有 n 个互异特征值,就一定可对角化。反过来,重复特征值只表示需要检查特征向量是否足够,并不自动失败。

可逆性和可对角化不是同一件事。可逆性只看特征值中是否有 0;可对角化看能否找到足够多线性无关特征向量。矩阵

(1101)

行列式为 1,所以可逆,但它只有一条特征向量方向,不能对角化;而

(0001)

已经是对角矩阵,所以可对角化,却不可逆。

还要注意两个极端情形。标量矩阵 A=λI 已经是对角矩阵,且任意基都是特征向量基,因此对角化最不唯一。Jordan 块

(λ10λ)

只有一个特征方向,虽然特征值完全落在当前域中,也不能对角化;失败原因不是缺少特征值,而是缺少足够多的一维不变方向。