奇异值分解

Singular Value Decomposition SVD

\begin{array}{r} A = U Σ V^{T} = u_{1} σ_{1} v_{1}^{T} + \dots + u_{r} σ_{r} v_{r}^{T} \end{array}

The singular value theorem for A is the eigenvalue theorem for $A^{T} A$ and $A A^{T}$ . The Singular Value Decomposition separate any matrix into simple pieces

如果 $A$ 为 rectangle 非方阵，那么 $A^{T} A$ $A A^{T}$ 为对称的正定矩阵
Square Symmetric Positive-Semidefinite

奇异值分解的理论，本质上就是矩阵和矩阵转置乘积的特征值理论
特征值将任意一个矩阵分解为列和行的形式

一个Rectangle Matrix $A_{(m \times n)}$ 实际上为一个从维度 $n$ 到维度 $m$ 的线性变换

\begin{array}{r} A A^{T} u_{i} = σ_{i}^{2} u_{i} \\ A^{T} A v_{i} = σ_{i}^{2} v_{i} \end{array}

$A A^{T} = S_{L}$ 的特征向量 $v_{i}$ 称为 Left singular vectors, 在 $R^{m}$ 空间中
$A^{T} A = S_{R}$ 的特征向量 $v_{i}$ 称为 Right singular vectors, 在 $R^{n}$ 空间中

\begin{array}{r} A v_{i} = σ_{i} u_{i} \end{array}

rotate 左奇异值向量
stretch 奇异值
dimension erase 降维
rotate 右奇异值向量

\begin{array}{r} A V = U Σ \end{array}

AI 结构化补充（2026-05-02）

定义

Singular Value Decomposition 奇异值分解把任意矩阵
$A \in R^{m \times n}$ 写成

A = U Σ V^{T},

其中 $U \in R^{m \times m}$ 与 $V \in R^{n \times n}$ 是正交矩阵， $Σ \in R^{m \times n}$ 只在主对角线上有非负数

σ_{1} \geq σ_{2} \geq \dots \geq σ_{r} > 0,

其余对角线位置和非对角线位置为 $0$ 。这里 $r = rank (A)$ ，非零的 $σ_{i}$ 称为奇异值， $U$ 与 $V$ 的列向量称为奇异向量。

SVD 对 $A$ 没有方阵、可逆或可对角化要求。非零奇异值来自两个半正定矩阵的共同非零谱：

σ_{i} = \sqrt{λ_{i} (A^{T} A)} = \sqrt{λ_{i} (A A^{T})}, i = 1, \dots, r .

复数域中把转置改为共轭转置：

A = U Σ V^{*}, U^{*} U = I_{m}, V^{*} V = I_{n},

奇异值仍是 $A^{*} A$ 与 $A A^{*}$ 的非零特征值平方根。

如果把 $V$ 看成输入空间 $R^{n}$ 的正交坐标，把 $U$ 看成输出空间 $R^{m}$ 的正交坐标，那么 SVD 说明：任何线性变换都可以分解为

输入端正交换基 ⟶ 沿坐标轴伸缩和降秩 ⟶ 输出端正交换基 .

这比普通特征向量分解适用范围更广。特征向量分解 $A = X Λ X^{- 1}$ 有三个结构性限制：特征向量通常不正交；矩阵可能没有足够多的特征向量；等式 $A x = λ x$ 只适合方阵。SVD 改用输入端的 $v_{i}$ 与输出端的 $u_{i}$ 两组正交基，因此可以处理非方阵、秩亏矩阵和不可对角化矩阵。

存在性、唯一性与域

任意有限维实矩阵或复矩阵都存在 SVD。奇异值作为 $A^{*} A$ 的非负特征值平方根，由 $A$ 唯一决定；按降序排列后，序列

σ_{1} \geq \dots \geq σ_{min (m, n)} \geq 0

唯一。左右奇异向量不完全唯一：若 $σ_{i}$ 是单重正奇异值，则对应的 $u_{i}, v_{i}$ 在实数域中可同时改号，在复数域中可同时乘以同一单位相位；若奇异值重复，则对应奇异子空间内可以任取酉正交基。零奇异值对应的零空间与左零空间补基也不唯一。

完整 SVD 使用 $m$ 个左奇异向量和 $n$ 个右奇异向量；经济型 SVD 只保留非零奇异值对应的

A = U_{r} Σ_{r} V_{r}^{*}

或只保留 $min (m, n)$ 个必要方向。截断 SVD 再进一步保留前 $k$ 个最大奇异值，是低秩近似而不是精确分解。

基向量形式

设

U = [\begin{matrix} u_{1} & \dots & u_{m} \end{matrix}], V = [\begin{matrix} v_{1} & \dots & v_{n} \end{matrix}] .

SVD 的核心等式是

A v_{i} = σ_{i} u_{i}, i = 1, \dots, r .

对于 $i > r$ ， $v_{i}$ 位于零空间中，所以 $A v_{i} = 0$ 。按列合并可得 reduced SVD

A V_{r} = U_{r} Σ_{r},

其中 $V_{r} = [v_{1}, \dots, v_{r}]$ ， $U_{r} = [u_{1}, \dots, u_{r}]$ ， $Σ_{r} = diag (σ_{1}, \dots, σ_{r})$ 。再加入零空间和左零空间方向，得到完整形式

A V = U Σ, A = U Σ V^{T} .

这组基向量同时给出四个基本子空间的正交基：

u_{1}, \dots, u_{r} 是 C (A) 的正交基, u_{r + 1}, \dots, u_{m} 是 N (A^{T}) 的正交基,

v_{1}, \dots, v_{r} 是 C (A^{T}) 的正交基, v_{r + 1}, \dots, v_{n} 是 N (A) 的正交基 .

因此 $A$ 在行空间到列空间的限制上是一个由 $σ_{i}$ 控制的对角伸缩，而零空间方向全部被送到 $0$ 。

几何上，SVD 把单位球面送成列空间中的椭球：

{A x : ∥ x ∥_{2} = 1} .

椭球的主轴方向是 $u_{i}$ ，半轴长度是 $σ_{i}$ ；若 $A$ 秩亏，则若干半轴长度为 $0$ ，单位球被压扁到低维子空间。这个解释也说明奇异值为什么总是非负长度，而不是带方向符号的特征值。

秩一展开

将 $U Σ V^{T}$ 按列乘行展开，得到

A = σ_{1} u_{1} v_{1}^{T} + σ_{2} u_{2} v_{2}^{T} + \dots + σ_{r} u_{r} v_{r}^{T} .

每一项 $σ_{i} u_{i} v_{i}^{T}$ 都是 rank-one 矩阵：它只检测输入中的 $v_{i}$ 分量，并把该分量送到输出方向 $u_{i}$ 。按照

σ_{1} \geq σ_{2} \geq \dots \geq σ_{r} > 0

排序后，秩一项天然按重要性排列；最大项 $σ_{1} u_{1} v_{1}^{T}$ 表示 $A$ 中最强的输入-输出耦合方向。

从对称矩阵构造

SVD 的构造来自两个对称半正定矩阵：

A^{T} A = V Σ^{T} Σ V^{T}, A A^{T} = U Σ Σ^{T} U^{T} .

因此 $v_{i}$ 是 $A^{T} A$ 的正交特征向量， $σ_{i}^{2}$ 是对应特征值。对所有 $σ_{i} > 0$ ，左奇异向量由

u_{i} = \frac{A v_{i}}{σ_{i}}

得到。

关键点是这些 $u_{i}$ 自动正交。若 $i \neq j$ ，则

u_{i}^{T} u_{j} = {(\frac{A v_{i}}{σ_{i}})}^{T} (\frac{A v_{j}}{σ_{j}}) = \frac{v_{i}^{T} A^{T} A v_{j}}{σ_{i} σ_{j}} = \frac{σ_{j}^{2}}{σ_{i} σ_{j}} v_{i}^{T} v_{j} = 0.

这一步解释了 SVD 为什么能从 $A^{T} A$ 的正交特征向量稳定地产生 $A$ 的输出端正交基。最后用 $N (A)$ 的任意正交基补齐 $V$ ，用 $N (A^{T})$ 的任意正交基补齐 $U$ 。

重复特征值与正交基

SVD 依赖的谱分解需要处理重复特征值。设 $S = A^{T} A$ 为对称矩阵，先取一个单位特征向量 $q_{1}$ ，并把它补成正交矩阵

Q_{1} = [\begin{matrix} q_{1} & q_{2} & \dots & q_{n} \end{matrix}] .

由于 $S q_{1} = λ_{1} q_{1}$ ，矩阵 $Q_{1}^{T} S Q_{1}$ 的第一列除首项外全为 $0$ ，可写成分块形式

Q_{1}^{T} S Q_{1} = [\begin{matrix} λ_{1} & w^{T} \\ 0 & S_{n - 1} \end{matrix}] .

但 $Q_{1}^{T} S Q_{1}$ 仍然对称，所以必须有 $w = 0$ ，并且 $S_{n - 1}$ 也是对称矩阵。于是问题被限制到 $q_{1}^{⊥}$ 中的一个低一维对称块；对这个块重复同样过程，就通过归纳得到一组正交特征向量。

如果 $λ_{1}$ 与后续特征值重复，这个分块归纳不会失效：重复特征值对应的是一个特征子空间，子空间内任意正交基都可以作为特征向量。对称性保证不同特征值的子空间彼此正交，重复块内部再用正交化或同样的分块归纳选出正交基。这正是 $A^{T} A$ 能为 SVD 提供正交右奇异向量的原因。

与特征值分解的关系

SVD 与 $A = X Λ X^{- 1}$ 一般不是同一件事。它们完全重合需要两个条件：

X = U = V, Λ = Σ .

这要求 $A$ 有一组正交特征向量，而且特征值全为非负数。换言之，当且仅当 $A$ 是对称正半定矩阵时，谱分解

A = Q Λ Q^{T}

可以直接看成 SVD。

若 $A$ 是对称但有负特征值，SVD 会把负号吸收到某一侧奇异向量中，奇异值仍是非负长度；若 $A$ 不是方阵或不可对角化，普通特征值分解甚至没有同等形式，而 SVD 仍存在。

若 $S$ 是对称正定矩阵，则谱分解与 SVD 合并：

S = Q Λ Q^{T}, U = V = Q, Σ = Λ .

对称正半定矩阵也有同样读法，只是 $Λ$ 与 $Σ$ 中允许出现零。

计算例子

对

A = [\begin{matrix} 3 & 0 \\ 4 & 5 \end{matrix}],

先计算

A^{T} A = [\begin{matrix} 25 & 20 \\ 20 & 25 \end{matrix}], A A^{T} = [\begin{matrix} 9 & 12 \\ 12 & 41 \end{matrix}] .

二者的非零特征值同为

σ_{1}^{2} = 45, σ_{2}^{2} = 5,

所以

σ_{1} = \sqrt{45}, σ_{2} = \sqrt{5} .

$A^{T} A$ 的单位特征向量为

v_{1} = \frac{1}{\sqrt{2}} [\begin{matrix} 1 \\ 1 \end{matrix}], v_{2} = \frac{1}{\sqrt{2}} [\begin{matrix} - 1 \\ 1 \end{matrix}] .

由 $u_{i} = A v_{i} / σ_{i}$ 得

u_{1} = \frac{1}{\sqrt{10}} [\begin{matrix} 1 \\ 3 \end{matrix}], u_{2} = \frac{1}{\sqrt{10}} [\begin{matrix} - 3 \\ 1 \end{matrix}] .

因此

U = \frac{1}{\sqrt{10}} [\begin{matrix} 1 & - 3 \\ 3 & 1 \end{matrix}], Σ = [\begin{matrix} \sqrt{45} & 0 \\ 0 & \sqrt{5} \end{matrix}], V = \frac{1}{\sqrt{2}} [\begin{matrix} 1 & - 1 \\ 1 & 1 \end{matrix}] .

这个例子展示了计算顺序：先在输入端求 $A^{T} A$ 的正交特征向量 $v_{i}$ ，再用 $A v_{i} = σ_{i} u_{i}$ 定出输出端的 $u_{i}$ ，最后得到 $A = U Σ V^{T}$ 。

把同一个例子按秩一项完全展开，可以看到 SVD 不只是给出 $U, Σ, V$ ，而是给出两个数值矩阵之和：

σ_{1} u_{1} v_{1}^{T} = \frac{\sqrt{45}}{\sqrt{20}} [\begin{matrix} 1 & 1 \\ 3 & 3 \end{matrix}] = \frac{3}{2} [\begin{matrix} 1 & 1 \\ 3 & 3 \end{matrix}] = [\begin{matrix} 1.5 & 1.5 \\ 4.5 & 4.5 \end{matrix}],

σ_{2} u_{2} v_{2}^{T} = \frac{\sqrt{5}}{\sqrt{20}} [\begin{matrix} 3 & - 3 \\ - 1 & 1 \end{matrix}] = \frac{1}{2} [\begin{matrix} 3 & - 3 \\ - 1 & 1 \end{matrix}] = [\begin{matrix} 1.5 & - 1.5 \\ - 0.5 & 0.5 \end{matrix}] .

二者相加正好恢复

[\begin{matrix} 1.5 & 1.5 \\ 4.5 & 4.5 \end{matrix}] + [\begin{matrix} 1.5 & - 1.5 \\ - 0.5 & 0.5 \end{matrix}] = [\begin{matrix} 3 & 0 \\ 4 & 5 \end{matrix}] .

极端上移矩阵

考虑严格上移矩阵

A = [\begin{matrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 2 & 0 \\ 0 & 0 & 0 & 3 \\ 0 & 0 & 0 & 0 \end{matrix}] .

它是严格三角矩阵，所有特征值都是 $0$ 。但是

A^{T} A = diag (0, 1, 4, 9), A A^{T} = diag (1, 4, 9, 0),

所以奇异值是

3, 2, 1.

SVD 会按 $3, 2, 1$ 的强弱顺序排列对应的 $u_{i}$ 与 $v_{i}$ ；第一项 $σ_{1} u_{1} v_{1}^{T}$ 正好取出矩阵中最大的条目 $3$ 。如果删除最后一行得到 $3 \times 4$ 矩阵，奇异值仍为 $3, 2, 1$ ，只是 $Σ$ 的形状变为 $3 \times 4$ ，这体现了 SVD 对矩形矩阵的适配性。

矩形 data matrix 的行和列常常代表不同对象。课程成绩矩阵可以让每一行表示一门课程、每一列表示一个学生， $a_{i j}$ 是成绩；此时 $σ_{1} u_{1} v_{1}^{T}$ 把一个 combination course $u_{1}$ 与一个 combination student $v_{1}$ 配对， $σ_{1}$ 是这对组合上的主导成绩强度。期刊关键词矩阵也类似：行是 key words，列是 articles， $a_{i j}$ 是某词在某文中的频率；最大的秩一项描述 hyperword $u_{1}$ 与 hyperarticle $v_{1}$ 之间最强的频率模式。

若把左下角条目从 $0$ 改成

\frac{1}{60000},

特征值会从四个 $0$ 跳到半径为 $1 / 10$ 的四个点

\frac{1}{10}, \frac{i}{10}, - \frac{1}{10}, - \frac{i}{10} .

相比之下，奇异值只变为

3, 2, 1, \frac{1}{60000} .

这个例子说明：非正规矩阵的特征值可能对很小扰动极端敏感，而奇异值作为长度伸缩量更稳定。

变分刻画与计算

令 $S = A^{T} A$ 。对称矩阵的最大特征值由 Rayleigh quotient 给出：

λ_{1} (S) = max_{x \neq 0} \frac{x^{T} S x}{x^{T} x} .

由于

\frac{∥ A x ∥^{2}}{∥ x ∥^{2}} = \frac{x^{T} A^{T} A x}{x^{T} x},

最大奇异值满足

σ_{1} = max_{x \neq 0} \frac{∥ A x ∥}{∥ x ∥} .

取得最大值的输入方向是 $v_{1}$ ，并且 $A v_{1} = σ_{1} u_{1}$ 。进一步限制 $x ⊥ v_{1}, \dots, v_{k - 1}$ 可逐个得到后续 $σ_{k}$ 。

因为

∥ A x ∥ \leq σ_{1} ∥ x ∥,

若 $x$ 是方阵 $A$ 的特征向量，则

| λ | ∥ x ∥ = ∥ A x ∥ \leq σ_{1} ∥ x ∥,

所以

σ_{1} \geq | λ |_{max} .

正交变换不改变奇异值。若 $Q_{1}, Q_{2}$ 为正交矩阵，则

(Q_{1}^{T} A Q_{2})^{T} (Q_{1}^{T} A Q_{2}) = Q_{2}^{T} A^{T} A Q_{2},

它与 $A^{T} A$ 有相同特征值，因此 $Q_{1}^{T} A Q_{2}$ 与 $A$ 有相同奇异值。数值算法正是利用这一点：先用正交变换把一般矩阵化为 bidiagonal 矩阵；相应地，对称特征值问题会化为 tridiagonal 矩阵，因为

(bidiagonal)^{T} (bidiagonal)

是 tridiagonal。后续迭代再在不改变奇异值或特征值的前提下逼近对角形式。

相邻概念

奇异值：SVD 中的非负伸缩量，平方为 $A^{T} A$ 和 $A A^{T}$ 的共同非零特征值。
奇异向量：输入端的 $v_{i}$ 与输出端的 $u_{i}$ ，满足 $A v_{i} = σ_{i} u_{i}$ 。
四个基本子空间：SVD 为列空间、左零空间、行空间、零空间同时选择正交基。
低秩近似：截断小奇异值后的秩一展开。
伪逆：在 SVD 中把非零奇异值取倒数并转置输入输出方向。
极分解：把同一线性变换写成正半定伸缩与正交变换的乘积。