Singular Value Decomposition SVD
The singular value theorem for A is the eigenvalue theorem for and . The Singular Value Decomposition separate any matrix into simple pieces
如果 为 rectangle 非方阵,那么 为对称的正定矩阵
Square Symmetric Positive-Semidefinite
奇异值分解的理论,本质上就是矩阵和矩阵转置乘积的特征值理论
特征值将任意一个矩阵分解为列和行的形式
一个Rectangle Matrix 实际上为一个从维度 到维度 的线性变换
的特征向量 称为 Left singular vectors, 在 空间中
的特征向量 称为 Right singular vectors, 在 空间中
- rotate 左奇异值向量
- stretch 奇异值
- dimension erase 降维
- rotate 右奇异值向量
AI 结构化补充(2026-05-02)
定义
Singular Value Decomposition 奇异值分解把任意矩阵
写成
其中 与 是正交矩阵, 只在主对角线上有非负数
其余对角线位置和非对角线位置为 。这里 ,非零的 称为 奇异值, 与 的列向量称为 奇异向量。
SVD 对 没有方阵、可逆或可对角化要求。非零奇异值来自两个半正定矩阵的共同非零谱:
复数域中把转置改为共轭转置:
奇异值仍是 与 的非零特征值平方根。
如果把 看成输入空间 的正交坐标,把 看成输出空间 的正交坐标,那么 SVD 说明:任何线性变换都可以分解为
这比普通特征向量分解适用范围更广。特征向量分解 有三个结构性限制:特征向量通常不正交;矩阵可能没有足够多的特征向量;等式 只适合方阵。SVD 改用输入端的 与输出端的 两组正交基,因此可以处理非方阵、秩亏矩阵和不可对角化矩阵。
存在性、唯一性与域
任意有限维实矩阵或复矩阵都存在 SVD。奇异值作为 的非负特征值平方根,由 唯一决定;按降序排列后,序列
唯一。左右奇异向量不完全唯一:若 是单重正奇异值,则对应的 在实数域中可同时改号,在复数域中可同时乘以同一单位相位;若奇异值重复,则对应奇异子空间内可以任取酉正交基。零奇异值对应的零空间与左零空间补基也不唯一。
完整 SVD 使用 个左奇异向量和 个右奇异向量;经济型 SVD 只保留非零奇异值对应的
或只保留 个必要方向。截断 SVD 再进一步保留前 个最大奇异值,是低秩近似而不是精确分解。
基向量形式
设
SVD 的核心等式是
对于 , 位于零空间中,所以 。按列合并可得 reduced SVD
其中 ,,。再加入零空间和左零空间方向,得到完整形式
这组基向量同时给出 四个基本子空间 的正交基:
因此 在行空间到列空间的限制上是一个由 控制的对角伸缩,而零空间方向全部被送到 。
几何上,SVD 把单位球面送成列空间中的椭球:
椭球的主轴方向是 ,半轴长度是 ;若 秩亏,则若干半轴长度为 ,单位球被压扁到低维子空间。这个解释也说明奇异值为什么总是非负长度,而不是带方向符号的特征值。
秩一展开
将 按列乘行展开,得到
每一项 都是 rank-one 矩阵:它只检测输入中的 分量,并把该分量送到输出方向 。按照
排序后,秩一项天然按重要性排列;最大项 表示 中最强的输入-输出耦合方向。
从对称矩阵构造
SVD 的构造来自两个对称半正定矩阵:
因此 是 的正交特征向量, 是对应特征值。对所有 ,左奇异向量由
得到。
关键点是这些 自动正交。若 ,则
这一步解释了 SVD 为什么能从 的正交特征向量稳定地产生 的输出端正交基。最后用 的任意正交基补齐 ,用 的任意正交基补齐 。
重复特征值与正交基
SVD 依赖的谱分解需要处理重复特征值。设 为对称矩阵,先取一个单位特征向量 ,并把它补成正交矩阵
由于 ,矩阵 的第一列除首项外全为 ,可写成分块形式
但 仍然对称,所以必须有 ,并且 也是对称矩阵。于是问题被限制到 中的一个低一维对称块;对这个块重复同样过程,就通过归纳得到一组正交特征向量。
如果 与后续特征值重复,这个分块归纳不会失效:重复特征值对应的是一个特征子空间,子空间内任意正交基都可以作为特征向量。对称性保证不同特征值的子空间彼此正交,重复块内部再用正交化或同样的分块归纳选出正交基。这正是 能为 SVD 提供正交右奇异向量的原因。
与特征值分解的关系
SVD 与 一般不是同一件事。它们完全重合需要两个条件:
这要求 有一组正交特征向量,而且特征值全为非负数。换言之,当且仅当 是对称正半定矩阵时,谱分解
可以直接看成 SVD。
若 是对称但有负特征值,SVD 会把负号吸收到某一侧奇异向量中,奇异值仍是非负长度;若 不是方阵或不可对角化,普通特征值分解甚至没有同等形式,而 SVD 仍存在。
若 是对称正定矩阵,则谱分解与 SVD 合并:
对称正半定矩阵也有同样读法,只是 与 中允许出现零。
计算例子
对
先计算
二者的非零特征值同为
所以
的单位特征向量为
由 得
因此
这个例子展示了计算顺序:先在输入端求 的正交特征向量 ,再用 定出输出端的 ,最后得到 。
把同一个例子按秩一项完全展开,可以看到 SVD 不只是给出 ,而是给出两个数值矩阵之和:
二者相加正好恢复
极端上移矩阵
考虑严格上移矩阵
它是严格三角矩阵,所有特征值都是 。但是
所以奇异值是
SVD 会按 的强弱顺序排列对应的 与 ;第一项 正好取出矩阵中最大的条目 。如果删除最后一行得到 矩阵,奇异值仍为 ,只是 的形状变为 ,这体现了 SVD 对矩形矩阵的适配性。
矩形 data matrix 的行和列常常代表不同对象。课程成绩矩阵可以让每一行表示一门课程、每一列表示一个学生, 是成绩;此时 把一个 combination course 与一个 combination student 配对, 是这对组合上的主导成绩强度。期刊关键词矩阵也类似:行是 key words,列是 articles, 是某词在某文中的频率;最大的秩一项描述 hyperword 与 hyperarticle 之间最强的频率模式。
若把左下角条目从 改成
特征值会从四个 跳到半径为 的四个点
相比之下,奇异值只变为
这个例子说明:非正规矩阵的特征值可能对很小扰动极端敏感,而奇异值作为长度伸缩量更稳定。
变分刻画与计算
令 。对称矩阵的最大特征值由 Rayleigh quotient 给出:
由于
最大奇异值满足
取得最大值的输入方向是 ,并且 。进一步限制 可逐个得到后续 。
因为
若 是方阵 的特征向量,则
所以
正交变换不改变奇异值。若 为正交矩阵,则
它与 有相同特征值,因此 与 有相同奇异值。数值算法正是利用这一点:先用正交变换把一般矩阵化为 bidiagonal 矩阵;相应地,对称特征值问题会化为 tridiagonal 矩阵,因为
是 tridiagonal。后续迭代再在不改变奇异值或特征值的前提下逼近对角形式。
相邻概念
- 奇异值:SVD 中的非负伸缩量,平方为 和 的共同非零特征值。
- 奇异向量:输入端的 与输出端的 ,满足 。
- 四个基本子空间:SVD 为列空间、左零空间、行空间、零空间同时选择正交基。
- 低秩近似:截断小奇异值后的秩一展开。
- 伪逆:在 SVD 中把非零奇异值取倒数并转置输入输出方向。
- 极分解:把同一线性变换写成正半定伸缩与正交变换的乘积。