协方差矩阵

Covariance Matrix

多维随机向量的协方差构成的对称矩阵，用来描述一组变量的联合分布中的元素之间的线性关系

二维随机变量 $(X_{1}, X_{2})$ 的 4 个二阶中心矩排成矩阵的形式：

\begin{array}{r} C = (\begin{array}{c} c_{11} & c_{12} \\ c_{21} & c_{22} \end{array}) \Leftrightarrow {\begin{cases} c_{11} = E {[X_{1} - E (X_{1})]^{2}} \\ c_{22} = E {[X_{2} - E (X_{2})]^{2}} \\ c_{12} = E {[X_{1} - E (X_{1})] [X_{2} - E (X_{2})]} \\ c_{21} = E {[X_{2} - E (X_{2})] [X_{1} - E (X_{1})]} \end{cases} \end{array}

$n$ 维随机变量 $(X_{1}, X_{2}, \dots X_{n})$ 的协方差矩阵：

\begin{array}{r} C = (\begin{array}{c} c_{11} & c_{12} & \dots & c_{1 n} \\ c_{21} & c_{22} & \dots & c_{2 n} \\ ⋮ & ⋮ & ⋮ \\ c_{n 1} & c_{n 2} & \dots & c_{n n} \end{array}) \end{array}

\begin{aligned} c_{i j} & = C o v (X_{i}, X_{j}) = E {[X_{i} - E (X_{i})] [X_{j} - E (X_{j})]} (i, j = 1, 2, \dots, n) \end{aligned}

重要应用：研究多维正态分布

注意

以三个变量举例,可以扩展为 n 个变量的计算

矩阵计算, 过渡矩阵 $a$

\begin{aligned} a & = [\begin{array}{c} x_{1} & y_{1} & z_{1} \\ x_{2} & y_{2} & z_{2} \\ x_{3} & y_{3} & z_{3} \end{array}] - \frac{1}{3} [\begin{array}{c} 1 & 1 & 1 \\ 1 & 1 & 1 \\ 1 & 1 & 1 \end{array}] [\begin{array}{c} x_{1} & y_{1} & z_{1} \\ x_{2} & y_{2} & z_{2} \\ x_{3} & y_{3} & z_{3} \end{array}] \end{aligned}

则协方差矩阵 $p$ 为：

\begin{array}{r} p = \frac{1}{3} a^{T} a \end{array}

$M$ 个随机变量组成随机向量

X = (X_{1}, \dots, X_{M})^{T}, \bar{X} = E (X),

其协方差矩阵可写成

V = E [(X - \bar{X}) (X - \bar{X})^{T}] .

矩阵第 $(i, j)$ 个条目就是 $C o v (X_{i}, X_{j})$ ，对角线是各变量方差，非对角线是变量之间的协方差。若随机向量只有离散取值 $X_{k}$ ，联合概率为 $p_{k}$ ，记 $U_{k} = X_{k} - \bar{X}$ ，则

V = \sum_{k} p_{k} U_{k} U_{k}^{T} .

二维时也可写成

V = \sum_{i} \sum_{j} p_{i j} [\begin{matrix} x_{i} - m_{1} \\ y_{j} - m_{2} \end{matrix}] [\begin{matrix} x_{i} - m_{1} & y_{j} - m_{2} \end{matrix}] .

这说明 $V$ 是一批秩一矩阵 $U U^{T}$ 的非负加权和。每个 $U U^{T}$ 都是半正定矩阵，所以 $V$ 半正定。

同一事实也可以由任意线性组合的方差证明：

\begin{aligned} c^{T} V c & = E [c^{T} (X - \bar{X}) (X - \bar{X})^{T} c] \\ = E [(c^{T} X - c^{T} \bar{X})^{2}] \\ = V a r (c^{T} X) \geq 0. \end{aligned}

因此协方差矩阵的特征值非负，可正交对角化为

V = Q Λ Q^{T}, λ_{i} \geq 0.

若某个 $λ_{i} = 0$ ，则存在非零向量 $q_{i}$ 使 $q_{i}^{T} X$ 没有方差，表示变量之间存在确定的线性约束；这时 $V$ 奇异。例如两个同面粘在一起的公平硬币有

V = [\begin{matrix} \frac{1}{4} & \frac{1}{4} \\ \frac{1}{4} & \frac{1}{4} \end{matrix}], det V = 0.

同一小节还给出线性变换规则。若

Z = A X + b,

常数平移 $b$ 只改变均值，不改变协方差，协方差传播为

V_{Z} = A V_{X} A^{T} .

当 $A = [\begin{matrix} 1 & 1 \end{matrix}]$ 时， $Z = x + y$ ，于是

V a r (x + y) = [\begin{matrix} 1 & 1 \end{matrix}] [\begin{matrix} σ_{x}^{2} & σ_{x y} \\ σ_{x y} & σ_{y}^{2} \end{matrix}] [\begin{matrix} 1 \\ 1 \end{matrix}] = σ_{x}^{2} + σ_{y}^{2} + 2 σ_{x y} .

差分 GPS 的误差抵消也可用同一公式表达。取

A = [\begin{matrix} 1 & - 1 \end{matrix}],

则两个接收器测量误差之差的方差为

V_{Z} = [\begin{matrix} 1 & - 1 \end{matrix}] [\begin{matrix} σ_{1}^{2} & σ_{12} \\ σ_{12} & σ_{2}^{2} \end{matrix}] [\begin{matrix} 1 \\ - 1 \end{matrix}] = σ_{1}^{2} - 2 σ_{12} + σ_{2}^{2} .

若两处误差有共同来源， $σ_{12} > 0$ ，差分会减小剩余方差。这是后续多维正态分布、加权最小二乘和卡尔曼滤波中协方差传播的核心公式。

总体协方差矩阵描述随机向量的理论二阶结构；有限数据中通常先形成数据矩阵，再计算样本协方差矩阵。若

A_{0} \in R^{m \times n}

包含 $n$ 个样本和 $m$ 个测量变量，并按行减去样本均值得到中心化矩阵 $A$ ，则

S = \frac{A A^{T}}{n - 1} .

$S$ 的对角元是各变量的样本方差，非对角元是变量之间的样本协方差；分母 $n - 1$ 表示均值估计消耗了一个自由度。

在主成分分析中， $S$ 的特征向量给出数据点云的主方向：

S u_{i} = σ_{i}^{2} u_{i} .

如果把 $S$ 的特征值写成 $σ_{i}^{2}$ ，总方差就是

T = σ_{1}^{2} + \dots + σ_{m}^{2} = trace (S),

也等于各变量样本方差之和。解释方差比例为

\frac{σ_{i}^{2}}{T} .

当变量单位或尺度差异会扭曲主方向时，可用正对角矩阵 $D$ 做重标，转为相关矩阵

C = D S D = \frac{D A A^{T} D}{n - 1},

此时对角线全为 $1$ 。