协方差矩阵

Covariance Matrix

多维随机向量协方差构成的对称矩阵,用来描述一组变量的联合分布中的元素之间的线性关系

一、基本定义

二维随机变量 (X1,X2) 的 4 个二阶中心排成矩阵的形式:

C=(c11c12c21c22){c11=E{[X1E(X1)]2}c22=E{[X2E(X2)]2}c12=E{[X1E(X1)][X2E(X2)]}c21=E{[X2E(X2)][X1E(X1)]}

n 维随机变量 (X1,X2,Xn)协方差矩阵

C=(c11c12c1nc21c22c2ncn1cn2cnn)cij=Cov(Xi,Xj)=E{[XiE(Xi)][XjE(Xj)]}(i,j=1,2,,n)

重要应用:研究多维正态分布

二、计算机的实现

注意

以三个变量举例,可以扩展为 n 个变量的计算

矩阵计算, 过渡矩阵 a

a=[x1y1z1x2y2z2x3y3z3]13[111111111][x1y1z1x2y2z2x3y3z3]

则协方差矩阵 p 为:

p=13aTa

半正定性与协方差传播

M 个随机变量组成随机向量

X=(X1,,XM)T,X¯=E(X),

其协方差矩阵可写成

V=E[(XX¯)(XX¯)T].

矩阵第 (i,j) 个条目就是 Cov(Xi,Xj),对角线是各变量方差,非对角线是变量之间的协方差。若随机向量只有离散取值 Xk,联合概率为 pk,记 Uk=XkX¯,则

V=kpkUkUkT.

二维时也可写成

V=ijpij[xim1yjm2][xim1yjm2].

这说明 V 是一批秩一矩阵 UUT 的非负加权和。每个 UUT 都是半正定矩阵,所以 V 半正定。

同一事实也可以由任意线性组合的方差证明:

cTVc=E[cT(XX¯)(XX¯)Tc]=E[(cTXcTX¯)2]=Var(cTX)0.

因此协方差矩阵的特征值非负,可正交对角化为

V=QΛQT,λi0.

若某个 λi=0,则存在非零向量 qi 使 qiTX 没有方差,表示变量之间存在确定的线性约束;这时 V 奇异。例如两个同面粘在一起的公平硬币有

V=[14141414],detV=0.

同一小节还给出线性变换规则。若

Z=AX+b,

常数平移 b 只改变均值,不改变协方差,协方差传播为

VZ=AVXAT.

A=[11] 时,Z=x+y,于是

Var(x+y)=[11][σx2σxyσxyσy2][11]=σx2+σy2+2σxy.

差分 GPS 的误差抵消也可用同一公式表达。取

A=[11],

则两个接收器测量误差之差的方差为

VZ=[11][σ12σ12σ12σ22][11]=σ122σ12+σ22.

若两处误差有共同来源,σ12>0,差分会减小剩余方差。这是后续多维正态分布、加权最小二乘和卡尔曼滤波中协方差传播的核心公式。

样本协方差矩阵与 PCA

总体协方差矩阵描述随机向量的理论二阶结构;有限数据中通常先形成数据矩阵,再计算样本协方差矩阵。若

A0Rm×n

包含 n 个样本和 m 个测量变量,并按行减去样本均值得到中心化矩阵 A,则

S=AATn1.

S 的对角元是各变量的样本方差,非对角元是变量之间的样本协方差;分母 n1 表示均值估计消耗了一个自由度。

主成分分析中,S 的特征向量给出数据点云的主方向:

Sui=σi2ui.

如果把 S 的特征值写成 σi2,总方差就是

T=σ12++σm2=trace(S),

也等于各变量样本方差之和。解释方差比例为

σi2T.

当变量单位或尺度差异会扭曲主方向时,可用正对角矩阵 D 做重标,转为相关矩阵

C=DSD=DAATDn1,

此时对角线全为 1