Covariance Matrix
多维随机向量的协方差构成的对称矩阵,用来描述一组变量的联合分布中的元素之间的线性关系
一、基本定义
二维随机变量 的 4 个二阶中心矩排成矩阵的形式:
维随机变量 的协方差矩阵:
重要应用:研究多维正态分布
二、计算机的实现
矩阵计算, 过渡矩阵
则协方差矩阵 为:
半正定性与协方差传播
个随机变量组成随机向量
其协方差矩阵可写成
矩阵第 个条目就是 ,对角线是各变量方差,非对角线是变量之间的协方差。若随机向量只有离散取值 ,联合概率为 ,记 ,则
二维时也可写成
这说明 是一批秩一矩阵 的非负加权和。每个 都是半正定矩阵,所以 半正定。
同一事实也可以由任意线性组合的方差证明:
因此协方差矩阵的特征值非负,可正交对角化为
若某个 ,则存在非零向量 使 没有方差,表示变量之间存在确定的线性约束;这时 奇异。例如两个同面粘在一起的公平硬币有
同一小节还给出线性变换规则。若
常数平移 只改变均值,不改变协方差,协方差传播为
当 时,,于是
差分 GPS 的误差抵消也可用同一公式表达。取
则两个接收器测量误差之差的方差为
若两处误差有共同来源,,差分会减小剩余方差。这是后续多维正态分布、加权最小二乘和卡尔曼滤波中协方差传播的核心公式。
样本协方差矩阵与 PCA
总体协方差矩阵描述随机向量的理论二阶结构;有限数据中通常先形成数据矩阵,再计算样本协方差矩阵。若
包含 个样本和 个测量变量,并按行减去样本均值得到中心化矩阵 ,则
的对角元是各变量的样本方差,非对角元是变量之间的样本协方差;分母 表示均值估计消耗了一个自由度。
在主成分分析中, 的特征向量给出数据点云的主方向:
如果把 的特征值写成 ,总方差就是
也等于各变量样本方差之和。解释方差比例为
当变量单位或尺度差异会扭曲主方向时,可用正对角矩阵 做重标,转为相关矩阵
此时对角线全为 。