相关系数

Correlation Coefficient) ρXY

刻画了随机变量之间的线性相关程度

ρXY=Cov(X,Y)D(X)D(Y)=E[(XE(X))(YE(Y))]D(X)D(Y)=E[(XE(X)D(X))(YE(Y)D(Y))]

注意:

均方误差 e

e=E[Y(a+bX)]2

最小二乘法
a+bX 来近似 Y 的均方误差
a0,b0 满足以下关系时,可以使得均方误差最小

a0=E(Y)E(X)Cov(X,Y)D(X)b0=Cov(X,Y)D(X)

均方误差的最小值:

min{e}=E[Y(a0+b0X)2]=(1ρXY2)D(Y)

AI 结构化补充(2026-05-02)

Correlation Coefficient) ρXY

刻画了随机变量之间的线性相关程度

一、定义与标准化

ρXY=Cov(X,Y)D(X)D(Y)=E[(XE(X))(YE(Y))]D(X)D(Y)=E[(XE(X)D(X))(YE(Y)D(Y))]

若记 σxy=Cov(X,Y)σx=D(X)σy=D(Y),则

ρxy=σxyσxσy.

相关系数就是把 X,Y 各自中心化并缩放到单位标准差后得到的协方差。它消除了量纲和尺度影响,所以变量从米换成厘米不会改变 ρ

二、取值范围与含义

|σxy|σxσy 得到

1ρxy1.

Y=XD(X)>0,则 σy=σxσxy=σx2,所以

ρxy=1.

对应的二维相关矩阵为

R=[1111],

其行列式为 0,因为第二个变量完全由第一个变量线性决定。

三、独立、不相关与边界

X,Y 相互独立时,σxy=0,因此 ρXY=0。反过来,ρXY=0 不一定推出独立。例如 X{1,0,1} 等概率取值,Y=X2,则 Cov(X,Y)=0,但 YX 决定。

只有在额外结构下,例如 (X,Y) 服从二维正态分布时,不相关才与独立等价。

相关系数需要 σx>0σy>0。若某个变量是常数,标准差为 0,协方差仍可定义,但相关系数没有定义。相关系数也只刻画线性关系,不能排除强非线性依赖。

四、与线性最小二乘

均方误差 e

e=E[(Y(a+bX))2]

最小二乘法
a+bX 来近似 Y 的均方误差
a0,b0 满足以下关系时,可以使得均方误差最小

a0=E(Y)E(X)Cov(X,Y)D(X)b0=Cov(X,Y)D(X)

均方误差的最小值:

min{e}=E[(Y(a0+b0X))2]=(1ρXY2)D(Y)