Correlation Coefficient)
刻画了随机变量之间的线性相关程度
-
协方差的一种标准化形式,它通过除以两个变量的标准差来消除量纲和量级的影响,使得相关系数的值域在 -1 到 1 之间。
-
提供了一个无单位的度量,使得不同数据集的相关性可以进行比较。
-
的值越接近 1,线性相关程度越高; 的值越接近 0,线性相关程度越弱
-
:存在常数 使得 。也称为 的变换完全由 的线性函数给出
-
:称 不相关。
注意:
- 相互独立时,,称 不相关
- 但是 不相关,不一定能推出 相互独立
- (如果 服从二维正态分布,则:相互独立与不相关等价)
均方误差 :
最小二乘法
用 来近似 的均方误差
当 满足以下关系时,可以使得均方误差最小
均方误差的最小值:
AI 结构化补充(2026-05-02)
Correlation Coefficient)
刻画了随机变量之间的线性相关程度
一、定义与标准化
若记 、、,则
相关系数就是把 各自中心化并缩放到单位标准差后得到的协方差。它消除了量纲和尺度影响,所以变量从米换成厘米不会改变 。
二、取值范围与含义
由 得到
- 越接近 ,线性相关程度越高;越接近 ,线性共同变化越弱。
- 表示两个中心化变量同向成比例。
- 表示两个中心化变量反向成比例。
- 称为不相关,只表示线性协方差为零。
若 且 ,则 、,所以
对应的二维相关矩阵为
其行列式为 ,因为第二个变量完全由第一个变量线性决定。
三、独立、不相关与边界
相互独立时,,因此 。反过来, 不一定推出独立。例如 等概率取值,,则 ,但 由 决定。
只有在额外结构下,例如 服从二维正态分布时,不相关才与独立等价。
相关系数需要 且 。若某个变量是常数,标准差为 ,协方差仍可定义,但相关系数没有定义。相关系数也只刻画线性关系,不能排除强非线性依赖。
四、与线性最小二乘
均方误差 :
最小二乘法
用 来近似 的均方误差
当 满足以下关系时,可以使得均方误差最小
均方误差的最小值: