方差

Variance) D(X
是衡量随机变量或一组数据离散程度的度量,它描述了数据点与其平均值(期望值)的偏差平方的平均值。
方差提供了数据分布的波动或分散程度的信息。

刻画随机变量取值 X 与数学期望离散程度

一、基本定义

方差定义为:

D(X)=E[(XE(X))2]

将方差开根号定义为标准差/均方差:D(X)

方差公式:使用随机变量平方的期望减去期望的平方

D(X)=E(X2)(E(X))2D(X)=E[X2+E(X)22XE(X)]=E(X2)+E(X)22E(X)E(X)=E(X2)E(X)2

二、一般的计算

1. 离散型随机变量

概率分布律 P{X=xi}=pii=1,2,3,

D(X)=i=1(xiE(X))2pi

2. 连续型随机变量

概率密度为 f(x)

D(X)=+[xiE(X)]2f(x)dx

三、基本性质

  1. C 为常数,则 D(C)=0
  2. D(CX)=C2D(X)
  3. X,Y 为随机变量,则:
D(aX±bY)=a2D(X)+b2D(Y)±2abE{[XE(X)][YE(Y)]}

最后一项实际为协方差,若 X,Y 相互独立,则进一步可简化为:

D(aX±bY)=a2D(X)+b2D(Y)
  1. D(X)=1P{X=E(X)}=1
    证明见: 切比雪夫不等式
D(aX±bY)=E[aX+bY(aEX+bEY)]2=E[a(XE(X))+b(YE(Y))]2=a2E(XE(X))2+b2E(YE(Y))2+2abE[(XE(X))(YE(Y))]=a2D(X)+b2D(Y)+2abCov(X,Y)

标准化变量

随机变量有数学期望 E(X)=μ 方差 D(X)=σ2,记 X=Xμσ

X=XE(X)D(X)

E(X)=1σ[E(X)μ]=0

D(X)=1σ2E[(Xμ)2]=σ2σ2=1

特殊分布的方差

分布函数

+x212πex22dx=E(X2)=1

AI 结构化补充(2026-05-02)

Variance) D(X
是衡量随机变量或一组数据离散程度的度量,它描述了数据点与其平均值(期望值)的偏差平方的平均值。
方差提供了数据分布的波动或分散程度的信息。

刻画随机变量取值 X 与数学期望离散程度

一、基本定义

方差定义为:

D(X)=E[(XE(X))2]

将方差开根号定义为标准差/均方差:D(X)

方差公式:使用随机变量平方的期望减去期望的平方

D(X)=E(X2)(E(X))2D(X)=E[X2+E(X)22XE(X)]=E(X2)+E(X)22E(X)E(X)=E(X2)E(X)2

二、一般的计算

1. 离散型随机变量

概率分布律 P{X=xi}=pii=1,2,3,

D(X)=i=1(xiE(X))2pi

2. 连续型随机变量

概率密度为 f(x)

D(X)=+[xE(X)]2f(x)dx

三、基本性质

  1. C 为常数,则 D(C)=0
  2. D(CX)=C2D(X)
  3. X,Y 为随机变量,则:
D(aX±bY)=a2D(X)+b2D(Y)±2abE{[XE(X)][YE(Y)]}

最后一项实际为协方差,若 X,Y 相互独立,则进一步可简化为:

D(aX±bY)=a2D(X)+b2D(Y)
  1. D(X)=0P{X=E(X)}=1
    证明见: 切比雪夫不等式
D(aX±bY)=E[aX+bY(aEX+bEY)]2=E[a(XE(X))+b(YE(Y))]2=a2E(XE(X))2+b2E(YE(Y))2+2abE[(XE(X))(YE(Y))]=a2D(X)+b2D(Y)+2abCov(X,Y)

标准化变量

随机变量有数学期望 E(X)=μ 方差 D(X)=σ2,记 X=Xμσ

X=XE(X)D(X)

E(X)=1σ[E(X)μ]=0

D(X)=1σ2E[(Xμ)2]=σ2σ2=1

特殊分布的方差

分布函数

+x212πex22dx=E(X2)=1

样本方差、概率方差与计算恒等式

方差的共同思想是“离均值距离的平方平均”,但样本数据和概率模型对应的公式不同。

样本 x1,,xN 的样本均值为

m=x1++xNN.

样本方差通常写作

S2=1N1i=1N(xim)2.

这里除以 N1 而不是 N,是因为 m 已经由同一批样本估计出来,消耗了一个自由度;在独立同分布抽样下,这样的 S2 是总体方差 σ2 的无偏估计。

例如样本年龄为 18,17,18,19,17,样本均值

m=18+17+18+19+175=17.8.

所以

S2=14[(.2)2+(.8)2+(.2)2+(1.2)2+(.8)2]=2.84=0.7.

计算样本方差时常用恒等式

i=1N(xim)2=i=1Nxi22mi=1Nxi+Nm2=i=1Nxi2Nm2,

其中最后一步用了 ixi=Nm。它说明平方离差和可以由平方和与均值直接得到。

若概率已知,方差围绕期望 m=E[x] 计算:

σ2=E[(xm)2]=i=1npi(xim)2.

连续变量则为

σ2=(xm)2p(x)dx.

例如新生年龄为 17,18,19 的概率分别是 .2,.5,.3,期望年龄为

m=(.2)17+(.5)18+(.3)19=18.1.

概率方差为

σ2=(.2)(1718.1)2+(.5)(1818.1)2+(.3)(1918.1)2=(.2)(1.21)+(.5)(.01)+(.3)(.81)=.49.

因此标准差

σ=.49=.7.

标准化与零方差边界

若随机变量有均值 μ、标准差 σ>0,可以定义标准化变量

X=Xμσ,

使 E(X)=0D(X)=1。这一步要求 σ 严格大于 0

σ=0 时,随机变量几乎处处等于它的均值,没有离散程度。此时 X=(Xμ)/σ 会除以 0,不能直接定义。类似地,相关系数

ρXY=Cov(X,Y)σXσY

也要求 σX>0σY>0;只要其中一个标准差为 0,相关系数就不能按这个公式直接计算。