期望

Expectation) $E (X$ 均值 mean

随机变量可能取值的平均值

一、基本定义

离散型随机变量：概率分布律 $P {X = x_{i}} = p_{i}$ 的求和（要求级数绝对收敛）

\begin{array}{r} E (X) = \sum_{i = 1}^{\infty} x_{i} p_{i} \end{array}

连续型随机变量：概率密度函数 $f (x)$ 的积分（要求积分绝对收敛）

\begin{array}{r} E (X) = \int_{- \infty}^{\infty} x f (x) d x \end{array}

期望是一个实数，是一种加权平均
级数的绝对收敛或积分的绝对收敛，才能保证期望存在

二、期望的性质

$C$ 为常数， $E (C) = C$
$k$ 为常数， $E (k X) = k E (X)$
线性性质

\begin{array}{r} E (a X + b Y) = a E (X) + b E (Y) \end{array}

若 $X, Y$ 独立

\begin{array}{r} E (X Y) = E (X) E (Y) \end{array}

但是由期望的关系不能够推出两个变量相互独立

三、随机变量函数的期望

方差、协方差、相关系数在本质上都是函数的期望

1. 一维随机变量

$X$ 为一随机变量， $Y = g (X)$

离散型随机变量

概率分布律 $P {X = x_{i}} = p_{i} i = 1, 2, 3, \dots$

\begin{array}{r} E (Y) = E [g (X)] = \sum_{i = 1}^{\infty} g (x_{i}) p_{i} \end{array}

连续型随机变量

概率密度为 $f (x)$

\begin{array}{r} E (Y) = E [g (X)] = \int_{- \infty}^{+ \infty} g (x) f (x) d x \end{array}

2. 二维随机变量

$(X, Y)$ 为二维随机向量， $Z = g (X, Y)$

离散型随机变量

概联合分布律 $P {X = x_{i}, Y = y_{j}} = p_{i j} i = 1, 2, 3, \dots$

\begin{array}{r} E (Z) = E (g (X, Y)) = \sum_{j = 1}^{\infty} \sum_{i = 1}^{\infty} g (x_{i}, y_{j}) p_{i j} \end{array}

连续型随机变量

概率密度为 $f (x, y)$

\begin{array}{r} E (Z) = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} g (x, y) f (x, y) d x d y \end{array}

注意！

因为期望是一个数，积分的结果也应该是一个具体的数
所以最外层的积分限一定都为常数

单变量的积分限就为题目所给定的积分限，较好理解
而多变量的积分限要先根据题目变量的取值范围，
转化为单变量的积分，再在积分区域内积分

而且也要注意求期望时，是对函数值与密度函数的乘积进行积分

例子：
$0 \leq x \leq y \leq 1$ ，求 $E (X)$ ， $E (Y)$ , $E (X Y)$

\begin{array}{r} E (X) = \int_{0}^{1} x f_{X} (x) d x E (Y) = \int_{0}^{1} y f_{Y} (y) d y \end{array}

\begin{aligned} E (X Y) & = \int_{0}^{1} d x \int_{x}^{1} x y f (x, y) d y \\ = \int_{0}^{1} d y \int_{0}^{y} x y f (x, y) d x \end{aligned}

AI 结构化补充（2026-05-02）

Expectation) $E (X$ 均值 mean

随机变量可能取值的平均值

一、基本定义

离散型随机变量：概率分布律 $P {X = x_{i}} = p_{i}$ 的求和（要求级数绝对收敛）

\begin{array}{r} E (X) = \sum_{i = 1}^{\infty} x_{i} p_{i} \end{array}

连续型随机变量：概率密度函数 $f (x)$ 的积分（要求积分绝对收敛）

\begin{array}{r} E (X) = \int_{- \infty}^{\infty} x f (x) d x \end{array}

期望是一个实数，是一种加权平均
级数的绝对收敛或积分的绝对收敛，才能保证期望存在

二、期望的性质

$C$ 为常数， $E (C) = C$
$k$ 为常数， $E (k X) = k E (X)$
线性性质

\begin{array}{r} E (a X + b Y) = a E (X) + b E (Y) \end{array}

若 $X, Y$ 独立

\begin{array}{r} E (X Y) = E (X) E (Y) \end{array}

但是由期望的关系不能够推出两个变量相互独立

三、随机变量函数的期望

方差、协方差、相关系数在本质上都是函数的期望

1. 一维随机变量

$X$ 为一随机变量， $Y = g (X)$

离散型随机变量

概率分布律 $P {X = x_{i}} = p_{i} i = 1, 2, 3, \dots$

\begin{array}{r} E (Y) = E [g (X)] = \sum_{i = 1}^{\infty} g (x_{i}) p_{i} \end{array}

连续型随机变量

概率密度为 $f (x)$

\begin{array}{r} E (Y) = E [g (X)] = \int_{- \infty}^{+ \infty} g (x) f (x) d x \end{array}

2. 二维随机变量

$(X, Y)$ 为二维随机向量， $Z = g (X, Y)$

离散型随机变量

概联合分布律 $P {X = x_{i}, Y = y_{j}} = p_{i j} i = 1, 2, 3, \dots$

\begin{array}{r} E (Z) = E (g (X, Y)) = \sum_{j = 1}^{\infty} \sum_{i = 1}^{\infty} g (x_{i}, y_{j}) p_{i j} \end{array}

连续型随机变量

概率密度为 $f (x, y)$

\begin{array}{r} E (Z) = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} g (x, y) f (x, y) d x d y \end{array}

注意！

因为期望是一个数，积分的结果也应该是一个具体的数
所以最外层的积分限一定都为常数

单变量的积分限就为题目所给定的积分限，较好理解
而多变量的积分限要先根据题目变量的取值范围，
转化为单变量的积分，再在积分区域内积分

而且也要注意求期望时，是对函数值与密度函数的乘积进行积分

例子：
$0 \leq x \leq y \leq 1$ ，求 $E (X)$ ， $E (Y)$ , $E (X Y)$

\begin{array}{r} E (X) = \int_{0}^{1} x f_{X} (x) d x E (Y) = \int_{0}^{1} y f_{Y} (y) d y \end{array}

\begin{aligned} E (X Y) & = \int_{0}^{1} d x \int_{x}^{1} x y f (x, y) d y \\ = \int_{0}^{1} d y \int_{0}^{y} x y f (x, y) d x \end{aligned}

样本均值与概率期望

样本均值和期望都可以被叫作“平均”，但它们回答的是不同问题：

样本均值从已经观察到的 $N$ 个样本值出发，描述这一次数据实际给出的平均水平：

μ = \frac{x_{1} + \dots + x_{N}}{N} .

期望从随机变量可能取值及其概率出发，描述还没有进行试验时按概率模型应当期待的平均水平：

m = E [x] = p_{1} x_{1} + \dots + p_{n} x_{n} = p \cdot x .

如果 $x$ 是连续随机变量，离散求和换成密度函数上的积分：

E [x] = \int_{- \infty}^{\infty} x p (x) d x .

例如五个已观察到的新生年龄为 $18, 17, 18, 19, 17$ ，样本均值是

μ = \frac{18 + 17 + 18 + 19 + 17}{5} = 17.8 .

如果按概率模型看，新生年龄为 $17, 18, 19$ 的概率分别是 $.2, .5, .3$ ，则随机抽一名新生的期望年龄是

E [x] = (.2) 17 + (.5) 18 + (.3) 19 = 18.1 .

$17.8$ 和 $18.1$ 并不矛盾：前者是样本已经发生后的平均，后者是概率模型给出的长期中心。

大数定律与独立试验边界

当样本来自同一个概率模型并满足相应独立或弱依赖条件时，样本均值会随着样本量 $N$ 增大而趋近于期望。以公平硬币为例，若正面记为 $1$ 、反面记为 $0$ ，则

E [x] = \frac{1}{2} \cdot 1 + \frac{1}{2} \cdot 0 = \frac{1}{2} .

$N$ 次投掷中正面的比例就是 $0$ - $1$ 样本的样本均值。大数定律说明，当 $N$ 越来越大时，这个比例趋向 $\frac{1}{2}$ 。在强大数律的表述里，这种长期趋近可以写成“以概率 $1$ 收敛”，也就是几乎必然收敛到期望。

这个结论不能被误读为“前面多次反面会提高下一次正面的概率”。在相互独立的公平硬币投掷中，下一次正面的概率仍是 $\frac{1}{2}$ 。前面已经发生的结果会影响当前有限样本均值，却不会改变下一次独立试验的概率，也不会改变长期极限。

与方差和标准差的关系

期望给出随机变量的中心位置，方差和标准差描述取值围绕这个中心的离散程度。方差本身也是函数的期望：

D (X) = E [(X - E (X))^{2}] .

如果 $X, Y$ 是随机变量，期望的线性性不要求二者独立：即使 $X, Y$ 不独立，仍有

E [X + Y] = E [X] + E [Y] .

独立性会影响乘积期望、方差加法和协方差项，但不是期望线性性的必要条件。