Entropy

刻画系统宏观状态所对应的不确定性、无序程度或可实现微观状态数的物理量,是连接热力学、统计物理与信息论的核心概念。

一、热力学定义

在经典热力学中,熵是表征系统状态的状态函数。对可逆过程,有

dS=δQrevT,

其中 δQrev 为可逆吸热,T 为绝对温度。对从状态 A 到状态 B 的过程,熵变为

ΔS=SBSA=ABδQrevT.

这个定义表明,熵并不是简单的"混乱程度"口号,而是与热交换和可逆过程紧密相关的严格物理量。

二、统计力学解释

在统计物理中,玻尔兹曼公式给出熵的微观解释:

S=kBlnΩ,

其中 kB 为玻尔兹曼常数(kB1.381×1023J/K),Ω 表示与宏观状态相容的微观状态数。

更一般的 Gibbs 熵公式适用于非等概率分布:

S=kBipilnpi,

其中 pi 为系统处于第 i 个微观状态的概率。当所有微观状态等概率(pi=1/Ω)时,Gibbs 熵退化为玻尔兹曼公式。

三、热力学第二定律与熵增

孤立系统的总熵不会自发减少,这就是热力学第二定律的典型表达:

ΔS孤立0.
过程类型 熵变 含义
可逆过程 ΔS=0 系统与环境总熵不变
不可逆过程 ΔS>0 系统自发趋向更大概率的宏观状态
绝热可逆 ΔS=0 等熵过程

平衡态对应在给定约束下熵达到极大的状态,而非平衡态意味着系统内部仍存在流、梯度或持续交换过程。

四、信息熵

信息论中,Shannon 信息熵刻画离散随机变量 X 的概率分布所携带的不确定性:

H(X)=i=1np(xi)log2p(xi),

单位为比特(bit)。若使用自然对数,则单位为纳特(nat)。

关键性质

  • H(X)0,等号成立当且仅当 X 为确定性变量
  • 离散均匀分布取到最大值 H(X)=log2n
  • H(X,Y)H(X)+H(Y),等号成立当且仅当 X,Y 独立

对连续随机变量,定义微分熵:

h(X)=+f(x)lnf(x)dx,

其中 f(x)概率密度函数。微分熵可取负值,与离散情况性质不同。

五、重要推广

概念 定义 含义
联合熵 H(X,Y) x,yp(x,y)logp(x,y) 两个变量的总不确定性
条件熵 H(YX) H(X,Y)H(X) 已知 XY 的剩余不确定性
互信息 I(X;Y) H(X)H(XY) XY 共享的信息量
KL 散度 DKL(p|q) ipilogpiqi 分布 p 相对于 q 的信息损失
交叉熵 H(p,q) ipilogqi 用分布 q 编码分布 p 的平均比特数
交叉熵与 KL 散度的关系

H(p,q)=H(p)+DKL(pq),因此最小化交叉熵等价于最小化 KL 散度。这是机器学习中交叉熵损失函数的理论基础。

六、物理熵与信息熵的关系

二者形式上的相似并非偶然。令 kB=1 并取自然对数,Gibbs 熵公式与 Shannon 熵在数学形式上完全一致。它们都反映了"一个宏观描述背后还剩多少可能性"这一更一般的结构。

Landauer 原理进一步揭示了物理联系:擦除 1 比特信息至少耗散能量 kBTln2,将信息论中的熵与热力学中的熵在物理层面联结起来。

七、典型应用