范数

Norm

范数是定义在向量空间上的一个函数,用于度量向量的大小或长度,将向量映射到非负实数。
范数属于数学和线性代数领域,特别是在优化问题、函数空间分析、机器学习中的正则化技术等方面。

常见的范数

L0 范数:即向量中非零元素的个数。

x0=card(x)

L1 范数(曼哈顿范数):即向量元素绝对值的和。

x1=i=1n|xi|

L2 范数(欧几里得范数或欧拉范数):即向量元素平方和的平方根。

x2=i=1nxi2

L∞范数(最大范数或无穷范数):即向量元素绝对值的最大值。

x=max(|x1|,|x2|,...,|xn|)

p-范数:当 p 取不同的值时,可以得到不同的范数,如 p=1 时是 L1 范数,p=2 时是 L2 范数,p 时趋近于 L∞范数。

xp=(i=1n|xi|p)1/p

Frobenius 范数:用于度量矩阵的大小,是矩阵元素平方和的平方根。

AF=i=1mj=1n|aij|2

核范数:核范数是矩阵奇异值的和,但不包括零奇异值。

A=λ>0λ

马氏范数:其中 M 是一个正定矩阵,马氏范数可以根据不同的 M 来衡量向量的大小。

xM=xTMx

切比雪夫范数:即向量在任意维度上的绝对值的最大值。

xChebyshev=maxi|xi|

每种范数都有其独特的性质和应用场景。例如,L1 范数可以导致稀疏解,常用于特征选择;L2 范数则常用于最小二乘问题;而核范数则在机器学习中的正则化中用来防止模型过拟合。

实际应用

Norm 范数是向量空间上度量“大小”的函数。在线性代数第一章中,最先遇到的范数通常是欧几里得长度:

v2=vv=v12++vn2.

它由标准点积诱导,直接对应平面、空间和高维中的向量长度。

范数公理

一般范数记为 ,必须满足:

x0,x=0x=0,αx=|α|x,x+yx+y.

三条规则分别对应非负性、齐次性和三角不等式。有了范数,就可以定义距离

d(x,y)=xy.

欧几里得长度与一般范数

欧几里得长度是范数的一种,但范数不一定来自点积。欧几里得范数的特殊之处在于它带有角度和正交结构:

v2=vv,cosθ=vwv2w2.

一般范数只保证大小和距离,不一定能定义自然夹角。例如 1 范数适合度量不同类型的误差,但它们不直接给出欧几里得意义下的角度。

常见向量范数

x=(x1,,xn)

x1=i=1n|xi|,x2=(i=1n|xi|2)1/2,x=maxi|xi|.

更一般地,当 p1 时,

xp=(i=1n|xi|p)1/p.

1 范数常强调分量绝对值总量,2 范数强调平方误差, 范数强调最大分量误差。

几何意义与范数比较

范数的几何对象是单位球

B={x:x1}.

不同范数对应不同的“单位长度”:在二维中,2 单位球是圆,1 单位球是菱形, 单位球是正方形。因此范数不仅给向量赋大小,也规定了哪些方向的扰动被看成同样严重。

常见向量范数之间有基本不等式

xx2x1,

并且在 Rn

x1nx2,x2nx.

例如 x=(1,1) 时,

x1=2,x2=2,x=1.

这说明同一个向量在不同几何下会有不同长度,但这些长度仍由固定常数互相控制。

边界上要注意:p-范数要求 p1。若 0<p<1,表达式 (i|xi|p)1/p 通常不满足三角不等式;例如 x=(1,0)y=(0,1) 时,x+yp=21/p>2=xp+yp

内积诱导的范数

若空间上有内积,则

x=x,x

一定是范数。特别地,在 Rn 中标准内积给出欧几里得长度。若 M 是对称正定矩阵,则

xM=xTMx

也是范数,称为加权欧几里得范数或 M-范数。

矩阵范数

矩阵也可以配备范数。Frobenius 范数把矩阵看作长向量:

AF=i,jaij2.

算子范数则度量矩阵最多能把向量长度放大多少:

A=maxx0Axx.

因此矩阵范数连接了“矩阵作为数据表的大小”和“矩阵作为线性变换的放大能力”。这个定义必须先选定向量范数;换用 12,同一个矩阵会得到不同但相容的诱导矩阵范数。

学习入口

第一章中应优先把范数理解为向量长度的抽象版本:欧几里得长度来自点积,一般范数保留长度运算最必要的三条规则。后续的误差估计、最小二乘、条件数、迭代收敛和正则化,都是在不同范数下比较“离目标有多远”。