范数

Norm

范数是定义在向量空间上的一个函数，用于度量向量的大小或长度，将向量映射到非负实数。
范数属于数学和线性代数领域，特别是在优化问题、函数空间分析、机器学习中的正则化技术等方面。

常见的范数

L0 范数：即向量中非零元素的个数。

∥ x ∥_{0} = card (x)

L1 范数（曼哈顿范数）：即向量元素绝对值的和。

∥ x ∥_{1} = \sum_{i = 1}^{n} | x_{i} |

L2 范数（欧几里得范数或欧拉范数）：即向量元素平方和的平方根。

∥ x ∥_{2} = \sqrt{\sum_{i = 1}^{n} x_{i}^{2}}

L∞范数（最大范数或无穷范数）：即向量元素绝对值的最大值。

\begin{array}{r} ∥ x ∥_{\infty} = max (| x_{1} |, | x_{2} |, . . ., | x_{n} |) \end{array}

p-范数：当 $p$ 取不同的值时，可以得到不同的范数，如 $p = 1$ 时是 L1 范数， $p = 2$ 时是 L2 范数， $p \to \infty$ 时趋近于 L∞范数。

∥ x ∥_{p} = {(\sum_{i = 1}^{n} | x_{i} |^{p})}^{1 / p}

Frobenius 范数：用于度量矩阵的大小，是矩阵元素平方和的平方根。

∥ A ∥_{F} = \sqrt{\sum_{i = 1}^{m} \sum_{j = 1}^{n} | a_{i j} |^{2}}

核范数：核范数是矩阵奇异值的和，但不包括零奇异值。

∥ A ∥_{*} = \sum_{λ > 0} λ

马氏范数：其中 $M$ 是一个正定矩阵，马氏范数可以根据不同的 $M$ 来衡量向量的大小。

∥ x ∥_{M} = \sqrt{x^{T} M x}

切比雪夫范数：即向量在任意维度上的绝对值的最大值。

∥ x ∥_{Chebyshev} = max_{i} | x_{i} |

每种范数都有其独特的性质和应用场景。例如，L1 范数可以导致稀疏解，常用于特征选择；L2 范数则常用于最小二乘问题；而核范数则在机器学习中的正则化中用来防止模型过拟合。

实际应用

在优化问题中，范数用于定义目标函数的约束条件或目标值，如L1范数可以导致稀疏解。
在机器学习中，范数作为正则化项，可以防止模型过拟合。
在信号处理中，不同类型的范数可以用于信号的重建和去噪。

Norm 范数是向量空间上度量“大小”的函数。在线性代数第一章中，最先遇到的范数通常是欧几里得长度：

∥ v ∥_{2} = \sqrt{v \cdot v} = \sqrt{v_{1}^{2} + \dots + v_{n}^{2}} .

它由标准点积诱导，直接对应平面、空间和高维中的向量长度。

范数公理

一般范数记为 $∥ \cdot ∥$ ，必须满足：

∥ x ∥ \geq 0, ∥ x ∥ = 0 ⟺ x = 0,

∥ α x ∥ = | α | ∥ x ∥,

∥ x + y ∥ \leq ∥ x ∥ + ∥ y ∥ .

三条规则分别对应非负性、齐次性和三角不等式。有了范数，就可以定义距离

d (x, y) = ∥ x - y ∥ .

欧几里得长度与一般范数

欧几里得长度是范数的一种，但范数不一定来自点积。欧几里得范数的特殊之处在于它带有角度和正交结构：

∥ v ∥_{2} = \sqrt{v \cdot v}, \cos θ = \frac{v \cdot w}{∥ v ∥_{2} ∥ w ∥_{2}} .

一般范数只保证大小和距离，不一定能定义自然夹角。例如 $ℓ_{1}$ 和 $ℓ_{\infty}$ 范数适合度量不同类型的误差，但它们不直接给出欧几里得意义下的角度。

常见向量范数

对 $x = (x_{1}, \dots, x_{n})$ ：

∥ x ∥_{1} = \sum_{i = 1}^{n} | x_{i} |,

∥ x ∥_{2} = {(\sum_{i = 1}^{n} | x_{i} |^{2})}^{1 / 2},

∥ x ∥_{\infty} = max_{i} | x_{i} | .

更一般地，当 $p \geq 1$ 时，

∥ x ∥_{p} = {(\sum_{i = 1}^{n} | x_{i} |^{p})}^{1 / p} .

$ℓ_{1}$ 范数常强调分量绝对值总量， $ℓ_{2}$ 范数强调平方误差， $ℓ_{\infty}$ 范数强调最大分量误差。

几何意义与范数比较

范数的几何对象是单位球

B = {x : ∥ x ∥ \leq 1} .

不同范数对应不同的“单位长度”：在二维中， $ℓ_{2}$ 单位球是圆， $ℓ_{1}$ 单位球是菱形， $ℓ_{\infty}$ 单位球是正方形。因此范数不仅给向量赋大小，也规定了哪些方向的扰动被看成同样严重。

常见向量范数之间有基本不等式

∥ x ∥_{\infty} \leq ∥ x ∥_{2} \leq ∥ x ∥_{1},

并且在 $R^{n}$ 中

∥ x ∥_{1} \leq \sqrt{n} ∥ x ∥_{2}, ∥ x ∥_{2} \leq \sqrt{n} ∥ x ∥_{\infty} .

例如 $x = (1, 1)$ 时，

∥ x ∥_{1} = 2, ∥ x ∥_{2} = \sqrt{2}, ∥ x ∥_{\infty} = 1.

这说明同一个向量在不同几何下会有不同长度，但这些长度仍由固定常数互相控制。

边界上要注意： $p$ -范数要求 $p \geq 1$ 。若 $0 < p < 1$ ，表达式 ${(\sum_{i} | x_{i} |^{p})}^{1 / p}$ 通常不满足三角不等式；例如 $x = (1, 0)$ 、 $y = (0, 1)$ 时， $∥ x + y ∥_{p} = 2^{1 / p} > 2 = ∥ x ∥_{p} + ∥ y ∥_{p}$ 。

内积诱导的范数

若空间上有内积，则

∥ x ∥ = \sqrt{⟨ x, x ⟩}

一定是范数。特别地，在 $R^{n}$ 中标准内积给出欧几里得长度。若 $M$ 是对称正定矩阵，则

∥ x ∥_{M} = \sqrt{x^{T} M x}

也是范数，称为加权欧几里得范数或 $M$ -范数。

矩阵范数

矩阵也可以配备范数。Frobenius 范数把矩阵看作长向量：

∥ A ∥_{F} = \sqrt{\sum_{i, j} a_{i j}^{2}} .

算子范数则度量矩阵最多能把向量长度放大多少：

∥ A ∥ = max_{x \neq 0} \frac{∥ A x ∥}{∥ x ∥} .

因此矩阵范数连接了“矩阵作为数据表的大小”和“矩阵作为线性变换的放大能力”。这个定义必须先选定向量范数；换用 $ℓ_{1}$ 、 $ℓ_{2}$ 或 $ℓ_{\infty}$ ，同一个矩阵会得到不同但相容的诱导矩阵范数。

学习入口

第一章中应优先把范数理解为向量长度的抽象版本：欧几里得长度来自点积，一般范数保留长度运算最必要的三条规则。后续的误差估计、最小二乘、条件数、迭代收敛和正则化，都是在不同范数下比较“离目标有多远”。