第10章多元函数的微分

Tip

$x$ $\theta$ , 则截面积可写成

S (x, θ) = 24 x \sin θ - 2 x^{2} \sin θ + x^{2} \sin θ \cos θ

$x, \theta$ 的二元函数, 如何求它的最大值呢? 我们可以带着这个问题开始本章的学习.

10.1 多元函数的连续性

Tip

在一元微积分中, 连续函数是我们的主要研究对象, 在多元微积分中同样也是这样. 下面我们先介绍一些准备知识作为铺垫, 然后给出多元函数极限和连续的定义.

10.1.1 区域

Tip

区间 $(a, b)$ $[a, b]$ 区域 $\mathbb{R}^2$ $\mathbb{R}^n$ 中.

Important

邻域

$P_0(x, y)$ $\mathbb{R}^2$ $\delta > 0$ $\mathbb{R}^2$ $P_0$ $\delta$ $P_0$ $\delta$ -邻域 $U(P_0, \delta)$ , 即

U (P_{0}, δ) = {(x, y) | \sqrt{(x - x_{0})^{2} + (y - y_{0})^{2}} < δ} .

$P_0$ $P_0\in U(P_0, \delta)$ $P_0$ $U(P_0, \delta)$ $P_0$ $P_0$ $\delta$ -去心邻域 $\overset{\circ}{U}(P_0, \delta)$ , 即

\overset{\circ}{U} (P_{0}, δ) = {(x, y) | 0 < \sqrt{(x - x_{0})^{2} + (y - y_{0})^{2}} < δ} .

$\delta$ $U(P_0)$ $\overset{\circ}{U}(P_0)$ $P_0$ 的邻域和去心邻域.

Important

内点

$\mathbb{R}^2$ $D$ $P$ $D$ 的关系比符合以下三种关系中的一种:

内点 $P$ $U(P)$ $U(P) \subset D$ .
外点 $P$ $U(P)$ $U(P) \cap D = \emptyset$ .
边界点 $P$ $D$ $D$ 的点.

$D$ 边界点 $D$ 边界 $\partial D$ .

Note

例

$1 < x^2 + y^2 < 2$ 的内点, 外点和边界点.

Important

开集与闭集

开集闭集 $\partial D \in D$

Note

例

$1 < x^2 + y^2 < 2$ 为开集.

Important

连通集

$D$ $D$ $D$ 为连通集.

Important

区域

连通开集称为区域(或开区域); 开区域连同它的边界一起所构成的集合称为闭区域.

Note

例子

$\{(x,y) \mid 1 < x^2 + y^2 < 2\}$ $\{(x,y) \mid 1 \leq x^2 + y^2 \leq 2\}$ 是闭区域.

Important

有界集与无界集

有界集 $E$ $r$ $E \subset U(O, r)$ $O$ $E$ 为有界集, 无界集 : 如果一个集合不是有界集,则称其为无界集,

10.1.2 多元函数的极限

Tip

下面我们以含有两个自变量的函数, 即二元函数为例引入多元函数及其极限的概念. 相关概念可以很容易推广到含有三个或更多自变量的多元函数中去.

Important

二元函数的定义

$D$ $\mathbb{R}^2$ $f: D \to \mathbb{R}$ $D$ 上的二元函数,记为

z = f (x, y), (x, y) \in D

$D$ 定义域 $x$ $y$ 称为自变量.

Important

二元函数的极限

$f(x,y)$ $D$ $P_0(x_0, y_0)$ $D$ $A$ $\varepsilon$ $\delta$ $(x,y) \in U(P_0, \delta)$ $|f(x, y) - A| < \varepsilon$ $A$ $f(x,y)$ $(x,y)$ $(x_0, y_0)$ 时的极限,记作

lim_{(x, y) \to (x_{0}, y_{0})} f (x, y) = A .

Warning

$(x, y)$ $(x_0, y_0)$ 任意一条路径都成立 $x$ $y$ -轴趋近就断言极限存在.

Note

例1: 设

f (x, y) = (x^{2} + y^{2}) \sin \frac{1}{x^{2} + y^{2}}

求证

lim_{(x, y) \to (0, 0)} f (x, y) = 0.

证: $f(x,y)$ $D = \mathbb{R}^2 \backslash \{(0,0)\}$ $O(0,0)$ $D$ 的聚点, 因为

| f (x, y) - 0 | = | (x^{2} + y^{2}) \sin \frac{1}{x^{2} + y^{2}} | \leq x^{2} + y^{2},

$\forall \varepsilon > 0$ $\delta = \sqrt{\varepsilon}$ $0 < \sqrt{(x-0)^2 + (y-0)^2} < \delta,$ $P(x,y) \in D \cap U(0,\delta)$ $|f(x,y) - 0| < \varepsilon$ $\displaystyle\lim_{(x,y) \to (0,0)} f(x,y) = 0.$

$(0, 0)$ 处的极限

\begin{matrix} f (x, y) = {\begin{cases} \frac{x y}{x^{2} + y^{2}}, & x^{2} + y^{2} \neq 0, \\ 0, & x^{2} + y^{2} = 0. \end{cases} \end{matrix}

解: $P(x,y)$ $x$ $(0,0)$ 时有,

lim_{x \to 0} f (x, 0) = lim_{x \to 0} 0 = 0

$P(x,y)$ $y$ $(0,0)$ 时,

lim_{y \to 0} f (0, y) = lim_{y \to 0} 0 = 0.

$x$ $y$ $P(x,y)$ $y = kx$ $(0,0)$ 时,有

lim_{x \to 0} \frac{k x^{2}}{x^{2} + k^{2} x^{2}} = \frac{k}{1 + k^{2}},

$k$ $(0, 0)$ 处的极限不存在.

例3: 求

lim_{(x, y) \to (0, 2)} \frac{\sin (x y)}{x} .

解: $\displaystyle\frac{\sin(xy)}{x}$ $D = \{(x,y) | x \neq 0, y \in \mathbb{R}\}$ $P_0(0,2)$ $D$ 的聚点,

\begin{aligned} lim_{(x, y) \to (0, 2)} \frac{\sin (x y)}{x} & = lim_{(x, y) \to (0, 2)} [\frac{\sin (x y)}{x y} \cdot y] \\ = (lim_{x y \to 0} \frac{\sin (x y)}{x y}) (lim_{y \to 2} y) \\ = 1 \cdot 2 \\ = 2 \end{aligned}

10.1.3 多元函数的连续性

Tip

下面我们仍然以二元函数为例引入多元函数连续的概念. 相关概念可以很容易推广到含有三个或更多自变量的多元函数中去.

Important

二元函数连续性

$f(x, y)$ $D$ $P_0 (x_0, y_0)$ $D$ $P_0 \in D$ $\displaystyle\lim_{(x,y) \to (x_0, y_0)} f(x, y) = f(x_0, y_0)$ $f(x, y)$ $P_0 (x_0, y_0)$ $f(x, y)$ $D$ 每一点都连续 $f(x, y)$ $D$ 上的连续函数.

间断点 $f(x,y)$ $D$ $P_0(x_0, y_0)$ $D$ $f(x,y)$ $P_0(x_0, y_0)$ 不连续 $P_0(x_0, y_0)$ $f(x,y)$ 的间断点,

Important

连续函数的性质

与闭区间上一元连续函数的性质相类似,在有界闭区域上连续的多元函数具有如下性质:

性质1: 最大值与最小值
$D$ $D$ 上有界,且能取到它的最大值和最小值,
性质2: 介值定理
$D$ 上的多元连续函数能取到介于最大值和最小值之间的任何值,

10.2 偏导数

Tip
固定其它变量, 看一个变量变化对函数值的影响.

Important
偏导数 $z=f(x,y)$ $(x_0,y_0)$ $y=y_0$ $x$ $x_0$ 附近变化, 若极限

\begin{matrix} (2-1) & lim_{Δ x \to 0} \frac{f (x_{0} + Δ x, y_{0}) - f (x_{0}, y_{0})}{Δ x} \end{matrix}

$z=f(x,y)$ $(x_0,y_0)$ $x$ 的偏导数,记作：

{\frac{\partial z}{\partial x} |}_{x = x_{0}}, {\frac{\partial f}{\partial x} |}_{x = x_{0}}, z_{x} |_{x = x_{0}} 或 f_{x} (x_{0}, y_{0})

$z=f(x,y)$ $y$ 的偏导数为：

lim_{Δ y \to 0} \frac{f (x_{0}, y_{0} + Δ y) - f (x_{0}, y_{0})}{Δ y}

记作：

{\frac{\partial z}{\partial y} |}_{y = y_{0}}, {\frac{\partial f}{\partial y} |}_{y = y_{0}}, z_{y} |_{y = y_{0}} 或 f_{y} (x_{0}, y_{0})

Warning
偏导函数 $z=f(x,y)$ $D$ $(x,y)$ $x$ 的偏导数存在, 则由此构成的函数称为偏导函数,记作：

\frac{\partial z}{\partial x}, \frac{\partial f}{\partial x}, z_{x} 或 f_{x} (x, y)

$y$ 的偏导函数记为：

\frac{\partial z}{\partial y}, \frac{\partial f}{\partial y}, z_{y} 或 f_{y} (x, y)

Note

$(0,0)$ 处的偏导数

\begin{matrix} z = f (x, y) = {\begin{cases} \frac{x y}{x^{2} + y^{2}}, & x^{2} + y^{2} \neq 0 \\ 0, & x^{2} + y^{2} = 0 \end{cases} \end{matrix}

解:

$f_x(0, 0)$

\begin{aligned} f_{x} (0, 0) & = lim_{Δ x \to 0} \frac{f (0 + Δ x, 0) - f (0, 0)}{Δ x} \\ = lim_{Δ x \to 0} \frac{0 - 0}{Δ x} \\ = 0 \end{aligned}

$f_y(0, 0)$

\begin{aligned} f_{y} (0, 0) & = lim_{Δ y \to 0} \frac{f (0, 0 + Δ y) - f (0, 0)}{Δ y} \\ = lim_{Δ y \to 0} \frac{0 - 0}{Δ y} \\ = 0 \end{aligned}

Important

高阶偏导数

对偏导函数再求偏导数称为二阶偏导数, 以此类推还有三阶偏导数和更高阶的偏导数.

Warning

二阶偏导数的四种形式

$x$ 的二阶偏导：

\frac{\partial}{\partial x} (\frac{\partial z}{\partial x}) = \frac{\partial^{2} z}{\partial x^{2}} = f_{x x} (x, y)

$x$ $y$ 的混合偏导：

\frac{\partial}{\partial y} (\frac{\partial z}{\partial x}) = \frac{\partial^{2} z}{\partial x \partial y} = f_{x y} (x, y)

$y$ $x$ 的混合偏导：

\frac{\partial}{\partial x} (\frac{\partial z}{\partial y}) = \frac{\partial^{2} z}{\partial y \partial x} = f_{y x} (x, y)

$y$ 的二阶偏导：

\frac{\partial}{\partial y} (\frac{\partial z}{\partial y}) = \frac{\partial^{2} z}{\partial y^{2}} = f_{y y} (x, y)

Note

$z = x^3 y^2 - 3xy^3 - xy + 1$ , 求下列高阶偏导数：

\frac{\partial^{2} z}{\partial x^{2}}, \frac{\partial^{2} z}{\partial y \partial x}, \frac{\partial^{2} z}{\partial x \partial y}, \frac{\partial^{2} z}{\partial y^{2}} 及 \frac{\partial^{3} z}{\partial x^{3}} .

解:
先求一阶偏导数:

\frac{\partial z}{\partial x} = 3 x^{2} y^{2} - 3 y^{3} - y

\frac{\partial z}{\partial y} = 2 x^{3} y - 9 x y^{2} - x

然后求二阶偏导数：

\frac{\partial^{2} z}{\partial x^{2}} = \frac{\partial}{\partial x} (3 x^{2} y^{2} - 3 y^{3} - y) = 6 x y^{2}

\frac{\partial^{2} z}{\partial y \partial x} = \frac{\partial}{\partial y} (3 x^{2} y^{2} - 3 y^{3} - y) = 6 x^{2} y - 9 y^{2} - 1

\frac{\partial^{2} z}{\partial x \partial y} = \frac{\partial}{\partial x} (2 x^{3} y - 9 x y^{2} - x) = 6 x^{2} y - 9 y^{2} - 1

\frac{\partial^{2} z}{\partial y^{2}} = \frac{\partial}{\partial y} (2 x^{3} y - 9 x y^{2} - x) = 2 x^{3} - 18 x y

最后求三阶偏导数

\frac{\partial^{3} z}{\partial x^{3}} = \frac{\partial}{\partial x} (6 x y^{2}) = 6 y^{2}

Important

二阶混合偏导数定理

$z = f(x, y)$ 的二阶混合偏导数

\frac{\partial^{2} z}{\partial y \partial x} 和 \frac{\partial^{2} z}{\partial x \partial y}

$D$ 内连续,那么在该区域内必有：

\frac{\partial^{2} z}{\partial y \partial x} = \frac{\partial^{2} z}{\partial x \partial y}

即：二阶混合偏导数在连续条件下与求导次序无关,

Note

$z = \ln \sqrt{x^2 + y^2}$ 满足拉普拉斯方程

\frac{\partial^{2} z}{\partial x^{2}} + \frac{\partial^{2} z}{\partial y^{2}} = 0.

证明:
首先将函数化简为：

z = \frac{1}{2} \ln (x^{2} + y^{2})

\frac{\partial z}{\partial x} = \frac{x}{x^{2} + y^{2}}

\frac{\partial z}{\partial y} = \frac{y}{x^{2} + y^{2}}

\frac{\partial^{2} z}{\partial x^{2}} = \frac{y^{2} - x^{2}}{(x^{2} + y^{2})^{2}}

\frac{\partial^{2} z}{\partial y^{2}} = \frac{x^{2} - y^{2}}{(x^{2} + y^{2})^{2}}

验证方程将二阶偏导数相加：

\begin{aligned} \frac{\partial^{2} z}{\partial x^{2}} + \frac{\partial^{2} z}{\partial y^{2}} & = \frac{y^{2} - x^{2} + x^{2} - y^{2}}{(x^{2} + y^{2})^{2}} \\ = 0 \end{aligned}

$u = \dfrac{1}{r}$ 满足拉普拉斯方程

\frac{\partial^{2} u}{\partial x^{2}} + \frac{\partial^{2} u}{\partial y^{2}} + \frac{\partial^{2} u}{\partial z^{2}} = 0

$r = \sqrt{x^2 + y^2 + z^2}$ .

证明:

\begin{aligned} \frac{\partial u}{\partial x} & = - \frac{1}{r^{2}} \cdot \frac{\partial r}{\partial x} \\ = - \frac{x}{r^{3}} \end{aligned}

\frac{\partial^{2} u}{\partial x^{2}} = - \frac{1}{r^{3}} + \frac{3 x^{2}}{r^{5}}

由对称性可得：

\begin{aligned} \frac{\partial^{2} u}{\partial y^{2}} & = - \frac{1}{r^{3}} + \frac{3 y^{2}}{r^{5}}, \\ \frac{\partial^{2} u}{\partial z^{2}} & = - \frac{1}{r^{3}} + \frac{3 z^{2}}{r^{5}} \end{aligned}

验证方程

\begin{aligned} \frac{\partial^{2} u}{\partial x^{2}} + \frac{\partial^{2} u}{\partial y^{2}} + \frac{\partial^{2} u}{\partial z^{2}} & = - \frac{3}{r^{3}} + \frac{3 (x^{2} + y^{2} + z^{2})}{r^{5}} \\ = - \frac{3}{r^{3}} + \frac{3 r^{2}}{r^{5}} \\ = 0 \end{aligned}

10.3 全微分

Tip

一元函数微分 $y=f(x)$ , 其增量可表示为

d f = f^{'} (x) d x

接下来我们要把上述关系推广多元函数, 从而将函数值的变化于自变量的变化联系起来.

Important

全微分公式

d z = \frac{\partial z}{\partial x} d x + \frac{\partial z}{\partial y} d y

Warning

全微分的几何理解

全微分几何图示

Note

$z(x,y) = x + y$ .

解: 变量变化：

x \to x + Δ x, y \to y + Δ y

函数增量计算：

z (x + Δ x, y + Δ y) = (x + Δ x) + (y + Δ y)

增量分解：

Δ z = z (x + Δ x, y + Δ y) - z (x, y) = Δ x + Δ y

偏导数表示：

\frac{\partial z}{\partial x} = 1, \frac{\partial z}{\partial y} = 1

$dz = dx + dy$

$z(x,y) = x^2 + 2y^3$ .

解: 考虑自变量的微小变化：

{\begin{cases} x \to x + d x \\ y \to y + d y \end{cases}

函数增量计算：

\begin{aligned} z (x + d x, y + d y) & = (x + d x)^{2} + 2 (y + d y)^{3} \\ = x^{2} + 2 x d x + d x^{2} + 2 (y^{3} + 3 y^{2} d y + 3 y d y^{2} + d y^{3}) \\ = x^{2} + 2 y^{3} + 2 x d x + 6 y^{2} d y + \underset{高阶无穷小项}{\underset{⏟}{d x^{2} + 6 y d y^{2} + 2 d y^{3}}} \end{aligned}

线性主部提取：保留一阶增量项

Δ z \approx 2 x d x + 6 y^{2} d y

偏导数计算：

\frac{\partial z}{\partial x} = 2 x 和 \frac{\partial z}{\partial y} = 6 y^{2}

全微分公式：

d z = \frac{\partial z}{\partial x} d x + \frac{\partial z}{\partial y} d y = 2 x d x + 6 y^{2} d y

例3:

S = \frac{1}{2} (L - 2 x + L - 2 x + 2 x \cos θ) x \sin θ .

解: 化简：

S (x, θ) = L x \sin θ - 2 x^{2} \sin θ + x^{2} \sin θ \cos θ

变量代换过程：

x \to x + Δ x, θ \to θ + Δ θ

函数增量展开：

\begin{aligned} S (x + Δ x, θ + Δ θ) & = L (x + Δ x) \sin (θ + Δ θ) \\ - 2 (x + Δ x)^{2} \sin (θ + Δ θ) \\ + (x + Δ x)^{2} \sin (θ + Δ θ) \cos (θ + Δ θ) \end{aligned}

线性近似处理（保留一阶项）：

\begin{aligned} Δ S & \approx (L \sin θ - 4 x \sin θ + 2 x \sin θ \cos θ) Δ x \\ + (L x \cos θ - 2 x^{2} \cos θ - x^{2} \sin^{2} θ + x^{2} \cos^{2} θ) Δ θ \end{aligned}

偏导数提取：

{\begin{cases} \frac{\partial S}{\partial x} = L \sin θ - 4 x \sin θ + x \sin θ \cos θ \\ \frac{\partial S}{\partial θ} = L x \cos θ - 2 x^{2} \cos θ + x^{2} (\cos^{2} θ - \sin^{2} θ) \end{cases}

全微分公式：

d S = \frac{\partial S}{\partial x} d x + \frac{\partial S}{\partial θ} d θ

最终结果：

d S = \sin θ (L - 4 x + 2 x \cos θ) d x + [x \cos θ (L - 2 x) + x^{2} \cos 2 θ] d θ

10.3.1 链式法则

Tip

$z$ $x, y$ 的依赖关系。如果我们把全微分公式稍微变形，就能非常自然地推导出多元微积分中极其重要的链式法则 (Chain Rule)。无论是物理学中寻找随时间变化的变化率，还是在不同坐标系（如直角坐标与极坐标）之间进行变量替换，链式法则都不可或缺。

Important

一元函数与多元函数复合的情形

$z = f(u, v)$ $u = u(t)$ $v = v(t)$ $z$ $t$ 的全导数公式为：

\frac{d z}{d t} = \frac{\partial z}{\partial u} \frac{d u}{d t} + \frac{\partial z}{\partial v} \frac{d v}{d t}

多元函数与多元函数复合的情形

$u = u(x,y)$ $v = v(x,y)$ $x$ $y$ 的偏导数法则为：

\frac{\partial z}{\partial x} = \frac{\partial z}{\partial u} \frac{\partial u}{\partial x} + \frac{\partial z}{\partial v} \frac{\partial v}{\partial x}

\frac{\partial z}{\partial y} = \frac{\partial z}{\partial u} \frac{\partial u}{\partial y} + \frac{\partial z}{\partial v} \frac{\partial v}{\partial y}

Note

$z = uv + \sin t$ $u = e^t, v = \cos t$ $\displaystyle\frac{dz}{dt}$ .

解: $z$ $u, v$ $t$ $t$ 。根据链式法则：

\begin{aligned} \frac{d z}{d t} & = \frac{\partial z}{\partial u} \frac{d u}{d t} + \frac{\partial z}{\partial v} \frac{d v}{d t} + \frac{\partial z}{\partial t} \\ = v \cdot e^{t} + u \cdot (- \sin t) + \cos t \\ = e^{t} \cos t - e^{t} \sin t + \cos t \\ = e^{t} (\cos t - \sin t) + \cos t \end{aligned}

$u = e^{x^2+y^2+z^2}$ $z = x^2 \sin y$ $\displaystyle\frac{\partial u}{\partial x}$ $\displaystyle\frac{\partial u}{\partial y}$ .

解: $z$ $z(x,y)$ 。应用链式法则：

\begin{aligned} \frac{\partial u}{\partial x} & = \frac{\partial f}{\partial x} + \frac{\partial f}{\partial z} \frac{\partial z}{\partial x} \\ = 2 x e^{x^{2} + y^{2} + z^{2}} + 2 z e^{x^{2} + y^{2} + z^{2}} \cdot (2 x \sin y) \\ = 2 x (1 + 2 z \sin y) e^{x^{2} + y^{2} + z^{2}} \end{aligned}

$y$ 的偏导：

\begin{aligned} \frac{\partial u}{\partial y} & = \frac{\partial f}{\partial y} + \frac{\partial f}{\partial z} \frac{\partial z}{\partial y} \\ = 2 y e^{x^{2} + y^{2} + z^{2}} + 2 z e^{x^{2} + y^{2} + z^{2}} \cdot (x^{2} \cos y) \\ = 2 (y + x^{2} z \cos y) e^{x^{2} + y^{2} + z^{2}} \end{aligned}

10.3.2 全微分形式不变性

Tip

$u, v$ 是作为最终自变量中间变量 $dz = \frac{\partial z}{\partial u}du + \frac{\partial z}{\partial v}dv$ 始终保持形式上的一致。这个深刻的性质被称为全微分形式不变性。它能帮我们绕开繁琐的链式法则，直接通过代数代入来求导！

Note

$z = e^u \sin v$ $u = xy, v = x+y$ ，利用全微分形式不变性求偏导数.

解: $dz = d(e^u \sin v) = e^u \sin v \, du + e^u \cos v \, dv$

$du = d(xy) = y \, dx + x \, dy$ $dv = d(x+y) = dx + dy$

$du, dv$ $dz$ $dx$ $dy$ ）：

\begin{aligned} d z & = e^{u} \sin v (y d x + x d y) + e^{u} \cos v (d x + d y) \\ = [y e^{u} \sin v + e^{u} \cos v] d x + [x e^{u} \sin v + e^{u} \cos v] d y \end{aligned}

$dx$ $dy$ $\frac{\partial z}{\partial x} = e^{xy}[y \sin(x+y) + \cos(x+y)]$ $\frac{\partial z}{\partial y} = e^{xy}[x \sin(x+y) + \cos(x+y)]$ 这个方法比死记链式法则公式要直观、安全得多！

10.3.3 隐函数求导

Tip

$F(x,y)=0$ $F(x,y,z)=0$ 的形式给出，直接解出因变量（即求反函数）往往非常繁琐甚至不可能。利用全微分的性质，我们可以极其优雅地绕过这一困难，直接求出隐函数的导数。因为方程恒为零，对其取全微分也必为零。

Important

一元隐函数的求导公式

$F(x,y) = 0$ $y = f(x)$ $dF = F_x dx + F_y dy = 0$ $F_y \neq 0$ ，直接移项即可得到一阶导数：

\frac{d y}{d x} = - \frac{F_{x}}{F_{y}}

二元隐函数的求导公式

$F(x,y,z) = 0$ $z = f(x,y)$ $\frac{\partial z}{\partial x}$ $y$ $dy = 0$ $F_x dx + F_z dz = 0$ ：

\frac{\partial z}{\partial x} = - \frac{F_{x}}{F_{z}} (F_{z} \neq 0)

同理可得：

\frac{\partial z}{\partial y} = - \frac{F_{y}}{F_{z}} (F_{z} \neq 0)

这个自带负号的公式，正是全微分移项产生的自然结果。

Note

$x^2 + y^2 - 1 = 0$ $\displaystyle\frac{dy}{dx}$ $\displaystyle\frac{d^2y}{dx^2}$ .

解: $F(x,y) = x^2 + y^2 - 1$ $F_x = 2x, \quad F_y = 2y$ 。根据一元隐函数求导公式，得一阶导数：

\begin{aligned} \frac{d y}{d x} & = - \frac{F_{x}}{F_{y}} \\ = - \frac{2 x}{2 y} \\ = - \frac{x}{y} \end{aligned}

$x$ $y$ $x$ 的函数）：

\begin{aligned} \frac{d^{2} y}{d x^{2}} & = \frac{d}{d x} (- \frac{x}{y}) \\ = - \frac{1 \cdot y - x \cdot \frac{d y}{d x}}{y^{2}} \\ = - \frac{y - x (- \frac{x}{y})}{y^{2}} \\ = - \frac{y^{2} + x^{2}}{y^{3}} \end{aligned}

$x^2+y^2=1$ $\frac{d^2y}{dx^2} = -\frac{1}{y^3}$ 。

$x^2 + y^2 + z^2 - 4z = 0$ $\displaystyle\frac{\partial z}{\partial x}$ $\displaystyle\frac{\partial^2 z}{\partial x^2}$ .

解: $F(x,y,z) = x^2 + y^2 + z^2 - 4z$ $F_x = 2x$ $F_z = 2z - 4$ $F_z \neq 0$ $z \neq 2$ ）时，利用公式得：

\begin{aligned} \frac{\partial z}{\partial x} & = - \frac{F_{x}}{F_{z}} \\ = - \frac{2 x}{2 z - 4} \\ = \frac{x}{2 - z} \end{aligned}

$x$ $y$ $z$ $x$ 的函数）：

\begin{aligned} \frac{\partial^{2} z}{\partial x^{2}} & = \frac{\partial}{\partial x} (\frac{x}{2 - z}) \\ = \frac{1 \cdot (2 - z) - x \cdot (- \frac{\partial z}{\partial x})}{(2 - z)^{2}} \\ = \frac{(2 - z) + x (\frac{x}{2 - z})}{(2 - z)^{2}} \\ = \frac{(2 - z)^{2} + x^{2}}{(2 - z)^{3}} \end{aligned}

10.4 梯度与方向导数

10.4.1 梯度

Important

梯度的定义 $f(x,y)$ $D$ $P_0(x_0,y_0) \in D$ ,其梯度定义为：

grad f (x_{0}, y_{0}) = \nabla f (x_{0}, y_{0}) = f_{x} (x_{0}, y_{0}) i + f_{y} (x_{0}, y_{0}) j

$\nabla = \dfrac{\partial}{\partial x}\mathbf{i} + \dfrac{\partial}{\partial y}\mathbf{j} ,$

Warning

梯度方向是函数值增长最快的方向

Note

$\mathrm{grad}\ \dfrac{1}{x^2 + y^2}$ .

解: $f(x, y) = \dfrac{1}{x^2 + y^2}$ ,因为

\begin{aligned} \frac{\partial f}{\partial x} & = - \frac{2 x}{(x^{2} + y^{2})^{2}}, \\ \frac{\partial f}{\partial y} & = - \frac{2 y}{(x^{2} + y^{2})^{2}} \end{aligned}

所以

grad \frac{1}{x^{2} + y^{2}} = - \frac{2 x}{(x^{2} + y^{2})^{2}} i - \frac{2 y}{(x^{2} + y^{2})^{2}} j .

$f(x, y, z) = x^3 - x y^2 - z^2,\ P_0(1,1,0)$ $f(x,y,z)$ $P_0$ 处沿什么方向变化最快, 在这个方向的变化率是多少?

解:

\begin{aligned} \nabla f & = \frac{\partial f}{\partial x} i + \frac{\partial f}{\partial y} j + \frac{\partial f}{\partial z} k \\ = (3 x^{2} - y^{2}) i - 2 x y j - 2 z k, \\ \nabla f (1, 1, 0) & = 2 i - 2 j - k \end{aligned}

$f(x,y,z)$ $P_0$ $\nabla f(1,1,0)$ $-\nabla f(1,1,0)$ 的方向减少最快,在这两个方向的变化率分别是

| \nabla f (1, 1, 0) | = \sqrt{2^{2} + (- 2)^{2} + 1^{2}} = 3, - | \nabla f (1, 1, 0) | = - 3.

$x^2 + y^2 + z = 9$ $P_0(1,2,4)$ 的切平面和法线方程.

解: $f(x, y, z) = x^2 + y^2 + z$ ,由梯度与等值面的关系可知,梯度

\nabla f |_{P_{0}} = (2 x i + 2 y j + k) |_{(1, 2, 4)} = 2 i + 4 j + k

$f(x,y,z)=9$ $P_0$ 的法线方向,因此切平面方程是

2 (x - 1) + 4 (y - 2) + (z - 4) = 0,

即

2 x + 4 y + z = 14,

$P_0$ 处的法线方程是

x = 1 + 2 t, y = 2 + 4 t, z = 4 + t (t 为任意常数) .

Important

三元函数的梯度定义与性质 $f(x,y,z)$ $G$ $P_0(x_0,y_ 0,z_0)$ $in G$ ),其梯度为：

grad f (x_{0}, y_{0}, z_{0}) = \nabla f (x_{0}, y_{0}, z_{0}) = f_{x} i + f_{y} j + f_{z} k

其中三维Nabla算子：

\nabla = \frac{\partial}{\partial x} i + \frac{\partial}{\partial y} j + \frac{\partial}{\partial z} k

Note

$f(x,y,z) = x^2 + yz$ $(1,2,3)$ 的梯度.

$\nabla f = (2x, z, y) \big|_{(1,2,3)} = (2,3,2)$

10.4.2 方向导数

Important

方向导数的定义 $f(x,y,z)$ $P_0(x_0,y_0,z_0)$ $\mathbf{l}$ $P_0$ $P(x,y,z)$ $\mathbf{l}$ $P_0$ 的点,若极限

lim_{ρ \to 0^{+}} \frac{f (P) - f (P_{0})}{ρ} = {\frac{\partial f}{\partial l} |}_{P_{0}}

$f$ $P_0$ $\mathbf{l}$ 方向导数 $\rho = |PP_0|$ .

Warning
方向导数与梯度的关系

方向导数等于梯度在该方向上的投影.

10.5 多元函数的极值

10.5.1 无约束极值问题

Note
例1:有一宽为24 cm的长方形铁板,把它两边折起来做成一断面为等腰梯形的水槽,问怎样折法才能使断面的面积最大？

解: $x$ $\alpha$ $(24 - 2x)$ $(24 - 2x + 2x \cos \alpha)$ $(x \sin \alpha)$ cm,所以断面面积

A = \frac{1}{2} [(24 - 2 x + 2 x \cos α) + (24 - 2 x)] \cdot x \sin α

即

A = (24 x \sin α - 2 x^{2} \sin α + x^{2} \sin α \cos α) (0 < x < 12, 0 < α \leq \frac{π}{2})

$A = A(x, \alpha)$ $(x, \alpha)$ ,令

{\begin{cases} A_{x} = 24 \sin α - 4 x \sin α + 2 x \sin α \cos α = 0 \\ A_{α} = 24 x \cos α - 2 x^{2} \cos α + x^{2} (\cos^{2} α - \sin^{2} α) = 0 \end{cases}

$\sin \alpha \neq 0$ $x \neq 0$ ,上述方程组可化为

{\begin{cases} 12 - 2 x + x \cos α = 0 \\ 24 \cos α - 2 x \cos α + x (\cos^{2} α - \sin^{2} α) = 0 \end{cases}

解这方程组,得

α = \frac{π}{3} = 60^{\circ}, x = 8

根据题意可知断面面积的最大值一定存在,并且在

D = {(x, α) | 0 < x < 12, 0 < α \leq \frac{π}{2}}

内取得,通过计算得知

α = \frac{π}{2}

$\alpha = 60^\circ, x = 8$ $x = 8$ $\alpha = 60^\circ$ 时,就能使断面的面积最大.

例2:某厂要用铁板做成一个体积为2 m³的有盖长方体水箱,问当长、宽和高各取怎样的尺寸时,才能使用料最省?

解: $x$ $y$ m, 则其高应为

\frac{2}{x y} m .

此水箱所用材料的面积为

A = 2 (x y + y \cdot \frac{2}{x y} + x \cdot \frac{2}{x y}) = 2 (x y + \frac{2}{x} + \frac{2}{y}) (x > 0, y > 0) .

$A = A(x, y)$ $x$ $y$ $(x, y)$ , 令

A_{x} = 2 (y - \frac{2}{x^{2}}) = 0, A_{y} = 2 (x - \frac{2}{y^{2}}) = 0.

$x = \sqrt[3]{2}, \quad y = \sqrt[3]{2}.$ $D = \{(x, y) | x > 0, y > 0\}$ $D$ $(\sqrt[3]{2}, \sqrt[3]{2})$ $x = \sqrt[3]{2}, y = \sqrt[3]{2}$ $A$ $\sqrt[3]{2}$ $\sqrt[3]{2}$ $\displaystyle\frac{2}{\sqrt[3]{2} \cdot \sqrt[3]{2}} = \sqrt[3]{2}$ m 时, 水箱所用的材料最省. 从这个例子还可看出, 在体积一定的长方体中, 以立方体的表面积为最小,

10.5.1.1 无约束极值的判别法

$f'(x)=0$ $f''(x)$ 的符号可以判断该点是极大值还是极小值。对于多元函数，我们同样通过令所有一阶偏导数为零来寻找临界点（驻点）。但是，多元函数的临界点除了极大值和极小值之外，还有可能是鞍点（Saddle Point，即在某些方向上是极大，在另一些方向上是极小）。如何准确对临界点进行分类呢？我们需要用到二阶导数判别法。

Important
二元函数的极值充分条件

$z = f(x,y)$ $(x_0, y_0)$ $f_x(x_0,y_0)=0, f_y(x_0,y_0)=0$ 。

我们计算该点处的三个二阶偏导数值，并记为：

$A = f_{xx}(x_0,y_0)$
$B = f_{xy}(x_0,y_0)$
$C = f_{yy}(x_0,y_0)$

$\Delta = AC - B^2$ $(x_0, y_0)$ 处是否取得极值的判断准则如下：

$\Delta = AC - B^2 > 0$ 时，具有极值。具体而言：
- 如果 $A > 0$ ，则该点为 极小值点（Local Minimum）；
- 如果 $A < 0$ ，则该点为 极大值点（Local Maximum）。
$\Delta = AC - B^2 < 0$ 时，没有极值。该点是一个鞍点（Saddle Point）。
$\Delta = AC - B^2 = 0$ 时，无法判断（退化情形）。该点可能有极值，也可能没有极值，需要借助其他方法或更高阶的导数来另作讨论。

10.5.2 条件极值

Important
条件极值 $f(x, y, \dots)$ $g(x, y, \dots) = 0$ 的前提下取得的极大值或极小值. 拉格朗日乘数法 (Lagrange Multipliers)带有约束条件的极值问题 $f(x, y)$ $g(x, y) = 0$ 下的极值, 方法

构造拉格朗日函数

L (x, y, λ) = f (x, y) + λ g (x, y)

求偏导并列方程组

\frac{\partial L}{\partial x} = 0, \frac{\partial L}{\partial y} = 0, \frac{\partial L}{\partial λ} = 0

解这个方程组,得到可疑点（驻点）；
$f(x, y)$ ,比较函数值,判断极值.

Tip
WHY：为什么拉格朗日乘数法有效？

$f(x,y)$ $g(x,y) = c$ 上。

等高线与相切 $g(x,y) = c$ $f(x,y)$ 等高线 (Level curves) $f$ $f$ 的等高线刚好触碰（相切）到约束曲线的那一瞬间，我们就找到了这条线上的最小值或最大值！
梯度的平行函数的梯度向量（Gradient）总是垂直于它的等高线 $f$ $\nabla f$ $g$ $\nabla g$ 平行！
方程的诞生 $\lambda$ （拉格朗日乘子）来表示两个向量的平行关系：

\nabla f = λ \nabla g

$f_x = \lambda g_x$ $f_y = \lambda g_y$ $L_x = 0$ $L_y = 0$ 移项后所表达的核心本质！

拉格朗日乘数法几何直观 $f$ $\nabla f$ $\nabla g$ 必然平行。)

Warning

拉格朗日乘数法只会给你提供临界点（候选点）并不会 $f(x,y)$ 中，通过比较数值的大小，或者结合实际几何背景，来最终敲定谁是极小值，谁是极大值。

Note
经典例题

例:求函数

u = x y z

在附加条件

\frac{1}{x} + \frac{1}{y} + \frac{1}{z} = \frac{1}{a} (x, y, z, a > 0)

下的极值.

解: 构造拉格朗日函数：

L (x, y, z) = x y z + λ (\frac{1}{x} + \frac{1}{y} + \frac{1}{z} - \frac{1}{a})

求偏导并令其为零：

{\begin{cases} L_{x} = y z - \frac{λ}{x^{2}} = 0 \\ L_{y} = x z - \frac{λ}{y^{2}} = 0 \\ L_{z} = x y - \frac{λ}{z^{2}} = 0 \end{cases}

$x, y, z$ 后相加，代入原条件得：

\begin{aligned} 3 x y z & = λ (\frac{1}{x} + \frac{1}{y} + \frac{1}{z}) \\ ⟹ 3 x y z = \frac{λ}{a} \end{aligned}

即：

x y z = \frac{λ}{3 a}

$\lambda = 3axyz$ $x,y,z>0$ $xyz$ 不为零），解得唯一驻点：

x = y = z = 3 a

结论
$(3a,3a,3a)$ 处取得极小值：

u_{极小} = (3 a) (3 a) (3 a) = 27 a^{3}

10.5.3 人工智能中的优化问题

Tip

引例：如何让机器学会画一条“完美”的曲线？

$y = \sin(2\pi x)$ ），但我们在实验室里用仪器测出来的数据往往是不精确的。

$N$ $(x_1, t_1), (x_2, t_2), \dots, (x_N, t_N)$ $\sin(2\pi x)$ 曲线上下随机波动。

不知道真实规律是正弦函数 $N$ 个带噪声的散点，去“猜”并画出一条能够最好地穿过这些点的曲线。

最自然的想法是，我们用一个 $M$ 阶多项式 去拟合它：

y (x, w) = w_{0} + w_{1} x + w_{2} x^{2} + \dots + w_{M} x^{M} = \sum_{j = 0}^{M} w_{j} x^{j}

$x$ $w_0, w_1, \dots, w_M$ 是多项式的系数（在人工智能中通常称为权重参数）。

问题来了 $\mathbf{w}$ ，才能让这条多项式曲线“最完美”地贴合数据呢？这就需要引入一种衡量误差的数学标准，也就是接下来要讲的最小二乘法。

10.5.3.1 数据拟合与最小二乘法

Important

最小二乘法的核心思想 (Least Squares)

在工程与科学计算中，当我们面对一组实验数据时，我们要找的并不是能完美穿过每一个点的曲线（那往往会导致严重的“过拟合”），而是寻找一条使得整体误差最小的曲线。

$t_i$ $y(x_i, \mathbf{w})$ 之间的偏差（Deviation），并将这些偏差的平方和作为总误差：

E (w) = \frac{1}{2} \sum_{i = 1}^{N} {(y (x_{i}, w) - t_{i})}^{2}

$\frac{1}{2}$ $2$ 抵消，方便计算，不影响极值点的位置。）

最小二乘法 (Method of Least Squares) $E(\mathbf{w})$ 极小值 $\mathbf{w}^*$ ，我们就找到了“最佳拟合”曲线！

Note

从多元微积分看最小二乘法的求解

结合我们在前几节学过的多元函数极值知识，最小二乘法本质上就是一个无约束的多元函数求极小值问题！

$f(x) = ax + b$ $D$ $a$ $b$ 的二元函数：

D (a, b) = \sum_{i = 1}^{N} {(y_{i} - (a x_{i} + b))}^{2}

$a$ $b$ 的偏导数分别等于 0 即可找到临界点（驻点）：

\frac{\partial D}{\partial a} = - 2 \sum_{i = 1}^{N} x_{i} (y_{i} - a x_{i} - b) = 0

\frac{\partial D}{\partial b} = - 2 \sum_{i = 1}^{N} (y_{i} - a x_{i} - b) = 0

$a$ $b$ 的二元一次线性方程组：

{\begin{cases} (\sum x_{i}^{2}) a + (\sum x_{i}) b = \sum x_{i} y_{i} \\ (\sum x_{i}) a + n b = \sum y_{i} \end{cases}

$\sum x_i$ $\sum y_i$ $\sum x_i^2$ $a$ $b$ $M$ 阶多项式，原理也是完全相同的（偏导数等于0，解线性方程组）。这正是最小二乘法如此被广泛使用且高效的数学底层逻辑。

10.5.3.2 正则化与带约束极值问题

[!extension]
带约束极值问题与人工智能中的正则化 (Regularization)
在人工智能和机器学习中，我们经常面临一个核心痛点：过拟合 (Overfitting)。如果仅仅为了让模型在训练数据上误差（Loss）最小，模型往往会变得异常复杂，甚至把数据里的“随机噪声”也死记硬背下来，导致在面对新数据时表现极差。
$w_1, w_2, \dots$ ）不能太大。这样一来，一个纯粹的无约束极小化问题，就顺理成章地变成了一个带约束的极值问题！
1. 从约束极值到拉格朗日函数 $f(w_1, w_2)$ $g(w_1, w_2) = w_1^2 + w_2^2 \le C$ （这在几何上被限制在一个圆盘内）。根据本节学过的拉格朗日乘数法，为了求解这个处于边界上的约束极值问题，我们需要构造拉格朗日函数：
$L (w_{1}, w_{2}, λ) = f (w_{1}, w_{2}) + λ (w_{1}^{2} + w_{2}^{2} - C)$
2. 机器学习中的 L2 正则化 (权重衰减) $w$ $C$ 并不会产生影响。因此，在实际的深度学习代码（如 PyTorch 或 TensorFlow）中，优化目标常常被直接写为以下形式：
${Loss}_{total} = \underset{原目标函数 f}{\underset{⏟}{{Loss}_{data} (w)}} + \underset{拉格朗日约束项 λ g}{\underset{⏟}{λ (w_{1}^{2} + w_{2}^{2})}}$
这就是机器学习中赫赫有名的 L2 正则化 (L2 Regularization)，在神经网络中也常被称为权重衰减 (Weight Decay) $\lambda$ 正是我们刚才在微积分中引入的拉格朗日乘子惩罚系数 $\lambda$ 越大，表示我们对模型复杂度的惩罚越重，强迫权重向零收缩。
3. 几何直观的重现 $f(w)$ $w_1^2 + w_2^2 \le C$ ）。损失函数的等高线一圈圈向外膨胀，直到与这个圆刚好相切的那一点，就是正则化后的最优权重。此时，损失函数的梯度与惩罚项的梯度再次满足了平行的拉格朗日核心条件！

10.6 多元函数的泰勒展开

Tip

在一元微积分中，泰勒展开（Taylor Expansion）为我们提供了一种用多项式来局部逼近复杂函数的强大工具。在多元微积分中，这一思想同样适用。特别是当我们想要了解一个多元函数（例如三维空间中的曲面）在某一点附近的弯曲形状时，多元函数的泰勒展开是不可或缺的。更重要的是，在人工智能中，寻找损失函数的极小值往往依赖于多元泰勒展开提供的局部几何信息。

10.6.1 多元函数的泰勒展开公式

Important

二元函数的泰勒公式

$z = f(x, y)$ $(x_0, y_0)$ $(n+1)$ $h = x - x_0$ $k = y - y_0$ 。则函数在该点附近的二阶泰勒展开式为：

\begin{aligned} f (x, y) \approx f (x_{0}, y_{0}) & + \underset{一阶项 (线性逼近)}{\underset{⏟}{(h \frac{\partial f}{\partial x} + k \frac{\partial f}{\partial y})}} \\ + \underset{二阶项 (二次逼近)}{\underset{⏟}{\frac{1}{2!} (h^{2} \frac{\partial^{2} f}{\partial x^{2}} + 2 h k \frac{\partial^{2} f}{\partial x \partial y} + k^{2} \frac{\partial^{2} f}{\partial y^{2}})}} \end{aligned}

如果回顾前面的知识，你会发现： $df$ （几何上对应切平面），而二阶项则描述了曲面偏离切平面的弯曲程度。

Warning

向量与矩阵形式 (极其重要！)

$\mathbf{x}$ ，并将泰勒展开改写为极其优雅的矩阵形式 $\mathbf{x} = (x, y)^T$ $\Delta \mathbf{x} = \mathbf{x} - \mathbf{x}_0 = (h, k)^T$ 。

一阶导数向量被称为梯度 (Gradient)：

\nabla f = {(\frac{\partial f}{\partial x}, \frac{\partial f}{\partial y})}^{T}

二阶导数矩阵被称为海森矩阵 (Hessian Matrix)：

\begin{matrix} H = (\begin{matrix} f_{x x} & f_{x y} \\ f_{y x} & f_{y y} \end{matrix}) \end{matrix}

于是，多元函数的二阶泰勒展开可以紧凑地写为：

f (x) \approx f (x_{0}) + \nabla f (x_{0})^{T} Δ x + \frac{1}{2} Δ x^{T} H Δ x

这正是现代优化算法（如牛顿法）推导的起点！

10.6.2 多元函数泰勒展开的应用

Tip

泰勒展开之所以重要，是因为它能把复杂的非线性函数在局部"降维打击"成简单的多项式。以下是它在数学理论与人工智能中的两个核心应用。

Note

应用一：证明极值的充分条件 (第二阶导数测试)

$f_x=0, f_y=0$ $AC - B^2 > 0$ $A > 0$ ，则有极小值。这个结论是怎么来的？

MIT 18.02 课程视角： $(x_0, y_0)$ $\Delta f = f(x, y) - f(x_0, y_0)$ 完全由二阶项主导：

Δ f \approx \frac{1}{2} (f_{x x} h^{2} + 2 f_{x y} h k + f_{y y} k^{2}) = \frac{1}{2} (A h^{2} + 2 B h k + C k^{2})

$h$ $k$ 的二次型。通过初等代数的配方，我们可以将其改写为：

Δ f \approx \frac{1}{2 A} [(A h + B k)^{2} + (A C - B^{2}) k^{2}]

$AC - B^2 > 0$ $A > 0$ $h, k$ $\Delta f > 0$ 恒成立。因此函数值在这一点比周围都小，这正是一个局部极小值！

Caution

应用二：神经网络训练中的局部二次近似 (Bishop 教材经典内容)

$\mathbf{w}$ $E(\mathbf{w})$ 达到极小值。

$\mathbf{w}^{(\tau+1)} = \mathbf{w}^{(\tau)} + \Delta \mathbf{w}$ 。

为了决定往哪个方向走最好，我们会利用泰勒展开对误差函数进行局部二次近似 (Local quadratic approximation)：

E (w) ≃ E (\hat{w}) + (w - \hat{w})^{T} b + \frac{1}{2} (w - \hat{w})^{T} H (w - \hat{w})

$\mathbf{b}$ $\mathbf{H}$ 是海森矩阵。

如果我们只看一阶项（梯度），我们将得到梯度下降法 (Gradient Descent)，指导我们沿着最陡峭的下坡方向前进。
如果我们同时考虑二阶项（海森矩阵），我们将得到牛顿法 (Newton's Method)。海森矩阵包含了误差曲面的曲率信息（比如这是一个尖锐的峡谷还是一个平缓的盆地），它能告诉算法在不同方向上应该迈出多大的步子，从而极大地加速神经网络的收敛过程！

第10章 多元函数的微分

10.1 多元函数的连续性

10.1.1 区域

10.1.2 多元函数的极限

10.1.3 多元函数的连续性

10.2 偏导数

10.3 全微分

10.3.1 链式法则

10.3.2 全微分形式不变性

10.3.3 隐函数求导

10.4 梯度与方向导数

10.4.1 梯度

10.4.2 方向导数

10.5 多元函数的极值

10.5.1 无约束极值问题

10.5.1.1 无约束极值的判别法

10.5.2 条件极值

10.5.3 人工智能中的优化问题

10.5.3.1 数据拟合与最小二乘法

10.5.3.2 正则化与带约束极值问题

10.6 多元函数的泰勒展开

10.6.1 多元函数的泰勒展开公式

10.6.2 多元函数泰勒展开的应用

第10章多元函数的微分