第2章导数2.1 导数和导函数2.1.1 导数的定义2.1.2 导函数2.1.3 幂函数, 对数函数和指数函数的导数2.1.4 可导函数与连续函数2.1.5 单侧导数2.2 导数的计算2.2.1 初等函数求导公式2.2.2 导数的四则运算2.2.3 高阶导数2.3 利用导数来研究函数的性质2.3.1 单调性2.3.2 极值2.3.3 凸性2.4 导数在人工智能中的应用: 梯度下降法

第2章导数

Tip

实际问题中人们经常会考虑某个函数的极值, 函数的切线方向是分析函数极值的有力工具:

切线斜率为正时函数单调递增
切线斜率为负时函数单调递减
切线斜率为零时函数取到极值

那么怎么求函数在某处切线的斜率呢? 这个问题困扰了数学家好多年, 直到后来有人发现切线斜率可以看作是一个极限, 这个极限就叫做导数.

Tip

思维导图

导数是一种通过极限定义的运算, 由此可见极限的重要性, 在后面的章节中, 我们还将从极限出发引出积分的概念. 本课程各部分内容之间的关系如图.

微积分思维导图

2.1 导数和导函数

Tip

导数是函数某处的切线斜率, 是研究函数性质的重要工具.

问题 $\displaystyle f(x) = \sin(x) - \frac{2x}{\pi}$ $x \ (0 \le x \le \pi)$ 的值.

求解 $f(x)$ 的图像如图, 问题要求我们找到图像的最高点, 从图像上看函数的最高点处的切线是水平的(即斜率为0), 为了计算斜率我们可以对函数求导, 得到：

f^{'} (x) = \cos (x) - \frac{2}{π} .

$f'(x) = 0$ ，解得切线水平的地方位于：

x^{*} = \arccos (\frac{2}{π}),

$\displaystyle f(x)$ $x$ .

导数的作用

2.1.1 导数的定义

Important

导数的定义

导数是切线的斜率，而切线的斜率可以定义为割线在割距趋于 0 的斜率的极限。

$f(x)$ $x_0$ $(x_0, f(x_0))$ $(x_0 + \Delta x, f(x_0 + \Delta x))$ 的割线斜率为

\frac{f (x_{0} + Δ x) - f (x_{0})}{Δ x}

$\Delta x \to 0$ 时，这个割线斜率的极限（若存在）就是切线的斜率，也即导数：

f^{'} (x_{0}) = lim_{Δ x \to 0} \frac{f (x_{0} + Δ x) - f (x_{0})}{Δ x} = lim_{Δ x \to 0} \frac{Δ y}{Δ x}

这样，切线的斜率和导数都通过极限的方式被严格定义。

[!extension]
切线的数学定义
早期，古希腊数学家如欧几里得和阿波罗尼斯主要用几何方法描述切线，把切线看作“只与曲线在一点相交且不过该点的直线”。但这种定义对复杂曲线（如圆外的曲线）不适用。
直到17世纪，笛卡尔和费马等人提出了代数方法，尝试用斜率和代数方程描述切线。牛顿和莱布尼茨发明微积分后，才用“割线的极限”来严格定义切线斜率，也就是现代导数的定义。
所以，现代切线的定义必须依靠极限，因为只有极限才能精确描述“割线趋近于切线”的过程，从而适用于所有光滑曲线。没有极限，切线的定义就不够一般和严密。

Note

由定义计算导数

$f(x) = c$ $x_0=1$ 处的导数.

解: 根据导数的定义:

\begin{aligned} f^{'} (1) & = lim_{Δ x \to 0} \frac{f (1 + Δ x) - f (1)}{Δ x} \\ = lim_{Δ x \to 0} \frac{C - C}{Δ x} = 0. \end{aligned}

Note

$f(x) = x^2$ $x_0=2$ 处的导数.

解：根据导数的定义：

\begin{aligned} f^{'} (2) & = lim_{Δ x \to 0} \frac{(2 + Δ x)^{2} - 2^{2}}{Δ x} \\ = lim_{Δ x \to 0} \frac{4 + 4 Δ x + (Δ x)^{2} - 4}{Δ x} \\ = lim_{Δ x \to 0} (4 + Δ x) = 4. \end{aligned}

2.1.2 导函数

Important

$f(x)$ 导函数 $f'(x)$ $f(x)$ 衍生出来的, 正好和 Derivative (导数) 的意思一致.

Caution

Derivative(金融衍生品)

数学中的“导数”（Derivative）是由原函数“衍生”出来的新函数，反映原函数的变化率。

金融中的“衍生品”（Derivative）是指价值依赖于其他基础资产（如股票、债券等）的金融工具。期权（Option）是一种金融衍生品，允许持有者以指定价格来购买股票。

如果股票价格上涨（函数递增），看涨期权的价值增加（导数为正）。
如果股票价格下跌（函数递减），看涨期权的价值减少（导数为负）。

类比：

$f'(x)$ $f(x)$ $f(x)$ $f(x)$ “衍生”出来的。
金融期权：期权的价格依赖于股票价格，是由股票“衍生”出来的金融产品。

Note

$f(x) = x^2$ 的导函数.

解：

\begin{aligned} f^{'} (x) & = lim_{Δ x \to 0} \frac{(x + Δ x)^{2} - x^{2}}{Δ x} \\ = lim_{Δ x \to 0} \frac{2 x Δ x + Δ x^{2}}{Δ x} \\ = lim_{Δ x \to 0} 2 x + Δ x = x . \end{aligned}

函数与导函数

Note

$f(x) = \cos x$ 的导数.

解：

\begin{aligned} f^{'} (x) & = lim_{Δ x \to 0} \frac{\cos (x + Δ x) - \cos x}{Δ x} \\ = lim_{Δ x \to 0} \frac{- 2 \sin (x + \frac{Δ x}{2}) \sin (\frac{Δ x}{2})}{Δ x} \\ = - lim_{Δ x \to 0} \sin (x + \frac{Δ x}{2}) \cdot lim_{Δ x \to 0} \frac{\sin \frac{Δ x}{2}}{\frac{Δ x}{2}} \\ = \sin x . \end{aligned}

函数与导函数

2.1.3 幂函数, 对数函数和指数函数的导数

Note

幂函数的导数

$f(x) = x^m$ 的导数.

解 $m = 1$ 时：

f^{'} (x) = lim_{Δ x \to 0} \frac{(x + Δ x) - x}{Δ x} = lim_{Δ x \to 0} \frac{Δ x}{Δ x} = 1

$m > 1$ 时：

\begin{aligned} f^{'} (x) & = lim_{Δ x \to 0} \frac{(x + Δ x)^{m} - x^{m}}{Δ x} \\ = lim_{Δ x \to 0} [\frac{x^{m} + m x^{m - 1} Δ x + \frac{m (m - 1)}{2} x^{m - 2} (Δ x)^{2} + \dots + (Δ x)^{m} - x^{m}}{Δ x}] \\ = lim_{Δ x \to 0} [m x^{m - 1} + \frac{m (m - 1)}{2} x^{m - 2} Δ x + \dots + (Δ x)^{m - 1}] \\ = m x^{m - 1} \end{aligned}

$x^0 = 1$ , 上面两种情况可以统一为

(x^{m})^{'} = m x^{m - 1}, m = 1, 2, \dots

$m \in \mathbb{R}$ 都成立, 即

(x^{m})^{'} = m x^{m - 1}, m \in R .

Note

先导结论

在计算指数函数和对数函数的导数时我们需要用到下面的结论. 我们可以把他们当作求极限的练习题.

$\displaystyle \lim_{x \to 0} \frac{\ln(1+ x)}{x} = 1$

证明: 利用重要极限的结论,

\begin{aligned} lim_{x \to 0} \frac{\ln (1 + x)}{x} & = lim_{x \to 0} \ln {(1 + x)}^{\frac{1}{x}} \\ = \ln e = 1 \end{aligned}

$\displaystyle \lim_{x \to 0} \frac{\log_a(1+ x)}{x} = \frac{1}{\ln a}$

证明: 利用对数换底公式,

\begin{aligned} lim_{x \to 0} \frac{\log_{a} (1 + x)}{x} & = lim_{x \to 0} \frac{\frac{\ln (1 + x)}{\ln a}}{x} \\ = \frac{1}{\ln a} lim_{x \to 0} \frac{\ln (1 + x)}{x} \\ = \frac{1}{\ln a} \end{aligned}

Important

对数函数的导数

$f(x) = \log_u x$ $u$ 是大于 0 且不等于 1 的常数.

解：

f^{'} (x) = lim_{Δ x \to 0} \frac{\log_{u} (x + Δ x) - \log_{u} x}{Δ x}

$\displaystyle \log_u a = \frac{\ln a}{\ln u}$ ,

\begin{aligned} f^{'} (x) & = lim_{Δ x \to 0} \frac{\frac{\ln (x + Δ x)}{\ln u} - \frac{\ln x}{\ln u}}{Δ x} \\ = \frac{1}{\ln u} \cdot lim_{Δ x \to 0} \frac{\ln (x + Δ x) - \ln x}{Δ x} \\ = \frac{1}{\ln u} \cdot lim_{Δ x \to 0} \frac{\ln (1 + \frac{Δ x}{x})}{Δ x} \\ = \frac{1}{x \ln u} \cdot lim_{Δ x \to 0} \frac{\ln (1 + \frac{Δ x}{x})}{\frac{Δ x}{x}} \end{aligned}

$\displaystyle h = \frac{\Delta x}{x}$ $\Delta x \to 0$ $h \to 0$ ，则：

f^{'} (x) = \frac{1}{x \ln u} \cdot lim_{h \to 0} \frac{\ln (1 + h)}{h} = \frac{1}{x \ln u}

注: 最后一步用到了上面的先导结论.

由此我们得到对数函数的导数为:

(\log_{u} x)^{'} = \frac{1}{x \ln u}

Warning

$u=e$ $\log_u x = \ln x$ , 此时

(\ln x)^{'} = \frac{1}{x}

Important

指数函数的导数

$f(x) = q^x$ $q$ 是大于 0 且不等于 1 的常数.

解：

\begin{aligned} f^{'} (x) & = lim_{Δ x \to 0} \frac{q^{x + Δ x} - q^{x}}{Δ x} \\ = lim_{Δ x \to 0} \frac{q^{x} \cdot q^{Δ x} - q^{x}}{Δ x} \\ = q^{x} \cdot lim_{Δ x \to 0} \frac{q^{Δ x} - 1}{Δ x} \end{aligned}

$\displaystyle \Delta x\to 0$ $\displaystyle q^{\Delta x} \to 1$

$\displaystyle q^{\Delta x} -1 \to 0$ $\displaystyle q^{\Delta x} -1$ $h$ $\displaystyle \Delta x\to 0$ $h \to 0$ .

于是根据极限运算的换元法

lim_{Δ x \to 0} \frac{q^{Δ x} - 1}{Δ x} = lim_{h \to 0} \frac{h}{\log_{q} (1 + h)} = \ln q

上式中的最后一个等式用到了前面的先导结论.

因此，

(q^{x})^{'} = q^{x} \ln q

这就是指数函数的导数公式。

Warning

$q = e$ 时，有

(e^{x})^{'} = e^{x}

$e$ 它自己 $e$ 在数学上的特殊性.

2.1.4 可导函数与连续函数

Caution

连续与可导的关系

处处可导的函数称为可导函数, 处处连续的函数称为连续函数. 函数在一点可导则在该点也必连续, 但函数在一点连续并不保证在该点可导.

Note

连续但不可导的反例1

$f(x) = |x|$ 在 0 点连续但不可导.

$x = 0$ $x=0$ 处,

lim_{Δ x \to 0} \frac{f (0 + Δ x) - f (0)}{Δ x} = lim_{Δ x \to 0} \frac{| Δ x |}{Δ x}

$\Delta x < 0$ $\displaystyle \frac{|\Delta x|}{\Delta x} = -1$ ;

$\Delta x > 0$ $\displaystyle \frac{|\Delta x|}{\Delta x} = 1$ ,

$f(x) = |x|$ $x=0$ 处不可导.

连续但不可导示例

连续但不可导的反例2
$\displaystyle f(x) = x^{\frac{1}{3}}$ 在 0 点处连续但不可导.
$x = 0$ $x=0$ 处的导数.
方法一: 根据定义计算
$\frac{f (0 + Δ x) - f (0)}{Δ x} = \frac{(0 + Δ x)^{\frac{1}{3}} - 0^{\frac{1}{3}}}{Δ x} = (Δ x)^{- \frac{2}{3}} .$
$\Delta x \to 0$ $x = 0$ 处不可导.
方法二: 对导函数取极限
根据幂函数的求导公式可以得到
$f^{'} (x) = \frac{1}{3} x^{- \frac{2}{3}}, x \neq 0.$
$x \to 0$ $f'(x)$ $f'(0)$ 可能不存在. 需要特别指出, 上述对导数取极限的做法主要提供一个感性认识(直觉), 要严格证明导数在 0 点不存在还是需要根据定义计算.
注意:
$\Delta x$ $x$ $-\frac{2}{3}$ ), 但两者的意义是不一样的, 请注意体会.

2.1.5 单侧导数

Important

单侧导数

$f(x) = |x|$ 在 0 点左右两侧的切线斜率都存在, 为了更加细致的分析函数的行为, 我们可以引入单侧导数的概念.

$f(x)$ $x_0$ 处的左导数

f_{-}^{'} (x_{0}) = lim_{Δ x \to 0^{-}} \frac{f (x_{0} + Δ x) - f (x_{0})}{Δ x},

和右导数

f_{+}^{'} (x_{0}) = lim_{Δ x \to 0^{+}} \frac{f (x_{0} + Δ x) - f (x_{0})}{Δ x} .

$f(x)$ $x_0$ 处可导的条件是左导数和右导数都存在且相等.

$x_0 = 0$ 点处而言, 其单侧导数都存在, 但是不相等, 因此在该点并不可导.

2.2 导数的计算

Tip

求给定函数的导数的操作称为求导运算。本节将介绍常见函数的求导公式与导数的四则运算法则。熟练运用这些法则，将能显著简化求导过程，提高运算效率。

2.2.1 初等函数求导公式

Important

常见初等函数的求导公式

幂函数

$f(x) = x^n$ $\displaystyle f'(x) = n \cdot x^{n-1}$

指数函数

$f(x) = e^x$ $\displaystyle f'(x) = e^x$
$f(x) = a^x$ $\displaystyle f'(x) = a^x \ln(a)$

对数函数

$f(x) = \ln(x)$ $\displaystyle f'(x) = \frac{1}{x}$
$f(x) = \log_a(x)$ $\displaystyle f'(x) = \frac{1}{x \ln(a)}$

三角函数

$f(x) = \sin(x)$ $\displaystyle f'(x) = \cos(x)$
$f(x) = \cos(x)$ $\displaystyle f'(x) = -\sin(x)$

反三角函数 (不要求)

$f(x) = \arcsin(x)$ $\displaystyle f'(x) = \frac{1}{\sqrt{1 - x^2}}$
$f(x) = \arccos(x)$ $\displaystyle f'(x) = \frac{-1}{\sqrt{1 - x^2}}$
$f(x) = \arctan(x)$ $\displaystyle f'(x) = \frac{1}{1 + x^2}$

2.2.2 导数的四则运算

Tip

下面的导数四则法则都可以根据导数的定义加以证明.

Important

导数的四则运算法则

加法 $f(x)$ $g(x)$ $x$ 处可导，则：

[f (x) + g (x)]^{'} = f^{'} (x) + g^{'} (x)

证明: 根据导数的定义：

\begin{aligned} [f (x) + g (x)]^{'} & = lim_{h \to 0} \frac{[f (x + h) + g (x + h)] - [f (x) + g (x)]}{h} \\ = lim_{h \to 0} [\frac{f (x + h) - f (x)}{h} + \frac{g (x + h) - g (x)}{h}] \\ = lim_{h \to 0} \frac{f (x + h) - f (x)}{h} + lim_{h \to 0} \frac{g (x + h) - g (x)}{h} \\ = f^{'} (x) + g^{'} (x) \end{aligned}

减法 $f(x)$ $g(x)$ $x$ 处可导，则：

[f (x) - g (x)]^{'} = f^{'} (x) - g^{'} (x)

该性质的证明跟导数的加法运算完全类似.

乘法 $f(x)$ $g(x)$ $x$ 处可导，则：

[f (x) \cdot g (x)]^{'} = f^{'} (x) g (x) + f (x) g^{'} (x)

证明： 根据导数的定义：

\begin{aligned} [f (x) g (x)]^{'} & = lim_{h \to 0} \frac{f (x + h) g (x + h) - f (x) g (x)}{h} \\ = lim_{h \to 0} \frac{f (x + h) g (x + h) - f (x + h) g (x) + f (x + h) g (x) - f (x) g (x)}{h} \\ = lim_{h \to 0} (f (x + h) \frac{g (x + h) - g (x)}{h} + g (x) \frac{f (x + h) - f (x)}{h}) \\ = lim_{h \to 0} f (x + h) \cdot lim_{h \to 0} \frac{g (x + h) - g (x)}{h} + g (x) \cdot lim_{h \to 0} \frac{f (x + h) - f (x)}{h} \\ = f (x) g^{'} (x) + g (x) f^{'} (x) \end{aligned}

除法 $f(x)$ $g(x)$ $x$ $g(x) \ne 0$ ，则：

{[\frac{f (x)}{g (x)}]}^{'} = \frac{f^{'} (x) g (x) - f (x) g^{'} (x)}{[g (x)]^{2}}

证明 $\dfrac{f(x)}{g(x)}$ $f(x)$ $\dfrac{1}{g(x)}$ $\dfrac{1}{g(x)}$ $\dfrac{1}{x}$ $g(x)$ 的复合. 于是我们可以联合复合函数求导和上面的乘法求导法则来推导上述除法求导公式.

\begin{aligned} {[\frac{f (x)}{g (x)}]}^{'} & = f^{'} (x) [\frac{1}{g (x)}] + f (x) {[\frac{1}{g (x)}]}^{'} \\ = \frac{f^{'} (x)}{g (x)} - f (x) \cdot \frac{g^{'} (x)}{[g (x)]^{2}} \\ = \frac{f^{'} (x) g (x) - f (x) g^{'} (x)}{[g (x)]^{2}} \end{aligned}

Note

$y = 3x^3 - 4x^2 + 5x - 9$ 的导数.

解：

\begin{aligned} y^{'} & = (3 x^{3})^{'} - (4 x^{2})^{'} + (5 x)^{'} - (9)^{'} \\ = 3 \cdot 3 x^{3 - 1} - 4 \cdot 2 x^{2 - 1} + 5 \cdot 1 x^{1 - 1} - 0 \\ = 9 x^{2} - 8 x + 5 \end{aligned}

Note

$y = 2e^{x}(\sin x + 2\cos x)$ 的导数.

解：

\begin{aligned} y^{'} & = (2 e^{x})^{'} (\sin x + 2 \cos x) + 2 e^{x} (\sin x + 2 \cos x)^{'} \\ = 2 e^{x} (\sin x + 2 \cos x) + 2 e^{x} (\cos x - 2 \sin x) \\ = 2 e^{x} \sin x + 4 e^{x} \cos x + 2 e^{x} \cos x - 4 e^{x} \sin x \\ = 6 e^{x} \cos x - 2 e^{x} \sin x \\ = 2 e^{x} (3 \cos x - \sin x) \end{aligned}

Note

$f(x) = x^3 + 3\sin x + \dfrac{5}{2}$ $f'(x)$ $f'\left(\dfrac{\pi}{4}\right)$

解：

\begin{aligned} f^{'} (x) & = (x^{3})^{'} + (3 \sin x)^{'} + {(\frac{5}{2})}^{'} \\ = 3 x^{2} + 3 \cos x \\ f^{'} (\frac{π}{4}) & = \frac{3 π^{2}}{16} + \frac{3 \sqrt{2}}{2} \end{aligned}

Note

$y = \tan x$ 的导数.

解：

\begin{aligned} y^{'} & = {(\frac{\sin x}{\cos x})}^{'} \\ = \frac{(\sin x)^{'} \cos x - \sin x (\cos x)^{'}}{\cos^{2} x} \\ = \frac{\cos^{2} x + \sin^{2} x}{\cos^{2} x} = \frac{1}{\cos^{2} x} \end{aligned}

2.2.3 高阶导数

Tip

导函数也是函数, 所以可以继续对导函数求导, 也就是二阶导数. 二阶导数反应了导函数的变化率. 依次可以继续到三阶导数, 四阶导数, ...

Important

二阶导数

$f''(x) = (f'(x))'$

高阶导数

$f'(x)$ $f''(x)$ $f'''(x)$ $f^{(n)}(x)$ $\cdots$ .

Note

$y = ax^2 + bx + c$ $y''$

解：

一阶导数:

y^{'} = 2 a x + b

二阶导数:

y^{″} = 2 a

Note

$y = x^{a}$ $a$ $n$ 阶导数

解:

\begin{aligned} y^{'} & = a x^{a - 1} \\ y^{″} & = a (a - 1) x^{a - 2} \\ y^{‴} & = a (a - 1) (a - 2) x^{a - 3} \end{aligned}

一般的,

y^{(n)} = a (a - 1) (a - 2) \dots (a - n + 1) x^{a - n}

$a = n$ 为整数时,

\begin{matrix} (x^{n})^{(m)} = {\begin{cases} C_{n}^{m} x^{n - m}, & m \leq n, \\ 0, & m > n . \end{cases} \end{matrix}

Warning

导数与物体运动

$s(t)$ $v(t)$ $s(t)$ 的导数.

我们来看两个例子.

自由落体运动

自由落体

从静止开始的自由落体物体, 其位移随时间的函数为

s (t) = \frac{1}{2} g t^{2} .

$s(t)$ 的导数, 即

v (t) = s^{'} (t) = g t .

$v(t)$ $s(t)$ 的二阶导数,

a (t) = v^{'} (t) = s^{″} (t) = g .

$g$ 的匀加速直线运动牛顿第二定律 $F = mg = ma$ 是吻合的.

自由落体

简谐振动

简谐振动

连结弹簧的小球在光滑水平面上围绕平衡位置做震荡运动, 其位移随时间的函数为

x (t) = A \sin (ω t) .

$x(t)$ 的导数, 即

v (t) = x^{'} (t) = A ω \cos (ω t) .

$v(t)$ $x(t)$ 的二阶导数,

a (t) = v^{'} (t) = x^{″} (t) = - A ω^{2} \sin (ω t) .

$A = 2$ $\omega = \dfrac{2\pi}{3}$ , 小球的位移, 速度和加速度如下图.

自由落体

注意, 加速度和位移满足关系

a (t) = - k x (t)

$k = \omega^2$ . 而另一方面, 由胡克定律和牛顿第二定律, 我们可以得到小球的运动方程为

F = m a (t) = - k x (t)

$m$ 的意义下).

2.3 利用导数来研究函数的性质

Tip

导数是用来研究函数性质的直观工具.

2.3.1 单调性

Important

$>0$ , 单调递增;
$<0$ , 单调递减;
$=0$ , 无法判断.

Note

$y = x + \cos x$ $[0, 2\pi]$ 上的单调性

解 $[0, 2\pi]$ $(0, 2\pi)$ 内可导. 求导得

y^{'} = 1 - \sin x \geq 0.

$y = x + \cos x$ $[0, 2\pi]$ 上单调递增

Note

$\displaystyle y = e^x - x + 3$ 的单调性

解：对函数求导得

y^{'} = e^{x} - 1.

$x < 0$ $y' < 0$ $(-\infty, 0]$ $x \ge 0$ $y' \ge 0$ $[0, +\infty)$ 上单调递增.

2.3.2 极值

Important

$0$ 的点也称为驻点或临界点, 在临界点处:

$>0 \Rightarrow$ 极小
$<0 \Rightarrow$ 极大
$=0 \Rightarrow$ 无法判断.

Note

$f(x) = x^4 - 4x^2$ 的极值

解：令一阶导数等于0, 得到方程

f^{'} (x) = 4 x^{3} - 8 x = 4 x (x^{2} - 2) = 0

其根(临界点)为

x_{1} = 0, x_{2} = \sqrt{2}, x_{3} = - \sqrt{2}

$f(x)$ 的二阶导数为

f^{″} (x) = (4 x^{3} - 8 x)^{'} = 12 x^{2} - 8

下面计算临界点处的二阶导数值:

$x_1: \quad f''(x_1) = -8 < 0$ $f(x_1) = 0$ .
$x_2: \quad f''(x_2) = 16 > 0$ $f(x_2) = -4$ .
$x_3: \quad f''(x_3) = 16 > 0$ $f(x_3) = -4$ .

[!important]
闭区间上连续函数最值的求解步骤
$f(x)$ $[a, b]$ 上连续，则其最大值和最小值可按以下步骤求解：
确定临界点：
$f(x)$ $(a, b)$ 驻点 $f'(x) = 0$ 的解);
$f(x)$ 的 不可导点 (如间断点、无穷大点等).
计算候选值：
$f(x_i)$ ；
$f(a)$ $f(b)$ .
比较结果：选出最大值和最小值

Warning

光路最短原理与微积分应用

例1：饮马路径问题（均匀速度）

问题 $A$ $B$ $A$ $B$ 在河的同侧, 求耗时最短的路径.

建立坐标系：

$x$ 轴.
$A$ $(0, h_1)$ $B$ $(l, h_2)$ $h_1 > 0, h_2 > 0$ .
$P(x, 0)$ $x \in [0, l]$ .

问题1

解法一

$S(x)$ 为：

S (x) = \sqrt{h_{1}^{2} + x^{2}} + \sqrt{h_{2}^{2} + (l - x)^{2}}

$S(x)$ 求导：

S^{'} (x) = \frac{x}{\sqrt{h_{1}^{2} + x^{2}}} - \frac{l - x}{\sqrt{h_{2}^{2} + (l - x)^{2}}}

$S'(x) = 0$ , 得：

\frac{x}{\sqrt{h_{1}^{2} + x^{2}}} = \frac{l - x}{\sqrt{h_{2}^{2} + (l - x)^{2}}}

不难解出

x = \frac{l h_{1}}{h_{1} + h_{2}} .

解法二

$B$ $x$ $B'$ $(l, -h_2)$ .
$A(0, h_1)$ $B'(l, -h_2)$ $x$ $P$ $x = \dfrac{l h_1}{h_1 + h_2}.$

这个方法利用了镜面反射原理, 基于直线最短得到了快速直观的解法.

镜面反射原理

例2：饮马路径问题 (不同速度)

问题 $A$ $B$ $A$ $B$ $v_1$ $v_2 < v_1$ , 求耗时最短的路径.

注意: 对这个题目而言, 镜面反射原理就不适用了, 但微积分方法仍然适用.

解：总时间等于：

T (x) = \frac{\sqrt{h_{1}^{2} + x^{2}}}{v_{1}} + \frac{\sqrt{h_{2}^{2} + > (l - x)^{2}}}{v_{2}}

$T(x)$ 求导得：

\begin{aligned} T^{'} (x) & = \frac{1}{v_{1}} \cdot \frac{x}{\sqrt{h_{1}^{2} + x^{2}}} - > \frac{1}{v_{2}} \cdot \frac{l - x}{\sqrt{h_{2}^{2} + (l - x)^{2}}} \end{aligned}

$T'(x) = 0$ , 得：

\begin{array}{r} (1) & \frac{1}{v_{1}} \cdot \frac{x}{\sqrt{h_{1}^{2} + x^{2}}} = \frac{1}{>} v_{2} \cdot \frac{l - x}{\sqrt{h_{2}^{2} + (l - x)^{2}}} \end{array}

$\theta_1$ $\theta_2$ 这两个角度之间的关系. 从公式(1)我们得到

\begin{array}{r} (2) & \frac{\sin θ_{1}}{v_{1}} = \frac{\sin θ_{2}}{v_{2}} \end{array}

问题2

$A$ $B$ $v_1$ $v_2$ , 根据斯涅耳定律（Snell's Law）, 光线的入射角和出射角恰好满足公式(2)! 它精确地描述了光线在两种介质交界面上发生折射时的行为.

可见, 运用微积分中通过导数来求极值的方法, 我们实际上再次发现了光路最短原理（费马原理，Fermat's Principle）, 它是几何光学中最基本、最重要的原理之一, 它指出光在两点之间传播时, 所走的路径是光程最短的路径, 而非距离最短的路径. 这个例子很好地说明了如何利用微积分来证明光学中的基本定律, 体现了数学工具在物理学中的强大应用.

光路最短

2.3.3 凸性

Important

凸函数的定义

$f(x)$ 任意 $x_1, x_2$ ，都有

f (\frac{x_{1} + x_{2}}{2}) \leq \frac{f (x_{1}) + f (x_{2})}{2}

$f(x)$ 是凸函数。

$t \in [0,1]$ ，都有：

f (t x_{1} + (1 - t) x_{2}) \leq t f (x_{1}) + (1 - t) f (x_{2})

这称为Jensen不等式，是凸函数的等价定义。

凹函数 $f(x)$ $-f(x)$ 的凸性, 所以我们有凸性的定义就够用了.

注意：这里采用的是国际通用的凸函数定义（"凸"对应英文的"convex"），与某些国内教材的定义可能相反。

Warning

凸函数的几何意义

凸函数

弦在图像上方：凸函数图像上任意两点间的弦（连接这两点的线段）始终位于函数图像之上或与之重合。
切线在图像下方：对于可导的凸函数，其图像上任意一点的切线都位于函数图像之下。
局部极小即全局极小：凸函数的任何局部极小值点都是全局极小值点，这一性质在优化问题中极为重要。

Important

根据二阶导数判定函数的凸凹性

$f(x)$ ：

$I$ $f''(x) \geq 0$ $f(x)$ $I$ 上是凸函数
$I$ $f''(x) \leq 0$ $f(x)$ $I$ 上是凹函数
$I$ $f''(x) > 0$ $f(x)$ $I$ 上是严格凸函数
$I$ $f''(x) < 0$ $f(x)$ $I$ 上是严格凹函数

Warning

凸函数的性质

凸函数的局部极小值就是全局极小值.
严格凸函数若有极小值，则极小值点唯一.

凸函数的良好性质使其在优化理论中占据核心地位：

全局最优性：凸优化问题的任何局部最优解都是全局最优解.
高效算法：存在多种高效算法（如梯度下降法、内点法等）求解凸优化问题.

Note

$y = \sqrt{x} (x \ge 0)$ 的凹凸性

解：函数的一阶导数和二阶导数分别为

\begin{aligned} y^{'} & = \frac{1}{2 \sqrt{x}} \\ y^{″} & = - \frac{1}{4 x^{3 / 2}} \end{aligned}

$(0, +\infty)$ $y'' < 0$ $y = \sqrt{x}$ 为凹函数。

Note

$y = x^2$ 的凹凸性

解 $y'' = 2 > 0$ $y = x^2$ 为凸函数。

Note

$y = \ln(x) (x>0)$ 的凹凸性

解 $y'' = -\frac{1}{x^2} < 0$ $y = \ln(x)$ 为凹函数。

Warning

保凸运算

凸函数的非负加权和仍是凸函数

定理 $f_1(x), f_2(x), \ldots, f_n(x)$ $\alpha_1, \alpha_2, \ldots, \alpha_n \geq 0$ ，则函数

g (x) = α_{1} f_{1} (x) + α_{2} f_{2} (x) + \dots + α_{n} f_{n} (x)

也是凸函数。

几何解释：见下面的例子。

凸函数的逐点最大值仍是凸函数

定理 $f_1(x), f_2(x), \ldots, f_n(x)$ 都是凸函数，则函数

h (x) = max {f_{1} (x), f_{2} (x), \dots, f_{n} (x)}

也是凸函数。

几何解释：见下面的例子。

凸函数的仿射变换仍是凸函数

定理 $f(x)$ $a \neq 0$ $b$ ，函数

k (x) = f (a x + b)

也是凸函数。

几何解释 $ax + b$ 对应于坐标轴的缩放和平移，这些操作不会改变函数的凸性。

Note

考虑两个凸函数：

$f_1(x) = x^2$ $f_1''(x) = 2 > 0$ ）
$f_2(x) = e^x$ $f_2''(x) = e^x > 0$ ）

$\alpha_1 = 2, \alpha_2 = 1$ ，则

g (x) = 2 x^{2} + e^{x}

也是凸函数，因为

g^{″} (x) = 4 + e^{x} > 0

凸函数的非负加权

Note

$f_1(x) = x^2$ $f_2(x) = (x-1)^2 + 1$ 则它们的逐点最大值

h (x) = max {x^{2}, (x - 1)^{2} + 1}

也是凸函数。

凸函数的逐点最大值

$f(x) = x^2$ $a = 2, b = 1$ ，则

k (x) = f (2 x + 1) = (2 x + 1)^{2} = 4 x^{2} + 4 x + 1

也是凸函数，因为

k^{″} (x) = 8 > 0

凸函数的仿射变换

Caution

支持向量机中的优化问题

支持向量机(SVM)是机器学习中的重要算法. SVM的优化问题利用了保凸运算的性质, 其待优化的目标函数可以表示为：

min_{w, b} \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{n} max (0, 1 - y_{i} (w^{T} x_{i} + b))

$w$ $b$ 是待优化的自变量. 这里：

$\frac{1}{2}\|w\|^2$ 是凸函数（二次函数的叠加）
$\max(0, 1-y_i(w^T x_i + b))$ 是凸函数（凸函数的逐点最大值）
$C > 0$ ）仍然是凸函数

因此，SVM的优化问题是凸优化问题，保证了全局最优解的存在性和高效求解的可能性。

Caution

神经网络的损失函数并非凸函数

与支持向量机(SVM)等凸优化问题不同，神经网络的损失函数通常是高度非凸的. 神经网络的非凸性不是缺陷，而是其特征的一部分。理解这一性质不仅帮助我们设计更好的优化算法，也促使我们重新思考机器学习中的基本概念。

上机实验

nonconvex_landscape.ipynb: .

2.4 导数在人工智能中的应用: 梯度下降法

Tip

数据拟合问题

$\{(x_i, y_i)\}, i=1,2,\cdots,N$ . 根据图中数据点的分布情况, 我们猜想这组数据大致符合正比例关系, 即

\begin{matrix} (3) & y_{i} = k x_{i} + n_{i} \end{matrix}

$n_i$ $k$ $k$ 的具体取值.

$k$ 下模型(3)对数据的拟合程度, 我们引入损失函数

L (k) = \frac{1}{N} \sum_{i = 1}^{N} (y_{i} - k x_{i})^{2}

$k$ 均方误差(MSE, Mean Square Error) $L(k)$ $k$ $L(k)$ $k$ $L(k)$ 的极值问题.

损失函数

$L(k)$ 的导数为

L^{'} (k) = - \frac{2}{N} \sum_{i = 1}^{N} x_{i} (y_{i} - k x_{i})

$L'(k) = 0$ $k$ $L(k)$ $L(k)$ $k^*$ 是可以显示解出来的, 但是对于更加复杂的函数, 求极值点的任务很可能需要借助数值的方法, 例如下面所介绍的梯度下降法.

Important

梯度下降法(Gradient Descent)

$k$ 用来调频道。你转动旋钮时，耳朵会立刻听到声音的变化：有时候，往一个方向轻轻一转，会发现杂音立刻变小了，但也有时候，刚一转动旋钮，嗞嗞的噪声突然变大。整个过程就像是在黑暗中摸索，只能凭耳朵判断该往哪边走，一边转旋钮，一边听声音的变化，一步步靠近那个最清晰的频道。

$L(k)$ $L'(k)$ $k$ $L'(k) > 0$ $L(k)$ $k$ $k$ $L(k)$ $L'(k) <0$ $L(k)$ $k$ $k$ $L(k)$ $L'(k) = 0$ 的点就找到了噪声最小也就是最清晰的频道.

收音机

我们把上述调节收音机的过程写成算法, 就得到了梯度下降法: 梯度下降法算法步骤：

输入 $k_0$ $\eta$ $\epsilon$
过程：
$t \leftarrow 0$ $k \leftarrow k_0$
while $|L'(k)| > \epsilon$ ：
$g \leftarrow L'(k) = -2 \sum_{i=1}^{N} x_i(y_i - kx_i)$
$k \leftarrow k - \eta \cdot g$
$t \leftarrow t + 1$
end while
输出 $k^*$

收敛

$0$ $|L'(k)| \le \epsilon$ $k$ $L(k)$ $k$ ，参数就收敛到了最优点。

学习速率

$\eta$ 学习速率 $k$ $\eta$ 的值是需要根据具体问题人为给定的:

$\eta$ 太大 → 你猛地把旋钮转过头，直接跨过谷底，来回震荡，甚至跑到更高的山上
$\eta$ 太小 → 你像用牙签拨旋钮，一次几乎没动，走到谷底需要很久

学习率

$k$ $k = 2.69$ $k=2.5$ $N$ $k$ 也会越来越接近真实值.

梯度下降法结果

Caution

上机实例

梯度下降法实例: nonconvex_landscape.ipynb

第2章 导数

2.1 导数和导函数

2.1.1 导数的定义

2.1.2 导函数

2.1.3 幂函数, 对数函数和指数函数的导数

2.1.4 可导函数与连续函数

2.1.5 单侧导数

2.2 导数的计算

2.2.1 初等函数求导公式

2.2.2 导数的四则运算

2.2.3 高阶导数

2.3 利用导数来研究函数的性质

2.3.1 单调性

2.3.2 极值

2.3.3 凸性

2.4 导数在人工智能中的应用: 梯度下降法

第2章导数