$\gdef\o{\mathrm{o}}\gdef\d{\mathrm{d}}\gdef\D{\Delta}$
微分的定义
对于一个在 $x_0$ 邻域内有定义的函数 $f$,如果: $$ f(x_0+\D x)-f(x_0)=a\D x+\o(\D x)\quad(\D x\to 0) $$ 则称 $\d f(x_0)=a\D x=a\d x$。
同理对于任意的 $x$,可以记 $\d y=\d f(x)=a(x)\D x=a(x)\d x$。根据导数与微分的关系,$a(x)=f^\prime(x)$。
问题的开端
微分的最大好处在于它将求导这一求极限的动态过程转为了静态的,那么 $\d y/\d x$ 就可以视作除法了。那在证明复合函数和反函数的微分时,我们就会想:为什么不能直接进行分数操作呢?为什么高阶微分不具有形式不变性呢?
对于式: $$ \frac{\d y}{\d x}=\frac{\d y}{\d u}\frac{\d u}{\d x} $$ 如果要利用分数操作,大前提就是将 $\d y$ 和 $\d u$ 都写成关于 $\d x$ 的形式。而在实际求时,我们时直接求出 $y$ 关于 $u$ 的函数的导数,这两者是不同的。如果直接这样证明,会导致循环论证。
那问题就来了——这里的 $\d y/\d u$ 就必须作为一个整体,那就违背微分拆成除法的思想了啊?
扩展定义
问题的核心出现在数学符号的模糊性上。注意到,在书中,微分是基于函数 $f$ 定义的,而函数只有唯一的自变量和因变量,因此 $\d f(x)$ 只能写成关于 $\d x$ 的表达式。但是当 $\d y=\d f(x)$ 后,我们就可以不知不觉地将 $y=f(x)=g(t)=\cdots$ 写出多种表达式了。这时 $\d y$ 就出现了歧义,因为按定义算它时,到底应该以那个函数关系为准呢?我们还没有说明微分各个函数是等价的,或者说,$y=f(x)=g(t)$ 并不能推出 $\d f(x)=\d g(t)$。
为了处理这个问题,我进一步明确了一下定义。
- 变量。$x,y,t$ 这些字母代表的就是变量,它们两两之间存在着唯一的关系,这些关系互不矛盾,可能可以用函数或隐函数描述,也可能需要用间接的变量描述或难以描述。如果一对变量 $u,v$ 之间不存在关系,那么强制认为 $\d u=0\d v,\d v=0\d u$;如果一个变量 $z$ 必须同时依赖于两个无关变量 $x,y$,那就是多元微分的事情了。总之,在一元函数微分这里,我们希望将所有涉及到的变量对应的高维坐标系画出来,所有符合关系的点应当形成若干曲线,即,可以将这些曲线拆成有限段,每一段曲线中,任何一维坐标的任何可能取值仅出现一次,或者至少要求所有变量能形成一个链式的关系,这样保证能归约到函数上的微分解决。
- 函数。单独拿出一个函数,也是用例如 $f,g$ 的字母描述。它描述的是一种关系,可以与一个变量进行运算,得到另一个变量,例如 $y=f(x)$。注意 $y$ 和 $f$ 不能视作同一个东西,$\d f$ 是不合法的,$\d f(x)$ 才合法。
函数代入任何变量,得到的结果形式都是相同的;而对一个变量写出关于不同变量的表达式,这些表达式形式是不同的。如果要对变量代入值,必须要写成例如 $y|_{x=1}$。
定义函数的复合:$(f\circ g)(x)=f(g(x))$。优先级高于乘除。 - 微分。非原始形式的微分必须是“什么变量关于什么变量的微分”,记 $y$ 关于 $x$ 的微分为 $\d_xy$,$y=f(x)$ 则 $\d_xy$ 就对应书中的 $\d f(x)$。其结果是一个变量乘上 $\D x$。这个 $\D x$ 是一个“形式”,可以理解成类似生成函数里的 $x$ 这样的一个东西,它就是标明微分类型的一个类似常数的东西。当然也可以从极小变化量角度理解,但是这里不管怎么小,都不能一阶近似,$\d_xy$ 才能一阶近似。微分与微分的商就是一个变量。
$\D x$ 与 $x$ 无关,但 $\d_xx=\D x$,而 $\d_xy=a\D x=\D y+\o(\D x)\ne\D y=\d_yy$,也就是说 $\d_xy$ 和 $\d_yy$ 只差一个 $\o(\D x)$。这里的 $\D y$ 既可以理解为 $f(x+\D x)-f(x)$,也可以直接理解为 $y$ 的一个微小变化量。
至于这里 $\D x$ 这类的东西是不需要考虑“什么关于什么”的,只需要所有的变量的 $\D *\to 0$ 即可,而这由可导性保证。
为了避免歧义,规定 $\d_xuv=(\d_xu)v$,$\d_x\frac uv=\frac{\d_xu}v$,$\d_xu^2=(\d_xu)^2$。也就是说如果要写在里面必须加括号。 - 导数。记 $y^\prime_x=\d_xy/\d_xx$。
这样,上面那个式子会被写成: $$ \frac{\d_xy}{\d_xx}=\frac{\d_uy}{\d_uu}\frac{\d_xu}{\d_xx} $$ 或 $y^\prime_x=y^\prime_uu^\prime_x$,从而无法约分。
推导
现在关于微分只有两样东西可以使用:
- 通过定义得到某个 $\d_x y$,以及将 $\d_xy$ 反写回定义;
- $u=v\Rightarrow\d_xu=\d_xv$。
根据这两样东西,可以推出:
-
$\d_x(u+v)=\d_xu+\d_xv$,$\d_x(cu)=c\d_xu$。证略。
-
$\d_x(uv)=v\d_xu+u\d_xv$。证: $$ \begin{align*} \d_x(uv)&=\D(uv)+\o(\D x)\\ &=(u+\D u)(v+\D v)-uv+\o(\D x)\\ &=v\D u+u\D v+\D u\D v+\o(\D x)\\ &=v(\d_xu+\o(\D x))+u(\d_xv+\o(\D x))+(\d_xu+\o(\D x))(\d_xv+\o(\D x))+\o(\D x)\\ &=v\d_xu+u\d_xv+\o(\D x) \end{align*} $$ 由于含 $\d$ 的部分都是常数倍 $\D x$,故这里的 $\o(\D x)$ 应该是 $0$。
注意 $\d_x u\d_x v=\Theta(\D x^2)=\o(\D x)$。
-
$\d_xu^{-1}=-\d_xu/u^2$。证: $$ \begin{align*} \d_x\left(\frac 1u\right)&=\frac 1{u+\D u}-\frac 1u+\o(\D x)\\ &=-\frac{\D u}{u(u+\D u)}+\o(\D x)\\ &=-\frac{\d_x u}{u(u+\D u)}+\o(\D x)\\ &=-\frac{\d_x u}{u^2}+\frac{\d_x u}{u^2}-\frac{\d_x u}{u(u+\D u)}+\o(\D x)\\ &=-\frac{\d_x u}{u^2}+\frac{\d_x u(\d_x u+\o(\D x))}{u^2(u+\D u)}+\o(\D x)\\ &=-\frac{\d_x u}{u^2}+\o(\D x) \end{align*} $$
-
$\d_xy=\d_uy/\d_uu\cdot\d_xu$。证: $$ \begin{align*} \d_xy&=\D y+\o(\D x)\\ &=\frac{\d_uy}{\d_uu}\D u+\o(\D u)+\o(\D x)\\ &=\frac{\d_uy}{\d_uu}(\d_xu+\o(\D x))+\o(\D x)\\ &=\frac{\d_uy}{\d_uu}\d_xu+\o(\D x) \end{align*} $$
-
$\d_yx/\d_yy=1/(\d_xy/\d_xx)$。证:只需令 4 中 $u=y$ 即可。
以上给出了微分形式的求导法则证明。注意到,3 的证明比直接 $\lim$ 麻烦。
一阶微分形式的不变性,可以理解成(注意 $\d_xy\ne\d_uy$): $$ \forall u,\frac{\d_xy}{\d_xx}=\frac{\d_uy}{\d_ux} $$ 或是(注意 $y^\prime_u\ne y^\prime_x$): $$ \d_xy=y^\prime_u\d_xu=y^\prime_x\d_xx $$ 关于自变量微分时,中间变量的微分形式和自变量的微分形式相同。这个性质一般会这样被使用:求 $\d_xy$ 时,先求出 $\d_uy$,然后把等式两侧的 $\d_u$ 替换为 $\d_x$ 再把 $\d_x u$ 展开。这在不标关于谁微分的时候是不容易被发觉的,书里的写法 $\d y=y^\prime_u\d u=y^\prime_x\d x$ 感觉像在说废话,其本质原因是它会被混淆成 $\d_uy=y^\prime_u\d_uu$,而这就是定义啊。
至于为什么教材里不表明是对谁微分,主要因为一般微分都是关于分母,不然得到的东西类型就不对了。
那么在答题时如何用教材中的形式呢?在没有使用链式法则或直接处理高阶微分时,默认是关于上文中唯一的自变量微分;用链式法则处理一阶微分时,必须单独写出一步,并且在脑中,如果要替换“关于谁微分”,必须是成对替换,这种成对可以是分子分母,也可以是等式两边。
高阶微分
如果硬要用类似一阶的定义方法定义高阶微分,可以这样类比定义:
对于一个在 $x_0$ 邻域内有定义的函数 $f$,如果: $$ \D^nf(x)=\sum_{i=0}^n(-1)^{n-i}\binom nif(x_0+i\D x)=a\D x^n+\o(\D x^n)\quad(\D x\to 0) $$ 则称 $\d^nf(x_0)=a\D x^n=a\d x^n$。
但是这个似乎只能直接用导数的 $\lim$ 形式证,我没法通过反复利用一阶微分的定义证。
回到正常的定义。高阶微分的写法也是好理解的: $$ \d_x\left(\frac{\d_xy}{\d_xx}\right)=\frac{\d_x^2y\d_xx-\d_xy\d_x^2x}{\d_xx^2}=\frac{\d_x^2y}{\d_xx} $$ 核心是 $\d_x^2x=\d_x(\D x)=0$。
二阶微分不具有形式不变性,可以如下试验:
记 $u=g(x)$,$y=f(u)$。 $$ \begin{align*} \d_u^2y&=\textcolor{teal}{f^{\prime\prime}(u)\d_uu^2}\\ &=(f^{\prime\prime}\circ g)(x)\d_uu^2\\ &=\textcolor{green}{(f^{\prime\prime}\circ g\cdot {g^\prime}^2)(x)\d_ux^2}\\ \d_x^2y&=(f\circ g)^{\prime\prime}(x)\d_xx^2\\ &=\textcolor{green}{(f^{\prime\prime}\circ g\cdot {g^\prime}^2+f^\prime\circ g\cdot g^{\prime\prime})(x)\d_xx^2}\\ &=\textcolor{teal}{f^{\prime\prime}(u)\d_xu^2+f^\prime(u)\d_x^2u} \end{align*} $$ 也就是: $$ \frac{\d_x^2y}{\d_xx^2}\ne\frac{\d_u^2y}{\d_ux^2} $$ 至于为什么不一样,可以大致理解为有一项高阶项不能忽略。由于水平有限,我无法指出到底源自于哪儿。
从而我们也就能理解,为什么在书里,参数方程一阶导可以 $\d y/\d x=\d y/\d t\cdot\d t/\d x$,而二阶导必须拆成两次一阶导,而不能 $\d^2y/\d x^2=\d^2y/\d t^2\cdot (\d t/\d x)^2$。