《高等数学下册》的读书笔记之一

2016-12-28 fishedee 数学

1 概述

这是高等数学的下册书籍

1.1 研究对象

高等数学上册描述了用微分和积分来分析一个函数,但其仅仅将微积分算子局限在一元函数中,下册主要讨论多元函数中的微积分定理。

另外,在上册中描述了如何用泰勒公式来逼近一个函数,也就是多项式级数来逼近任意一个函数。下册中也讨论了如何用三角函数来逼近任意一个函数,也就是神奇的傅立叶级数

1.2 应用

高等数学上册仅仅只是描述了一元中的微积分规律,但是实际生活中更多是多元的,所以高等数学下册扩展了微积分的整个应用范围

  • 梯度,如何在数值上寻找极值和零值,这是各大机器学习中的迭代关键工具
  • 无穷级数,傅立叶级数,小波变换,用不同的基来逼近函数,让我们用不同的角度来描述图像,音频

2 空间解析几何

2.1 向量

2.1.1 向量的定义

向量(矢量)是既有大小又有方向的量,我们可以用\(R^n\)维空间来描述这个向量,例如坐标\((x,y,z)\)描述的是从原点指向该坐标的量

2.1.2 向量的模

向量的大小称为向量的模,记作\(\lvert \vec{a} \rvert\),即

\[ \lvert \vec{a} \rvert = \sqrt{x^2+y^2+z^2} \]

2.1.2 向量的加减运算

设两向量\(a=(x_1,y_1,z_1)\)\(b=(x_2,y_2,z_2)\),称向量\((x_1+x_2,y_1+y_2,z_1+z_2)\)\(a\)\(b\)的和,记作\(a+b\),即

\[ a+b=(x_1+x_2,y_1+y_2,z_1+z_2) \]

从几何上看来,向量的加法就是向量首尾连接的合成

另外,定义向量的减法为

\[ b-a=b+(-a) \]

显然,向量的加减法满足

  • \(a+b = b+a\)
  • \(a+(b+c) = (a+b)+c\)

2.1.3 向量的数乘运算

设向量\(a=(x,y,z)\)\(\lambda\)为任一实数,向量\((\lambda x,\lambda y,\lambda z)\)称为向量\(a\)与数\(\lambda\)的乘积,简称数乘,记作\(\lambda a\),即

\[ \lambda a = (\lambda x,\lambda y,\lambda z) \]

从几何上看,向量的数乘就是在向量的原方向上进行伸缩的操作

显然,向量的数乘满足

  • \(\lambda (\mu a) = (\lambda \mu)a = \mu (\lambda a)\)
  • \(\lambda (a+b) = \lambda a + \lambda b\)
  • \((\lambda + \mu)a = \lambda a + \mu a\)

2.1.3 向量的点乘运算

设两向量\(a=(x_1,y_1,z_1)\)\(b=(x_2,y_2,z_2)\),称向量\(x_1x_2+y_1y_2+z_1z_2\)\(a\)\(b\)的点乘(数量积),记作\(a\cdot b\),即

\[ a \cdot b=x_1x_2+y_1y_2+z_1z_2 \]

从几何意义上看,向量的点乘其实就是\(a\)\(b\)向量围成的三角形中,斜边的平方与两条直角边平方和的差的一半,因为

\[ a \cdot b = x_1x_2+y_1y_2\\ = \frac {((x_1+x_2)^2+(y_1+y_2)^2)-(x_1^2+y_1^2)-(x_2^2+y_2^2)} {2} \\ = \frac { {\lvert a+b \rvert}^2-{\lvert a\rvert}^2 - {\lvert b\rvert}^2} {2} \\ = \frac {2\cdot {\lvert a \rvert}\cdot {\lvert b \rvert}\cdot cos\theta} {2} \\ = {\lvert a \rvert}\cdot {\lvert b \rvert}\cdot cos\theta \]

其中\(\theta\)是两个向量的夹角

显然,向量的点乘满足

  • \(a \cdot b = b \cdot a\)
  • \(a \cdot (b+c) = a \cdot b + a\cdot c\)
  • \((\lambda a)\cdot b = \lambda (a \cdot b) = a \cdot (\lambda b)\)

2.1.4 向量的叉乘运算

设两向量\(a=(x_1,y_1,z_1)\)\(b=(x_2,y_2,z_2)\),规定

\[ a \times b = (y_1z_2-z_1y_2,z_1x_2-x_1z_2,x_1y_2-y_1x_2) \]

\[ a \times b = \begin{vmatrix} i & j & k \\ x_1 & y_1 & z_1 \\ x_2 & y_2 & z_2 \\ \end{vmatrix} \]

则称新的向量为这两个向量的叉乘

从几何意义上看,叉乘代表的是垂直于\(a\)\(b\)所在平面的向量,且大小为a与b向量所组成的平行四边形的面积,因为

\[ a \cdot (a \times b) = (x_1,y_1,z_1)\cdot (y_1z_2-z_1y_2,z_1x_2-x_1z_2,x_1y_2-y_1x_2) \\ = x_1y_1z_2-x_1z_1y_2+y_1z_1x_2-y_1x_1z_2+z_1x_1y_2-z_1y_1x_2 \\ = 0 \\ b \cdot (a \times b) = (x_1,y_1,z_1)\cdot (y_1z_2-z_1y_2,z_1x_2-x_1z_2,x_1y_2-y_1x_2) \\ = x_2y_1z_2-x_2z_1y_2+y_2z_1x_2-y_2x_1z_2+z_2x_1y_2-z_2y_1x_2 \\ = 0 \\ \]

证得叉乘同时垂直于a与b两个向量

显然,向量的叉乘满足

  • \(a \times b = -b \times a\)
  • \(a \times (b+c) = a\times b + a \times c\)
  • \((\lambda a)\times b = \lambda (a \times b) = a \times (\lambda b)\)

2.1.5 向量的混合积运算

已知三个向量a,b和c,则先作两个向量a和b的点乘,然后作和c的叉乘,即

\[ (a \times b )\cdot c = \begin{vmatrix} x_1 & y_1 & z_1 \\ x_2 & y_2 & z_2 \\ x_3 & y_3 & z_3 \\ \end{vmatrix} \]

称为该三个向量的混合积

从几何上看,混合积是向量a,b,c所组成的平行六面体的体积

2.3 曲面

2.3.1 一般方程

如果一个曲面S上任一点的坐标都满足\(F(x,y,z)=0\),并且不在曲面\(S\)上的点的坐标都不满足方程\(F(x,y,z)=0\),那么称方程

\[ F(x,y,z)=0 \]

为曲面S的方程

2.3.2 旋转曲面

设曲线C是Oyz平面的一条曲线,其方程为\(f(y,z)=0\),把这条曲线绕z轴旋转一周,这个以z轴为旋转轴的旋转曲面方程为

\[ f(\pm \sqrt{x^2+y^2},z)=0 \]

2.3.3 柱面

设曲线C是Oyz平面的一条曲线,其方程为\(f(y,z)=0\),把x轴绕这条曲线旋转一周,这个绕成的柱面方程为

\[ f(y,z) = 0 \]

注意跟旋转曲面的不同

2.4 曲线

2.4.1 一般方程

设曲面\(S_1\)\(F(x,y,z)=0\)\(S_2\)\(G(x,y,z)=0\),它们的交线为\(\Gamma\),则这条曲线的方程为

\[ \begin{cases} F(x,y,z)=0\\ G(x,y,z)=0\\ \end{cases} \]

2.4.2 参数方程

设曲线\(\Gamma\)上动点\(M\)的坐标\(x,y,z\)可表示为参数\(t\)的函数

\[ \begin{cases} x=x(t)\\ y=y(t)\\ z=z(t)\\ \end{cases} \]

则称该方程为曲线\(\Gamma\)的参数方程

2.4.3 投影

设空间曲线\(\Gamma\)的一般方程为

\[ \begin{cases} F(x,y,z)=0\\ G(x,y,z)=0\\ \end{cases} \]

消去z后,得到方程

\[ H(x,y)=0 \]

则该方程为曲线\(\Gamma\)在Oxy平面的投影

2.5 平面

2.5.1 点法式

如果已知平面上的一点\(M_0(x_0,y_0,z_0)\)和平面\(\Pi\)的一个法向量\(n=(A,B,C)\),那么该平面的方程为

\[ A(x-x_0)+B(y-y_0)+C(z-z_0)=0 \]

2.5.2 一般方程

对于空间中的任意一个平面来说,其一般方程为

\[ Ax+By+Cz+D=0 \]

注意,一般方程的系数刚好就是法向量

2.5.3 平面夹角

两平面的夹角定义为两个平面的法向量的夹角,所以

\[ cos\theta = \lvert \angle (n_1,n_2)\rvert \\ = \frac {A_1A_2+B_1B_2+C_1C_2} {\sqrt{A_1^2+B_1^2+C_1^2}\sqrt{A_2^2+B_2^2+C_2^2} } \]

直接用点乘公式就能证明出来了

2.5.4 点到平面距离

\(P_0(x_0,y_0,z_0)\)是平面\(\Pi:Ax+By+Cz+D=0\)以外的一点,则该点到平面的距离为

\[ d = \frac {\lvert Ax_0+By_0+Cz_0+D \rvert} {\sqrt{A^2+B^2+C^2} } \]

证明

任取一点\(P_1(x_1,y_1,z_1)\)属于平面\(\Pi\)

\[ d = \lvert \vec{P_1P_0} \rvert \lvert cos \theta \rvert \\ = \lvert \vec{P_1P_0} \rvert \frac {\lvert \vec{P_1P_0} \rvert \cdot n} {\lvert \vec{P_1P_0} \rvert \lvert n \rvert} \\ = \frac {\lvert A(x_0-x_1)+B(y_0-y_1)+C(z_0-z_1) \rvert} {\sqrt{A^2+B^2+C^2} } \\ = \frac {\lvert Ax_0+By_0+Cz_0-(Ax_1+By_1+Cz_1) \rvert} {\sqrt{A^2+B^2+C^2} } \\ = \frac {\lvert Ax_0+By_0+Cz_0+D \rvert} {\sqrt{A^2+B^2+C^2} } \]

2.6 直线

2.6.1 一般方程

设平面\(\Gamma_1:A_1x+B_1y+C_1z+D_1=0\)\(\Gamma_2:A_2x+B_2y+C_2z+D_2=0\),则这两个平面的交线为\(L\),其方程为

\[ \begin{cases} A_1x+B_1y+C_1z+D_1=0 \\ A_2x+B_2y+C_2z+D_2=0 \\ \end{cases} \]

2.6.2 对称式方程

若空间一条直线通过点\(M_0(x_0,y_0,z_0)\)且平行于非零向量\(s=(m,n,p)\),则这条直线的方程为

\[ \frac {x-x_0} {m} = \frac {y-y_0} {n} = \frac {z-z_0} {p} \]

2.6.3 参数方程

显然,根据对称式方程,我们可推导出直线的参数方程为

\[ \begin{cases} x = x_0 +mt \\ y = y_0+nt \\ z = z_0+pt \\ \end{cases} \]

2.6.4 直线间夹角

设空间直线\(L_1\)\(L_2\),它们的方向向量为\(s_1(m_1,n_1,p_1)\)\(s_2(m_2,n_2,p_2)\),则这两条直线的夹角为

\[ cos \varphi = \frac {\lvert s_1 \cdot s_2\rvert} {\lvert s_1 \rvert \lvert s_2 \rvert} \]

2.6.5 直线与平面夹角

设直线\(L\)的方向向量为\(s=(m,n,p)\),平面\(\Pi\)的法向量为\(n=(A,B,C)\)

\[ sin \varphi = \lvert sin(\frac \pi 2 - \angle (s,n)) \rvert \\ =\lvert cos \angle (s,n) \rvert \\ = \frac {\lvert s \cdot n\rvert} {\lvert s \rvert \lvert n \rvert} \]

2.6.6 平面束

设直线L的方程为

\[ \begin{cases} A_1x+B_1y+C_1z+D_1=0 \\ A_2x+B_2y+C_2z+D_2=0 \\ \end{cases} \]

则经过该直线的平面束为

\[ (A_1x+B_1y+C_1z+D_1) +\lambda(A_2x+B_2y+C_2z+D_2) = 0 \]

2.7 二次曲面

2.7.1 椭球面

\[ \frac {x^2} {a^2} + \frac {y^2} {b^2}+\frac {z^2} {c^2} = 1 \]

其中\((a>0,b>0,c>0)\),类似以上的方程称为椭球面方程

2.7.2 单叶双曲面

\[ \frac {x^2} {a^2} + \frac {y^2} {b^2}-\frac {z^2} {c^2} = 1 \]

其中\((a>0,b>0,c>0)\),类似以上的方程称为单叶双曲面方程

2.7.3 双叶双曲面

\[ \frac {x^2} {a^2} + \frac {y^2} {b^2}-\frac {z^2} {c^2} = -1 \]

其中\((a>0,b>0,c>0)\),类似以上的方程称为双叶双曲面方程

2.7.4 椭圆抛物面

\[ \frac {x^2} {p} + \frac {y^2} {q}=2z \]

其中\((p,q同号)\),类似以上的方程称为椭圆抛物面方程

2.7.5 双曲抛物面

\[ \frac {x^2} {p} - \frac {y^2} {q}=2z \]

其中\((p,q同号)\),类似以上的方程称为双曲抛物面方程

2.7.6 二次锥面

\[ \frac {x^2} {p} + \frac {y^2} {q}=z^2 \]

其中\((a>0,b>0)\),类似以上的方程称为二次锥面方程

3 偏导数

3.1 多元函数

3.1.1 点的分类

给定的点P与非空点集D,它们之间的关系有

  • 内点,如果存在某\(U(P)\),使得\(U(P) \in D\),则称P为D的内点
  • 外点,如果存在某\(U(P)\),使得\(U(P) \in D^c\)(\(D^c\)为D的余集),则称P为D的内点
  • 边界点,如果P的任一领域内既含有D中的点,也含有\(D^c\)的点,则称P为D的外点

显然,内点,外点和边界点都是非常直观的认为就可以了

另外,也可以根据P的邻域特征来描述与D的关系

  • 聚点,如果P的任一去心邻域\(\dot{U}(P)\)内总含有D中的点,则称P为D的聚点
  • 孤立点,如果\(P \in D\),且存在\(P\)的去心邻域\(\dot{U}(P)\),而\(\dot{U}(P)\)中不含D的点,则称P为D的孤立点

按照这种关系,点可以区分为聚点(内点+一部分边界点),孤立点(一部分边界点),和外点

其实就是在内点,外点和边界点的关系上,将边界点细分了聚点和孤立点两部分,而划分的标准是,究竟P在去掉自己本身后,仍然既有D,也有\(D^c\)

3.1.2 点集的分类

类似开闭区间的分类

  • 开集,如果点集D中每个点都是D的内点,则称D为开集
  • 闭集,如果点集D的所有聚合点都属于D,则称D为闭集

类似无限区间的分类

  • 有界集:若存在某一正数r,使得\(D \in U(O,r)\),其中O是坐标原点,则称D为有界集
  • 无界集:若D不是有界集,则称D为无界集

另外,还有

连通集,如果点集D中任意两点都可用包含于D中的一条有限折线连接,则称D为连通集

3.1.3 区域的定义

区域就是在连通点集的分类

  • 开区域:连通的开集称为开区域(区域)
  • 闭区域:开区域及其边界的并集称为闭区域

3.1.4 多元函数

设D是平面的一个点集,称映射\(f: D \to R\)为定义在D上的二元函数,记为

\[ z = f(x,y),(x,y) \in D \]

\[ z = f(P),P \in D \]

显然,多元函数的定义与此类似

3.1.4 多元函数极限的定义

设二元函数\(f(x,y)\)的定义域为D,\(P_0(x_0,y_0)\)是D的聚点。若存在常数A,对于任意给定的正数\(\epsilon\),总存在正数\(\delta\),使得当点\(P(x,y) \in D \cap \dot{U}(P_0,\delta)\)时,都有\(\lvert f(x,y) - A\rvert<\epsilon\),则称常数A为函数\(f(x,y)\)\((x,y)\to(x_0,y_0)\)时的极限,或称常数A为函数\(f(x,y)\)在点\((x_0,y_0)\)处的极限,记作

\[ \lim\limits_{(x,y)\to(x_0,y_0)} f(x,y) = A \]

\[ f(x,y) \to A ((x,y) \to (x_0,y_0)) \]

显然,极限的定义跟一元函数的类似的。要注意的是,\(P_0\)必须是聚点,另外,逼近的方式是以圆形范围的逼近

多元函数的极限与此类似,另外,一元极限中的四则运算,夹逼定理等依然适用

3.1.5 多元函数连续的定义

设函数\(f(x,y)\)在点集D上有定义,\(P_0(x_0,y_0)\)是D的聚点,且\(P_0 \in D\),如果

\[ \lim\limits_{(x,y)\to(x_0,y_0)} f(x,y) = f(x_0,y_0) \]

则称函数\(f(x,y)\)在点\(P_0(x_0,y_0)\)上连续

多元函数的连续与此类似,另外,一元函数连续中的介值定理,最值定理等依然适用

3.2 偏导数

3.2.1 偏导数定义

设函数\(z=f(x,y)\)在点\((x_0,y_0)\)的某一邻域内有定义,当\(y\)固定在\(y_0\),而\(x\)\(x_0\)处有增量\(\Delta x\)时,相应地函数有增量\(f(x_0+\Delta x,y_0)-f(x_0,y_0)\),如果

\[ \lim\limits_{\Delta x \to 0} \frac {f(x_0+\Delta x,y_0)-f(x_0,y_0)} {\Delta x} \]

存在,则称此极限值为函数\(z=f(x,y)\)在点\((x_0,y_0)\)处对\(x\)的偏导数,记作

\[ \left.\frac {\partial z} {\partial x}\right\vert_{x=x_0,y=y_0},\left.\frac {\partial f} {\partial x}\right\vert_{x=x_0,y=y_0},\left.z_x\right\vert_{x=x_0,y=y_0}或f_x(x_0,y_0) \]

类似地,可以定义函数\(z=f(x,y)\)\(y\)的偏导数,以及多元函数的偏导数

注意,偏导数是一个整体符号,不能像一元函数中看成两个微分的商

3.2.2 偏导数的几何意义

从定义中可以看出,对x的偏导数就是固定y不动,然后去研究z的变化率与x的变化率的关系。从几何上说,相当于用Oyz平面去截取某一点的函数图像,显然,截取出来的图像是一个二维图像,而这个二维图像的导数就是偏导数。

而我们从中也理解到,当用不同方向的平面去截取这一点的函数图像时,它们的二维图像是不一样的,所以它们的偏导数也大多不一样的。正因为如此,多元函数中没有导数的概念,必须依赖于在某个角度看图像才能确定的导数。

而且,从广义地说,偏导数不仅可以以直线的方式靠近\((x_0,y_0)\)点,它甚至可以以弯曲的蛇形行走来靠近\((x_0,y_0)\)点,从而得出完全不同的偏导数的值。

3.2.3 偏导数的性质

偏导数的四则运算,依然符合一元函数中的四则运算

3.2.4 高阶偏导数

偏导数仍然是x,y的二元函数,其定义域一般是原来函数的子集,所以我们可以继续计算偏导数的偏导数,我们称为二阶导数,以此类推,我们可以继续定义更高阶的偏导数。

设函数\(z=f(x,y)\)在定义域D内\(f_x(x,y),f_y(x,y)\)都是x,y的二元函数,它们关于x,y的偏导数记为

\[ \frac {\partial}{\partial x}(\frac {\partial} {\partial x} ) = \frac {\partial^2 z} {\partial x^2} = f_{xx}(x,y) \\ \frac {\partial}{\partial y}(\frac {\partial} {\partial x} ) = \frac {\partial^2 z} {\partial x \partial y} = f_{xy}(x,y) \\ \frac {\partial}{\partial x}(\frac {\partial} {\partial y} ) = \frac {\partial^2 z} {\partial y \partial x} = f_{yx}(x,y) \\ \frac {\partial}{\partial y}(\frac {\partial} {\partial y} ) = \frac {\partial^2 z} {\partial y^2} = f_{yy}(x,y) \]

注,像$ {y x} , {x y} $这种不含对不同变量的次序求偏导数的高阶导数称为混合偏导数

3.2.5 高阶偏导数交换定理

如果函数\(z=f(x,y)\)的两个二阶混合偏导数$ {y x} , {x y} $在区域D内连续,那么这两个二阶混合偏导数在区域D内必相等,即

\[ \frac {\partial^2 z} {\partial y \partial x} = \frac {\partial^2 z} {\partial x \partial y} \]

证明略

3.3 复合函数偏导数

3.3.1 复合函数的链式法则

如果函数\(u=\varphi(x,y),v=\psi(x,y)\)在点\((x,y)\)处的两个偏导数都存在,函数\(z=f(u,v)\)在对应点\((u,v)\)处可微,则复合函数\(z=F(x,y)=f(\varphi(x,y),\psi(x,y))\)在点\((x,y)\)处的两个偏导数存在,且

\[ \frac {\partial z} {\partial x} = \frac {\partial z} {\partial u} \cdot \frac {\partial u} {\partial x} + \frac {\partial z} {\partial v} \cdot \frac {\partial v} {\partial x} \\ \frac {\partial z} {\partial y} = \frac {\partial z} {\partial u} \cdot \frac {\partial u} {\partial y} + \frac {\partial z} {\partial v} \cdot \frac {\partial v} {\partial y} \]

证明略

从定理中可以函数,复合函数的求导,就是依次对所有的中间元进行偏导数,而每个中间元的偏导数再乘以最终元的偏导数

3.3.2 高阶复合函数

由一阶偏导数

\[ \frac {\partial z} {\partial x} = \frac {\partial z} {\partial u} \cdot \frac {\partial u} {\partial x} + \frac {\partial z} {\partial v} \cdot \frac {\partial v} {\partial x} \]

求二阶偏导数时,要特别注意\(\frac {\partial z} {\partial u}\),与\(\frac {\partial z} {\partial v}\)仍然是关于中间变量的u,v函数,需要再次使用复合函数求导法则来计算

\[ \because \frac {\partial z} {\partial x} = \frac {\partial z} {\partial u} \cdot \frac {\partial u} {\partial x} + \frac {\partial z} {\partial v} \cdot \frac {\partial v} {\partial x} \\ \therefore \frac {\partial z} {\partial x\partial y} = (\frac {\partial z} {\partial u\partial u} \cdot \frac {\partial u} {\partial y}+ \frac {\partial z} {\partial u\partial v} \cdot \frac {\partial v} {\partial y})\cdot \frac {\partial u} {\partial x} +\frac {\partial u} {\partial x\partial y}\cdot \frac {\partial z} {\partial u} \\ +(\frac {\partial z} {\partial v\partial u} \cdot \frac {\partial u} {\partial y}+ \frac {\partial z} {\partial v\partial v} \cdot \frac {\partial v} {\partial y})\cdot \frac {\partial v} {\partial x}+\frac {\partial v} {\partial x\partial y}\cdot \frac {\partial z} {\partial v} \]

注意二阶求导的原理,将偏导数的每一项都看成一个函数就可以了

3.4 隐函数偏导数

3.4.1 二元单方程

设函数\(F(x,y)\)在点\(P(x_0,y_0)\)的某一邻域内具有连续的偏导数,且\(F(x_0,y_0)=0,F_y(x_0,y_0) \neq 0\),则方程\(F(x,y)=0\)在点\((x_0,y_0)\)的某一邻域内能唯一确定一个具有连续导数的隐函数\(y=f(x)\),使得\(y_0=f(x_0)\),并有

\[ \frac {dy} {dx} = -\frac {F_x} {F_y} \]

证明:

因为\(F(x,y)=0\),所以我们将其转换为y是x的函数,即

\[ y = f(x) \]

注意两个f与F是不一样的。那么将f代入到F的原方程中,结果显然仍然为0,因为f本来就是从F中转化过来的

\[ F(x,f(x))=0 \]

然后两边取x的偏导数,注意左边是复合偏导数的法则,则有

\[ F_x+F_y\frac {dy} {dx} = 0 \]

化简一下就有

\[ \frac {dy} {dx} = -\frac {F_x} {F_y} \]

注意这里的隐函数求导法则,与一元的隐函数求导的推导有什么不一样的地方。这里的法则明显适用范围要大很多。这里用到一个很重要的技巧就是,假设原函数推导出来,然后再代入隐函数方程中,结果恒等于0。这个基本是求解所有隐函数导数的技巧。

3.4.2 多元单方程

设函数\(F(x,y,z)\)在点\(P(x_0,y_0,z_0)\)的某一邻域内具有连续的偏导数,且\(F(x_0,y_0,z_0)=0,F_z(x_0,y_0,z_0)\neq 0\),则方程\(F(x,y,z)=0\)在点\((x_0,y_0,z_0)\)的某一邻域内能唯一确定一个具有连续偏导数的隐函数\(z=f(x,y)\),使得\(z_0=f(x_0,y_0)\),并有

\[ \frac {\partial z} {\partial x} = - \frac {F_x} {F_z} \\ \frac {\partial z} {\partial y} = - \frac {F_y} {F_z} \\ \]

证明:

\(F(x,y,z)=0\)转化为\(z=f(x,y)\)的方程,然后代入到原隐函数方程中,有:

\[ F(x,y,f(x,y))=0 \]

然后,两边对x求偏导数,有

\[ F_x\cdot \frac {dx} {dx}+F_y\cdot \frac {dx} {dy} +F_z\cdot\frac {\partial z} {\partial x} = 0 \\ F_x + F_z\cdot\frac {\partial z} {\partial x} = 0 \\ \frac {\partial z} {\partial x} = - \frac {F_x} {F_z} \]

所以,证得,对y的偏导数,与此类似

3.4.2 多元方程组

设函数\(F(x,y,u,v),G(x,y,u,v)\)在点\(P_0(x_0,y_0,u_0,v_0)\)得某一邻域内具有对各个变量的连续偏导数,又

\[ \begin{cases} F(x_0,y_0,u_0,v_0)=0 \\ G(x_0,y_0,u_0,v_0)=0 \\ \end{cases} \]

且偏导数所组成的函数行列式(称为雅可比行列式)

\[ J = \frac {\partial(F,G)} {\partial (u,v)} = \begin{vmatrix} F_u & F_v \\ G_u & G_v \\ \end {vmatrix} \]

在点\(P_0(x_0,y_0,u_0,v_0)\)处不等于0,则方程组\(F(x,y,u,v)=0,G(x,y,u,v)=0\)在点\((x_0,y_0,u_0,v_0)\)的某一邻域内能唯一确定一组具有连续偏导数的隐函数\(u=u(x,y),v=v(x,y)\),使得\(u_0=u(x_0,y_0),v_0=v(x_0,y_0)\),并有

\[ \frac {\partial u} {\partial x} = - \frac 1 J \cdot \frac {\partial(F,G)} {\partial(x,v)} = - \frac {\begin{vmatrix} F_x & F_v \\ G_x & G_v \\ \end{vmatrix} } {\begin{vmatrix} F_u & F_v \\ G_u & G_v \\ \end{vmatrix} },\\ \frac {\partial u} {\partial y} = - \frac 1 J \cdot \frac {\partial(F,G)} {\partial(y,v)} = - \frac {\begin{vmatrix} F_y & F_v \\ G_y & G_v \\ \end{vmatrix} } {\begin{vmatrix} F_u & F_v \\ G_u & G_v \\ \end{vmatrix} } \]

证明:

从方程组

\[ \begin{cases} F(x,y,u,v)=0 \\ G(x,y,u,v)=0 \\ \end{cases} \]

我们可以推导出

\[ u = u(x,y) v = v(x,y) \]

然后代入原方程组,则有

\[ \begin{cases} F(x,y,u(x,y),v(x,y))=0 \\ G(x,y,u(x,y),v(x,y))=0 \\ \end{cases} \]

对x求偏导数,则有

\[ \begin{cases} F_x+F_u\frac {\partial u} {\partial x} +F_v\frac {\partial v} {\partial x} = 0 \\ G_x+G_u\frac {\partial u} {\partial x} +G_v\frac {\partial v} {\partial x} = 0 \\ \end{cases} \]

这明显就是一个关于$ {x} \(与\) {x}$的线性方程组,套用线性代数的算法,则有

矩阵行列式为

\[ J = \begin{vmatrix} F_u & F_v \\ G_u & G_v \\ \end {vmatrix} \]

解为:

\[ \frac {\partial u} {\partial x} = - \frac {\begin{vmatrix} F_x & F_v \\ G_x & G_v \\ \end{vmatrix} } {J} \]

3.5 方向导数与梯度

3.5.1 方向导数的定义

设函数\(z=f(x,y)\)在点\(P(x,y)\)的某一邻域\(U(P)\)内有定义。从点\(P\)引射线\(l\),并设点\(P'(x+\Delta x , y+\Delta y)\)\(\l\)上的另一点且\(P'\in U(P)\)。我们考虑函数的增量\(f(x+\Delta x,y+\Delta y)-f(x,y)\)\(P,P'\)两点间的距离\(\rho=\sqrt{(\Delta x)^2+(\Delta y)^2}\)的比值。当\(P'\)沿着\(l\)趋向于\(P\)时,如果这个比值的极限存在,则称这极限值为函数\(f(x,y)\)在点\(P\)处沿方向\(l\)的方向导数,记作\(\left.\frac {\partial f} {\partial l}\right\vert_{P}\)\(f_{l}(P)\)。如果用\(e_l=(cos \alpha,cos \beta)\)表示\(l\)所在方向上的单位向量,即\(\alpha,\beta\)\(l\)的方向角,则

\[ \left.\frac {\partial f} {\partial l}\right\vert_{P} = \lim\limits_{\rho \to 0} \frac {f(x+\rho cos \alpha,y+\rho cos \beta)-f(x,y)} {\rho} \]

从几何意义上说,方向导数就是沿着直线的方向来逼近\(f(x,y)\),但是其逼近的方式跟偏导数有点不一样,偏导数是直线的双方向逼近的,但是方向导数单方向逼近的。因为偏导数的分母是\(\Delta x\)是可正可负的,而方向导数的分母是\(\rho\),是只能为正的。

所以,方向导数的导数值,是指以这个方向逼近\(f(x,y)\)时的斜率。而当导数值为正数时,代表往这个方向的函数值是增大的。而当导数值为负数时,代表往这个方向的函数值是减少的。

3.5.2 方向导数定理

如果函数\(z=f(x,y)\)在点\(P(x,y)\)处可微,那么函数在该点沿任一方向\(l\)的方向导数都存在,且有

\[ \frac {\partial f} {\partial l} = \frac {\partial f} {\partial x} cos \alpha + \frac {\partial f} {\partial y} cos \beta \]

其中\(\alpha\),\(\beta\)为方向\(l\)的方向角

证明是显然的,你可以代入特殊的x与y方向就可以了

3.5.3 梯度的定义

如果二元函数\(z=f(x,y)\)在平面区域\(D\)内具有连续的偏导数,则对任意点\(P(x,y) \in D\),可得到一个向量

\[ \frac {\partial f} {\partial x} \vec{i} + \frac {\partial f} {\partial y} \vec{j} \]

我们称这个向量为函数\(z=f(x,y)\)在点\(P(x,y)\)处的梯度,记作\(grad {f(x,y)}\),即

\[ grad f(x,y) = \frac {\partial f} {\partial x} \vec{i} + \frac {\partial f} {\partial y} \vec{j} \]

注意,这里的梯度是一个向量,不是数量。另外,它也不是方向导数,因为方向导数是一个数量,是一个斜率。另外,这个方向是没有被单位化的。

3.5.4 梯度的几何意义

从几何意义来看,梯度是函数值增长最大的方向,梯度的反方向是函数值增长最小的方向。而且,梯度指向方向的方向导数为

\[ \lvert grad f(x,y) \rvert = \sqrt{(\frac {\partial f} {\partial x})^2 + (\frac {\partial f} {\partial y})^2} \]

证明:

设该点出发的任意一个单位向量为\(e=cos \alpha \vec{i} + cos \beta \vec{j}\),则方向导数的计算公式有

\[ \frac {\partial f} {\partial l} = \frac {\partial f} {\partial x} cos \alpha + \frac {\partial f} {\partial y} cos \beta \\ = (\frac {\partial f} {\partial x}, \frac {\partial f} {\partial y})\cdot(cos \alpha,cos \beta)\\ = grad f(x,y) \cdot e = \lvert grad f(x,y) \rvert cos \theta \]

其中\(\theta\)是方向与梯度之间的夹角

显然,要让上述的函数值最大,必须是让\(\theta\)为0,也就是单位方向与梯度方向重合。这时候的方向导数就是

\[ \frac {\partial f} {\partial l} = \lvert grad f(x,y) \rvert cos \theta \\ = \lvert grad f(x,y) \rvert \]

同理,可以证明出反方向就是最小的。这就是机器学习中常说的梯度下降的办法。

4 全微分

4.1 全微分

4.1.1 全微分的定义

如果函数\(z=f(x,y)\)在点\(P(x,y)\)的全增量

\[ \Delta z=f(x+\Delta x,y+\Delta y)-f(x,y) \]

可表示为

\[ \Delta z = A\Delta x + B\Delta y + o(\rho)(\rho \to 0) \]

其中A,B是不依赖于\(\Delta x\),\(\Delta y\),而仅仅与x,y有关,其中\(\rho\)

\[ \rho = \sqrt{(\Delta x)^2+(\Delta y)^2} \]

则称函数\(f(x,y)\) 在点\(P(x,y)\)处可微分(简称可微),而\(A\Delta x+B \Delta y\)称为函数\(f(x,y)\)在点\(P(x,y)\)处的全微分,记作\(dz\),即

\[ dz = A\Delta x + B \Delta y \]

跟一元的全微分定义一样,微分依然说的是函数增量的线性主要部分。

4.1.2 全微分定理

如果函数\(z=f(x,y)\)在点\((x,y)\)处的偏导数\(\frac {\partial z} {\partial x},\frac {\partial z} {\partial y}\)连续,则函数\(z=f(x,y)\)在点\((x,y)\)处可微,并且有

\[ dz = \frac {\partial z} {\partial x}\Delta x + \frac {\partial z} {\partial y} \Delta y \]

证明略

要注意的是,微分符号不是整体符号,其可以自己独立运算的,不像偏导数符号是独立的整体符号。

4.1.3 一阶微分不变性

设函数\(z=f(u,v)\)具有连续的偏导数,则无论u和v是自变量,还是中间变量的函数,都满足全微分

\[ dz = \frac {\partial z} {\partial x}d x + \frac {\partial z} {\partial y} d y \]

证明:

当u,v是自变量时

\[ dz = \frac {\partial z} {\partial u}d u + \frac {\partial z} {\partial v} d v \]

是显然成立的

当u,v是中间变量函数时,设u=u(x,y),v=(x,y),则有

\[ dz = dz(u(x,y),v(x,y)) \\ = (\frac {\partial z} {\partial u} \cdot \frac {\partial u} {\partial x} + \frac {\partial z} {\partial v} \cdot \frac {\partial v} {\partial x})\cdot dx + (\frac {\partial z} {\partial u} \cdot \frac {\partial u} {\partial y} + \frac {\partial z} {\partial v} \cdot \frac {\partial v} {\partial y}) \cdot dy \\ = \frac {\partial z} {\partial u}(\frac {\partial u} {\partial x}\cdot dx + \frac {\partial u}{\partial y}\cdot dy) + \frac {\partial z} {\partial v}(\frac {\partial v} {\partial x}\cdot dx + \frac {\partial v}{\partial y}\cdot dy) \\ = \frac {\partial z} {\partial u} du + \frac {\partial z} {\partial v} dv \]

所以,得证

4.1.4 多阶微分变性

为了衬托多阶微分下,不存在形式不变性,我们假设

\[ z = f(u) \]

当u是自变量时

\[ du = f'(u)du \]

当u是中间变量时,设\(u=g(x)\),则

\[ du = d[f(g(x))] \\ = f'[g(x)]g'(x)dx \\ = f'[g(x)] d[g(x)] \\ = f'(u)du \]

一元下的一阶微分形式不变性成立,下面我们证二阶微分

当u是自变量时

\[ d^2u = d^2[f(u)] \\ = f''(u)du^2 \]

当u是中间变量时,设\(u=g(x)\),则

\[ d^2u = d^2[f(g(x))] \\ = d[f'(g(x))g'(x)dx] \\ = [f''g(x)g'(x)g'(x)+f'(g(x))g''(x)]dx^2 \\ = f''(g(x))g'(x)g'(x)dx^2+f'(g(x))g''(x)dx^2\\ = f''(g(x))[dg(x)]^2 + f'(g(x))d^2g(x)\\ = f''(u)du^2 + f'(u)d^2u \]

看,二阶情况下多阶的微分是不成立的。所以,一阶微分不变性不是一个废话,它是有道理的。它提示了我们在计算多阶微分时需要考虑变量是自变量还是中间变量,但在一阶微分时就不需要考虑。

4.2 切线与切平面

4.2.1 曲线的切线

设空间曲线\(\Gamma\)由参数方程\(x=\varphi(t),y=\psi(t),z=\omega(t)\)给出,其中\(\alpha <= t <= \beta\),其中三个函数都可导且导数不全为零。那么,曲线\(\Gamma\)取对应于参数\(t=t_0\)的一点\(M(x_0,y_0,z_0)\)的切线向量为

\[ T = (\varphi'(t_0),\psi'(t_0),\omega'(t_0)) \]

证明略

4.2.2 曲面的切平面

设曲面\(\Sigma\)由方程\(F(x,y,z)=0\),那么曲面\(\Sigma\)取一点\(M(x_0,y_0,z_0)\)的切平面法向量为

\[ n = (F_x(x_0,y_0,z_0),F_y(x_0,y_0,z_0),F_z(x_0,y_0,z_0)) \]

证明略

4.3 极值

4.3.1 极值的定义

设函数\(z=f(x,y)\)在点\(P_0(x_0,y_0)\)的某个邻域\(U(P_0)\)内有定义。对于去心邻域\(\dot{U}(P_0)\)内的任一点(x,y),如果满足不等式

\[ f(x,y)<f(x_0,y_0)(或f(x,y)>f(x_0,y_0)) \]

则称函数\(z=f(x,y)\)在点\(P_0(x_0,y_0)\)处取得最大值(或最小值)

从定义可以看出,跟一元函数的极值定义相似

4.3.2 极值定理

设函数\(z=f(x,y)\)在点\((x_0,y_0)\)处具有偏导数,且在\((x_0,y_0)\)处取得极值,则它在该点的两偏导数必然为零,即

\[ f_x(x_0,y_0)=0,f_y(x_0,y_0) = 0 \]

证明略

4.2.3 拉格朗日乘数法

设函数\(f=f(x,y,z)\)在条件\(g(x,y,z)=0\)下取得极值,则先构造辅助函数

\[ F(x,y,z,\lambda) = f(x,y,z) + \lambda g(x,y,z) \]

则该f函数在g条件下的极值点与F函数的极值点相同,即解方程组

\[ \begin{cases} f_x(x,y,z)+\lambda g_x(x,y,z) = 0\\ f_y(x,y,z)+\lambda g_y(x,y,z) = 0\\ f_z(x,y,z)+\lambda g_z(x,y,z) = 0\\ g(x,y,z)=0 \\ \end{cases} \]

即可求得条件极值下的驻点(x,y,z)

证明:

\(g(x,y,z)=0\) 则可化简为\(z=\varphi(x,y)\) 则代入原来方程中,显然有

\[ g(x,y,\varphi(x,y)) = 0 \]

分别求x,y的偏导数有

\[ g_x+g_z\cdot \frac {\partial \varphi} {\partial x} = 0 \\ g_y+g_z\cdot \frac {\partial \varphi} {\partial y} = 0 \\ \]

如果代入到f方程中,则有

\[ f(x,y,\varphi(x,y)) \]

求f函数的极值相当于求以上方程的极值,则分别对x,y的偏导数有

\[ f_x+f_z\cdot \frac {\partial \varphi} {\partial x} = 0 \\ f_y+f_z\cdot \frac {\partial \varphi} {\partial y} = 0 \\ \]

联立四方程式,消去偏导数则有

\[ \begin{cases} f_x+f_z\cdot\frac {-g_x} {g_z} = 0 \\ f_y+f_z\cdot\frac {-g_y} {g_z} = 0 \\ g(x,y,z)=0 \end{cases} \]

即可求得x,y,z的值,但这个做法不太好记忆,我们将\(-\frac {f_z} {g_z}\)提取出来为\(\lambda\),变为

\[ \begin{cases} f_x + \lambda g_x = 0\\ f_y + \lambda g_y = 0\\ f_z + \lambda g_z = 0\\ g(x,y,z)=0 \\ \end{cases} \]

则解出\(x,y,z,\lambda\)跟原来的方程组等价,且该方程组刚好就是构造函数\(F(x,y,z,\lambda) = f(x,y,z) + \lambda g(x,y,z)\)的极值点,所以得证。

拉格朗日乘数法是一个非常常用的求条件极值的方法,机器学习经常套用了这个方法。

相关文章