桃李

正式用户

最新动态 [隐身]

  1. 2月前
    2018-11-21 20:34:59

    行列式的定义,和它的几何意义之间的联系并不是很明显.
    本文将讲解说明,为什么把 N 维空间中由 N 个向量张成的图形的 N 维体积定义为行列式的值是合理的.
    传统线性代数课程是从行列式开始讲的, 而行列式这个定义就好似天上掉下来一般地莫名其妙. 如果去查为什么会有这样的定义, 网上各路科普就会拿出2维, 3维欧氏空间来证明, 行列式的绝对值为什么同体积相等, blahblahblah, ...
    可是这样的解释并不能令人满意, 问题有以下三点:
    (1) 证明行列式和体积相等的方法往往是硬算, 毫无启发性
    (2) 这样的解释都局限在低维空间中, 无法向高维推广
    (3) 这样的解释都局限在欧式空间中, 而行列式与内积无关
    我们可以循序渐进地先来考虑一下 (1)(2) 要如何解决, 暂时先不管 (3). 如果想要让行列式的定义和它在欧氏空间中的几何意义联结地更加清楚明暸, 应该怎样做?
    首先考虑二阶行列式. 设欧氏空间中有向量 \(\mathbf{v} = (a,b)\), \(\mathbf{w} = (c,d)\), 问 \(\mathbf{v}\) 和 \(\mathbf{w}\) 所张成的平行四边形的面积有多大? 是否等于行列式 \(\mathrm{det}(\mathbf{v},\mathbf{w})\) 的值?
    李尚志《线性代数》给出了这样一种做法:
    把 \(\mathbf{v}\) 和 \(\mathbf{w}\) 的起点都移到平面上某个点 \(A\) 上, 设它们的终点分别为 \(B, C\). 此时有 \(\overrightarrow{AB}=\mathbf{v}=(a,b)\), \(\overrightarrow{AC}=\mathbf{w}=(c,d)\).
    [attachment:5bf54d7f75f05]
    将 \(\overrightarrow{AB}\) 逆时针旋转 \(90^{\circ}\), 得到 \(\overrightarrow{AB'}=(-b,a)\).
    于是有
    \[
                  \begin{aligned}
                  & 两个向量所张平行四边形的面积 \\
                  =\; & 底AB \times 底AB上的高 \\
                  =\; & |AB| \times AC在AB'上的投影 \\
                  =\; & |AB'| \times AC在AB'上的投影 \\
                  =\; & |\overrightarrow{AB'} \cdot \overrightarrow{AC}| \\
                  =\; & |(-b,a) \cdot (c, d)| \\
                  =\; & |-bc+ad| \\
                  =\; & |ad-bc|
                  \end{aligned}
    \]
    可见, 所求面积与行列式的绝对值相等.
    上面这个做法给我们一个提示: 在欧氏空间中, 可利用内积来构建行列式.
    两个向量张成的一个平行四边形的体积, 可以通过最基本的体积公式 \(底 \times 高\) 来求出. 具体的操作是, 先取出一个向量作为(斜)高, 剩下的向量作为底. 构造出一个与底垂直的向量, 它的长正好与底边的长相等, 再用它去同斜高做内积, 就得到了面积.
    顺着这个思路继续思考, 假如维数要上升, 怎么办? 现在换成了三个向量张成的一个平行六面体, 要求它的体积, 怎么做?
    [attachment:5bf54dd22a5bd]
    我们也先取一个向量做为斜高, 剩下的向量作为底. 类比一下就知道, 现在需要构造一个与底面垂直的向量, 并且它的长正好等于底面积. 拿这个向量同斜高做内积就可以得到体积. 于是很自然地想到, 这个需要构造的向量, 正是底边两个向量的外积(叉积). 这样算得的体积应该会等于这三个向量拼成的三阶行列式的绝对值. 计算过程这里就不细说了.
    三维的问题解决了. 顺着这个思路, 能不能把任意维数都解决呢? 假使现在有 \(N\) 个 \(N\) 维向量张成了一个平行???面体, 要求它的 \(N\) 维体积, 怎么做? 如果按照之前的思路, 取高再取底的话, 那么怎样构造一个向量, 使之垂直于给定的 \(N-1\) 个向量, 大小又要等于这 \(N-1\) 个向量张成的 \(N-1\) 维体积? 换句话说就是要怎样推广外积, 把外积的定义扩展到一般的 \(N\) 维欧氏空间中? 如果成功的话, 我们就能用 \(N-1\) 维体积定义 \(N\) 维体积, 即用 \(N-1\) 阶行列式定义 \(N\) 阶行列式. 如果你真的去这样尝试了, 就会发现这个定义其实和 Laplace 展开完全是一回事.
    然而, 推广外积并非那么容易, 即便费九牛二虎之力推广成功了, 得到的结果也只能局限在欧氏空间中, 所以并不是很划算.
    现在我们来转换一下思路, 从欧氏空间的小圈子里跳出来, 考虑一下一般的向量空间. 如果我们能在一般的空间中解决问题 (1), 问题 (2)(3) 也就被自然地解决了.
    那么要解决问题 (1), 另一个新问题马上迎面而来: 一般的向量空间中的体积到底是什么东西? 没有几何背景, 如何讨论体积?
    其实并不是非要有几何背景才能讨论体积. 如果某个抽象的东西能够满足体积应有的一切性质, 我们也可以把它称为体积. 于是我们接下来要做的就是, 找到体积应该满足的性质, 然后证明行列式满足这些性质, 并且满足这些性质的概念也只有行列式.
    我们把 \(N\) 维向量空间中的 \(N\) 个向量 \(\mathbf{v}_1, \mathbf{v}_2, \cdots, \mathbf{v}_n\) 所张成 \(N\) 维形体的 \(N\) 维有向体积记作 \(\mathrm{vol}(\mathbf{v}_1, \mathbf{v}_2, \cdots, \mathbf{v}_N)\), 并把 \(\mathrm{vol}\) 这个函数称为体积函数. 如果这个函数名副其实的话, 它必须满足以下性质:
    (1) \(\mathrm{vol}(\cdots, k \mathbf{v}_i,\cdots) = k\;\cdot\mathrm{vol}(\cdots, \mathbf{v}_i,\cdots)\)
    (2) \(\mathrm{vol}(\cdots, \mathbf{v}_i+\mathbf{u}, \cdots) = \mathrm{vol}(\cdots, \mathbf{v}_i,\cdots) + \mathrm{vol}(\cdots, \mathbf{u},\cdots)\)
    (3) 若 \(i \neq j\), \(\mathbf{v}_i=\mathbf{v}_j\), 则必有 \(\mathrm{vol}(\cdots, \mathbf{v}_i, \cdots, \mathbf{v}_j,\cdots) = 0\)
    解释:
    (1) 在这 \(N\) 个向量中, 任何一个向量都可做斜高(同时让其余向量做底). 把斜高伸展 \(k\) 倍, 体积必伸展 \(k\) 倍, 否则就很难把这个函数称为体积函数. 此时 \(k\) 可以是任意标量, 它不一定是正数, 因为在一般的域中没办法定义什么是正数. 同理, 体积也不一定是正数, 于是在实数域上这里所定义的体积就变成了有向体积.
    (2) 在这 \(N\) 个向量中, 任何一个向量都可做斜高(同时让其余向量做底). 我们知道, 面积等于高乘以底, 其中高是斜高在某个方向的投影, 并且投影是可加的, 即两个向量之和的投影等于两个向量的投影之和. 设向量 \(\mathbf{x}\) 在高上的投影为 \(\mathrm{p}(\mathbf{x})\), 则有:
    \[
                        \begin{aligned}
                        & \mathrm{vol}(\cdots, \mathbf{v}_i+\mathbf{u}, \cdots) \\
                        =\; & \mathrm{p}(\mathbf{v}_i+\mathbf{u}) \times 底 \\
                        =\; & \left ( \mathrm{p}(\mathbf{v}_i) + \mathrm{p}(\mathbf{u}) \right ) \times 底 \\
                        =\; & \mathrm{p}(\mathbf{v}_i) \times 底 + \mathrm{p}(\mathbf{u}) \times 底 \\
                        =\; & \mathrm{vol}(\cdots, \mathbf{v}_i,\cdots) + \mathrm{vol}(\cdots, \mathbf{u}, \cdots)
                        \end{aligned}
    \]
    简单地说就是「高相加则体积相加」. 如果这条性质不成立, 也是很难把这个函数称为体积函数的.
    (3) 如果这 \(N\) 个向量中有两个向量是相等的, 那么这 \(N\) 个向量就线性相关了, 它们最多张成一个 \(N-1\) 维形体, 而绝不可能张成一个 \(N\) 维形体. 因此, 它们所张成的形体的 \(N\) 维体积必然为零, 就好比点和线段都没有面积, 平面图形没有(3维)体积一样. 否则, 体积函数就名不副实了.
    此外, 从以上三条性质还可推出另一条关键性质:
    \[
                \forall\;i,j,\; \mathrm{vol}(\cdots, \mathbf{v}_i, \cdots, \mathbf{v}_j, \cdots) + \mathrm{vol}(\cdots, \mathbf{v}_j, \cdots, \mathbf{v}_i, \cdots) = 0
    \]
    即: 交换两个向量的位置得到的新体积是原体积的相反数(加法负元). 这是不是跟行列式很接近了? 我们来看看这个性质为何会成立:
    \[
                \begin{aligned}
                & \mathrm{vol}(\cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots) + \mathrm{vol}(\cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots) \\
                =\;& +\mathrm{vol}(\cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots) + 0 \\
                & + \mathrm{vol}(\cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots) + 0 \\
                =\;& +\mathrm{vol}(\cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots) + \mathrm{vol}(\cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots) \\
                & + \mathrm{vol}(\cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots) + \mathrm{vol}(\cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots) \\
                =\;& +\mathrm{vol}(\cdots, {\color{{Red}}\mathbf{{v}}_i}, \cdots, {\color{{Blue}}\mathbf{{v}}_j}+{\color{{Red}}\mathbf{{v}}_i}, \cdots) \\
                & + \mathrm{vol}(\cdots, {\color{{Blue}}\mathbf{{v}}_j}, \cdots, {\color{{Red}}\mathbf{{v}}_i}+{\color{{Blue}}\mathbf{{v}}_j}, \cdots) \\
                =\;& \mathrm{vol}(\cdots, {\color{{Red}}\mathbf{{v}}_i}+{\color{{Blue}}\mathbf{{v}}_j}, \cdots, {\color{{Blue}}\mathbf{{v}}_j}+{\color{{Red}}\mathbf{{v}}_i}, \cdots) \\
                =\;& 0
                \end{aligned}
    \]
    可以看出, 这条性质是性质 (2) 和性质 (3) 的一个推论. 现在我们就来证明, 行列式是唯一一个满足上述所有性质的函数. 怎么证明呢? 其实我们可以通过上述性质, 直接写出体积函数的具体表达式. 如此一来体积函数当然也就唯一确定了.
    简单起见我们先从2维向量空间入手. 设二维向量空间有一组基底 \((\mathbf{x}, \mathbf{y})\), 那么这个向量空间中的任何向量都可以写成 \(\mathbf{x}\) 和 \(\mathbf{y}\) 的线性组合. 因为讨论体积总要有个单位, 我们这里就假定 \(\mathrm{vol}(\mathbf{x}, \mathbf{y}) = 1\). 设
    \[
                \begin{aligned}
                \mathbf{v} &= (a,b) = a \mathbf{x} + b \mathbf{y} \\
                \mathbf{w} &= (c,d) = c \mathbf{x} + d \mathbf{y}
                \end{aligned}
    \]
    则有
    \[
                \begin{aligned}
                & \mathrm{vol}(\mathbf{v},\mathbf{w}) \\
                =\;& \mathrm{vol}(a \mathbf{x} + b \mathbf{y}, c \mathbf{x} + d \mathbf{y}) \\
                =\;& \mathrm{vol}(a \mathbf{x}, c \mathbf{x} + d \mathbf{y}) + \mathrm{vol}(b \mathbf{y}, c \mathbf{x} + d \mathbf{y}) \\
                =\;& \mathrm{vol}(a \mathbf{x}, d \mathbf{y}) + \mathrm{vol}(b \mathbf{y}, c \mathbf{x}) \\
                =\;& ad\cdot\mathrm{vol}(\mathbf{x}, \mathbf{y}) + bc\cdot\mathrm{vol}(\mathbf{y}, \mathbf{x}) \\
                =\;& ad\cdot\mathrm{vol}(\mathbf{x}, \mathbf{y}) - bc\cdot\mathrm{vol}(\mathbf{x}, \mathbf{y}) \\
                =\;& (ad-bc)\cdot\mathrm{vol}(\mathbf{x}, \mathbf{y}) \\
                =\;& ad-bc
                \end{aligned}
    \]

    \[
                \mathrm{vol}\left(
                \begin{bmatrix}a\\b\end{bmatrix},
                \begin{bmatrix}c\\d\end{bmatrix}
                \right)
                = \begin{vmatrix}
                a & c\\
                b & d
                \end{vmatrix}
    \]
    其实无非就是把体积函数根据性质 (1)(2) 展开, 然后再根据交换变号的性质, 把逆序的 \(\mathrm{vol}(\mathbf{y}, \mathbf{x})\) 转换成了自然顺序的 \(\mathrm{vol}(\mathbf{x}, \mathbf{y})\)(已知), 从而求出结果.
    再看一般的3维向量空间. 设三维向量空间中有基底 \((\mathbf{x},\mathbf{y},\mathbf{z})\), 并且 \(\mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})=1\). 设有向量
    \[
                \begin{aligned}
                \mathbf{u} &= (a,b,c) = a \mathbf{x} + b \mathbf{y} + c \mathbf{z} \\
                \mathbf{v} &= (d,e,f) = d \mathbf{x} + e \mathbf{y} + f \mathbf{z} \\
                \mathbf{w} &= (g,h,i) = g \mathbf{x} + h \mathbf{y} + i \mathbf{z}
                \end{aligned}
    \]
    则有
    \[
                \begin{aligned}
                & \mathrm{vol}(\mathbf{u},\mathbf{v},\mathbf{w}) \\
                =\;& \mathrm{vol}(a\mathbf{x}+b\mathbf{y}+c\mathbf{z},d\mathbf{x}+e\mathbf{y}+f\mathbf{z},g\mathbf{x}+h\mathbf{y}+i\mathbf{z}) \\
                =\;& + \mathrm{vol}(a\mathbf{x},e\mathbf{y}+f\mathbf{z},h\mathbf{y}+i\mathbf{z}) \\
                & + \mathrm{vol}(b\mathbf{y},d\mathbf{x}+f\mathbf{z},g\mathbf{x}+i\mathbf{z}) \\
                & + \mathrm{vol}(c\mathbf{z},d\mathbf{x}+e\mathbf{y},g\mathbf{x}+h\mathbf{y}) \\
                =\;& + a\cdot\mathrm{vol}(\mathbf{x},e\mathbf{y}+f\mathbf{z},h\mathbf{y}+i\mathbf{z}) \\
                & + b\cdot\mathrm{vol}(\mathbf{y},d\mathbf{x}+f\mathbf{z},g\mathbf{x}+i\mathbf{z}) \\
                & + c\cdot\mathrm{vol}(\mathbf{z},d\mathbf{x}+e\mathbf{y},g\mathbf{x}+h\mathbf{y}) \\
                =\;& + a \cdot (
                \mathrm{vol}(\mathbf{x},e\mathbf{y},i\mathbf{z})
                + \mathrm{vol}(\mathbf{x},f\mathbf{z},h\mathbf{y})
                ) \\
                & + b \cdot (
                \mathrm{vol}(\mathbf{y},d\mathbf{x}+i\mathbf{z})
                + \mathrm{vol}(\mathbf{y},f\mathbf{z},g\mathbf{x})
                ) \\
                & + c \cdot (
                \mathrm{vol}(\mathbf{z},d\mathbf{x},h\mathbf{y})
                + \mathrm{vol}(\mathbf{z},e\mathbf{y},g\mathbf{x})
                ) \\
                =\;& + a \cdot (
                ei \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                + fh \cdot \mathrm{vol}(\mathbf{x},\mathbf{z},\mathbf{y})
                ) \\
                & + b \cdot (
                di \cdot \mathrm{vol}(\mathbf{y},\mathbf{x},\mathbf{z})
                + fg \cdot \mathrm{vol}(\mathbf{y},\mathbf{z},\mathbf{x})
                ) \\
                & + c \cdot (
                dh \cdot \mathrm{vol}(\mathbf{z},\mathbf{x},\mathbf{y})
                + eg \cdot \mathrm{vol}(\mathbf{z},\mathbf{y},\mathbf{x})
                ) \\
                =\;& + a \cdot (
                ei \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                - fh \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                ) \\
                & + b \cdot (
                di \cdot \mathrm{vol}(\mathbf{y},\mathbf{x},\mathbf{z})
                - fg \cdot \mathrm{vol}(\mathbf{y},\mathbf{x},\mathbf{z})
                ) \\
                & + c \cdot (
                dh \cdot \mathrm{vol}(\mathbf{z},\mathbf{x},\mathbf{y})
                - eg \cdot \mathrm{vol}(\mathbf{z},\mathbf{x},\mathbf{y})
                ) \\
                =\;&
                + aei \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                - afh \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                \\
                &
                - bdi \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                + bfg \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                \\
                &
                + cdh \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                - ceg \cdot \mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})
                \\
                =\;&
                + aei - afh
                \\
                &
                - bdi + bfg
                \\
                &
                + cdh - ceg
                \\
                \end{aligned}
    \]

    \[
                \mathrm{vol}\left(
                \begin{bmatrix} a\\b\\c \end{bmatrix},
                \begin{bmatrix} d\\e\\f \end{bmatrix},
                \begin{bmatrix} g\\h\\i \end{bmatrix}
                \right)
                =
                \begin{vmatrix}
                a & d & g \\
                b & e & h \\
                c & f & i
                \end{vmatrix}
    \]
    三维的情况复杂了许多, 但规律是可以掌握的. 展开体积函数之后我们得到了 \(\mathrm{vol}(?,?,?)\) 的线性组合, 其中 \(?,?,?\) 是基向量 \(\mathbf{x},\mathbf{y},\mathbf{z}\) 的各种全排列. 自然顺序的 \(\mathrm{vol}(\mathbf{x},\mathbf{y},\mathbf{z})\) 是已知的, 所以要求值就只需要把每个排列通过一步一步的元素交换排回自然顺序就可以了. 如果所需的交换次数是奇数, 这一个排列所在那一项就会变号, 那一项最终的值是 \(-1\); 如果所需的交换次数是偶数次, 那么就不会变号, 那一项最终的值是 \(1\). 最终的结果就是这些 \(-1\) 和 \(1\) 的线性组合.
    有了2维和3维空间中的体积, \(n\) 维空间中体积的定义也就呼之欲出了:
    \[
                \mathrm{vol}(\mathbf{v}_1,\cdots,\mathbf{v}_n)
                =
                \left (
                \sum_{i=1}^{n!} \mathrm{sgn}(\sigma_i)\prod_{j=1}^{n} \left ( \mathbf{v}_{j} \right )_{\sigma_i(j)}
                \right) \cdot
                \mathrm{vol}(\mathbf{e}_1,\cdots,\mathbf{e}_n)
    \]
    其中
    (1) \(\sigma_i\) 是指 \(1,2,3,\cdots,n\) 的第 \(i\) 种排列(一共有 \(n!\) 种排列)
    (2) \(\mathrm{sgn}(\sigma_i)\) 取值 \(\pm 1\), 把 \(\sigma_i\) 调换回自然顺序时, 若需要奇数次元素交换, 则取值 \(-1\), 否则取值 \(+1\)
    (3) \(\sigma_i(j)\) 是指在第 \(i\) 个排列中处在第 \(j\) 个位置上的数
    (4) \((\mathbf{v}_j)_{\sigma_i(j)}\) 是指 \(\mathbf{v}_j\) 在基底 \((\mathbf{e}_1,\cdots,\mathbf{e}_n)\) 下的第 \(\sigma_i(j)\) 个座标
    如果设 \(\mathrm{vol}(\mathbf{e}_1,\cdots,\mathbf{e}_n)=1\), 那么就可以求出具体值
    \[
                \mathrm{vol}(\mathbf{v}_1,\cdots,\mathbf{v}_n)
                =
                \sum_{i=1}^{n!} \mathrm{sgn}(\sigma_i)\prod_{j=1}^{n} \left ( \mathbf{v}_{j} \right )_{\sigma_i(j)}
    \]
    可以看到, 这个定义同教科书上对 \(n\) 阶行列式的定义是全完一致的, 只是有一个细节要说明一下. 教科书上一般会用逆序对的个数的奇偶性来定义排列 \(\sigma_i\) 的符号 \(\mathrm{sgn}(\sigma_i)\), 这个定义和本文中的定义是等价的, 详情可参考维基百科 Parity_of_a_permutation#Proof_4, 此处不再赘述. 总之, 排列的符号、系数的排列组合, 这些在行列式的定义中出现的东西并非空穴来风, 它们都可以从体积应该满足的几何性质中推导出来, 没什么好奇怪的.

  2. 6月前
    2018-07-12 16:33:17

    @dtq1997 [attachment:5b450525dac2d]
    有点懒,截了个图。

    其实我的哲学就是,人类数学的本质其实就是这些直观思考,严格化只是对这种思考方式的某种必要保证。

    确实,这个证明比课本上的证明要简洁清晰许多,印证了基于几何观察的证明会比代数操作更容易把握思路这一点。

    对于「几何解释」这种东西本身的意义我也感触颇深。现在的数学书有很大一个问题就是,只是单纯的罗列数式,很少去讲一个证明背后的思路是怎样的。这样会导致读者的注意力过于集中在运算过程上,忽略掉对结论成立的内在原因的思考,再过一段时间之后就完全不记得如何证明了。寻找几何解释是解决这个问题的途径之一。但是由于几何解释并不总能反映问题的本质,有很多「强行解释」,本身严格性也有所欠缺,因此往往不被重视,最后沦为敷衍初学者的工具,在正经的教材里还是难以见到。

    举个例子,线性代数。其实线性代数的主题就是研究线性映射,矩阵只是线性映射的一种具体表示。然而因为历史原因,线性代数的入门理论都是基于解方程组、初等变换以及行列式运算的,导致了这门课的教学严重地偏离了本质上讨论,变成了一门算术课。于是网上就流传各种质量堪忧的几何解释。为什么说质量堪忧呢。把一个 2×2 矩阵拿出来,演示一下 \(\mathbb{R}^2\) 上的线性变换,这就算反映本质了吗?不算,因为它还停留在「为矩阵、行列式找一个几何解释」这个阶段,而没有注意到其实真正的研究对象根本不是矩阵、行列式,而是线性映射。但这并不意味着这种几何解释就没有价值。如果编课本的时候就从线性映射讲起,然后再配一些平面和空间中的具体例子,用心画一些图,可以说效果应该会比现在好很多,可是真正这么做的人根本没有。即便是 linear algebra done right 这本从线性映射开始讲的书,整本书里的图也是少得可怜,可见作者完全不把几何直观当回事。

    所以我觉得这是一个应该改进的地方,就是要重视几何对于理解的帮助,而不是因为几何不严密就轻视几何。

  3. 2018-07-08 21:43:57
    桃李 发表了帖子 洛必达法则的几何解释

    所谓「洛必达法则」,就是洛必达从伯努利那里买到的那个定理,是说了这么一件事:

    定理 1 如果 \( \lim_\limits{x \to x_0} \frac{f(x)}{g(x)} \) 是未定式, \( \lim_\limits{x \to x_0} \frac{f'(x)}{g'(x)} \) 存在或发散到无穷,则 \( \lim_\limits{x \to x_0} \frac{f(x)}{g(x)} = \lim_\limits{x \to x_0} \frac{f'(x)}{g'(x)} \)

    定理 1' 如果 \( \lim_\limits{x \to \pm\infty} \frac{f(x)}{g(x)} \) 是未定式, \( \lim_\limits{x \to \pm\infty} \frac{f'(x)}{g'(x)} \) 存在或发散到无穷,则 \( \lim_\limits{x \to \pm\infty} \frac{f(x)}{g(x)} = \lim_\limits{x \to \pm\infty} \frac{f'(x)}{g'(x)} \)

    一般在教材中会采用柯西中值定理配合一些代数技巧给出证明,过程比较繁琐。所以在网上的各种微积分教程里面基本上都会给出一个直观的几何解释。

    比如,3b1b 讲的这个:

    [attachment:5b42109fa6e5d]

    然而问题就在于,这些所谓的「直观解释」,只解释了四分之一。他们的解释大概是基于这样的思路:

    设 \( f(x_0)=g(x_0)=0 \)

    \( \lim_\limits{x \to x_0} \frac{f(x)}{g(x)} = \lim_\limits{x \to x_0} \frac{f(x_0)+f'(x_0)(x-x_0)+o(x-x_0)}{g(x_0)+g'(x_0)(x-x_0)+o(x-x_0)} \)

    \( = \lim_\limits{x \to x_0} \frac{f'(x_0)(x-x_0)+o(x-x_0)}{g'(x_0)(x-x_0)+o(x-x_0)} \)

    \( = \lim_\limits{x \to x_0} \frac{f'(x_0)+\frac{o(x-x_0)}{(x-x_0)}}{g'(x_0)+\frac{o(x-x_0)}{(x-x_0)}} \)

    \( = \frac{f'(x_0)}{g'(x_0)} \)

    这个思路首先就假定了 \( \frac{f(x)}{g(x)} \) 在 \(x\) 趋于 \(x_0\) 时是 \( \frac{0}{0} \) 型的未定式而不能是 \( \frac{\infty}{\infty} \) 型的,而且 \(x_0\) 不可以看成无穷(如果 \(x_0\) 是无穷大,就没法把 \(f(x)\) 和 \(g(x)\) 在 \(x_0\) 处展开了)。做了这样的限定,原来的定理可不就只剩下四分之一了么。

    或许有人会想,四分之一就四分之一吧,反正不就是个解释吗?我们还有严格证明呢,无所谓的。

    可是,从头来说,我们给定理寻找几何意义的目的,相比于拿个不严密的解释敷衍初学者,更重要的是能通过几何获得一些更接近事物本质的观察,而不是只停留在代数技巧的层面。不过虽然我们的目的是这样的,但往往找到的几何解释却很牵强附会,更别说什么反映本质了。或者说只是一种特殊情形,就像刚才那个解释一样。所以现在我们就要给洛必达法则寻找一种更合适的几何解释。

    要找几何解释,首先就要把定理中涉及的量转化成几何量。

    定理中的量有:

    1. \( \lim_\limits{x \to x_0} \frac{f(x)}{g(x)} \) 是两个函数之比的极限。
    2. \( \lim_\limits{x \to x_0} \frac{f'(x)}{g'(x)} \) 是两个函数导函数之比的极限。

    试试把自变数 \(x\) 改名成 \(t\), 把 \(f\) 和 \(g\) 改成 \(y\) 和 \(x\):

    1. \( \lim_\limits{t \to t_0} \frac{y(t)}{x(t)} \) 是两个函数之比的极限。
    2. \( \lim_\limits{t \to t_0} \frac{y'(t)}{x'(t)} \) 是两个函数导函数之比的极限。

    emmm.......

    看出来了吗?如果把 \( (f(t), g(t)) \) 看成平面上运动的点,\( (f'(t), g'(t)) \) 就是这个动点的速度矢量,而 \(\frac{g'(t)}{f'(t)}\) 就是这个速度矢量的斜率,或者说轨迹线的切线的斜率。而 \( \frac{g(x)}{f(x)} \) 就是向径(以原点为起点的的位置矢量)的斜率。

    [attachment:5b421105a606b]

    这么看的话,洛必达法则说的就是:当时间趋于某个确定的时刻或无穷大时,如果这个点往原点跑 (\(\frac{g(t)}{f(t)}\to \frac{0}{0}\)), 或是往无穷远跑 (\(\frac{g(t)}{f(t)}\to \frac{\infty}{\infty}\)), 而且速度的方向又趋于一个确定的方向 (\(\frac{g'(t)}{f'(t)}\to \mathrm{const}\;\mathrm{or}\;\pm\infty\)), 那么向径的方向 \(\frac{g(t)}{f(t)}\) 就会跟速度的方向无限贴近,也趋于那个确定的方向 \(\mathrm{const}\;\mathrm{or}\;\pm\infty\).

    这个结论的成立从直觉上来看是比较显而易见的:

    时间取极限,动点的速度方向趋于某个固定方向,分两种情况

    1. 动点的位置趋于原点——从原点来看,动点肯定是从那个固定方向靠近的
    2. 动点的位置趋于无穷远——从原点来看,动点肯定是往那个固定方向远去的

    当然这只是单纯的直觉。接下来我们来做一些有依据的讨论。

    先考虑这个动点往原点跑的情况。设原点为 \(O\), 动点为 \(P\). 因为 \(P\) 点的极限位置是 \(O\), 所以 \(O\) 要么在 \(P\) 点的轨迹线上,要么是轨迹线上的一个可去间断点。总之无论如何都可以把轨迹线看成是通过 \(O\) 的. 因此向径的方向线(直线\(OP: y=\frac{g(t)}{f(t)}x\))就可以看成是一条过 \(O\) 点和 \(P\) 点的割线,轨迹线的割线。根据中值定理,轨迹线割线的斜率会等于轨迹线上 \(O\) 点和 \(P\) 点之间某一点的切线的斜率 \(\frac{g'(\tau)}{f'(\tau)}\),当 \(P\) 趋近于 \(O\) 时,由于轨迹线切线的斜率(即速度的方向)同某个常数(或无穷大)无限接近,割线的斜率自然就也和那个常数(或无穷大)无限接近了,也就是说 \(\lim_\limits{P\to O} \frac{g(t)}{f(t)} = \lim_\limits{P\to O} \frac{g'(t)}{f'(t)} = \mathrm{const}\;\mathrm{or}\;\pm\infty\).

    [attachment:5b4211c382110]

    另一种情况,如果这个点不是往原点跑,而是往无穷远处跑的话,因为轨迹线不再能保证经过 \(O\) 了,向径的方向线(直线\(OP\))就未必是割线了。这时候就要再多想一步。关键之处就是,虽然 \(OP\) 不是割线了,但是只要在轨迹线上取一个定点 \(P'\) 构造一条割线 \(P'P\), 再把 \(P\) 拉到足够远,割线 \(P'P\) 就会和直线 \(OP\) 在 \(P\) 点附近紧紧贴在一起,倾斜角、斜率也会趋于相同。为什么呢?因为 \(P\) 跑得实在太远了,在 \(P\) 看来,这一对定点 \(O\) 和 \(P'\),看着只像一个重合的点。正所谓近大远小。

     现在设 \(P(f(t),g(t))\) 向无穷远处运动,当 \(P\) 经过 \(P_0(f(t_0),g(t_0))\) 这个位置后,速度的方向(也就是轨迹线切线的斜率)\(\frac{g'(t)}{f'(t)}\) 与一个常数 \(k\) 可以任意接近。此时直线 \(P_0 P\) 是轨迹线的一条割线,且由中值定理,斜率同 \(k\) 也是可以任意接近的。再让 \(P\) 从 \(P_0\) 开始运动,它会往无穷远处走。设 \(P\) 走过 \(P_1(f(t_1),g(t_1))\) 点之后,\(P_0 P\) 和 \(OP\) 的斜率可以任意接近。那么此时 \(OP\) 的斜率就也可以同 \(k\) 任意接近。对于 \(\frac{g'(t)}{f'(t)}\) 趋于无穷大的情况也可做类似讨论,结论仍然成立。所以 \(\lim_\limits{P\to \infty} \frac{g(t)}{f(t)} = \lim_\limits{P\to \infty} \frac{g'(t)}{f'(t)} = \mathrm{const}\;\mathrm{or}\;\pm\infty\).

    [attachment:5b4211de189e9]

    也可以想像这样一个场景。假如你是一个站在原点的观察者,看着平面上一辆车往无穷远处开去。从某个时刻 \(t_0\) 开始,车几乎就是直直往东北开的(车头朝着东北,方向只有无穷小的摆动)。设 \(t_0\) 时车的位置在 \(P_0\) 点。因为这辆车要开往无穷远处,所以只要从 \(t_0\) 再经过足够的时间,车就可以离 \(P_0\) 和原点足够远,使得 \(P_0\) 和原点在车看来都在同一方向上。这时从车上看 \(P_0\), \(P_0\) 是直直往西南远去的(因为车是从 \(P_0\) 直直往东北开出的),那么由于在车看来 \(P_0\) 和原点在同一方向上,所以原点也是直直往西南远去的。因此从原点看来车就是直直往东北远去的,方向不会有大的摆动,也不可能跑去不同于东北的其它方向。

    再来看几个具体的例子。

    例 1 (\(\frac{0}{0}\) 型) \( \lim_\limits{x \to 0} \frac{x}{\mathrm{ln}(1+x)} \)

    设 \( P(\mathrm{ln}(1+t), t) \)

    \(P\) 点的轨迹方程为 \( y = \mathrm{e}^x-1 \)

    作图如下,可以看到当 \(t\) 趋于 \(0\) 时,虚线(向径的方向线)跟红箭头(速度矢量)趋于重合。

    (时间逆流了,其实无所谓,把 \(t\) 代换成 \(t'=\frac{1}{t}\) 就可以转化成正流了)

    [attachment:5b42124633f8f]

    例 2 (\(\frac{0}{0}\) 型) \( \lim_\limits{x \to +\infty} \frac{\mathrm{ln}(1+\frac{1}{x})}{\mathrm{arccot}(x)} \)

    设 \( P(\mathrm{arccot}(t), \mathrm{ln}(1+\frac{1}{t})) \)

    \(P\) 点的轨迹方程为 \( y = \mathrm{ln}(1+\mathrm{tan}(x)) \)

    作图如下,可以看到当 \(t\) 趋于 \(+\infty\) 时,向径的方向线跟速度矢量趋于重合。

    [attachment:5b42126e64114]

    例 3 (\(\frac{\infty}{\infty}\) 型) \( \lim_\limits{x \to +\infty} \frac{2x^2+x}{x^2+1} \)

    设 \( P(t^2+1, 2t^2+t) \)

    \(P\) 点的轨迹方程为 \( y = 2(x-1) + \sqrt{(x-1)} \)

    作图如下,可以看到当 \(t\) 趋于 \(+\infty\) 时,向径的方向线跟速度矢量趋于重合。

    [attachment:5b4212b8dd144]

    例 4 (\(\frac{\infty}{\infty}\) 型) \( \lim_\limits{x \to +\infty} \frac{\mathrm{e}^x}{x^3} \)

    设 \( P(t^3, \mathrm{e}^t) \)

    \(P\) 点的轨迹方程为 \( y = e^\sqrt[3]{x} \)

    作图如下,可以看到当 \(t\) 趋于 \(+\infty\) 时,向径的方向线跟速度矢量趋于重合。

    [attachment:5b4212d545860]

    注意在这个例子中,两个极限都不存在。为什么极限不存在,还能说这两个极限“相等”(都发散到无穷)呢?

    这是因为,从几何上来看,速度矢量的斜率表示它的方向,而斜率等于无穷大的方向,其实也只是三百六十度各个方向中的一个,并没有特殊性。

    所以既然向径的方向趋近于和速度矢量的方向一致,那么当速度矢量的方向趋于 \(y\) 轴正方向时,向径自然也就会贴近 \(y\) 轴。因此两个比的极限就都会趋于无穷。

    例 5 (\(\frac{\infty}{\infty}\) 型) (洛必达法则失效) \(\lim_\limits{x\to+\infty}\frac{x+\sin{x}}{x+\cos{x}}\)

    由于 \( \lim_\limits{x\to+\infty}\frac{x+\sin{x}}{x+\cos{x}} = \lim_\limits{x\to+\infty}\frac{1+\frac{\sin{x}}{x}}{1+\frac{\cos{x}}{x}} = \frac{1}{1} \)

    所以这个极限的值就是 \(1\). 然而,尝试使用洛必达法则后,得到

    \( 原极限 = \lim_\limits{x\to+\infty}\frac{1+\cos{x}}{1-\sin{x}} \)

    由于右边是个周期函数,极限不存在也不发散到无穷,所以等号不能成立,洛必达法则无法使用。

    因此,导数之比的极限不存在,原函数之比的极限也可能存在,洛必达法则只是判断极限的充分不必要条件。

    这一点从几何直观上来看会更清楚。设 \( P(t+\cos{t}, t+\sin{t}) \)

    作图如下,可以看到虽然速度矢量周期性摆动,方向并不收敛,但向径的指向却在振荡靠近直线 \(y=x\) 的方向。

    [attachment:5b421306e68ca]

  4. 2018-07-06 22:20:50
    桃李 加入了论坛