还没有笔记
选中页面文字后点击「高亮」按钮添加
好的,我将根据您提供的详细工作流程,对您输入的文本内容进行逐段、逐句、逐个公式的超详细解释。我将严格遵循您要求的结构,确保内容完整、不遗漏、不截断,并一次性在单个回复中提供所有解释。
📜 [原文1]
注意 $\mathbb{R}$ 和 $\mathbb{C}$ 之间的区别:对于 $n \in \mathbb{N}$,
(i) 每个非零复数 $z$ 恰好有 $n$ 个不同的 $n$ 次方根。
(ii) 如果 $n$ 是奇数,则每个实数 $t$ 恰好有一个实数 $n$ 次方根。
(iii) 如果 $n$ 是偶数,则实数 $t$ 如果 $t<0$ 则没有实数 $n$ 次方根;如果 $t=0$ 则恰好有一个实数 $n$ 次方根;如果 $t>0$ 则恰好有两个实数 $n$ 次方根 $\pm s$。
我们可以将上述关于 $n$ 次方根的讨论应用于复数 $1=\cos 0+i \sin 0$。
定义 3.4.6. 对于 $n \in \mathbb{N}$,定义 $\mu_{n}$,即 $n$ 次单位根,为集合
特别是,$\mu_{n} \subseteq U(1)$,即每个 $n$ 次单位根的绝对值都为 1。
这部分内容首先对比了在实数($\mathbb{R}$)和复数($\mathbb{C}$)域中开 $n$ 次方的不同情况,然后引出了一个在复数域中非常重要的概念——n次单位根。
公式:
整个公式的推导和理解:
这个公式是一个通过“描述法”来定义集合的例子。它精确地说明了要成为 $\mu_n$ 集合的一员,需要满足两个条件:
例如,对于 $\mu_4$ (4次单位根的集合):
所以,这个公式为我们提供了一个清晰、无歧义的标准来判断任何一个数是否为 n次单位根。
示例 1:n = 2 (二次单位根)
示例 2:n = 3 (三次单位根)
本段的核心是引入 n次单位根 的概念。它首先通过对比实数和复数开方的不同,强调了复数域的优越性(解的数量确定且完备),然后将这个思想聚焦于求解方程 $\zeta^n=1$,并正式定义了所有满足此方程的复数 $\zeta$ 的集合为 $\mu_n$。最后,通过简单的推导指出了所有 n次单位根 都在复平面的单位圆上这一基本几何性质。
n次单位根在数学中扮演着极其重要的角色,尤其是在群论、数论和傅里叶分析中。
想象一个钟表。钟面就是一个单位圆。
想象你在一个圆形的赛道(单位圆)上跑步。起点在 $(1,0)$ 的位置。
📜 [原文2]
由此可得:
命题 3.4.7. 对于 $n \in \mathbb{N}$,
因此 $\#\left(\mu_{n}\right)=n$。此外,
(i) 如果 $\zeta_{1}, \zeta_{2} \in \mu_{n}$,则 $\zeta_{1} \zeta_{2} \in \mu_{n}$。换句话说,$\mu_{n}$ 在乘法下是封闭的。
(ii) $1 \in \mu_{n}$。
(iii) 如果 $\zeta \in \mu_{n}$,则 $\zeta^{-1} \in \mu_{n}$。换句话说,$\mu_{n}$ 在取逆操作下是封闭的。
证明. (i) 通过将命题 3.4.4 应用于 $z=1$ 得到。(ii) 如果 $\zeta_{1}, \zeta_{2} \in \mu_{n}$,则 $\left(\zeta_{1} \zeta_{2}\right)^{n}=\zeta_{1}^{n} \zeta_{2}^{n}=1 \cdot 1=1$ 得到。(iii) 如果 $\zeta \in \mu_{n}$,则 $\left(\zeta^{-1}\right)^{n}=\zeta^{-n}=\left(\zeta^{n}\right)^{-1}=1^{-1}=1$ 得到。
这部分内容给出了 n次单位根 的具体计算公式,并证明了 n次单位根 的集合在复数乘法下构成一个群。
公式:
整个公式的推导在[逐步解释]部分已经详细说明。这个公式告诉我们,要找到所有的 n次单位根,我们只需要把单位圆 $360^\circ$ (即 $2\pi$ 弧度) 分成 $n$ 等份,从角度 0 开始,每一份取一个点,这些点的复数坐标就是所有的 n次单位根。
示例 1:n = 4 (四次单位根)
示例 2:n = 6 (六次单位根)
本段给出了计算所有 n次单位根 的显式公式 $e^{i \frac{2k\pi}{n}}$,其中 $k$ 取 $0, 1, \ldots, n-1$。这个公式表明共有 $n$ 个单位根。然后,通过简单的代数运算,证明了 n次单位根 的集合 $\mu_n$ 对于复数乘法是封闭的、包含单位元 1、并且每个元素的逆元也包含在内。这三个性质(加上复数乘法固有的结合律)表明,($\mu_n$, ×) 构成一个群,这是一个在抽象代数中至关重要的结论。
本段的目的是从上一段的抽象定义过渡到具体的计算和结构分析。
再次回到钟表的模型。公式 $\cos(\frac{2k\pi}{n})+i\sin(\frac{2k\pi}{n})$ 就是告诉你钟面上那 $n$ 个等分点的精确数学坐标。
想象一个切披萨的场景。
📜 [原文3]
备注 3.4.8. (i) $n$ 次单位根,看作 $\mathbb{R}^{2}$ 中的向量,是单位圆内接正 $n$ 边形的顶点,其中一个顶点位于 $(1,0)$。
(ii) 很容易看出,一旦我们找到一个非零复数 $z$ 的一个 $n$ 次方根 $u$,那么 $z$ 的所有 $n$ 次方根都是 $\zeta u$ 的形式,其中 $\zeta \in \mu_{n}$。也就是说,给定一个非零复数的任意两个 $n$ 次方根,它们之间相差一个 $n$ 次单位根的乘积。
警告:我们已经看到整数指数的常规规则适用于复数。然而,分数指数的常规规则(只要我们总是取正值,这些规则对正实数仍然成立)通常不适用于复数根;这与复数的 $n$ 次方根通常没有一个首选值的事实有关。例如,
这部分内容分为两个“备注”和一个“警告”,分别阐述了 n次单位根 的几何图像、其在求解一般复数开方中的应用,以及使用分数指数时需要注意的陷阱。
公式:
示例 1:几何意义 (n=5)
示例 2:求解 $w^3 = -8i$
本段内容极大地丰富了我们对 n次单位根 的理解。它从三个方面进行了阐述:
本段的目的是展示 n次单位根 这个概念的威力、美感和潜在的危险。
这是一个大的章节标题,下面将分为多个子部分进行解释。
📜 [原文4]
我们将简要提及线性代数的某些方面,其中大部分内容应该是熟悉的。我们将在第 7 章第 §2.2 节中给出更一般的处理方法,包括对以下一些结果的证明。
线性代数处理向量(即 $\mathbb{R}^{n}$ 的元素,我们此处将用粗体字母如 $\mathbf{v}$ 表示)和标量(换句话说,$\mathbb{R}$ 的元素)。(我们也可以根据需要使用 $\mathbb{C}^{n}$ 或 $\mathbb{Q}^{n}$,标量分别为 $\mathbb{C}$ 或 $\mathbb{Q}$。关键在于,对于我们用作标量的任何集合,我们都需要能够进行加、减、乘、除(除数不能为 0),并且加法和乘法的常规性质都成立。) 我们可以将两个向量相加:如果 $\mathbf{v}=\left(v_{1}, \ldots, v_{n}\right)$ 和 $\mathbf{w}=\left(w_{1}, \ldots, w_{n}\right) \in \mathbb{R}^{n}$,那么 $\mathbf{v}+\mathbf{w}=\left(v_{1}+w_{1}, \ldots, v_{n}+w_{n}\right)$。标量乘法定义如下:给定 $t \in \mathbb{R}$ 和 $\mathbf{v}=\left(v_{1}, \ldots, v_{n}\right) \in \mathbb{R}^{n}$,$t \mathbf{v}=\left(t v_{1}, \ldots, t v_{n}\right)$。注意,给定 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,那么 $\mathbf{v}+\mathbf{w} \in \mathbb{R}^{n}$ (两个向量的和是一个向量),而对于 $t \in \mathbb{R}, \mathbf{v} \in \mathbb{R}^{n}$,$t \mathbf{v} \in \mathbb{R}^{n}$ (当我们将向量与标量相乘时,结果是一个向量)。
这部分内容为回顾线性代数设定了基调,并定义了最基本的两个概念——向量和标量,以及它们之间的两种基本运算——向量加法和标量乘法。
假设我们在 $\mathbb{R}^3$ 空间中工作。
示例 1:向量加法
示例 2:标量乘法
示例 3:在复数向量空间 $\mathbb{C}^2$ 中运算
本段为线性代数的回顾打下了基础,清晰地定义了两个主角——向量和标量——以及它们之间的两种基本互动方式——向量加法和标量乘法。向量被具体化为 $\mathbb{R}^n$ 中的元素(一个数字列表),标量为 $\mathbb{R}$ 中的元素(单个数字)。加法按分量进行,乘法则是将标量分配到向量的每个分量。同时,通过提及 $\mathbb{C}^n$ 和 $\mathbb{Q}^n$,作者巧妙地为未来将这些概念推广到更抽象的、基于“域”的向量空间埋下了伏笔。
本段的目的是建立一个清晰、无歧义的出发点。在深入探讨线性无关、基、矩阵等更复杂的概念之前,必须先对最基本的元素和运算有一个共识。
📜 [原文5]
以下是向量加法和标量乘法的基本性质。通过使用实数加法和乘法的常规性质,它们很容易验证。
命题 4.1.1. (i) 向量加法是可交换和结合的,存在一个零向量 $\mathbf{0}=(0, \ldots, 0)$,并且每个向量 $\mathbf{v}$ 都有一个加法逆元 $-\mathbf{v}=(-1) \mathbf{v}=\left(-v_{1}, \ldots,-v_{n}\right)$。
(ii) 标量乘法满足:对于所有 $s, t \in \mathbb{R}$ 和 $\mathbf{v} \in \mathbb{R}^{n}$,$s(t \mathbf{v})=(s t) \mathbf{v}$ 且 $1 \mathbf{v}=\mathbf{v}$。
(iii) 有两个分配律的类比:对于所有 $s, t \in \mathbb{R}$ 和 $\mathbf{v} \in \mathbb{R}^{n}$,$(s+t) \mathbf{v}= s \mathbf{v}+t \mathbf{v}$;对于所有 $t \in \mathbb{R}$ 和 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,$t(\mathbf{v}+\mathbf{w})=t \mathbf{v}+t \mathbf{w}$。
这部分内容系统地罗列了向量加法和标量乘法所满足的8条基本运算法则。这些法则是构成一个“向量空间”的公理,也是进行一切线性代数运算的基础。作者指出,这些性质的证明都非常直接,因为它们本质上就是将向量运算拆解为分量上的实数运算,而实数的运算性质是我们所熟知的。
使用之前的例子:$\mathbf{v}=(1,2,3)$, $\mathbf{w}=(4,-1,0)$, $s=2$, $t=3$。
示例 1:向量加法交换律
示例 2:标量乘法结合律
示例 3:第一个分配律
示例 4:第二个分配律
本段罗列了定义在 $\mathbb{R}^n$ 上的向量加法和标量乘法所满足的8条基本性质。前4条说明了 $(\mathbb{R}^n, +)$ 是一个交换群;后4条则描述了标量乘法自身的性质以及它与向量加法是如何和谐互动的。这些性质共同构成了向量空间的公理体系,是所有线性代数理论的逻辑起点。
本段的目的是公理化向量运算。
想象你在玩一套积木。
这8条公理就是这套积木系统必须遵守的“物理定律”:
想象你在用一个绘图软件(比如Photoshop)。
📜 [原文6]
接下来我们回顾线性无关、张成、基和维数的标准定义:
定义 4.1.2. 给定 $\mathbb{R}^{n}$ 中的向量序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$,它们的线性组合是形式为 $\sum_{i=1}^{k} t_{i} \mathbf{v}_{i}$ 的表达式。$\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 的张成是所有线性组合的集合:
注意 $\mathbf{v}_{i} \in \operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$ 对于所有 $1 \leq i \leq k$ 都成立(取 $t_{j}=0, j \neq i$ 且 $t_{i}=1$)。根据逻辑或惯例,$\operatorname{span} \emptyset=\{\mathbf{0}\}$。
向量 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 是线性无关的,如果 $\sum_{i=1}^{k} t_{i} \mathbf{v}_{i}=\mathbf{0} \Longleftrightarrow t_{1}=\cdots=t_{k}=0$;它们是线性相关的,如果存在不全为 0 的 $t_{1}, \ldots, t_{k} \in \mathbb{R}$ 使得 $\sum_{i=1}^{k} t_{i} \mathbf{v}_{i}=\mathbf{0}$。很容易看出 $\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$ 仅取决于集合 $\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$,而 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 线性无关的性质取决于序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$(但与 $\mathbf{v}_{i}$ 的顺序无关)。例如,如果对于某些 $i \neq j$,$ \mathbf{v}_{i}=\mathbf{v}_{j}$,则该序列是线性相关的,因为 $\mathbf{v}_{i}-\mathbf{v}_{j}=1 \cdot \mathbf{v}_{i}+(-1) \cdot \mathbf{v}_{j}=\sum_{k \neq i, j} 0 \cdot \mathbf{v}_{k}+1 \cdot \mathbf{v}_{i}+(-1) \cdot \mathbf{v}_{j}=\mathbf{0}$。
序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k} \in \mathbb{R}^{n}$ 是一个基,如果它是线性无关的且 $\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\mathbb{R}^{n}$。等价地,每个向量 $\mathbf{w} \in \mathbb{R}^{n}$ 都可以唯一地写成 $\mathbf{v}_{i}$ 的线性组合。$\mathbb{R}^{n}$ 的标准基是 $\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$,其中 $\mathbf{e}_{i}$ 的分量除了第 $i$ 个分量为 1 外,其余都为 0。因此,每个向量 $\mathbf{v}=\left(v_{1}, \ldots, v_{n}\right)$ 都可以唯一地用标准基表示:$\mathbf{v}=\sum_{i=1}^{n} v_{i} \mathbf{e}_{i}$。
这部分内容定义了线性代数中四个相互关联的核心概念:线性组合、张成、线性无关和基。这些概念是描述和理解向量空间结构的关键。
公式:
整个公式的含义是:span{...} 这个集合,包含了所有你能通过选择不同的实数系数 $t_i$ 而构造出来的线性组合。
我们在 $\mathbb{R}^2$ 空间中举例。
示例 1:线性组合与张成
示例 2:线性无关与线性相关
示例 3:基
本段定义了线性代数的四个基石概念。线性组合是基本的“制造”向量的操作。张成是考察一组向量能“制造”出多大一片空间。线性无关/相关是考察一组向量内部是否存在“冗余”。而基,则是对一个向量空间的完美描述:它是一组最经济(线性无关,无冗余)的“原材料”(向量),通过它们却足以构建出整个空间(张成整个空间)。标准基是 $\mathbb{R}^n$ 中最直观的一组基。
这些概念是线性代数语言的“词汇”。没有它们,就无法精确地讨论向量空间的结构。
📜 [原文7]
以下是一个基本的线性代数事实:
命题 4.1.3. 令 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k} \in \mathbb{R}^{n}$。
(i) 如果 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 线性无关,则 $k \leq n$。
(ii) 如果 $\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\mathbb{R}^{n}$,则 $k \geq n$。
(iii) 如果 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 是 $\mathbb{R}^{n}$ 的基,则 $k=n$。
(iv) 如果 $k=n$,则 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{n}$ 线性无关 $\Longleftrightarrow \operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{n}\right\}=\mathbb{R}^{n} \Longleftrightarrow \mathbf{v}_{1}, \ldots, \mathbf{v}_{n}$ 是 $\mathbb{R}^{n}$ 的基。
(v) $\mathbb{R}^{n}$ 中任何一组线性无关的向量都可以扩展成 $\mathbb{R}^{n}$ 的基。如果 $\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}=\mathbb{R}^{n}$,那么存在一个序列 $\mathbf{v}_{i_{1}}, \ldots, \mathbf{v}_{i_{n}}$,其项是 $\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$ 的元素,并且它是一个基。
这部分内容陈述了关于维数、基、线性无关和张成之间关系的五个核心定理。这些定理构成了有限维向量空间理论的基石,虽然此处未提供证明,但它们是线性代数课程中的关键结论。
我们在 $\mathbb{R}^3$ 中举例 (n=3)。
本段的五个命题是有限维向量空间理论的核心。它们深刻地揭示了维数($n$)、向量个数($k$)、线性无关性、张成性以及基这些概念之间的内在联系。总结起来:
本段的目的在于建立向量空间的“宏观”理论。如果说之前的定义是“微观”的词汇,那么这些命-p ... (message truncated)
题是“宏观”的,那么这些命题就是联通宏观与微观的桥梁。它们将向量空间的整体属性(维数)与局部元素的性质(线性无关、张成)紧密地联系在一起,使得我们可以通过研究有限个向量来推断整个空间的结构。
📜 [原文8]
定义 4.1.4. $\mathbb{R}^{n}$ 的向量子空间或简称子空间是一个非空子集 $V$,使得 $V$ 在向量运算下是封闭的:对于所有 $\mathbf{v}, \mathbf{w} \in V$ 和 $t \in \mathbb{R}$,$\mathbf{v}+\mathbf{w} \in V$ 且 $t \mathbf{v} \in V$。由此可知,对于 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k} \in V$,$\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\} \subseteq V$。关于 $V$ 中的 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 何时张成 $V$ 以及何时它们是 $V$ 的基,有自然的定义。
命题 4.1.5. (i) $\mathbb{R}^{n}$ 的子集 $V$ 是 $\mathbb{R}^{n}$ 的向量子空间 $\Longleftrightarrow$ 存在 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k} \in \mathbb{R}^{n}$ 使得 $V=\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$。特别是,$\operatorname{span}\left\{\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}\right\}$ 总是向量子空间,并且它是包含 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$ 的最小子空间。
(ii) $\mathbb{R}^{n}$ 的向量子空间 $V$ 的任意两个基具有相同的长度,我们将其记作 $\operatorname{dim} V$。
(iii) 如果 $V$ 是 $\mathbb{R}^{n}$ 的向量子空间,则 $0 \leq \operatorname{dim} V \leq n$。此外,$\operatorname{dim} V=0 \Longleftrightarrow V=\{\mathbf{0}\}$ 且 $\operatorname{dim} V=n \Longleftrightarrow V=\mathbb{R}^{n}$。
这部分内容引入了向量子空间的概念,并给出了它与“张成”的等价关系,以及子空间的维数的性质。
我们在 $\mathbb{R}^3$ 空间中举例。
本段定义了向量子空间这个核心概念,它是大向量空间内部保持了向量空间完整结构(对加法和标量乘法封闭)的非空子集。命题 4.1.5 进一步阐明了子空间的本质:它们有且仅有张成空间这一种形式。这为我们提供了一个从具体向量出发来构造子空间的通用方法。最后,将维数的概念从整个空间推广到了子空间,并指出了子空间的维数介于0和原空间维数 $n$ 之间,为我们量化子空间的大小提供了依据。
子空间的概念在线性代数中无处不在,其目的是:
📜 [原文9]
定义 4.1.6. 两个向量 $\mathbf{v}= \left(v_{1}, \ldots, v_{n}\right)$ 和 $\mathbf{w}=\left(w_{1}, \ldots, w_{n}\right) \in \mathbb{R}^{n}$ 的点积、标量积或内积(我们称之为内积并写作 $\langle\mathbf{v}, \mathbf{w}\rangle$)定义为
(如果称作点积,通常写为 $\mathbf{v} \cdot \mathbf{w}$。)两个向量的乘积是一个标量,因此得名标量积。例如,如果 $\mathbf{v}=\left(v_{1}, \ldots, v_{n}\right)$,那么 $\left\langle\mathbf{v}, \mathbf{e}_{i}\right\rangle=v_{i}$,即 $\mathbf{v}$ 的第 $i$ 个分量。我们称 $\mathbf{v}$ 和 $\mathbf{w}$ 正交,如果 $\langle\mathbf{v}, \mathbf{w}\rangle=0$。
这部分内容引入了一个全新的运算:内积(或称点积)。之前的向量加法和标量乘法是向量空间的“骨架”定义,而内积则为这个骨架增加了“血肉”,引入了长度、角度、正交等几何概念。
公式:
这个公式本身是一个定义,而不是推导的结果。它定义了在 $\mathbb{R}^n$ 这个具体的向量空间中,我们所说的“标准内积”究竟是如何计算的。
我们在 $\mathbb{R}^3$ 中举例。
示例 1:计算内积
示例 2:正交向量
示例 3:提取分量
$\langle \mathbf{v}, \mathbf{e}_1 \rangle = (1)(1) + (2)(0) + (-3)(0) = 1$。结果正是 $\mathbf{v}$ 的第一个分量。
$\langle \mathbf{v}, \mathbf{e}_3 \rangle = (1)(0) + (2)(0) + (-3)(1) = -3$。结果正是 $\mathbf{v}$ 的第三个分量。
本段引入了内积(点积)运算,它接收两个向量作为输入,输出一个标量。其计算方式是对应分量相乘后求和。内积最重要的作用是为向量空间引入了“几何度量”,特别是定义了“正交”(垂直)这一关键概念:两个向量正交当且仅当它们的内积为零。这个定义将几何直观推广到了任意高维空间。
引入内积的目的是为了让向量空间不仅仅是一个只有加法和缩放的代数结构,而是成为一个可以度量长度和角度的“几何空间”(这种空间被称为内积空间或欧几里得空间)。
📜 [原文10]
命题 4.1.7. 内积是对称的、双线性的和正定的:对于所有 $\mathbf{v}, \mathbf{w}, \mathbf{u} \in \mathbb{R}^{n}$ 和 $t \in \mathbb{R}$,
这部分内容罗列了内积运算所满足的四个核心性质。这些性质在更抽象的层面定义了什么是“内积”。任何一个在向量空间上定义的二元运算,只要满足这四个性质,都可以被称为一个内积。
使用之前的例子:$\mathbf{v}=(1,2), \mathbf{w}=(3,4), \mathbf{u}=(5,6)$, $t=2$。
示例 1:对称性
示例 2:双线性 (加法)
示例 3:双线性 (标量乘法)
示例 4:正定性
本段列举并解释了标准内积在 $\mathbb{R}^n$ 中满足的四个基本性质:对称性(交换律)、双线性(分配律和与标量乘法的关系)、以及正定性(与自身内积非负,且只在零向量处为零)。这四条公理是内积的核心,是所有基于内积的理论(如长度、角度、投影)的逻辑基础,并且它们也构成了在抽象向量空间上定义内积的标准。
本段的目的是提炼出内积运算的本质属性。
📜 [原文11]
定义 4.1.8. $\mathbf{v}$ 的长度或范数定义为
命题 4.1.9. 对于所有 $t \in \mathbb{R}, \mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,
这部分内容利用刚刚定义的内积,来正式定义向量的长度(也称为范数),并陈述了范数满足的两条重要性质。
公式1:
这个公式是一个定义。它将“范数”这个概念建立在“内积”概念之上。
公式2与3:
这两条是范数必须满足的核心性质,它们与正定性($\|\mathbf{v}\| \ge 0$ 且 $\|\mathbf{v}\|=0 \iff \mathbf{v}=\mathbf{0}$,这由内积的正定性直接保证)共同构成了抽象范数的公理化定义。
使用 $\mathbf{v}=(3,4)$, $\mathbf{w}=(-12, 5)$, $t=-2$。
示例 1:计算范数
示例 2:验证与标量乘法的关系
示例 3:验证三角不等式
本段从内积出发,定义了向量的长度(或范数),即向量与自身内积的平方根。这个定义将代数的内积运算与几何的长度概念联系起来。然后,陈述了范数满足的两个基本性质:它如何与标量乘法相互作用(长度按比例缩放),以及三角不等式(两边之和大于第三边),后者是所有度量空间的基本属性。
本段的目的是完成从内积到完整几何概念的过渡。
📜 [原文12]
一个有用的事实是以下内容,它表明唯一与 $\mathbb{R}^{n}$ 中每个向量都正交的向量是零向量。
引理 4.1.10. 如果 $\mathbf{v} \in \mathbb{R}^{n}$ 满足对于所有 $\mathbf{w} \in \mathbb{R}^{n}$ 都有 $\langle\mathbf{v}, \mathbf{w}\rangle=0$,那么 $\mathbf{v}=\mathbf{0}$。
证明. 如果对于所有 $\mathbf{w} \in \mathbb{R}^{n}$ 都有 $\langle\mathbf{v}, \mathbf{w}\rangle=0$,那么特别地取 $\mathbf{w}=\mathbf{v}$ 即可看出 $\langle\mathbf{v}, \mathbf{v}\rangle=0$,因此 $\mathbf{v}=\mathbf{0}$。(第二种证明是利用 $\left\langle\mathbf{v}, \mathbf{e}_{i}\right\rangle=v_{i}$ 的事实,推断出对于每个 $i$ 都有 $v_{i}=0$。)
这部分内容提出了一个虽然简单但非常关键的引理,称为内积的非退化性 (non-degeneracy)。
假设在 $\mathbb{R}^3$ 中有一个向量 $\mathbf{v}=(v_1, v_2, v_3)$,它与空间中任何向量 $\mathbf{w}=(w_1, w_2, w_3)$ 都正交。
即 $\langle \mathbf{v}, \mathbf{w} \rangle = v_1w_1 + v_2w_2 + v_3w_3 = 0$ 对任意 $w_1, w_2, w_3$ 都成立。
本段的引理阐述了标准内积的非退化性:唯一能与空间中所有向量都垂直的向量就是零向量。作者给出了两种证明方式:一种是巧妙地代入自身,利用正定性;另一种是更具构造性地代入标准基,证明所有分量都为零。这个性质是内积良好定义和功能强大的一个基本保证。
这个引理虽然简单,但在理论推导中非常有用。
📜 [原文13]
定义 4.1.11. 标准正交基 $\mathbf{u}_{1}, \ldots, \mathbf{u}_{n}$ 是一个基,使得
例如,标准基 $\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$ 是一个标准正交基。更一般地,$\mathbb{R}^{n}$ 中向量序列 $\mathbf{u}_{1}, \ldots, \mathbf{u}_{k}$ 是标准正交的,如果对于所有 $i$ 都有 $\|\mathbf{u}_{i}\|=1$,并且对于所有 $i \neq j$ 都有 $\langle\mathbf{u}_{i}, \mathbf{u}_{j}\rangle=0$。很容易看出标准正交序列是线性无关的:由于 $\left\langle\sum_{i=1}^{k} t_{i} \mathbf{u}_{i}, \mathbf{u}_{j}\right\rangle=t_{j}$,如果 $\sum_{i=1}^{k} t_{i} \mathbf{u}_{i}=\mathbf{0}$,那么对于所有 $j$ 都有 $t_{j}=0$。特别地,$\mathbb{R}^{n}$ 中标准正交序列的最大可能长度是 $n$。
这部分内容定义了内积空间中一类非常重要和好用的基——标准正交基。
公式:
在 $\mathbb{R}^3$ 中。
$\|\mathbf{u}_1\|^2 = (\frac{1}{\sqrt{2}})^2 + (\frac{1}{\sqrt{2}})^2 + 0^2 = \frac{1}{2}+\frac{1}{2}=1$。
$\|\mathbf{u}_2\|^2 = (\frac{1}{\sqrt{2}})^2 + (-\frac{1}{\sqrt{2}})^2 + 0^2 = \frac{1}{2}+\frac{1}{2}=1$。
$\|\mathbf{u}_3\|^2 = 0^2+0^2+1^2=1$。
所有向量长度都是1。
$\langle \mathbf{u}_1, \mathbf{u}_2 \rangle = \frac{1}{\sqrt{2}}\frac{1}{\sqrt{2}} + \frac{1}{\sqrt{2}}(-\frac{1}{\sqrt{2}}) + 0 \cdot 0 = \frac{1}{2} - \frac{1}{2} = 0$。
$\langle \mathbf{u}_1, \mathbf{u}_3 \rangle = \frac{1}{\sqrt{2}} \cdot 0 + \frac{1}{\sqrt{2}} \cdot 0 + 0 \cdot 1 = 0$。
$\langle \mathbf{u}_2, \mathbf{u}_3 \rangle = \frac{1}{\sqrt{2}} \cdot 0 - \frac{1}{\sqrt{2}} \cdot 0 + 0 \cdot 1 = 0$。
所有不同向量都相互正交。
本段定义了标准正交基,这是一类“最好用”的基,它由一族相互垂直的单位向量构成。我们最熟悉的标准基(直角坐标系的坐标轴)就是它的一个典型例子。一个重要的理论结论是,任何一组标准正交的向量都必然是线性无关的,这也直接限定了在一个 $n$ 维空间中,我们最多只能找到 $n$ 个相互垂直的单位向量。
标准正交基之所以如此重要,是因为它极大地简化了向量和内积的计算。
📜 [原文14]
很容易明确地描述 $\mathbb{R}^{2}$ 中所有的标准正交基:首先,如果 $\mathbf{u}_{1}$ 是单位向量,即 $\|\mathbf{u}_{1}\|=1$,那么 $\mathbf{u}_{1}=(\cos \theta, \sin \theta)$,其中 $\theta$ 是一个实数,且在加上 $2 \pi$ 的整数倍后是唯一的。为了找到 $\mathbf{u}_{2}$,有一个标准方法,给定一个非零向量 $\mathbf{v}=(a, b) \in \mathbb{R}^{2}$,可以找到一个与 $\mathbf{v}$ 正交且 $\|\mathbf{v}^{\prime}\|=\|\mathbf{v}\|$ 的向量 $\mathbf{v}^{\prime}$。实际上,对于 $\mathbf{v}^{\prime}$ 只有两种可能性:它要么是 $(-b, a)$,要么是 $-(-b, a)=(b,-a)$。第一种可能性对应于将 $\mathbf{v}$ 逆时针旋转 $\pi/2$ 角,第二种对应于将 $\mathbf{v}$ 顺时针旋转 $\pi/2$ 角。(推论:如果 $\mathbb{R}^{2}$ 中两条非垂直线 $L_{1}$ 和 $L_{2}$ 垂直,它们的斜率 $m_{1}$ 和 $m_{2}$ 满足:$m_{1} m_{2}=-1$,即互为“倒数负”)。总结如下:
命题 4.1.12. $\mathbb{R}^{2}$ 中的每个标准正交基要么是以下形式:
要么是以下形式:
其中 $\theta$ 是一个实数,作为 $\mathbb{R} / 2 \pi \mathbb{Z}$ 的元素是唯一的。
更一般地,存在一个算法(Gram-Schmidt)可以实现以下目的:给定一个线性无关的向量序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{k}$,它产生一个标准正交向量序列 $\mathbf{u}_{1}, \ldots, \mathbf{u}_{k}$,使得对于所有 $1 \leq i \leq k$ 的 $i$,
$\mathbf{u}_{i}$ 的构造很简单,但不幸的是,在大多数例子中执行起来涉及大量繁琐的平方根。
这部分内容分为两块:首先详细分析了二维平面 $\mathbb{R}^2$ 中所有标准正交基的形态,然后引出了一个更具普适性的算法——Gram-Schmidt(格拉姆-施密特)正交化过程。
公式1:
公式2:
公式3:
示例 1:$\mathbb{R}^2$ 中的标准正交基
示例 2:Gram-Schmidt 思想演示
本段首先具体而完整地刻画了二维空间中所有标准正交基的形态,它们本质上都是标准直角坐标系绕原点旋转一定角度,再可能加上一次镜面反射的产物。接着,将这种构造思想推广到高维,引出了 Gram-Schmidt 正交化过程。这是一个强大的算法,能将任何一组普通的线性无关集(一个斜交的坐标系)转化为一个标准正交集(一个标准的直角坐标系),同时保持了空间的逐级张成结构。
本段的目的是连接理论与构造,展示标准正交基不仅是存在的,而且是可以被系统地构造出来的。
📜 [原文15]
回想一下,$m \times n$ 矩阵是一个矩形数组
我们通常将其缩写为 $A=\left(a_{i j}\right)$。上面的矩阵由 $m$ 行和 $n$ 列组成。我们将数字 $a_{i j}$ 称为 $(i, j)$ 元素。这意味着 $a_{i j}$ 是第 $i$ 行第 $j$ 列的数字。特别是,向量 $\left(x_{1}, \ldots, x_{n}\right)$ 也是一个矩阵,在这种情况下是一个 $1 \times n$ 矩阵。我们称这种矩阵为行向量。我们也可以将向量视为 $n \times 1$ 矩阵,我们称之为列向量。(由于我们对函数书写方式的约定,我们通常需要将向量视为列向量。)所有 $m \times n$ 矩阵的集合写作 $\mathbb{M}_{m, n}(\mathbb{R})$。$\mathbb{M}_{m, n}(\mathbb{C}), \mathbb{M}_{m, n}(\mathbb{Q})$,甚至 $\mathbb{M}_{m, n}(\mathbb{Z})$ 也有类似的定义。在 $m=n$ 的情况下,我们将 $\mathbb{M}_{n, n}(\mathbb{R})$ 缩写为 $\mathbb{M}_{n}(\mathbb{R})$,并称这种矩阵为方阵($n \times n$)矩阵,$\mathbb{M}_{n}(\mathbb{C}), \mathbb{M}_{n}(\mathbb{Q})$ 和 $\mathbb{M}_{n}(\mathbb{Z})$ 也有类似称呼。我们可以通过将对应元素相加来将 $\mathbb{M}_{m, n}(\mathbb{R})$ 中的两个矩阵 $A$ 和 $B$ 相加,并且可以将矩阵 $A$ 乘以标量 $t$。因此,$\left(a_{i j}\right)+\left(b_{i j}\right)=\left(a_{i j}+b_{i j}\right)$ 且 $t\left(a_{i j}\right)=\left(t a_{i j}\right)$。零矩阵 $O=O_{m, n} \in \mathbb{M}_{m, n}(\mathbb{R})$ 是所有元素都为 0 的矩阵。除了元素排序问题,$\mathbb{M}_{m, n}(\mathbb{R})$ 实际上与 $\mathbb{R}^{m n}$ 是同一回事,并且加法和标量乘法与常规向量运算相同。
这部分内容回顾了矩阵的基本定义、相关术语以及矩阵的两种基本运算:加法和标量乘法。
公式:
令 $A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}$, $B = \begin{pmatrix} 5 & 0 \\ -1 & 7 \end{pmatrix}$ 都是 $\mathbb{M}_2(\mathbb{R})$ 中的矩阵。令 $t=3$。
示例 1:矩阵加法
示例 2:标量乘法
示例 3:向量作为矩阵
本段回顾了矩阵的定义,它是一个数字的矩形阵列。关键术语包括行、列、元素、方阵、行向量和列向量。接着定义了矩阵的两种基本运算——加法(对应元素相加)和标量乘法(每个元素都乘以该标量),并指出在这些运算下,所有 $m \times n$ 矩阵构成的集合 $\mathbb{M}_{m,n}(\mathbb{R})$ 本身就是一个维数为 $mn$ 的向量空间。
本段的目的是将矩阵作为一种新的代数对象引入,并建立它与向量空间理论的联系。
📜 [原文16]
给定一个 $m \times n$ 矩阵 $A$ 和一个 $n \times k$ 矩阵 $B$,我们可以形成矩阵积 $AB$,它是一个 $m \times k$ 矩阵,其 $(i, j)$ 元素由 $\sum_{t=1}^{n} a_{i t} b_{t j}$ 给出。因此,$(i, j)$ 元素是 $A$ 的第 $i$ 行与 $B$ 的第 $j$ 列的内积。象征性地,如果我们写作
其中 $\mathbf{r}_{i}$ 表示 $A$ 的第 $i$ 行,$\mathbf{c}_{j}$ 表示 $B$ 的第 $j$ 列,那么 $AB$ 的 $(i, j)$ 元素是 $\left\langle\mathbf{r}_{i}, \mathbf{c}_{j}\right\rangle$。
矩阵乘法具有结合性,且对矩阵加法(在定义域内)具有分配性,但对于 $A, B \in \mathbb{M}_{n}(\mathbb{R})$(这是 $AB$ 和 $BA$ 都定义且形状相同的唯一情况),并且对于 $n>1$,通常不满足 $AB=BA$:矩阵乘法通常不具有交换性。$\mathbb{M}_{n}(\mathbb{R})$ 的一个重要元素是单位矩阵 $I_{n}=I$,其对角线元素 $a_{i i}$ 等于 1,其他元素 $a_{i j}, i \neq j$ 等于 0。等价地,
其中 $\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$ 是 $\mathbb{R}^{n}$ 中的标准基。很容易看出,对于所有 $A \in \mathbb{M}_{m, n}(\mathbb{R})$,$I_{m} A= A I_{n}=A$。当 $n$ 从上下文中清楚时,我们将 $I_{n}$ 缩写为 $I$。
这部分定义了矩阵之间最重要、最独特的运算——矩阵乘法,并阐述了它的基本性质。
公式1:
公式2:
例如 $I_2 = (\begin{pmatrix}1\\0\end{pmatrix}, \begin{pmatrix}0\\1\end{pmatrix}) = \begin{pmatrix}1 & 0 \\ 0 & 1\end{pmatrix}$。
例如 $I_2 = \begin{pmatrix}(1,0) \\ (0,1)\end{pmatrix} = \begin{pmatrix}1 & 0 \\ 0 & 1\end{pmatrix}$。
令 $A = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix}$ ($2 \times 3$ 矩阵), $B = \begin{pmatrix} 7 & 8 \\ 9 & 1 \\ 2 & 3 \end{pmatrix}$ ($3 \times 2$ 矩阵)。
示例 1:矩阵乘法 $AB$
示例 2:不满足交换律 $BA$
示例 3:单位矩阵的作用
$I_2 A = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} = \begin{pmatrix} 1 \cdot 1+0 \cdot 4 & 1 \cdot 2+0 \cdot 5 & 1 \cdot 3+0 \cdot 6 \\ 0 \cdot 1+1 \cdot 4 & 0 \cdot 2+1 \cdot 5 & 0 \cdot 3+1 \cdot 6 \end{pmatrix} = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} = A$。
$A I_3 = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} \begin{pmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 \cdot 1+2 \cdot 0+3 \cdot 0 & \ldots \\ \ldots & \ldots \end{pmatrix} = \begin{pmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{pmatrix} = A$。
本段定义了矩阵乘法这一核心运算。其定义的关键是“行乘以列”规则,即结果矩阵的 $(i,j)$ 元素是第一个矩阵的第 $i$ 行与第二个矩阵的第 $j$ 列的内积。矩阵乘法满足结合律和分配律,但最关键的特性是不满足交换律。同时,引入了单位矩阵 $I_n$,它在矩阵乘法中起着类似于数字 1 的作用。
矩阵乘法的定义看起来可能有些奇怪和不自然,但它这样定义的目的,是为了完美地匹配线性变换的“复合”。这将在下一节中详细阐述。
📜 [原文17]
回想一下,线性函数 $F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 是一个函数 $F$,使得对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$ 和 $t \in \mathbb{R}$,$F(\mathbf{v}+\mathbf{w})=F(\mathbf{v})+F(\mathbf{w})$ 且 $F(t \mathbf{v})=t F(\mathbf{v})$。一个线性函数通过其在标准基向量 $\mathbf{e}_{1}, \ldots, \mathbf{e}_{n}$ 上的值完全确定。反之,给定任何 $n$ 个向量的序列 $\mathbf{v}_{1}, \ldots, \mathbf{v}_{n} \in \mathbb{R}^{m}$,存在一个唯一的线性函数 $F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$,使得对于所有 $i$,$F\left(\mathbf{e}_{i}\right)=\mathbf{v}_{i}$,即 $F\left(x_{1}, \ldots, x_{n}\right)=\sum_{i} x_{i} \mathbf{v}_{i}$。在这种情况下,回想一下我们可以将一个 $m \times n$ 矩阵与 $F$ 关联起来:将向量 $\mathbf{v}_{i}=\left(a_{1 i}, \ldots, a_{m i}\right)$ 写入。然后我们将矩阵与 $F$ 关联起来
这里 $A$ 的列是向量 $\mathbf{v}_{i}$,写成列的形式,并且线性映射 $F\left(x_{1}, \ldots, x_{n}\right)$ 对应于矩阵积 $A \cdot \mathbf{x}$,其中 $A \cdot \mathbf{x}$ 是一个 $n \times 1$ 矩阵(列向量),其第 $j$ 个元素是 $\sum_{i=1}^{n} a_{j i} x_{i}$。特别地,$A \cdot \mathbf{e}_{i}=\mathbf{v}_{i}$,写成列向量;其第 $j$ 个元素是 $a_{j i}$,并且它等于 $\sum_{j=1}^{m} a_{j i} \mathbf{e}_{j}$,其中在等式
左侧的 $\mathbf{e}_{i}$ 是 $\mathbb{R}^{n}$ 中的基向量,右侧的 $\mathbf{e}_{j}$ 是 $\mathbb{R}^{m}$ 中的基向量。注意索引的倒置!$F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{n}$ 的情况对应于方阵($n \times n$)矩阵。例如,线性函数 $\operatorname{Id}_{\mathbb{R}^{n}}$ 对应于单位矩阵 $I_{n}$。然后我们有:
这部分内容揭示了矩阵在线性代数中的核心角色:作为线性函数(或称线性映射、线性变换)的具体表示。
公式1:
公式2:
考虑一个从 $\mathbb{R}^2$ 到 $\mathbb{R}^3$ 的线性变换 $F$。
假设我们知道它对标准基的作用:
示例 1:构造矩阵 A
示例 2:使用矩阵计算任意向量的变换
$F(10,-1) = F(10\mathbf{e}_1 - \mathbf{e}_2) = 10F(\mathbf{e}_1) - F(\mathbf{e}_2)$
$= 10(1,2,3) - (4,5,6) = (10,20,30) - (4,5,6) = (6, 15, 24)$。
$A\mathbf{x} = \begin{pmatrix} 1 & 4 \\ 2 & 5 \\ 3 & 6 \end{pmatrix} \begin{pmatrix} 10 \\ -1 \end{pmatrix} = \begin{pmatrix} 1 \cdot 10 + 4 \cdot (-1) \\ 2 \cdot 10 + 5 \cdot (-1) \\ 3 \cdot 10 + 6 \cdot (-1) \end{pmatrix} = \begin{pmatrix} 10-4 \\ 20-5 \\ 30-6 \end{pmatrix} = \begin{pmatrix} 6 \\ 15 \\ 24 \end{pmatrix}$。
本段建立了线性代数中最核心的对应关系:任何一个从 $\mathbb{R}^n$ 到 $\mathbb{R}^m$ 的线性变换 $F$,都可以唯一地由一个 $m \times n$ 的矩阵 $A$ 来表示。这个矩阵的构造方法非常直观:它的第 $i$ 列就是标准基向量 $\mathbf{e}_i$ 经过 $F$ 变换后的像 $F(\mathbf{e}_i)$。一旦这个矩阵被构造出来,函数作用 $F(\mathbf{x})$ 就可以通过矩阵乘法 $A\mathbf{x}$ 来实现。这个美妙的对应关系是矩阵理论的基石。
本段的目的在于揭示矩阵的“真实身份”。
📜 [原文18]
命题 4.2.1. 如果 $F: \mathbb{R}^{k} \rightarrow \mathbb{R}^{n}$ 和 $G: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 是线性映射,并且 $A \in \mathbb{M}_{m, n}(\mathbb{R})$ 和 $B \in \mathbb{M}_{n, k}(\mathbb{R})$ 分别是对应于 $G$ 和 $F$ 的矩阵,那么 $G \circ F: \mathbb{R}^{k} \rightarrow \mathbb{R}^{m}$ 再次是线性的,并且对应于 $G \circ F$ 的矩阵是矩阵积 $A \cdot B$。
证明. 我们省略 $G \circ F$ 是线性的简单验证。根据线性函数和矩阵之间关系的公式,
因此,计算得到
这意味着对应于 $G \circ F$ 的矩阵的 $(i, k)$ 元素是 $\sum_{j=1}^{n} a_{i j} b_{j k}$。在重新标记索引后,这正是 $A \cdot B$ 的 $(i, k)$ 元素。
这为矩阵乘法的结合性提供了一个概念性证明:它具有结合性是因为函数复合具有结合性。(反之,我们也可以利用矩阵乘法的结合性来证明命题 4.2.1。)
矩阵乘法特别是一种方便描述线性方程组的方法:方程组
更简洁地写为 $A \cdot \mathbf{x}=\mathbf{b}$。
这部分内容达到了前面铺垫的高潮,明确指出了矩阵乘法和函数复合之间的深刻联系,并简要提及了矩阵在书写线性方程组中的便捷性。
公式1 & 2:
公式3 & 4:
公式5:
$F(\mathbf{e}_1) = F(1,0) = (1,0,0)$。
$F(\mathbf{e}_2) = F(0,1) = (0,1,0)$。
所以 $B = \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix}$ ($3 \times 2$)。
$G(\mathbf{e}_1) = G(1,0,0) = (1,0)$。
$G(\mathbf{e}_2) = G(0,1,0) = (0,1)$。
$G(\mathbf{e}_3) = G(0,0,1) = (-1,0)$。
所以 $A = \begin{pmatrix} 1 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix}$ ($2 \times 3$)。
$(G \circ F)(x,y) = G(F(x,y)) = G(x,y,0) = (x-0, y) = (x,y)$。
所以 $G \circ F$ 是从 $\mathbb{R}^2$ 到自身的恒等变换。
$(G \circ F)(\mathbf{e}_1) = (1,0)$。
$(G \circ F)(\mathbf{e}_2) = (0,1)$。
所以 $C = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$。
$AB = \begin{pmatrix} 1 & 0 & -1 \\ 0 & 1 & 0 \end{pmatrix} \begin{pmatrix} 1 & 0 \\ 0 & 1 \\ 0 & 0 \end{pmatrix} = \begin{pmatrix} 1\cdot1+0\cdot0+(-1)\cdot0 & 1\cdot0+0\cdot1+(-1)\cdot0 \\ 0\cdot1+1\cdot0+0\cdot0 & 0\cdot0+1\cdot1+0\cdot0 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$。
本段通过一个严谨的证明,揭示了矩阵乘法的本质:它精确地对应于线性变换的复合。这一深刻的联系不仅解释了为何矩阵乘法被那样定义,也为矩阵乘法的结合律提供了一个优雅的概念性证明。最后,它还展示了矩阵乘法在简洁地表示线性方程组方面的实用价值。
本段的目的是将线性代数的两个核心分支——矩阵理论和线性空间理论——彻底地融合在一起。
📜 [原文19]
我们将线性映射 $F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 写成矩阵 $A: F(\mathbf{v})=A \mathbf{v}$,其中理解为,对于右侧,$\mathbf{v}$ 必须被视为列向量。定义 $A$ 的零空间或核为集合 $\left\{\mathbf{v} \in \mathbb{R}^{n}: A \mathbf{v}=\mathbf{0}\right\}$。然后我们有基本结果:
命题 4.3.1. $A$ 的零空间和像是向量子空间(分别为 $\mathbb{R}^{n}$ 和 $\mathbb{R}^{m}$ 的)。线性函数 $A: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 是单射 $\Longleftrightarrow$ $A$ 的零空间是 $\{\mathbf{0}\} \Longleftrightarrow$ $A$ 的列是线性无关的。线性函数 $A: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 是满射 $\Longleftrightarrow$ $A$ 的列张成 $\mathbb{R}^{m}$。更一般地,$\operatorname{Im} A$ 是 $A$ 的列的张成。
特别地,对于对应于 $A$ 的线性方程组 $A \cdot \mathbf{x}=\mathbf{b}$,我们看到解存在 $\Longleftrightarrow \mathbf{b} \in \operatorname{Im} A$,并且解是唯一的(但可能不存在) $\Longleftrightarrow$ $A$ 的零空间是 $\{\mathbf{0}\}$。
这部分内容将线性变换(由矩阵 $A$ 表示)与函数论中的单射 (injective) 和满射 (surjective) 概念联系起来,并引入了两个核心的子空间:零空间 (null space) 和像 (image)。
令 $A = \begin{pmatrix} 1 & -1 \\ 1 & 1 \\ 0 & 1 \end{pmatrix}$ ($3 \times 2$)。这是一个从 $\mathbb{R}^2 \to \mathbb{R}^3$ 的变换。
示例 1:零空间与单射性
示例 2:像与满射性
$\operatorname{Im}(A) = \operatorname{span}\left\{ \begin{pmatrix}1\\1\\0\end{pmatrix}, \begin{pmatrix}-1\\1\\1\end{pmatrix} \right\}$。
本段将函数的基本性质(单射、满射)与矩阵的代数和几何属性(零空间、像、列的线性无关/张成)紧密地联系在了一起。关键的对应关系是:
这些关系对于理解线性变换的行为以及判断线性方程组解的存在性和唯一性至关重要。
本段的目的是为可逆性(双射)做铺垫,并深化对矩阵四个基本子空间中两个的理解。
📜 [原文20]
推论 4.3.2. 设 $F: \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}$ 是一个线性函数,对应于矩阵 $A$。
(i) 如果 $F$ 是单射,则 $n \leq m$。此外,$F$ 是单射 $\Longleftrightarrow$ $F$ 有一个也是线性函数的左逆。
(ii) 如果 $F$ 是满射,则 $n \geq m$。此外,$F$ 是满射 $\Longleftrightarrow$ $F$ 有一个也是线性函数的右逆。
(iii) 如果 $n=m$,则 $F$ 是单射 $\Longleftrightarrow F$ 是满射 $\Longleftrightarrow F$ 是双射,并且在这种情况下,逆函数 $F^{-1}$ 再次是线性的,因此对应于一个矩阵,记作 $A^{-1}$,具有以下性质
对于 $A \in \mathbb{M}_{m, n}(\mathbb{R})$,我们可以用通常的方式定义左逆和右逆。然后,使用上述 (iii),$A \in \mathbb{M}_{n}(\mathbb{R})$ 有一个左逆 $B \Longleftrightarrow A$ 有一个右逆 $C$,并且实际上 $B=C=A^{-1}$,通过通常的论证:
这部分内容从上一节单射和满射的结论出发,推导了关于矩阵形状的限制,并引入了左逆、右逆和最终的逆矩阵概念。
公式1:
公式2:
$AA^{-1} = \begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & -2 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1\cdot1+2\cdot0 & 1(-2)+2\cdot1 \\ 0\cdot1+1\cdot0 & 0(-2)+1\cdot1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$。
$A^{-1}A = \begin{pmatrix} 1 & -2 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & 2 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1\cdot1+(-2)\cdot0 & 1\cdot2+(-2)\cdot1 \\ 0\cdot1+1\cdot0 & 0\cdot2+1\cdot1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} = I_2$。
本段阐明了线性变换的单射/满射性质与其对应矩阵形状 ($m \times n$) 之间的关系。单射要求 $n \le m$,满射要求 $n \ge m$。一个线性变换是可逆的,当且仅当它是双射的,这要求 $n=m$,即其矩阵必须是方阵。对于方阵,$A$ 可逆与其对应变换 $F$ 是双射等价,且其逆矩阵 $A^{-1}$ 代表了逆函数 $F^{-1}$,满足 $AA^{-1}=A^{-1}A=I$。对于方阵来说,左逆和右逆的概念合并了,只要存在一个,就都存在且相等,即为逆矩阵。
本段的目的是正式引入和定义逆矩阵。
📜 [原文21]
定义 4.3.3. 矩阵 $A \in \mathbb{M}_{n}(\mathbb{R})$ 是可逆的,如果逆矩阵 $A^{-1}$ 存在。定义一般线性群 $G L_{n}(\mathbb{R})$ 为 $\mathbb{M}_{n}(\mathbb{R})$ 中由可逆矩阵组成的子集。
以下是一个简单的计算:
命题 4.3.4. (i) 如果 $A, B \in G L_{n}(\mathbb{R})$,则 $AB$ 是可逆的,并且实际上 $(A B)^{-1}= B^{-1} A^{-1}$。因此 $G L_{n}(\mathbb{R})$ 在矩阵乘积下是封闭的。
(ii) $I_{n} \in G L_{n}(\mathbb{R})$,并且实际上 $I_{n}^{-1}=I_{n}$。
(iii) 如果 $A \in G L_{n}(\mathbb{R})$,则 $A^{-1} \in G L_{n}(\mathbb{R})$,并且实际上 $\left(A^{-1}\right)^{-1}=A$。
这部分内容正式定义了可逆矩阵和一般线性群,并阐述了可逆矩阵在矩阵乘法下构成的群结构。
令 $A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}, B = \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix}$。
示例 1:验证封闭性与逆的公式
$AB = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 2 & 0 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 2 & 1 \\ 0 & 1 \end{pmatrix}$。
$(AB)^{-1} = \frac{1}{2\cdot1 - 1\cdot0} \begin{pmatrix} 1 & -1 \\ 0 & 2 \end{pmatrix} = \frac{1}{2} \begin{pmatrix} 1 & -1 \\ 0 & 2 \end{pmatrix} = \begin{pmatrix} 1/2 & -1/2 \\ 0 & 1 \end{pmatrix}$。
$B^{-1}A^{-1} = \begin{pmatrix} 1/2 & 0 \\ 0 & 1 \end{pmatrix} \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1/2 \cdot 1 + 0 \cdot 0 & 1/2 \cdot (-1) + 0 \cdot 1 \\ 0 \cdot 1 + 1 \cdot 0 & 0 \cdot (-1) + 1 \cdot 1 \end{pmatrix} = \begin{pmatrix} 1/2 & -1/2 \\ 0 & 1 \end{pmatrix}$。
本段正式定义了可逆矩阵(必须是方阵,且存在一个乘积为单位阵的逆矩阵),以及由所有 $n \times n$ 可逆矩阵构成的一般线性群 $GL_n(\mathbb{R})$。命题 4.3.4 系统地证明了 $GL_n(\mathbb{R})$ 在矩阵乘法下确实构成一个群,因为它满足封闭性(乘积仍可逆)、存在单位元(单位矩阵)和每个元素都存在逆元(逆的逆是自身)。
本段的目的是将可逆矩阵从一个孤立的概念,提升到群论这个更广阔的代数结构中来审视。
📜 [原文22]
判断给定 $n \times n$ 矩阵 $A$ 是否可逆的问题可以通过行列式来回答。回想一下,对于每个 $n$,我们都有一个函数 $\det: \mathbb{M}_{n}(\mathbb{R}) \rightarrow \mathbb{R}$,具有以下性质:
(1) 对于所有 $A, B \in \mathbb{M}_{n}(\mathbb{R})$,$\operatorname{det}(A B)=(\operatorname{det} A)(\operatorname{det} B)$。
(2) $\operatorname{det} I_{n}=1$。
(3) $A$ 是可逆的 $\Longleftrightarrow \operatorname{det} A \neq 0$。因此 $G L_{n}(\mathbb{R})=\left\{A \in \mathbb{M}_{n}(\mathbb{R}): \operatorname{det} A \neq 0\right\}$。如果 $A$ 是可逆的,那么
例 4.3.5. 对于 $2 \times 2$ 矩阵 $A=\left(\begin{array}{ll}a & b \\ c & d\end{array}\right)$,我们有
如果 $\det A \neq 0$,那么计算得到:
除了上面列出的性质 (1)-(3) 之外,还有两个重要的额外性质:行列式是 $A$ 的列的多线性函数,换句话说,当其余列保持不变时,它在每列中都是线性函数;并且行列式是 $A$ 的列的交错函数,换句话说,如果我们通过交换两列 $\mathbf{c}_{i}$ 和 $\mathbf{c}_{j}$ 将 $A$ 变为另一个 $n \times n$ 矩阵 $A^{\prime}$,那么 $\det A^{\prime}=-\det A$。实际上,这些性质加上上面的 (2) 就足以刻画行列式。
这部分内容回顾了行列式 (determinant) 的概念,它是一个从方阵到标量的函数,并作为判断矩阵是否可逆的强大工具。
公式1:
公式2:
公式3:
本段将行列式定义为一个从方阵到标量的函数,其核心价值在于它提供了一个简单的判据来确定矩阵是否可逆:行列式非零。文章通过其关键的代数性质(乘法性)和几何性质(对列是多线性和交错的)来刻画它,并给出了 $2 \times 2$ 矩阵的实用计算公式。
引入行列式的目的在于:
📜 [原文23]
定义 4.3.6. 特殊线性群 $S L_{n}(\mathbb{R})$ 由下式给出
以下是上述性质的一个简单推论:
命题 4.3.7. $S L_{n}(\mathbb{R}) \subseteq G L_{n}(\mathbb{R})$。此外,
(i) 如果 $A, B \in S L_{n}(\mathbb{R})$,则 $A B \in S L_{n}(\mathbb{R})$,即 $S L_{n}(\mathbb{R})$ 在乘法下是封闭的。
(ii) $I_{n} \in S L_{n}(\mathbb{R})$。
(iii) 如果 $A \in S L_{n}(\mathbb{R})$,则 $A$ 是可逆的,并且 $A^{-1} \in S L_{n}(\mathbb{R})$。
这部分内容在一般线性群 $GL_n(\mathbb{R})$ 的基础上,定义了一个更“特殊”也同样重要的子群——特殊线性群 $SL_n(\mathbb{R})$。
公式:
在 $SL_2(\mathbb{R})$ 中。
$A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix}$。这是一个“水平剪切”矩阵。
$\det A = 1 \cdot 1 - 1 \cdot 0 = 1$。所以 $A \in SL_2(\mathbb{R})$。
几何上,它将正方形变成一个平行四边形,但底和高都不变,所以面积不变。
$B = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}$。这是一个旋转矩阵。
$\det B = \cos\theta \cdot \cos\theta - (-\sin\theta) \cdot \sin\theta = \cos^2\theta + \sin^2\theta = 1$。
所以任何旋转矩阵都在 $SL_2(\mathbb{R})$ 中。这很直观,旋转不会改变图形的面积。
$A = \begin{pmatrix} 1 & 1 \\ 0 & 1 \end{pmatrix} \in SL_2(\mathbb{R})$。它的逆 $A^{-1} = \begin{pmatrix} 1 & -1 \\ 0 & 1 \end{pmatrix}$。
$\det(A^{-1}) = 1 \cdot 1 - (-1) \cdot 0 = 1$。逆也确实在 $SL_2(\mathbb{R})$ 中。
本段定义了特殊线性群 $SL_n(\mathbb{R})$,它由所有行列式为1的 $n \times n$ 矩阵构成。从几何上看,它们代表了所有保持体积和定向的线性变换。通过简单的推导,证明了 $SL_n(\mathbb{R})$ 在矩阵乘法下满足封闭性、有单位元、有逆元,因此它构成了一般线性群 $GL_n(\mathbb{R})$ 的一个子群。
引入 $SL_n(\mathbb{R})$ 的目的在于:
📜 [原文24]
首先我们回顾转置的定义。
定义 4.4.1. 设 $A=\left(a_{i j}\right)$ 是一个 $m \times n$ 矩阵。转置矩阵 ${ }^{t} A$ 是一个 $n \times m$ 矩阵,其 $(i, j)$ 元素是 $a_{j i}$。例如,如果 $A$ 是一个方阵($n \times n$)矩阵,那么 ${ }^{t} A$ 是 $A$ 沿着从左上到右下的对角线的反射。一般来说,${ }^{t} A$ 的列是 $A$ 的行,写成列向量,反之亦然。
命题 4.4.2. 对于所有 $A \in \mathbb{M}_{m, n}(\mathbb{R})$,
(i) ${ }^{t}\left({ }^{t} A\right)=A$。
(ii) 对于所有 $\mathbf{v} \in \mathbb{R}^{m}$ 和 $\mathbf{w} \in \mathbb{R}^{n}$,
此外,${ }^{t} A$ 是 $\mathbb{M}_{n, m}(\mathbb{R})$ 中唯一的元素 $B$,使得对于所有 $\mathbf{v} \in \mathbb{R}^{m}$ 和 $\mathbf{w} \in \mathbb{R}^{n}$,$\langle\mathbf{v}, A \mathbf{w}\rangle=\langle B \mathbf{v}, \mathbf{w}\rangle$。
(iii) 如果 $A$ 是一个 $m \times n$ 矩阵, $B$ 是一个 $n \times k$ 矩阵,那么
(iv) 如果 $A$ 是一个具有逆矩阵 $A^{-1}$ 的 $n \times n$ 矩阵,那么 ${ }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}$。
证明. (i) 直接由定义得出。(ii) 对于所有标准基向量 $\mathbf{e}_{i} \in \mathbb{R}^{m}$ 和 $\mathbf{e}_{j} \in \mathbb{R}^{n}$,
(这里当然,第一个内积是 $\mathbb{R}^{m}$ 中的向量的内积,第二个是 $\mathbb{R}^{n}$ 中的向量的内积。)利用双线性,可以得出对于所有 $\mathbf{v} \in \mathbb{R}^{m}$ 和 $\mathbf{w} \in \mathbb{R}^{n}$,$\langle\mathbf{v}, A \mathbf{w}\rangle=\left\langle{ }^{t} A \mathbf{v}, \mathbf{w}\right\rangle$,通过将 $\mathbf{v}$ 和 $\mathbf{w}$ 展开为标准基向量的线性组合。要看 (ii) 中的第二个陈述,如果 $B$ 也满足 $\langle\mathbf{v}, A \mathbf{w}\rangle=\langle B \mathbf{v}, \mathbf{w}\rangle$,那么
因此,对于所有 $\mathbf{v} \in \mathbb{R}^{m}$ 和所有 $\mathbf{w} \in \mathbb{R}^{n}$,$\left(B-{ }^{t} A\right) \mathbf{v}$ 与 $\mathbf{w}$ 正交,因此是零向量 $\mathbf{0} \in \mathbb{R}^{n}$。因此对于所有 $\mathbf{v} \in \mathbb{R}^{m}$ 都有 $B \mathbf{v}={ }^{t} A \mathbf{v}$,所以 $B={ }^{t} A$。
要看 (iii),对于所有 $\mathbf{v} \in \mathbb{R}^{m}$ 和 $\mathbf{w} \in \mathbb{R}^{k}$,我们有
因此,根据 (ii) 中的唯一性陈述,${ }^{t}(A B)={ }^{t} B^{t} A$。
最后,要看 (iv),如果 $A A^{-1}=I_{n}$,那么
因此 ${ }^{t}\left(A^{-1}\right)$ 是 ${ }^{t} A$ 的左逆,也因此是右逆,所以 ${ }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}$。
我们还有(无证明):
命题 4.4.3. 对于所有 $A \in \mathbb{M}_{n}(\mathbb{R})$,$\det { }^{t} A=\det A$。
这部分内容回顾了矩阵转置 (transpose) 的定义和性质。转置是矩阵的一个基本运算,它在内积和正交性的研究中扮演着核心角色。
公式1:
公式2:
公式3:
令 $A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, B = \begin{pmatrix} 0 \\ 1 \end{pmatrix}$。
$A$ 是 $2 \times 2$, $B$ 是 $2 \times 1$。$AB$ 是 $2 \times 1$。
${}^tA = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix}, {}^tB = \begin{pmatrix} 0 & 1 \end{pmatrix}$。
示例 1:乘积的转置
示例 2:与内积的关系
令 $\mathbf{v}=(1,1), \mathbf{w}=(1,0)$。
$A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, {}^tA = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix}$。
示例 3:行列式
$A = \begin{pmatrix} 1 & 2 \\ 3 & 4 \end{pmatrix}, \det A = 4 - 6 = -2$。
${}^tA = \begin{pmatrix} 1 & 3 \\ 2 & 4 \end{pmatrix}, \det({}^tA) = 4 - 6 = -2$。
两者相等。
本段详细介绍了矩阵转置的定义及其核心性质。转置操作即交换矩阵的行和列。其最重要的代数性质是在内积中的“伴随”行为 ($\langle \mathbf{v}, A\mathbf{w} \rangle = \langle {}^tA\mathbf{v}, \mathbf{w} \rangle$),以及乘积的转置等于转置的反序乘积。此外,转置不改变方阵的行列式,且与求逆操作可交换。
转置是线性代数中一个看似简单但极其深刻的工具。引入它的目的在于:
📜 [原文25]
正交矩阵是具有非常特殊几何性质的可逆矩阵。
定义 4.4.4. 线性函数 $A: \mathbb{R}^{n} \rightarrow \mathbb{R}^{n}$ 是等距变换,如果对于所有 $\mathbf{v} \in \mathbb{R}^{n}$,$\|A \mathbf{v}\|=\|\mathbf{v}\|$。换句话说,$A$ 保持长度不变。
命题 4.4.5. 给定 $A \in \mathbb{M}_{n}(\mathbb{R})$,以下关于 $A$ 的条件是等价的。
(i) $A$ 是等距变换,即对于所有 $\mathbf{v} \in \mathbb{R}^{n}$,$\|A \mathbf{v}\|=\|\mathbf{v}\|$。
(ii) 对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,$\langle A \mathbf{v}, A \mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{w}\rangle$。换句话说,$A$ 保持内积不变。
(iii) $A$ 的列是 $\mathbb{R}^{n}$ 的标准正交基。
(iv) $A$ 是可逆的,且 ${ }^{t} A=A^{-1}$。
(v) $A$ 的行是 $\mathbb{R}^{n}$ 的标准正交基。
这部分内容定义了正交矩阵,并给出了五个描述其特性的等价条件。正交矩阵代表了欧几里得空间中最重要的一类变换——刚体运动(旋转和反射)。
[证明思路的概要]
原文在下一段给出了详细证明,这里先概述其逻辑链条:
通过这些步骤,可以证明所有五个条件都是等价的。
$A = \begin{pmatrix} \cos\theta & -\sin\theta \\ \sin\theta & \cos\theta \end{pmatrix}$。
第1列:$(\cos\theta, \sin\theta)$,长度为 $\sqrt{\cos^2\theta+\sin^2\theta}=1$。
第2列:$(-\sin\theta, \cos\theta)$,长度为 $\sqrt{(-\sin\theta)^2+\cos^2\theta}=1$。
列的内积: $\cos\theta(-\sin\theta) + \sin\theta\cos\theta = 0$。
所以列构成一个标准正交基。
${}^tA = \begin{pmatrix} \cos\theta & \sin\theta \\ -\sin\theta & \cos\theta \end{pmatrix}$。
$A^{-1} = \frac{1}{\cos^2\theta+\sin^2\theta} \begin{pmatrix} \cos\theta & \sin\theta \\ -\sin\theta & \cos\theta \end{pmatrix} = {}^tA$。
所有条件都满足。
$B = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix}$ (关于x轴的反射)。
${}^tB = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} = B$。这是一个对称矩阵。
$B^{-1} = \frac{1}{-1} \begin{pmatrix} -1 & 0 \\ 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & -1 \end{pmatrix} = B$。
所以 $B^{-1} = {}^tB$。
所有条件都满足。
本段定义了正交矩阵,并阐述了它的五个等价刻画方式。一个正交矩阵代表的线性变换是“刚性”的,它保持了空间中所有向量的长度和所有向量间的夹角。从代数上看,它的逆矩阵就是它的转置矩阵,这使得求逆运算变得异常简单。从结构上看,它的所有列向量(或所有行向量)本身就构成一个标准正交基。这些优美的性质使得正交矩阵在理论和应用中都占据着核心地位。
引入正交矩阵的目的在于:
📜 [原文26]
证明. (i) ⟹ (ii):这由恒等式得出:
这是内积的双线性和对称性以及展开的推论。(将 $\mathbf{w}$ 替换为 $-\mathbf{w}$,这等价于 $\mathbb{R}^{2}$ 中的余弦定律。)换句话说,对于所有向量 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,
特别地将此应用于向量 $A \mathbf{v}, A \mathbf{w}$ 并使用 $A$ 是等距变换的事实,得到
因此,对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,$\langle A \mathbf{v}, A \mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{w}\rangle$。
(ii) ⟹ (i):如果对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,$\langle A \mathbf{v}, A \mathbf{w}\rangle=\langle\mathbf{v}, \mathbf{w}\rangle$,那么取 $\mathbf{v}=\mathbf{w}$,使得 $\|A \mathbf{v}\|^{2}=\langle A \mathbf{v}, A \mathbf{v}\rangle= \langle\mathbf{v}, \mathbf{v}\rangle=\|\mathbf{v}\|^{2}$。
(ii) ⟹ (iii):$A$ 的列等于 $\mathbf{c}_{i}=A \mathbf{e}_{i}$。根据 (ii),$\left\langle\mathbf{c}_{i}, \mathbf{c}_{j}\right\rangle=\left\langle A \mathbf{e}_{i}, A \mathbf{e}_{\mathbf{j}}\right\rangle=\left\langle\mathbf{e}_{i}, \mathbf{e}_{j}\right\rangle$。因此 $\mathbf{c}_{1}, \ldots, \mathbf{c}_{n}$ 是 $\mathbb{R}^{n}$ 的标准正交基。
(iii) ⟺ (iv):转置交换 $A$ 的行和列。因此,${ }^{t} A A$ 的 $(i, j)$ 元素是内积 $\left\langle\mathbf{c}_{i}, \mathbf{c}_{j}\right\rangle$。因此 ${ }^{t} A A=I_{n} \Longleftrightarrow \left\langle\mathbf{c}_{i}, \mathbf{c}_{j}\right\rangle$ 如果 $i \neq j$ 则为 0,如果 $i=j$ 则为 1 $\Longleftrightarrow$ $A$ 的列是 $\mathbb{R}^{n}$ 的标准正交基。
(iv) ⟺ (v):与上述类似,使用 $A^{t} A$ 而不是 ${ }^{t} A A$。
(iv) ⟹ (ii):如果 ${ }^{t} A=A^{-1}$,那么对于所有 $\mathbf{v}, \mathbf{w} \in \mathbb{R}^{n}$,
因此 (ii) 成立。
我们看到命题中的五个陈述中的任何一个都蕴含其他任何一个,所以它们都是等价的。
定义 4.4.6. 满足上述任何(以及所有)等价性质的矩阵 $A \in \mathbb{M}_{n}(\mathbb{R})$ 称为正交矩阵。所有 $n \times n$ 正交矩阵的集合记作 $O_{n}$,即正交群。行列式为 1 的所有正交矩阵的集合记作 $S O_{n}$,即特殊正交群。
这部分内容分为两块:第一块是命题 4.4.5 的详细证明,展示了五个等价条件之间如何相互推导;第二块则正式定义了正交矩阵、正交群 $O_n$ 和特殊正交群 $SO_n$。
[公式与符号逐项拆解和
推导(若本段含公式)]
公式1:
公式2:
公式3:
公式4:
我们在上面已经通过旋转矩阵和反射矩阵的例子,验证了这些等价条件。这里不再重复。
本段通过严谨的数学证明,建立了描述正交矩阵的五个等价命题之间的逻辑关系。这些证明深刻地揭示了“保长度”这一几何直观是如何与“保内积”、“列是标准正交基”以及“逆等于转置”这些代数和结构性质紧密相连的。在此基础上,正式定义了所有正交矩阵构成的正交群 $O_n$,以及其中代表纯粹旋转的特殊正交群 $SO_n$。
本段的目的是为正交矩阵的定义提供坚实的理论基础,并将其置于群论的框架下。
📜 [原文27]
命题 4.4.7. (i) 如果 $A, B \in O_{n}$,则 $A B \in O_{n}$;如果 $A, B \in S O_{n}$,则 $A B \in S O_{n}$。
(ii) $I_{n} \in S O_{n}$,因此 $I_{n} \in O_{n}$。
(iii) 如果 $A \in O_{n}$,则 $A^{-1} \in O_{n}$;如果 $A \in S O_{n}$,则 $A^{-1} \in S O_{n}$。
证明. 我们将基于命题 4.4.5 的性质 (iv) 给出证明。基于性质 (i) 给出证明也很容易。如果 $A, B \in O_{n}$,那么
因此 $A B \in O_{n}$,并且如果 $\operatorname{det} A=\operatorname{det} B=1$,那么 $\operatorname{det} A B=1$。由于 ${ }^{t} I_{n}=I_{n}=I_{n}^{-1}$ 且 $\operatorname{det} I_{n}=1$,$I_{n} \in S O_{n}$,因此 $I_{n} \in O_{n}$。最后,根据命题 4.4.2(iv),${ }^{t}\left(A^{-1}\right)=\left({ }^{t} A\right)^{-1}$。如果 $A$ 是正交的,
由于 ${ }^{t}\left(A^{-1}\right)=\left(A^{-1}\right)^{-1}$,根据定义 $A^{-1} \in O_{n}$。如果 $\operatorname{det} A=1$,那么 $\operatorname{det} A^{-1}=1$。
以下说明 $O_{n}$ 和 $S O_{n}$ 之间没有太大区别:
命题 4.4.8. 如果 $A \in O_{n}$,则 $\operatorname{det} A= \pm 1$。
证明. 使用 ${ }^{t} A=A^{-1}$,我们看到
因此 $(\operatorname{det} A)^{2}=1$,所以 $\operatorname{det} A= \pm 1$。
我们有时将 $S O_{n}$ 视为 $\mathbb{R}^{n}$ 的刚体运动集合(固定原点)。群 $S O_{2}$ 和 $O_{2}$ 明确给出如下:
和
因此 $S O_{2}$ 是 $\mathbb{R}^{2}$ 绕原点的旋转集合。
这部分内容验证了正交群 $O_n$ 和特殊正交群 $SO_n$ 确实满足群的公理,并进一步阐明了它们的性质和在二维平面上的具体形态。
公式1:
公式2:
公式3:
公式4&5 (SO₂ 和 O₂ 的定义):
已在上面详细解释。它们是二维旋转和反射的参数化形式。
本段严谨地证明了所有 $n \times n$ 正交矩阵的集合 $O_n$ 和特殊正交矩阵的集合 $SO_n$ 在矩阵乘法下都构成了群。一个关键的性质是,任何正交矩阵的行列式值必须是+1或-1,这为区分纯旋转 ($SO_n$) 和带反射的变换提供了依据。最后,通过给出二维情况下 $SO_2$ 和 $O_2$ 的具体矩阵形式,为这些抽象的群提供了具体、直观的例子。
本段的目的是完成对正交矩阵的群结构的研究,并将其与几何直观联系起来。
(原文的习题部分从1.1开始,这里为了保持逻辑连贯,将其放在最后)
📜 [原文28]
练习 1.1. (i) 设 $X$ 为一个集合,设 $\Delta_{X}$ 为 $X \times X$ 中的对角线:
证明,如果 $X$ 至少有两个元素,那么不存在 $X$ 的子集 $A, B$ 使得 $\Delta_{X}=A \times B$。
(ii) 设 $X$ 和 $Y$ 为两个集合。定义函数 $F: \mathcal{P}(X) \times \mathcal{P}(Y) \rightarrow \mathcal{P}(X \times Y)$ 为 $F(A, B)=A \times B$。是否 $F$ 是单射?换句话说,如果 $A_{1} \times B_{1}=A_{2} \times B_{2}$,是否必然 $A_{1}=A_{2}$ 且 $B_{1}=B_{2}$?对于满射又如何?
这道习题考察的是对笛卡尔积 ($A \times B$) 定义的深刻理解。
(i) 对角线不是笛卡尔积
(ii) 笛卡尔积作为函数
📜 [原文29]
练习 1.2. 直接使用函数的精确定义和一点逻辑,证明对于每个集合 $Y$,恰好有一个从 $\emptyset$ 到 $Y$ 的函数 $f$。$f$ 何时是单射?满射?解释你的答案。
设 $X$ 为一个集合。证明从 $X$ 到 $\emptyset$ 的函数要么不存在,要么恰好有一个,取决于 $X \neq \emptyset$ 还是 $X=\emptyset$。
这道题考察的是在涉及空集 $\emptyset$ 时,对函数定义的理解。
第一部分:从空集出发的函数
第二部分:到空集去的函数
(由于篇幅和保持与原文内容相关性的原因,仅对部分与已解释概念紧密相关的习题进行分析,其他习题思路类似)
解释: 定义 n 次单位根的集合 $\mu_n$ 为所有 n 次方等于 1 的复数。
解释: 给出 n 次单位根的具体计算公式,它们是单位圆上 n 等分点的复数表示。
解释: 一个经典的反例,说明复数开方的运算法则 $\sqrt{a}\sqrt{b}=\sqrt{ab}$ 不能随意使用。
解释: 定义向量集 $\{\mathbf{v}_i\}$ 的张成空间为其所有可能的线性组合的集合。
解释: 定义两个向量的标准内积(点积)为对应分量乘积之和。
解释: 概括了内积运算满足的四个核心性质:对称性、双线性、正定性。
解释: 定义向量的范数(长度)为该向量与自身内积的平方根。
解释: 给出范数(长度)满足的两个基本性质:与标量乘法的关系和三角不等式。
解释: 定义标准正交向量组的条件,即任意两个不同向量相互正交(内积为0),任意向量与自身的内积为1(长度为1)。
解释: 给出了 $\mathbb{R}^2$ 中右手系标准正交基的一般形式。
解释: 给出了 $\mathbb{R}^2$ 中左手系标准正交基的一般形式。
解释: 描述了 Gram-Schmidt 正交化过程保持的核心性质,即每一步生成的标准正交向量所张成的空间与原始向量所张成的空间相同。
解释: 给出 $m \times n$ 矩阵的一般表示形式。在后面的不同语境中,同样的公式代表了线性变换的矩阵、线性方程组的系数矩阵等。
解释: 一种将矩阵分块为行向量或列向量的象征性写法,用于直观解释矩阵乘法。
解释: 用标准基向量来表示单位矩阵 $I_n$。
解释: 描述了矩阵 A 作用于标准基向量 $\mathbf{e}_i$ 的结果,即 A 的第 i 列向量用目标空间的标准基展开。
解释: 在证明函数复合与矩阵乘法关系时,写出两个线性变换 F 和 G 对应的矩阵 B 和 A 的定义。
解释: 证明函数复合与矩阵乘法关系的核心推导步骤。
解释: 该公式展示了一个线性方程组,并说明它可以被简洁地写为矩阵形式 $A\mathbf{x}=\mathbf{b}$。
解释: 定义了逆矩阵 $A^{-1}$ 的性质,即它与原矩阵 A 的乘积(无论左右)都等于单位矩阵。
解释: 证明对于方阵,左逆等于右逆的经典代数推导。
解释: 逆矩阵的行列式是原矩阵行列式的倒数。
解释: $2 \times 2$ 矩阵的行列式计算公式。
解释: $2 \times 2$ 可逆矩阵的逆矩阵计算公式。
解释: 定义特殊线性群 $SL_n(\mathbb{R})$ 为所有行列式等于 1 的 n 阶实数方阵的集合。
解释: 描述了转置矩阵 ${}^tA$ 的核心性质,即它是在内积中将算子 A 从右边移动到左边的形式。
解释: 证明上述转置核心性质时,在标准基上验证等式成立的关键一步。
解释: 矩阵乘积的转置等于各矩阵转置后的反序乘积。
解释: 证明逆的转置等于转置的逆 ${}^t(A^{-1}) = ({}^tA)^{-1}$ 时的推导步骤。
解释: 范数平方的展开式,是推导极化恒等式和证明保长度与保内积等价的基础。
解释: 极化恒等式,用范数来表示内积。
解释: 将极化恒等式应用于变换后的向量,并利用变换的保长度性质,证明其同样保持内积。
解释: 证明正交矩阵的代数定义 ($A^{-1}={}^tA$) 蕴含其几何性质(保内积)的推导过程。
解释: 证明正交群 $O_n$ 对矩阵乘法封闭的计算步骤。
解释: 证明正交群 $O_n$ 对求逆运算封闭的计算步骤。
解释: 证明正交矩阵的行列式必须为 $\pm 1$ 的推导步骤。
解释: 给出了二维特殊正交群(旋转群)$SO_2$ 中矩阵的一般参数化形式。
解释: 给出了二维正交群 $O_2$ 的完整描述,它由所有旋转矩阵和所有反射矩阵两部分组成。
解释: (习题) 定义集合 X 的笛卡尔积 $X \times X$ 中的对角线子集。
[[END_OF_RESPONSE]]所有解释内容已全部输出完毕。