1. 经典信息

📜 原文

📖 逐步解释

∑ 公式拆解

💡 数值示例

⚠️ 易错点

📝 总结

🎯 存在目的

🧠 直觉心智模型

💭 直观想象

11. 经典信息

📜 [原文1]

就像我们在上一课所做的那样，我们将从讨论经典信息开始本课。

再次强调，概率描述和量子描述在数学上是相似的，识别数学在熟悉的经典信息背景下是如何运作的，有助于理解为什么量子信息以这种方式被描述。

📖 [逐步解释]

这部分是引言，为整个课程内容设定了学习的基调和方法论。

“就像我们在上一课所做的那样”: 这句话表明本课的学习方法将延续上一课的模式。这是一种教学上的“一致性”策略，让学生知道接下来会发生什么，减少认知负担。上一课可能也是先从一个经典（非量子）的、大家熟悉的概念入手，然后再过渡到对应的量子概念。
“我们将从讨论经典信息开始本课”: 这明确了本课的起点。经典信息指的是我们日常生活中遇到的信息，比如书本上的文字、计算机硬盘里存储的数据（0和1）、硬币的正反面等。这些信息是确定的、可精确复制的。从这个我们已经有直觉和经验的领域开始，可以为后续学习更抽象的量子信息打下坚实的基础。这是一种“由浅入深，由已知推未知”的教学方法。
“再次强调，概率描述和量子描述在数学上是相似的”: 这是本课程的一个核心观点。概率描述是处理经典信息中不确定性（比如掷骰子）的数学工具，主要涉及概率论。量子描述则是用来描述量子信息的数学框架，即量子力学。这句话的意思是，尽管两者描述的物理现象（经典 vs 量子）截然不同，但它们使用的数学语言和结构（例如，都用到了向量、矩阵、线性代数）有惊人的相似之处。
“识别数学在熟悉的经典信息背景下是如何运作的，有助于理解为什么量子信息以这种方式被描述”: 这解释了为什么我们要先学习经典信息。通过观察和理解那些数学工具（如概率向量、随机矩阵）是如何被用来描述抛硬币、掷骰子这些经典场景的，我们就能更好地理解为什么量子力学要用非常相似的数学工具（如态向量、酉矩阵）来描述量子比特的行为。这就像是先学会用扳手修自行车，再去修结构更复杂的汽车，虽然对象不同，但工具的使用原理是相通的。

💡 [数值示例]

示例1：经典信息的概率描述

假设我们有一个不均匀的硬币，抛出正面的概率是 $p=0.6$ ，反面的概率是 $1-p=0.4$ 。我们可以用一个概率向量来描述这个硬币的概率状态：

$v = \begin{pmatrix} 0.6 \\ 0.4 \end{pmatrix}$

这里的第一个分量 $0.6$ 对应“正面”这个经典状态，第二个分量 $0.4$ 对应“反面”这个经典状态。这个向量就用数学语言精确地描述了这枚经典硬币的不确定性。

示例2：与量子描述的类比

一个量子比特（qubit）可以处于 $|0\rangle$ 和 $|1\rangle$ 状态的叠加态。它的量子态可以用一个态向量来描述，例如：

$|\psi\rangle = \sqrt{0.6} |0\rangle + \sqrt{0.4} |1\rangle$

写成向量形式就是：

$|\psi\rangle = \begin{pmatrix} \sqrt{0.6} \\ \sqrt{0.4} \end{pmatrix}$

当我们测量这个量子比特时，得到结果“0”的概率是 $(\sqrt{0.6})^2 = 0.6$ ，得到结果“1”的概率是 $(\sqrt{0.4})^2 = 0.4$ 。

对比这两个例子，你会发现描述经典硬币的概率向量 $\begin{pmatrix} 0.6 \\ 0.4 \end{pmatrix}$ 和描述量子比特的态向量 $\begin{pmatrix} \sqrt{0.6} \\ \sqrt{0.4} \end{pmatrix}$ 在结构上非常相似。它们都是二维列向量。不同之处在于，概率向量的分量是概率本身，它们的和必须为1。而量子态向量的分量是概率幅，它们的模长的平方和必须为1。这种数学上的相似性就是引言中所强调的。

⚠️ [易错点]

易错点：混淆“相似”与“相同”。引言说数学上“相似”，不是“相同”。一个关键区别是，经典概率总是非负实数，而量子概率幅可以是负数，甚至是复数。例如，一个量子比特的状态可以是 $\frac{1}{\sqrt{2}}|0\rangle - \frac{1}{\sqrt{2}}|1\rangle$ ，这里的负号在经典概率中是没有对应物的，但它在量子计算中至关重要，是干涉效应的来源。
边界情况：确定性经典状态。如果一枚硬币被确定为正面朝上，它的概率状态可以表示为 $\begin{pmatrix} 1 \\ 0 \end{pmatrix}$ 。这是一个边界情况，即概率为1和0。这对应于经典信息中没有不确定性的情况。

📝 [总结]

本段是课程的开场白，它设定了学习策略：通过回顾和分析我们熟悉的经典信息及其概率描述，来类比和理解更为抽象的量子信息及其量子描述。它强调了两种描述在数学形式上的相似性，并指出利用这种相似性是通往理解量子世界的桥梁。

🎯 [存在目的]

本段的目的是为学生建立一个正确的学习心态和方法论。它告诉学生，即将学习的量子概念虽然听起来很神秘，但并非无迹可寻。我们可以从已有的知识（经典概率论）出发，找到通向新知识（量子力学）的“脚手架”。这有助于降低学习门槛，增强学生攻克难题的信心。

🧠 [直觉心智模型]

你可以把学习量子信息想象成学习一门新的外语（比如拉丁语）。直接从头硬背语法和单词会非常痛苦。但是，如果你发现拉丁语的很多词根和语法结构与你已经掌握的母语（比如英语）有相似之处（例如，“information”源自拉丁语“informatio”），你就可以通过类比来加速学习。本段就是告诉你：“量子语言”和“经典概率语言”在“语法”（数学结构）上有很多相似之处，让我们先复习一下熟悉的“经典概率语言”，再去看“量子语言”是怎么表达思想的。

💭 [直观想象]

想象你面前有两幅地图，一幅是你的家乡的详细地图（经典信息），另一幅是某个遥远未知星球的地图（量子信息）。乍一看，未知星球的地图上符号怪异，地形奇特。但这时有人告诉你，两幅地图的图例系统（比如，等高线表示高度，蓝色表示水域）在设计上遵循了相同的逻辑。于是，你开始仔细研究家乡地图的图例是如何工作的（概率描述），当你彻底搞懂了之后，再去看未知星球的地图，你就能猜出那些怪异符号的大概含义了（量子描述）。这个过程就是本段所倡导的学习方法。

1.1 通过笛卡尔积表示经典状态

📜 [原文2]

我们将从一个非常基础的层面开始，讨论多系统的经典状态。

为简单起见，我们将首先讨论两个系统，然后推广到两个以上的系统。

准确地说，令 $\mathsf{X}$ 为一个其经典状态集为 $\Sigma$ 的系统，

并令 $\mathsf{Y}$ 为第二个其经典状态集为 $\Gamma$ 的系统。

注意，因为我们将这些集合称为经典状态集，所以我们的假设是 $\Sigma$ 和 $\Gamma$ 都是有限且非空的。

可能存在 $\Sigma = \Gamma$ 的情况，但这并非必然——而且无论如何，为了清晰起见，使用不同的名称来指代这些集合将会有所帮助。

现在想象这两个系统 $\mathsf{X}$ 和 $\mathsf{Y}$ 并排放置， $\mathsf{X}$ 在左侧， $\mathsf{Y}$ 在右侧。

如果我们愿意，我们可以将这两个系统视为形成了一个单一系统，根据我们的偏好，可以将其表示为 $(\mathsf{X},\mathsf{Y})$ 或 $\mathsf{XY}$ 。

关于这个复合系统 $(\mathsf{X},\mathsf{Y})$ ，一个自然的问题是，“它的经典状态是什么？”

📖 [逐步解释]

这部分内容开始正式引入描述多系统的第一个核心数学工具：笛卡尔积。

“我们将从一个非常基础的层面开始，讨论多系统的经典状态”: 这句话设定了本节的讨论范围。“多系统”指的是两个或两个以上独立的系统组合在一起。例如，两枚硬币、三个骰子、计算机中的两个比特。“经典状态”指的是系统在某个时刻所处的明确、可区分的状态，比如硬币的“正面”或“反面”。
“为简单起见，我们将首先讨论两个系统，然后推广到两个以上的系统”: 这是一个标准的科学阐述方法，从最简单的情况（两个系统）入手，理解其原理，然后再将该原理应用到更复杂的情况（多个系统）。
“准确地说，令 $\mathsf{X}$ 为一个其经典状态集为 $\Sigma$ 的系统...”: 这里开始引入数学符号来形式化地定义问题。
$\mathsf{X}$ 和 $\mathsf{Y}$ ：这不是变量，而是对两个不同系统的标签或名称。你可以想象 $\mathsf{X}$ 是一枚硬币， $\mathsf{Y}$ 是一个骰子。
$\Sigma$ (Sigma) 和 $\Gamma$ (Gamma)：这两个大写希腊字母代表集合（Set）。 $\Sigma$ 是系统 $\mathsf{X}$ 所有可能的经典状态的集合。 $\Gamma$ 是系统 $\mathsf{Y}$ 所有可能的经典状态的集合。
例如，如果 $\mathsf{X}$ 是一枚硬币，那么它的状态集是 $\Sigma = \{\text{正面}, \text{反面}\}$ 。如果 $\mathsf{Y}$ 是一个标准的六面骰子，它的状态集是 $\Gamma = \{1, 2, 3, 4, 5, 6\}$ 。
“我们的假设是 $\Sigma$ 和 $\Gamma$ 都是有限且非空的”: 这是一个重要的技术性假设。
有限 (finite)：意味着状态的数量是有限个，不是无限个。这在经典计算和量子计算的入门阶段是标准假设，因为我们处理的是离散的系统（如比特）。
非空 (non-empty)：意味着每个系统至少要有一个状态，否则这个系统就没有意义了。
“可能存在 $\Sigma = \Gamma$ 的情况，但这并非必然”: 这说明两个系统的类型可以相同，也可以不同。
相同: 如果 $\mathsf{X}$ 和 $\mathsf{Y}$ 都是硬币，那么 $\Sigma = \Gamma = \{\text{正面}, \text{反面}\}$ 。
不同: 如果 $\mathsf{X}$ 是硬币， $\mathsf{Y}$ 是骰子，那么 $\Sigma = \{\text{正面}, \text{反面}\}$ 和 $\Gamma = \{1, 2, 3, 4, 5, 6\}$ 就是不同的集合。
“现在想象这两个系统 $\mathsf{X}$ 和 $\mathsf{Y}$ 并排放置...”: 这里引导我们从关注单个系统转向关注一个“组合体”。
“我们可以将这两个系统视为形成了一个单一系统，根据我们的偏好，可以将其表示为 $(\mathsf{X},\mathsf{Y})$ 或 $\mathsf{XY}$ ”: 这是视角上的一个重要转变。我们不再把它们看作两个独立的东西，而是看作一个更大的、复合的系统。这个复合系统的记法是 $(\mathsf{X},\mathsf{Y})$ 或 $\mathsf{XY}$ 。
“关于这个复合系统...一个自然的问题是，‘它的经典状态是什么？’”: 这是本节要回答的核心问题。如果我知道系统 $\mathsf{X}$ 的所有可能状态和系统 $\mathsf{Y}$ 的所有可能状态，那么由它们组成的复合系统 $(\mathsf{X},\mathsf{Y})$ 的所有可能状态又是什么呢？答案将在下一段揭晓。

💡 [数值示例]

示例1：两个硬币

系统 $\mathsf{X}$ 是一枚镍币，其经典状态集为 $\Sigma = \{\text{H}_N, \text{T}_N\}$ (H for Heads, T for Tails)。
系统 $\mathsf{Y}$ 是一枚便士，其经典状态集为 $\Gamma = \{\text{H}_P, \text{T}_P\}$ 。
这里 $\Sigma$ 和 $\Gamma$ 在概念上是相同的，都有两个元素。
复合系统 $(\mathsf{X},\mathsf{Y})$ 就是这两枚硬币放在一起。它的一个经典状态会是什么样呢？比如“镍币正面，便士反面”。
示例2：一个开关和一个交通信号灯

系统 $\mathsf{X}$ 是一个电灯开关，其经典状态集为 $\Sigma = \{\text{开}, \text{关}\}$ 。这是一个有两个状态的系统。
系统 $\mathsf{Y}$ 是一个交通信号灯，其经典状态集为 $\Gamma = \{\text{红}, \text{黄}, \text{绿}\}$ 。这是一个有三个状态的系统。
这里 $\Sigma$ 和 $\Gamma$ 是完全不同的集合。
复合系统 $(\mathsf{X},\mathsf{Y})$ 就是这个开关和信号灯的组合。它的一个经典状态会是什么样呢？比如“开关联着，信号灯是绿色”。

⚠️ [易错点]

易错点：将系统名称 $\mathsf{X}$ 与其状态集 $\Sigma$ 混淆。 $\mathsf{X}$ 是对物理系统的称呼，比如“硬币A”，而 $\Sigma$ 是一个数学对象，一个包含该系统所有可能状态的集合，比如 {'正面', '反面'}。
易错点：认为复合系统的状态数是两个系统状态数之和。这是一个非常常见的错误直觉。对于上面的开关和信号灯的例子，复合系统的状态数不是 $2+3=5$ ，而是 $2 \times 3=6$ 。因为开关的每一种状态都可以和信号灯的每一种状态组合。这个问题将在下一段用笛卡尔积正式解答。
边界情况：一个系统是空的。虽然原文假设非空，但我们可以思考一下如果 $\Gamma$ 是空集会怎样。那么复合系统的状态集也将是空的，这再次说明一个没有状态的系统是无意义的。

📝 [总结]

本段为引入笛卡尔积做了铺垫。它首先定义了什么是多系统，并使用集合（ $\Sigma, \Gamma$ ）来形式化地表示单个经典系统的所有可能状态。然后，它引导我们将两个独立的系统（ $\mathsf{X}, \mathsf{Y}$ ）看作一个单一的复合系统（ $(\mathsf{X},\mathsf{Y})$ ），并提出了一个关键问题：这个复合系统的状态集应该如何描述？

🎯 [存在目的]

本段的目的是建立描述多系统的基本词汇和数学框架。在物理和计算机科学中，我们经常需要处理由多个部分组成的复杂系统。为了能够精确地分析和操作这样的系统，我们必须先有一种统一的、无歧义的数学语言来描述它。本段就在做这个“打地基”的工作，为后面引入笛卡尔积、张量积等更高级的概念做好准备。

🧠 [直觉心智模型]

想象你在一个餐厅点餐，菜单上有两类：主食和饮料。

系统 $\mathsf{X}$ 就是“主食选择”，它的状态集 $\Sigma = \{\text{米饭}, \text{面条}, \text{面包}\}$ 。
系统 $\mathsf{Y}$ 就是“饮料选择”，它的状态集 $\Gamma = \{\text{可乐}, \text{茶}\}$ 。

将这两个系统组合成一个复合系统 $(\mathsf{X},\mathsf{Y})$ ，就相当于“一份完整的套餐”。那么，这个“套餐”的所有可能状态是什么呢？这就是本段提出的问题。

💭 [直观想象]

想象你正在组装一台电脑。

系统 $\mathsf{X}$ 是CPU插槽，它的状态集 $\Sigma$ 可能是 {Intel CPU, AMD CPU}。
系统 $\mathsf{Y}$ 是内存插槽，它的状态集 $\Gamma$ 可能是 {8GB内存条, 16GB内存条, 32GB内存条}。

当你把CPU和内存条都装到主板上时，你就得到了一个复合系统。这台电脑的“配置状态”是什么？一个可能的状态就是 (Intel CPU, 16GB内存条)。本段就是要找到一种方法，来系统地列出所有可能的配置状态。

📜 [原文3]

答案是 $(\mathsf{X},\mathsf{Y})$ 的经典状态集是 $\Sigma$ 和 $\Gamma$ 的笛卡尔积，该集合定义为

\Sigma\times\Gamma = \bigl\{(a,b)\,:\,a\in\Sigma\;\text{and}\;b\in\Gamma\bigr\}.

简单来说，笛卡尔积正是一个数学概念，它捕捉了将一个集合中的元素和第二个集合中的元素放在一起查看的想法，就好像它们构成了一个单一集合中的单个元素。

在当前情况下，说 $(\mathsf{X},\mathsf{Y})$ 处于经典状态 $(a,b)\in\Sigma\times\Gamma$ 意味着 $\mathsf{X}$ 处于经典状态 $a\in\Sigma$ 且 $\mathsf{Y}$ 处于经典状态 $b\in\Gamma$ ；

并且如果 $\mathsf{X}$ 的经典状态是 $a\in\Sigma$ 且 $\mathsf{Y}$ 的经典状态是 $b\in\Gamma$ ，那么联合系统 $(\mathsf{X},\mathsf{Y})$ 的经典状态就是 $(a,b)$ 。

📖 [逐步解释]

这一部分正式给出了上一段问题的答案，并详细解释了笛卡尔积的含义。

“答案是 $(\mathsf{X},\mathsf{Y})$ 的经典状态集是 $\Sigma$ 和 $\Gamma$ 的笛卡尔积”: 这句话直接揭晓了答案。描述复合系统状态的数学工具就是笛卡尔积 (Cartesian Product)，记作 $\times$ 。
“该集合定义为 ...”: 这里给出了笛卡尔积的严格数学定义。我们来拆解这个公式。
“简单来说，笛卡尔积正是一个数学概念，它捕捉了将一个集合中的元素和第二个集合中的元素放在一起查看的想法”: 这是对笛卡尔积核心思想的通俗解释。它的本质就是“配对”。从第一个集合里选一个元素，再从第二个集合里选一个元素，把它们俩组成一个有序的“对儿”，这个“对儿”就是笛卡尔积这个新集合里的一个元素。
“就好像它们构成了一个单一集合中的单个元素”: 这一点很关键。虽然 $(a,b)$ 里面包含两个部分，但在 $\Sigma\times\Gamma$ 这个复合的集合里，我们把它看作一个不可分割的整体，一个单一的元素。
“在当前情况下，说 $(\mathsf{X},\mathsf{Y})$ 处于经典状态 $(a,b)...$ ”: 这部分将抽象的数学定义与我们正在讨论的物理情境联系起来。它建立了一个一一对应的关系：
复合系统的状态 $(a,b)$ $\iff$ 子系统 $\mathsf{X}$ 的状态是 $a$ 并且子系统 $\mathsf{Y}$ 的状态是 $b$ 。
这是一个双向的、完全等价的描述。知道了复合状态，就能唯一确定两个子系统的状态；反之，知道了两个子系统的状态，也就能唯一确定复合系统的状态。

∑ [公式拆解]

\Sigma\times\Gamma = \bigl\{(a,b)\,:\,a\in\Sigma\;\text{and}\;b\in\Gamma\bigr\}.

$\Sigma\times\Gamma$ : 这就是笛卡尔积的符号。它表示由集合 $\Sigma$ 和集合 $\Gamma$ 生成的一个新集合。
$=$ : 等于号，表示左右两边是完全相同的集合。
$\bigl\{ ... \bigr\}$ : 这是一对大括号，表示括号内部的东西是一个集合。
$(a,b)$ : 这是一个有序对 (ordered pair)。“有序”是这里的关键，意味着 $(a,b)$ 和 $(b,a)$ 是不同的（除非 $a=b$ 并且这两个元素来自同一个集合）。括号里的第一个元素 $a$ 必须来自第一个集合 $\Sigma$ ，第二个元素 $b$ 必须来自第二个集合 $\Gamma$ 。这个有序对就是笛卡尔积这个新集合中的一个元素。
$:$ : 冒号，读作“使得”(such that)。它前面的部分 $(a,b)$ 定义了新集合中元素的形式，后面的部分是对这些元素的约束条件。
$a\in\Sigma$ : 读作“ $a$ 属于 $\Sigma$ ”或“ $a$ 是 $\Sigma$ 中的一个元素”。这规定了有序对中第一个部分 $a$ 的来源。
$\text{and}$ : 逻辑“与”，表示两个条件必须同时满足。
$b\in\Gamma$ : 读作“ $b$ 属于 $\Gamma$ ”或“ $b$ 是 $\Gamma$ 中的一个元素”。这规定了有序对中第二个部分 $b$ 的来源。

总结一下：这个公式的含义是，集合 $\Sigma\times\Gamma$ 是由所有可能的有序对 $(a,b)$ 组成的集合，其中 $a$ 必须取自集合 $\Sigma$ ， $b$ 必须取自集合 $\Gamma$ 。

💡 [数值示例]

示例1：餐厅点餐

主食集合 $\Sigma = \{\text{米饭}, \text{面条}\}$
饮料集合 $\Gamma = \{\text{可乐}, \text{茶}, \text{水}\}$
那么，所有可能的套餐组合，即笛卡尔积 $\Sigma\times\Gamma$ ，就是：

$\Sigma\times\Gamma = \{ (\text{米饭}, \text{可乐}), (\text{米饭}, \text{茶}), (\text{米饭}, \text{水}), (\text{面条}, \text{可乐}), (\text{面条}, \text{茶}), (\text{面条}, \text{水}) \}$

这个新集合里有 $2 \times 3 = 6$ 个元素，每个元素都是一个形如 (主食, 饮料) 的有序对。例如， $(\text{米饭}, \text{可乐})$ 就是一个复合状态。
示例2：两个二进制位（比特）

第一个比特 $\mathsf{X}$ 的状态集 $\Sigma = \{0, 1\}$
第二个比特 $\mathsf{Y}$ 的状态集 $\Gamma = \{0, 1\}$
那么，由这两个比特组成的复合系统 $(\mathsf{X},\mathsf{Y})$ 的所有可能状态，即笛卡尔积 $\Sigma\times\Gamma$ (这里 $\Sigma=\Gamma$ ，所以也可以写成 $\Sigma\times\Sigma$ 或 $\Sigma^2$ )，就是：

$\Sigma\times\Gamma = \{ (0,0), (0,1), (1,0), (1,1) \}$

这个集合包含了所有可能的两个比特的组合状态。例如，状态 $(0,1)$ 意味着第一个比特是 $0$ ，第二个比特是 $1$ 。这个集合共有 $2 \times 2 = 4$ 个状态。

⚠️ [易错点]

易错点：忘记有序性。 $\Sigma\times\Gamma$ 和 $\Gamma\times\Sigma$ 通常是不同的集合。在餐厅例子中， $\Gamma\times\Sigma$ 会是 $\{(\text{可乐}, \text{米饭}), ...\}$ 这样的集合。虽然在实际点餐中顺序可能不重要，但在数学上和很多物理系统中，顺序是至关重要的。例如，在表示坐标时，点 $(2,3)$ 和点 $(3,2)$ 是完全不同的点。
易错点：将笛卡尔积与集合的并集（Union, $\cup$ ）混淆。并集是把两个集合的元素“倒”在一起，去掉重复的。例如 $\Sigma \cup \Gamma = \{\text{米饭}, \text{面条}, \text{可乐}, \text{茶}, \text{水}\}$ 。而笛卡尔积是创建“配对”，元素的形式和数量都完全不同。
边界情况：其中一个集合只有一个元素。如果 $\Sigma = \{\text{米饭}\}$ ， $\Gamma = \{\text{可乐}, \text{茶}\}$ ，那么 $\Sigma\times\Gamma = \{(\text{米饭}, \text{可乐}), (\text{米饭}, \text{茶})\}$ 。这个结果的结构和 $\Gamma$ 非常相似，只是每个元素都被“包装”成了一个有序对。

📝 [总结]

本段给出了描述复合经典系统状态的数学答案：使用笛卡尔积。它定义了笛卡尔积 $\Sigma\times\Gamma$ 是由所有可能的有序对 $(a,b)$ 构成的集合，其中 $a$ 来自 $\Sigma$ ， $b$ 来自 $\Gamma$ 。并且，它清晰地建立了物理直觉和数学符号之间的对应关系：复合系统的一个状态 $(a,b)$ 就等同于其子系统分别处于状态 $a$ 和状态 $b$ 。

🎯 [存在目的]

本段的目的是将一个直观的“组合”概念（比如组合套餐、组合电脑配置）精确地、无歧义地形式化为一个数学运算（笛卡尔积）。这种形式化是科学发展的基石，一旦我们有了这个工具，我们就可以：

精确计数：复合系统的状态总数是 $|\Sigma| \times |\Gamma|$ (其中 $|S|$ 表示集合 $S$ 的元素个数)。
系统性分析：我们可以遍历、操作复合系统的每一个状态，而不会有遗漏或混淆。
推广：这个概念可以轻易地从两个系统推广到任意多个系统。

🧠 [直觉心智模型]

笛卡尔积就像一个“组合器”或“配对机”。想象一条传送带（集合 $\Sigma$ ）上过来不同的上衣，另一条传送带（集合 $\Gamma$ ）上过来不同的裤子。这个“配对机”会取出第一条传送带上的每一件上衣，与第二条传送带上的每一件裤子都搭配一次，形成一套完整的服装。所有这些可能的服装搭配组合，就构成了笛卡尔积这个新的集合。

💭 [直观想象]

想象一张Excel表格。

第一行（行标题）是集合 $\Sigma$ 的所有元素，比如米饭, 面条。
第一列（列标题）是集合 $\Gamma$ 的所有元素，比如可乐, 茶, 水。

那么，表格中每一个单元格的内容，就是由它所在的行标题和列标题组成的有序对。例如，米饭那一列和茶那一行的交叉点，就是 (米饭, 茶)。整个表格的所有单元格，就直观地展示了笛卡尔积 $\Sigma\times\Gamma$ 的所有元素。

	米饭	面条
可乐	(米饭, 可乐)	(面条, 可乐)
茶	(米饭, 茶)	(面条, 茶)
水	(米饭, 水)	(面条, 水)

📜 [原文4]

对于两个以上的系统，情况以自然的方式推广。

如果我们假设 $\mathsf{X}_1,\ldots,\mathsf{X}_n$ 是分别具有经典状态集 $\Sigma_1,\ldots,\Sigma_n$ 的系统，对于任何正整数 $n$ ，被视为单一联合系统的 $n$ 元组 $(\mathsf{X}_1,\ldots,\mathsf{X}_n)$ 的经典状态集是笛卡尔积

\Sigma_1\times\cdots\times\Sigma_n = \bigl\{(a_1,\ldots,a_n)\,:\, a_1\in\Sigma_1,\:\ldots,\:a_n\in\Sigma_n\bigr\}.

📖 [逐步解释]

这部分将前面两个系统的概念推广到任意 $n$ 个系统。

“对于两个以上的系统，情况以自然的方式推广”: 这句话告诉我们，从2个系统到 $n$ 个系统的跨越并不复杂，其背后的逻辑是相同的。
“如果我们假设 $\mathsf{X}_1,\ldots,\mathsf{X}_n$ 是分别具有经典状态集 $\Sigma_1,\ldots,\Sigma_n$ 的系统...”: 这里设定了 $n$ 个系统的通用场景。
$\mathsf{X}_1, \mathsf{X}_2, \ldots, \mathsf{X}_n$ : 这是 $n$ 个不同系统的标签。比如 $n=10$ 个硬币。
$\Sigma_1, \Sigma_2, \ldots, \Sigma_n$ : 这是与上述 $n$ 个系统一一对应的 $n$ 个状态集。
“对于任何正整数 $n$ ”: 强调了这个推广的普适性，无论是3个、10个还是100万个系统，都适用。
“被视为单一联合系统的 $n$ 元组 $(\mathsf{X}_1,\ldots,\mathsf{X}_n)$ ”: 就像之前把 $(\mathsf{X}, \mathsf{Y})$ 视为一个复合系统一样，这里我们把这 $n$ 个系统 $(\mathsf{X}_1,\ldots,\mathsf{X}_n)$ 的组合也视为一个更大的、单一的联合系统。
“经典状态集是笛卡尔积...”: 这里给出了推广后的结论： $n$ 个系统组成的联合系统的状态集，就是这 $n$ 个子系统的状态集的笛卡尔积。

∑ [公式拆解]

\Sigma_1\times\cdots\times\Sigma_n = \bigl\{(a_1,\ldots,a_n)\,:\, a_1\in\Sigma_1,\:\ldots,\:a_n\in\Sigma_n\bigr\}.

这个公式是前面两系统定义的直接推广：

$\Sigma_1\times\cdots\times\Sigma_n$ : $n$ 个集合的笛卡尔积。
$(a_1,\ldots,a_n)$ : 这不再是一个有序对，而是一个 $n$ -元组 (n-tuple)。它是一个有序的列表，包含 $n$ 个元素。
$a_1\in\Sigma_1,\:\ldots,\:a_n\in\Sigma_n$ : 这是对 $n$ -元组中每个元素的约束。第 $i$ 个位置的元素 $a_i$ 必须来自第 $i$ 个集合 $\Sigma_i$ 。

💡 [数值示例]

示例1：一枚硬币和两个骰子

系统 $\mathsf{X}_1$ (硬币): $\Sigma_1 = \{\text{H}, \text{T}\}$ (状态数2)
系统 $\mathsf{X}_2$ (骰子A): $\Sigma_2 = \{1, 2, 3, 4, 5, 6\}$ (状态数6)
系统 $\mathsf{X}_3$ (骰子B): $\Sigma_3 = \{1, 2, 3, 4, 5, 6\}$ (状态数6)
这个联合系统 $(\mathsf{X}_1, \mathsf{X}_2, \mathsf{X}_3)$ 的状态集是 $\Sigma_1\times\Sigma_2\times\Sigma_3$ 。
它的一个经典状态就是一个 3-元组 (a triplet)，例如 $(\text{H}, 5, 2)$ ，表示“硬币是正面，骰子A掷出5，骰子B掷出2”。
总的状态数量是 $2 \times 6 \times 6 = 72$ 种。
示例2：一个RGB颜色像素

一个像素的颜色通常由红(R)、绿(G)、蓝(B)三个分量决定，每个分量的取值范围通常是 0 到 255 的整数。
系统 $\mathsf{X}_R$ (红色分量): $\Sigma_R = \{0, 1, \ldots, 255\}$ (状态数256)
系统 $\mathsf{X}_G$ (绿色分量): $\Sigma_G = \{0, 1, \ldots, 255\}$ (状态数256)
系统 $\mathsf{X}_B$ (蓝色分量): $\Sigma_B = \{0, 1, \ldots, 255\}$ (状态数256)
这个像素的状态集就是 $\Sigma_R \times \Sigma_G \times \Sigma_B$ 。
它的一个经典状态是一个 3-元组，例如 $(255, 0, 0)$ ，这代表纯红色。
总的状态数量（即总颜色数）是 $256 \times 256 \times 256 = 2^{8} \times 2^{8} \times 2^{8} = 2^{24} \approx 16.7$ 百万种。

⚠️ [易错点]

易错点：认为笛卡尔积有结合律。严格来说， $(A \times B) \times C$ 和 $A \times (B \times C)$ 是不同的。前者的元素是 $((a,b), c)$ 的形式，后者的元素是 $(a, (b,c))$ 的形式。但是，它们之间存在一个非常自然的一一对应关系（同构），所以在实际应用中，我们通常忽略这种嵌套的括号，直接写成 $A \times B \times C$ ，并将其元素视为 $n$ -元组 $(a,b,c)$ ，就像原文中定义的那样。这是一种为了方便而进行的“滥用符号”，但被广泛接受。
边界情况： $n=1$ 。当只有一个系统时，它的状态集就是 $\Sigma_1$ 本身。公式也成立，只不过 $1$ -元组 $(a_1)$ 通常就直接写成 $a_1$ 。

📝 [总结]

本段将笛卡尔积的概念从两个系统推广到了任意 $n$ 个系统。它指出，一个由 $n$ 个子系统组成的联合系统的经典状态集，是这 $n$ 个子系统各自状态集的笛卡尔积。这个笛卡尔积集合中的每个元素是一个 $n$ -元组 $(a_1, \ldots, a_n)$ ，代表了联合系统的一个确定的经典状态。

🎯 [存在目的]

本段的目的是提供一个可以描述任意复杂度经典复合系统的通用数学框架。真实世界的系统（如计算机、网络、生物体）很少是单一组件，几乎都是由大量子系统构成的。有了这个推广，我们就有能力用统一的语言来描述一个拥有10个比特的寄存器，或一个拥有数百万像素的屏幕，为后续分析这些系统的概率状态和操作打下了基础。

🧠 [直觉心智模型]

想象你在填写一份有多项选择的调查问卷。

问题1的选项集是 $\Sigma_1$ 。
问题2的选项集是 $\Sigma_2$ 。
...
问题n的选项集是 $\Sigma_n$ 。

你提交的一份完整的答卷，就是从每个问题中各选一个答案组成的列表，例如 $(\text{答案}_1, \text{答案}_2, \ldots, \text{答案}_n)$ 。这个列表就是一个 $n$ -元组。所有可能的完整答卷的集合，就是这 $n$ 个选项集的笛卡尔积。

💭 [直观想象]

想象一个老式的机械密码锁，它有 $n$ 个拨轮。

第一个拨轮上可能的数字集合是 $\Sigma_1$ (比如 $\{0, \ldots, 9\}$ )。
第二个拨轮上可能的数字集合是 $\Sigma_2$ (比如 $\{0, \ldots, 9\}$ )。
...
第 $n$ 个拨轮上可能的数字集合是 $\Sigma_n$ (比如 $\{0, \ldots, 9\}$ )。

这个密码锁的每一种可能的显示状态，比如 "3-5-2-8-..."，就是一个 $n$ -元组 $(3, 5, 2, 8, \ldots)$ 。所有这些可能状态的集合，就是这 $n$ 个拨轮上数字集合的笛卡尔积。

📜 [原文5]

当然，我们可以随意使用任何我们希望的名称来命名系统，并按我们的选择对其进行排序。

特别地，如果我们有如上所述的 $n$ 个系统，我们可以选择将它们命名为 $\mathsf{X}_{0},\ldots,\mathsf{X}_{n-1}$ 并从右到左排列，从而使联合系统变为 $(\mathsf{X}_{n-1},\ldots,\mathsf{X}_0)$ 。

遵循相同的命名相关经典状态和经典状态集的模式，我们随后可能会提到这个复合系统的一个经典状态

(a_{n-1},\ldots,a_0) \in \Sigma_{n-1}\times \cdots \times \Sigma_0

事实上，这是 Qiskit 在命名多个量子比特时使用的排序惯例。

我们将在下一课回到这个惯例以及它如何与量子线路联系起来，但我们现在就开始使用它以帮助适应。

📖 [逐步解释]

这部分讨论了对多系统进行命名和排序的惯例，并特别引出了一个在量子计算中非常重要的“从右到左”的约定。

“当然，我们可以随意使用任何我们希望的名称来命名系统，并按我们的选择对其进行排序”: 这强调了命名和排序的任意性。数学上，只要逻辑一致，叫什么名字、怎么排都行。比如，我可以把两个硬币命名为“汤姆”和“杰瑞”，也可以叫“硬币A”和“硬币B”。我可以先说“汤姆”的状态再说“杰瑞”的，也可以反过来。
“特别地，如果我们有...我们可以选择将它们命名为 $\mathsf{X}_{0},\ldots,\mathsf{X}_{n-1}$ ”: 这里引入了一种非常常见的计算机科学命名法：从0开始索引。我们不说第1个、第2个...第n个系统，而是说第0个、第1个...第n-1个系统。这在处理数组、列表等数据结构时非常自然。
“...并从右到左排列，从而使联合系统变为 $(\mathsf{X}_{n-1},\ldots,\mathsf{X}_0)$ ”: 这是本段最核心、最反直觉的一点。通常我们的阅读和书写习惯是从左到右。但这里提出了一种“从右到左”的排列方式。这意味着，我们把索引号最小的系统 $\mathsf{X}_0$ 放在最右边，索引号最大的系统 $\mathsf{X}_{n-1}$ 放在最左边。
“遵循相同的命名...我们随后可能会提到这个复合系统的一个经典状态 $(a_{n-1},\ldots,a_0)$ ”: 伴随着系统的排序，描述状态的元组也遵循同样的顺序。状态 $a_0$ 对应系统 $\mathsf{X}_0$ ，状态 $a_{n-1}$ 对应系统 $\mathsf{X}_{n-1}$ 。在元组的写法中， $a_{n-1}$ 在最左边， $a_0$ 在最右边。
“事实上，这是 Qiskit 在命名多个量子比特时使用的排序惯例”: 这句话解释了为什么要引入这个看起来有点奇怪的惯例。Qiskit 是一个主流的量子计算开源框架。为了让本课程的知识能和将来的实践（比如用Qiskit编程）无缝对接，课程提前引入了这个惯例。这非常重要，因为如果搞反了顺序，会导致对量子电路的理解和计算结果完全错误。
“我们现在就开始使用它以帮助适应”: 表明从现在起，课程将默认采用这种“从右到左，从0开始”的索引和排序约定。

∑ [公式拆解]

(a_{n-1},\ldots,a_0) \in \Sigma_{n-1}\times \cdots \times \Sigma_0

$(a_{n-1},\ldots,a_0)$ : 这是一个经典状态的 $n$ -元组表示。
$a_0$ : 是最右边的元素，它属于最右边的系统 $\mathsf{X}_0$ 的状态集 $\Sigma_0$ 。
$a_{n-1}$ : 是最左边的元素，它属于最左边的系统 $\mathsf{X}_{n-1}$ 的状态集 $\Sigma_{n-1}$ 。
$\in$ : 属于符号。
$\Sigma_{n-1}\times \cdots \times \Sigma_0$ : 笛卡尔积也按照从左到右递减的索引顺序书写。

这个公式本身和之前的 $n$ 元组笛卡尔积公式在数学结构上是完全一样的，唯一的区别是下标的命名方式从 $1, \ldots, n$ 变成了 $n-1, \ldots, 0$ 。这种改变是为了匹配计算机科学中的“位序”概念。

💡 [数值示例]

示例1：三个比特系统

我们有三个比特，按照新惯例命名为 $\mathsf{X}_0, \mathsf{X}_1, \mathsf{X}_2$ 。
它们的状态集都是 $\Sigma_0 = \Sigma_1 = \Sigma_2 = \{0, 1\}$ 。
按照“从右到左”的排列，我们把这个联合系统写成 $(\mathsf{X}_2, \mathsf{X}_1, \mathsf{X}_0)$ 。
那么，一个经典状态就写成一个 3-元组 $(a_2, a_1, a_0)$ ，其中 $a_2 \in \Sigma_2, a_1 \in \Sigma_1, a_0 \in \Sigma_0$ 。
例如，状态 $(1, 0, 1)$ 意味着：
系统 $\mathsf{X}_2$ 处于状态 1。
系统 $\mathsf{X}_1$ 处于状态 0。
系统 $\mathsf{X}_0$ 处于状态 1。
示例2：为什么这个惯例有用？

在二进制中，一个数字比如 $5$ 可以写成 $101_2$ 。
这个二进制数可以解释为 $1 \cdot 2^2 + 0 \cdot 2^1 + 1 \cdot 2^0$ 。
最右边的位是最低有效位 (Least Significant Bit, LSB)，它的权重是 $2^0$ 。
最左边的位是最高有效位 (Most Significant Bit, MSB)，它的权重是 $2^2$ 。
如果我们将比特系统 $\mathsf{X}_0, \mathsf{X}_1, \mathsf{X}_2$ 与二进制数的位一一对应，让 $\mathsf{X}_0$ 对应 LSB， $\mathsf{X}_2$ 对应 MSB，那么状态 $(a_2, a_1, a_0)$ 就可以非常自然地与二进制字符串 $a_2a_1a_0$ 对应起来。
在上面的例子中，状态 $(1, 0, 1)$ 就对应二进制字符串 "101"，它代表的数值就是5。
这种对应关系在量子计算中非常方便，特别是当我们需要将量子比特的状态解释为一个整数时。Qiskit的惯例正是基于此。

⚠️ [易错点]

最主要的易错点：搞反顺序。当看到状态 $(a_2, a_1, a_0)$ 时，很容易习惯性地认为 $a_2$ 是第一个比特的状态， $a_0$ 是第三个。但根据这个新惯例， $a_0$ 才是“第0个”比特（最右边，最低位）的状态。必须时刻提醒自己“Qiskit惯例：右边是0号，左边是最大号”。
边界情况：只有两个系统 ( $n=2$ )。系统被命名为 $\mathsf{X}_0, \mathsf{X}_1$ 。联合系统写作 $(\mathsf{X}_1, \mathsf{X}_0)$ 。一个状态写作 $(a_1, a_0)$ 。这对应于二进制中的两位数 $a_1a_0$ 。

📝 [总结]

本段引入了一个在（特别是Qiskit实现的）量子计算中至关重要的书写和排序惯例。该惯例包含两点：1) 系统从0开始索引（ $\mathsf{X}_0, \mathsf{X}_1, \ldots$ ）。2) 在表示联合系统或其状态时，索引号小的在右边，索引号大的在左边（如 $(\mathsf{X}_{n-1}, \ldots, \mathsf{X}_0)$ 和 $(a_{n-1}, \ldots, a_0)$ ）。这种看似反常的顺序是为了与二进制数的书写方式保持一致，从而方便地将多比特系统的状态映射为一个整数。

🎯 [存在目的]

本段的目的是让学习者提前适应专业工具（如Qiskit）和文献中广泛采用的惯例。如果不提前说明并强制练习，学习者在后面接触实际的量子电路和代码时会遇到巨大的混淆和障碍。通过在简单的经典信息背景下引入这个惯例，可以降低适应成本，为后续平稳过渡到量子信息的表示打下基础。

🧠 [直觉心智模型]

想象一下我们写十进制数字，比如“三百二十一”，我们写作 321。

最右边的 '1' 代表个位 ( $10^0$ )。
中间的 '2' 代表十位 ( $10^1$ )。
最左边的 '3' 代表百位 ( $10^2$ )。

我们的书写习惯就是“高位在左，低位在右”。Qiskit的惯例就是把这个我们习以为常的数字书写方式，应用到了比特系统的排列上。

比特 $\mathsf{X}_0$ 就像个位。
比特 $\mathsf{X}_1$ 就像十位。
比特 $\mathsf{X}_2$ 就像百位。

所以，当我们把它们组合起来看时，很自然地就写成 $(\mathsf{X}_2, \mathsf{X}_1, \mathsf{X}_0)$ ，其状态 $(a_2, a_1, a_0)$ 就对应数字 $a_2a_1a_0$ 。

💭 [直观想象]

想象一条有多个车道的单行道高速公路。

最右边的车道是0号车道。
它左边是1号车道。
...
最左边的车道是 $n-1$ 号车道。

一排汽车同时在这条高速上行驶，每辆车占据一个车道。这一整排车就是一个联合系统的状态。当我们从远处（比如直升机上）给这一排车拍照时，照片从左到右依次显示了 $n-1$ 号车道的车、...、1号车道的车、0号车道的车。这张照片的内容 $(车_{n-1}, \ldots, 车_0)$ 就是联合系统的一个经典状态。

📜 [原文6]

为了简练，通常方便将形式为 $(a_{n-1},\ldots,a_0)$ 的经典状态写为一个 <DefinitionTooltip definition="字符串是符号或字符的有限、有序序列。">字符串 </DefinitionTooltip> $a_{n-1}\cdots a_0$ ，特别是在经典状态集 $\Sigma_0,\ldots,\Sigma_{n-1}$ 与符号或字符集相关联的典型情况下。

在这种背景下，字母表这一术语通常用于指代用于形成字符串的符号集，但字母表的数学定义与经典状态集的定义完全相同：它是一个有限且非空的集合。

📖 [逐步解释]

这部分内容介绍了从元组表示到字符串表示的简化写法，并引入了“字母表”这一术语。

“为了简练，通常方便将形式为 $(a_{n-1},\ldots,a_0)$ 的经典状态写为一个字符串 $a_{n-1}\cdots a_0$ ”: 这是本段的核心思想。我们省略掉元组表示法中的括号 () 和逗号 ,，直接把各个子系统的状态符号挨着写。
例如，之前写的 3-比特状态 $(1, 0, 1)$ ，现在可以简写为字符串 "101"。
这种写法更紧凑，也更符合我们书写数字和单词的习惯。
“特别是在经典状态集...与符号或字符集相关联的典型情况下”: 这个简化写法不是什么时候都适用。当状态本身就是单个符号或字符时（比如 $\{0, 1\}$ , $\{A, B, C\}$ ），这样写很清晰。但如果状态是“正面”、“反面”这种词语，写成 正面反面正面 就会产生歧义。所以，这种字符串写法最常用于比特系统，因为它们的状态集就是 $\{0, 1\}$ 。
“在这种背景下，字母表这一术语通常用于指代用于形成字符串的符号集”: 这里引入了一个来自形式语言和计算机理论的术语。
字母表 (Alphabet)：在计算机科学中，一个字母表就是一个用来构建字符串的非空有限符号集。
例如，二进制字母表是 $\{0, 1\}$ 。英文字母表是 $\{a, b, \ldots, z\}$ 。
“但字母表的数学定义与经典状态集的定义完全相同：它是一个有限且非空的集合”: 这句话揭示了“字母表”和我们之前定义的“经典状态集”在数学本质上是同一个东西。它们都是一个有限非空集。叫哪个名字取决于上下文：
在讨论物理系统时，我们倾向于说“状态集”。
在讨论由这些状态构成的序列（字符串）时，我们倾向于说“字母表”。

💡 [数值示例]

示例1：四比特系统

系统 $(\mathsf{X}_3, \mathsf{X}_2, \mathsf{X}_1, \mathsf{X}_0)$ 。
状态集都是二进制字母表 $\Sigma=\{0, 1\}$ 。
一个经典状态，用元组表示是 $(1, 1, 0, 1)$ 。
用字符串表示就是 "1101"。
这个字符串对应十进制数 $1 \cdot 2^3 + 1 \cdot 2^2 + 0 \cdot 2^1 + 1 \cdot 2^0 = 8 + 4 + 0 + 1 = 13$ 。
示例2：三进制系统 (Trit)

假设我们有2个三态系统， $\mathsf{Y}_1, \mathsf{Y}_0$ 。
它们的状态集/字母表是 $\Sigma = \{0, 1, 2\}$ 。
一个经典状态，用元组表示是 $(2, 1)$ 。
用字符串表示就是 "21"。
如果看作一个三进制数，它对应十进制数 $2 \cdot 3^1 + 1 \cdot 3^0 = 6 + 1 = 7$ 。

⚠️ [易错点]

易错点：不适当地使用字符串表示法。假设一个系统的状态集是 $\Sigma=\{1, 10, 11\}$ 。如果一个复合系统的状态是 $(1, 10)$ ，写成字符串 "110" 就会产生歧义，因为它也可能代表 $(11, 0)$ （如果0是另一个系统的状态）。因此，只有当字母表中的每个符号都是单个字符且不会产生拼接歧义时，字符串表示法才是安全的。二进制字母表 $\{0, 1\}$ 是最完美的应用场景。
边界情况：单个系统。对于单个系统，其状态是 $(a_0)$ ，字符串表示就是 $a_0$ 。元组和字符串的区别消失了。

📝 [总结]

本段介绍了一种更简洁地表示复合经典系统状态的方法：用字符串（如 "101"）替代元组（如 (1,0,1)）。这种方法在子系统的状态本身是单个符号（如0或1）时尤其方便。同时，本段引入了“字母表”的概念，并阐明它在数学上与“经典状态集”是等价的，都是指一个有限非空集。

🎯 [存在目的]

本段的目的是进一步简化我们的数学记法，使其更接近计算机科学中的实践。在算法和信息论中，我们总是和字符串打交道。通过将复合系统的状态直接看作字符串，我们可以更方便地应用字符串处理、编码理论和信息论中的各种工具和思想。同时，这也强化了量子比特状态和二进制数之间的联系。

🧠 [直觉心智模型]

这就像我们写一个电话号码。

严格的、类似元组的表示可能是：(区号: 8, 第一部分: 6, 第二部分: 7, 第三部分: 5, ...)。
简化的、类似字符串的表示就是："8675..."。

我们省略了所有的标签、括号和逗号，因为我们都知道这些数字是按顺序排列的，每个都代表电话号码的一个部分。只要上下文清晰，字符串表示法就更高效。

💭 [直观想象]

想象一串DNA序列。

DNA的字母表是 $\Sigma = \{A, C, G, T\}$ 。
一条DNA链就是一个由这些字母组成的字符串，例如 "ACGTTAGCA..."。
我们可以把这条DNA链看作一个巨大的复合系统，其中每个位置是一个子系统，每个子系统的状态集就是 $\Sigma$ 。
状态 "ACGTTAGCA..." 是对这个复合系统所处经典状态的字符串表示。它比写成 (A, C, G, T, T, ...) 要简洁得多。

📜 [原文7]

例如，假设 $\mathsf{X}_0,\ldots,\mathsf{X}_9$ 是比特，因此这些系统的经典状态集都是相同的。

\Sigma_0 = \Sigma_1 = \cdots = \Sigma_9 = \{0,1\}

那么联合系统 $(\mathsf{X}_9,\ldots,\mathsf{X}_0)$ 有 $2^{10} = 1024$ 个经典状态，它们是集合

\Sigma_9\times\Sigma_8\times\cdots\times\Sigma_0 = \{0,1\}^{10}

的元素。以字符串形式书写，这些经典状态如下所示：

\begin{array}{c} 0000000000\\ 0000000001\\ 0000000010\\ 0000000011\\ 0000000100\\ \vdots\\[1mm] 1111111111 \end{array}

例如，对于经典状态 $0000000110$ ，我们看到 $\mathsf{X}_1$ 和 $\mathsf{X}_2$ 处于状态 $1$ ，而所有其他系统都处于状态 $0$ 。

📖 [逐步解释]

这是一个非常具体的例子，将前面几段的所有概念（多系统、从0索引、从右到左排列、笛卡尔积、字符串表示法）全部应用到一个10比特的系统上。

“例如，假设 $\mathsf{X}_0,\ldots,\mathsf{X}_9$ 是比特”: 设定了场景。我们有10个比特，按照从0到9的惯例命名。
“因此这些系统的经典状态集都是相同的”: 因为它们都是比特，所以每个比特的状态集都是二进制字母表 $\{0,1\}$ 。
“那么联合系统 $(\mathsf{X}_9,\ldots,\mathsf{X}_0)$ ”: 再次强调了“从右到左”的排列方式。 $\mathsf{X}_0$ 是最右边的比特（最低位）， $\mathsf{X}_9$ 是最左边的比特（最高位）。
“有 $2^{10} = 1024$ 个经典状态”: 计算了总的状态数。每个比特有2种可能的状态，我们有10个这样的比特，所以根据笛卡尔积的计数规则，总状态数是 $2 \times 2 \times \cdots \times 2$ (10次) $= 2^{10}$ 。1024 这个数字也就是计算机科学中的 1K。
“它们是集合 ... 的元素”: 明确指出这些状态是10个 $\{0,1\}$ 集合的笛卡尔积的元素。
“以字符串形式书写，这些经典状态如下所示”: 这里展示了用10位二进制字符串来表示这些状态。
0000000000: 对应所有比特都为0的状态。在数值上，它代表整数0。
0000000001: 对应最低位比特 $\mathsf{X}_0$ 为1，其他都为0的状态。在数值上，它代表整数1。
...
1111111111: 对应所有比特都为1的状态。在数值上，它代表整数 $2^{10}-1 = 1023$ 。
这个列表实际上就是从0到1023的整数的10位二进制表示。
“例如，对于经典状态 $0000000110$ ...”: 这是一个解读具体状态的练习。
字符串: 0000000110
解读: 我们要记住“从右到左，从0开始索引”。
最右边的位是第0位，状态是0 ( $\mathsf{X}_0=0$ )。
从右往左数第2位是第1位，状态是1 ( $\mathsf{X}_1=1$ )。
从右往左数第3位是第2位，状态是1 ( $\mathsf{X}_2=1$ )。
所有其他的位都是0。
所以这句话“ $\mathsf{X}_1$ 和 $\mathsf{X}_2$ 处于状态 $1$ ，而所有其他系统都处于状态 $0$ ” 是对这个字符串的正确解读。这个字符串代表的十进制数是 $2^1 + 2^2 = 2+4=6$ 。

∑ [公式拆解]

\Sigma_0 = \Sigma_1 = \cdots = \Sigma_9 = \{0,1\}

这个公式表示从 $\Sigma_0$ 到 $\Sigma_9$ 这10个集合都是完全相同的，它们都等于集合 $\{0,1\}$ 。

\Sigma_9\times\Sigma_8\times\cdots\times\Sigma_0 = \{0,1\}^{10}

左边: 按照“从右到左”惯例写出的10个状态集的笛卡尔积。
右边: 是一个简写。当一个集合与自身做 $n$ 次笛卡尔积时，例如 $A \times A \times \cdots \times A$ ( $n$ 次)，可以简写为 $A^n$ 。所以 $\{0,1\} \times \cdots \times \{0,1\}$ (10次) 就简写为 $\{0,1\}^{10}$ 。这表示所有长度为10的二进制字符串的集合。

\begin{array}{c} 0000000000\\ 0000000001\\ 0000000010\\ 0000000011\\ 0000000100\\ \vdots\\[1mm] 1111111111 \end{array}

这是一个用 array 环境（在LaTeX中）排版出的列表，展示了 $\{0,1\}^{10}$ 集合中的一些元素。

每一行是一个10位的二进制字符串，代表一个经典状态。
\vdots (vertical dots) 表示省略了中间的大量状态。
这个列表是按照二进制数递增的顺序排列的，这是一种非常自然的排序方式，称为字典序。

💡 [数值示例]

本段本身就是一个非常详尽的具体例子，我们再补充一个更小规模的。

示例：3比特系统
系统: $(\mathsf{X}_2, \mathsf{X}_1, \mathsf{X}_0)$
状态集: $\{0,1\}^3$
总状态数: $2^3 = 8$
所有状态的字符串表示 (按数值升序):
000 (十进制 0)
001 (十进制 1)
010 (十进制 2)
011 (十进制 3)
100 (十进制 4)
101 (十进制 5)
110 (十进制 6)
111 (十进制 7)
对于状态 "110"：它意味着 $\mathsf{X}_2=1, \mathsf{X}_1=1, \mathsf{X}_0=0$ 。

⚠️ [易错点]

易错点：再次搞错位序。看到 "0000000110"，第一反应可能是最左边是第1位。必须强制自己从右边开始数，并且从0开始。最右边的是第0位。
易错点：总状态数与最大数值混淆。对于10比特系统，总状态数是 $1024$ 。但这些状态对应的数值是从 $0$ 到 $1023$ 。最大值是 $2^{10}-1$ ，而不是 $2^{10}$ 。这是一个经典的“差一错误”(off-by-one error)。

📝 [总结]

本段通过一个10比特系统的实例，生动地展示了如何应用前面学到的所有概念来描述一个具体的多系统。它演示了如何计算总状态数 ( $2^{10}=1024$ )，如何用字符串表示法列出所有状态（从 "0000000000" 到 "1111111111"），并练习了如何根据“从右到左，从0开始”的惯例来准确解读一个具体的状态字符串。

🎯 [存在目的]

本段的目的是巩固和深化理解。抽象概念需要通过具体例子来“落地”。这个10比特的例子足够大，能够体现多系统的复杂性，但又足够基础（基于比特），能够清晰地与我们熟悉的二进制数联系起来。通过这个例子，所有抽象的符号和规则都变得鲜活和可用，为接下来讨论更复杂的概率状态做好了充分的准备。

🧠 [直觉心智模型]

想象一个有10个灯泡的面板，从右到左依次编号为0到9。每个灯泡只有“亮”(1)和“灭”(0)两种状态。

面板的某一个瞬间的整体状态，就是一个10位的二进制字符串。
0000000000 就是所有灯泡都灭了。
1111111111 就是所有灯泡都亮了。
0000000110 就是1号和2号灯泡亮着，其他都灭了。

这个10灯泡面板的所有可能亮灭组合，就是这个10比特系统的所有经典状态。

💭 [直观想象]

想象你在做一道有10个判断题的考试，每个题只能填“对”(1)或“错”(0)。

你的答卷就是一张写着10个0或1的纸条。
这张答卷，例如 "0000000110"，就是一个经典状态。
它表示第0题你答了“错”，第1题和第2题你答了“对”，其余题都答了“错”。（假设题目也是从右到左编号0到9）
所有可能的答卷组合，从全错 "00...0" 到全对 "11...1"，构成了这个系统的状态空间。总共有 $2^{10}=1024$ 种不同的答卷。

1.2 概率状态

📜 [原文8]

回想上一课，一个概率状态将一个概率与一个系统的每个经典状态相关联。

因此，多系统（被集体视为一个单一系统）的一个概率状态，将一个概率与单个系统的经典状态集的笛卡尔积中的每个元素相关联。

📖 [逐步解释]

这部分从讨论“确定的”经典状态过渡到“不确定的”概率状态。

“回想上一课，一个概率状态将一个概率与一个系统的每个经典状态相关联”: 这句话是在复习单个系统的概率状态定义。
经典状态: 是系统确定的状态，比如硬币“正面”。
概率状态: 是对系统状态不确定性的一种描述。它不是说系统处于哪个经典状态，而是说系统有多大的可能性处于各个经典状态。
“将一个概率...相关联”: 这是一个映射 (mapping) 的概念。概率状态就是一个函数，输入是一个经典状态，输出是得到该状态的概率。
例如，对于一枚硬币，其经典状态集是 {'正面', '反面'}。一个概率状态可以是：{'正面' -> 0.5, '反面' -> 0.5}。
“因此，多系统（被集体视为一个单一系统）的一个概率状态...”: 这里将上一课的定义应用到我们本课讨论的多系统上。
“被集体视为一个单一系统”: 这是关键的视角。我们已经知道，一个多系统的经典状态集是其子系统状态集的笛卡尔积。既然我们已经把多系统看作一个拥有一个大的状态集的单一系统，那么概率状态的定义就可以直接套用。
“...将一个概率与单个系统的经典状态集的笛卡尔积中的每个元素相关联”: 这就是多系统概率状态的定义。
笛卡尔积中的每个元素: 就是我们前面讨论的复合经典状态，例如 $(a,b)$ 或 "0110"。
所以，一个多系统的概率状态就是为每一个可能的复合经典状态都分配一个概率值。
这些概率值必须满足两个条件：1) 都是非负数；2) 它们的总和必须等于1。

💡 [数值示例]

示例1：两枚完美硬币

系统: 两枚硬币 $(\mathsf{X}_1, \mathsf{X}_0)$ 。
经典状态集 (笛卡尔积): $\{HH, HT, TH, TT\}$ (这里用H/T代替0/1)。
一个可能的概率状态（假设两枚硬币独立且均匀）是：
$\operatorname{Pr}(HH) = 0.25$
$\operatorname{Pr}(HT) = 0.25$
$\operatorname{Pr}(TH) = 0.25$
$\operatorname{Pr}(TT) = 0.25$
这个概率状态为4个复合经典状态中的每一个都分配了一个概率 0.25。所有概率加起来是 $0.25 \times 4 = 1$ 。
示例2：两枚奇特的关联硬币

系统: 两枚硬币 $(\mathsf{X}_1, \mathsf{X}_0)$ 。
经典状态集: $\{HH, HT, TH, TT\}$ 。
假设这两枚硬币被施了魔法，它们总是显示相同的一面，但具体是哪一面是随机的。
一个可能的概率状态是：
$\operatorname{Pr}(HH) = 0.5$ (有50%的概率两枚都是正面)
$\operatorname{Pr}(HT) = 0$ (不可能出现一正一反)
$\operatorname{Pr}(TH) = 0$ (不可能出现一反一正)
$\operatorname{Pr}(TT) = 0.5$ (有50%的概率两枚都是反面)
这个概率状态也为4个复合经典状态分配了概率，概率和为 $0.5+0+0+0.5=1$ 。这个例子将在后文详细讨论，它展示了系统间的相关性。

⚠️ [易错点]

易错点：只考虑子系统的概率，而忽略了联合概率。比如，对于两枚硬币，只说“第一枚硬币正面概率0.5，第二枚硬币正面概率0.5”是不够的。这没有描述清楚两枚硬币之间是否存在关联。示例1和示例2中，两个子系统的边际概率（单独看一个硬币的概率）都是0.5，但它们的联合概率分布是完全不同的，描述的物理情况也完全不同。
边界情况：确定的复合经典状态。如果系统被确定处在状态 HT，那么它的概率状态就是： $\operatorname{Pr}(HT)=1$ ，其他所有状态的概率都为0。这是概率为1和0的极端情况，代表了“无不确定性”。

📝 [总结]

本段将概率状态的概念从单系统推广到了多系统。核心思想是，首先通过笛卡尔积构建出多系统的完整的复合经典状态空间，然后将概率状态定义为一个为该空间中的每一个点（即每一个复合经典状态）分配一个概率的概率分布。

🎯 [存在目的]

本段的目的是为描述不确定的多系统建立数学模型。在现实世界和量子世界中，不确定性是普遍存在的。一个多比特量子计算机在计算过程中，其状态通常是所有经典状态的一个概率叠加。为了描述这种不确定性，我们需要一个能够处理联合概率的框架。本段所定义的多系统概率状态正是经典世界里与之一一对应的模型，是理解后续量子概念的基础。

🧠 [直觉心智模型]

想象一个有多个轮盘的抽奖游戏。

复合经典状态: 所有轮盘最终停下来时，指针指向的数字组合，例如 (7, 5, 12)。
概率状态: 是一个描述这个游戏“有多大概率开出某个组合”的说明书。它会列出所有可能的组合，并在每个组合后面写上它的中奖概率。例如：
(7, 7, 7) -> 概率 0.001% (大奖)
(1, 2, 3) -> 概率 1% (小奖)
...
所有其他组合 -> 概率 ...

这张完整的“中奖概率表”，就是这个多轮盘系统的概率状态。

💭 [直观想象]

想象一张地图，上面有几个城市，这是经典状态。现在，天上下起了“概率雨”。雨下得有多有少，每个城市上空都积累了一定的“概率水深”。

单系统: 只有一个城市，它的水深就是它的概率。
多系统: 地图上有多个国家，每个国家有多个城市。复合经典状态就是从每个国家各选一个城市的组合，例如（北京，巴黎，纽约）。
多系统概率状态: 就是描述每一个这种“城市组合”上空的“概率水深”。比如 P(北京, 巴黎, 纽约) = 0.05。所有这些“概率水深”加起来必须等于一个固定的总量（比如1米深）。

📜 [原文9]

例如，假设 $\mathsf{X}$ 和 $\mathsf{Y}$ 都是比特，因此它们对应的经典状态集分别为 $\Sigma = \{0,1\}$ 和 $\Gamma = \{0,1\}$ 。

这是这对比特 $(\mathsf{X},\mathsf{Y})$ 的一个概率状态：

\begin{aligned} \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (0,0)\bigr) & = 1/2 \\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (0,1)\bigr) & = 0\\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (1,0)\bigr) & = 0\\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (1,1)\bigr) & = 1/2 \end{aligned}

在这个概率状态中， $\mathsf{X}$ 和 $\mathsf{Y}$ 都是随机比特——每个比特为 $0$ 的概率为 $1/2$ ，为 $1$ 的概率为 $1/2$ ——但这两个比特的经典状态总是保持一致。

这是这些系统之间存在相关性的一个例子。

📖 [逐步解释]

这部分通过一个非常重要的例子，具体展示了一个多系统的概率状态，并引出了核心概念——相关性。

“例如，假设 $\mathsf{X}$ 和 $\mathsf{Y}$ 都是比特...”: 设定了我们最熟悉的2-比特系统场景。复合经典状态空间是 $\{(0,0), (0,1), (1,0), (1,1)\}$ 。
“这是这对比特 $(\mathsf{X},\mathsf{Y})$ 的一个概率状态”: 接着给出了一个具体的概率分布。
状态 $(0,0)$ 的概率是 $1/2$ 。
状态 $(0,1)$ 的概率是 $0$ 。
状态 $(1,0)$ 的概率是 $0$ 。
状态 $(1,1)$ 的概率是 $1/2$ 。
所有概率加起来是 $1/2 + 0 + 0 + 1/2 = 1$ ，所以这是一个有效的概率分布。
“在这个概率状态中， $\mathsf{X}$ 和 $\mathsf{Y}$ 都是随机比特...”: 这句话需要通过计算来验证。它是在看子系统的边际概率分布。
计算 $\mathsf{X}$ 的概率分布:
$\mathsf{X}$ 等于 0 的概率是多少？这在两种复合状态下发生： $(0,0)$ 和 $(0,1)$ 。所以 $\operatorname{Pr}(\mathsf{X}=0) = \operatorname{Pr}((0,0)) + \operatorname{Pr}((0,1)) = 1/2 + 0 = 1/2$ 。
$\mathsf{X}$ 等于 1 的概率是多少？这在 $(1,0)$ 和 $(1,1)$ 发生。所以 $\operatorname{Pr}(\mathsf{X}=1) = \operatorname{Pr}((1,0)) + \operatorname{Pr}((1,1)) = 0 + 1/2 = 1/2$ 。
结论：单独看 $\mathsf{X}$ ，它确实是一个随机比特（一半概率是0，一半概率是1）。
计算 $\mathsf{Y}$ 的概率分布:
$\operatorname{Pr}(\mathsf{Y}=0) = \operatorname{Pr}((0,0)) + \operatorname{Pr}((1,0)) = 1/2 + 0 = 1/2$ 。
$\operatorname{Pr}(\mathsf{Y}=1) = \operatorname{Pr}((0,1)) + \operatorname{Pr}((1,1)) = 0 + 1/2 = 1/2$ 。
结论：单独看 $\mathsf{Y}$ ，它也是一个随机比特。
“...但这两个比特的经典状态总是保持一致”: 这是对这个概率分布最关键的观察。
我们看到，只有 $(0,0)$ 和 $(1,1)$ 这两种状态的概率不为零。在这两种状态中，两个比特的值都是相同的。
而 $(0,1)$ 和 $(1,0)$ 这两种两个比特值不同的状态，其概率都是0，意味着它们永远不会发生。
所以，只要我们观测这两个比特，它们的结果必然是“同为0”或“同为1”。
“这是这些系统之间存在相关性的一个例子”: 这就是相关性 (Correlation) 的定义。
尽管单个比特看起来是完全随机的，但它们之间却存在一种“神秘的联系”或“约定”。知道了一个比特的值，就能立刻100%确定另一个比特的值。
如果我测量 $\mathsf{X}$ 得到 0，我不需要测量 $\mathsf{Y}$ ，我就知道 $\mathsf{Y}$ 必然也是 0。
这种“知道一部分信息，可以帮助我们推断另一部分信息”的现象，就是相关性。如果系统间没有相关性，则称它们是独立的。

∑ [公式拆解]

\begin{aligned} \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (0,0)\bigr) & = 1/2 \\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (0,1)\bigr) & = 0\\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (1,0)\bigr) & = 0\\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (1,1)\bigr) & = 1/2 \end{aligned}

$\operatorname{Pr}(\cdot)$ : 表示“...的概率”。
$(\mathsf{X},\mathsf{Y}) = (0,0)$ : 这是一个事件，表示“复合系统 $(\mathsf{X},\mathsf{Y})$ 处于经典状态 $(0,0)$ ”。
$=$ : 等号右边是该事件发生的概率值。
$\begin{aligned}...\end{aligned}$ : 是LaTeX中用于对齐多行公式的环境。& 符号指定了对齐的位置（这里是等号）。\\[2mm] 表示在两行公式之间增加2毫米的垂直间距，使格式更美观。

💡 [数值示例]

本段本身就是一个核心示例，我们再看一个负相关的例子和一个不完全相关的例子。

示例1：完美负相关

$\operatorname{Pr}( (0,0) ) = 0$
$\operatorname{Pr}( (0,1) ) = 1/2$
$\operatorname{Pr}( (1,0) ) = 1/2$
$\operatorname{Pr}( (1,1) ) = 0$
在这个状态下，两个比特的值总是相反的。如果 $\mathsf{X}$ 是0， $\mathsf{Y}$ 必然是1，反之亦然。这也是一种完美相关（虽然是负相关）。单独看每个比特，依然是1/2概率的随机比特。
示例2：不完全相关

$\operatorname{Pr}( (0,0) ) = 0.4$
$\operatorname{Pr}( (0,1) ) = 0.1$
$\operatorname{Pr}( (1,0) ) = 0.2$
$\operatorname{Pr}( (1,1) ) = 0.3$
(概率和 $0.4+0.1+0.2+0.3=1$ )
在这个状态下，边际概率为：
$\operatorname{Pr}(\mathsf{X}=0) = 0.4+0.1 = 0.5$
$\operatorname{Pr}(\mathsf{Y}=0) = 0.4+0.2 = 0.6$
系统之间仍然存在相关性。例如，如果我知道了 $\mathsf{X}=0$ ，那么 $\mathsf{Y}=0$ 的概率是 $\frac{0.4}{0.5} = 0.8$ ，而不是它本身的0.6。知道 $\mathsf{X}$ 的信息改变了我对 $\mathsf{Y}$ 的预测，这就是相关性。但这种相关性不是100%确定的，所以是不完全相关。

⚠️ [易错点]

易错点：将相关性与因果性混淆。这里的相关性只是一个数学描述，它不解释为什么两个比特会相关。它们可能是一个共同的原因导致的（比如它们是由同一个设备根据一个“同或”逻辑门生成的），也可能只是我们构建的一个数学模型。在著名的量子纠缠例子中（贝尔实验），这种相关性的来源是物理学界争论的核心。
边界情况：完全独立。如果 $\operatorname{Pr}(0,0)=0.25, \operatorname{Pr}(0,1)=0.25, \operatorname{Pr}(1,0)=0.25, \operatorname{Pr}(1,1)=0.25$ ，那么两个比特就是独立的。知道 $\mathsf{X}$ 的状态对预测 $\mathsf{Y}$ 没有任何帮助。这种情况将在后面详细讨论。

📝 [总结]

本段通过一个具体的2-比特的概率状态实例，引入了相关性这一至关重要的概念。它揭示了一个深刻的现象：即使多系统的每个子系统在单独看来是完全随机的，它们作为一个整体也可以表现出高度的确定性行为（例如，状态总是保持一致）。这种现象就是相关性的体现，它意味着子系统之间不是独立的。

🎯 [存在目的]

本段的目的是为量子纠缠这个核心概念做一个经典的铺垫。文中所描述的经典相关性，在很多方面都是量子纠缠的一个“影子”或“经典类比物”。量子纠缠是量子世界里的一种超强相关性，它比任何经典相关性都要奇特和强大。通过先在熟悉的经典框架下理解“相关性意味着什么”（即，子系统间不独立，信息共享），我们可以更好地把握量子纠缠的本质，并理解它为何如此特别。

🧠 [直觉心智模型]

想象你有一双手套，被分别放进两个一模一样的盒子里，然后寄给相距遥远的两个人，Alice和Bob。

系统 $\mathsf{X}$ 是Alice的盒子，其经典状态集是 {左手套, 右手套}。
系统 $\mathsf{Y}$ 是Bob的盒子，其经典状态集是 {左手套, 右手套}。

在他们打开盒子之前，对于Alice来说，她盒子里是左手套还是右手套的概率都是1/2。对于Bob也是一样。

但是，这两个系统是完美相关的。一旦Alice打开盒子发现是“左手套”，她立刻100%确定Bob的盒子里必然是“右手套”。

这个“手套游戏”的概率状态就是：

$\operatorname{Pr}(\text{左, 左}) = 0$
$\operatorname{Pr}(\text{左, 右}) = 1/2$
$\operatorname{Pr}(\text{右, 左}) = 1/2$
$\operatorname{Pr}(\text{右, 右}) = 0$

这和本段中的负相关例子是完全一样的模型。原文的例子则是两只都是左手套或者两只都是右手套的情况。

💭 [直观想象]

想象一对双胞胎，他们心有灵犀。你分别在两个房间问他们同一个是非题。

单独看其中一个，他回答“是”或“否”的概率可能是50/50，看起来是随机的。
但是，由于他们心有灵犀，他们的答案总是完全一样。要么都答“是”，要么都答“否”。
这个双胞胎系统就处于一个完美正相关的概率状态，和原文中的例子完全一样。你观察哥哥的答案，就瞬间知道了弟弟的答案。

12.1 对笛卡尔积状态集排序

📜 [原文10]

系统的概率状态可以用概率向量来表示，正如上一课所讨论的那样。

特别地，向量条目代表系统处于该系统可能的经典状态的概率，且默认已经选择了一组条目与经典状态集之间的对应关系。

选择这样的对应关系实际上意味着决定经典状态的排序，这通常是自然的或由标准惯例决定的。

例如，二进制字母表 $\{0,1\}$ 自然地以 $0$ 在前、 $1$ 在后排序，因此代表一个比特的概率状态的概率向量中的第一个条目是它处于状态 $0$ 的概率，第二个条目是它处于状态 $1$ 的概率。

📖 [逐步解释]

这部分内容将概率状态的描述从“概率列表”的形式，转换到更紧凑、更适合线性代数运算的“概率向量”形式。这个转换的第一步，是解决“如何排序”的问题。

“系统的概率状态可以用概率向量来表示，正如上一课所讨论的那样”: 复习上一课的核心知识。我们不再用一个函数或列表 {'状态A' -> pA, '状态B' -> pB} 来表示概率，而是用一个向量。
概率向量 (Probability Vector): 是一个列向量，它的每个分量（条目）都是一个非负实数，并且所有分量之和为1。
“特别地，向量条目代表系统处于该系统可能的经典状态的概率”: 阐明了向量分量与经典状态的概率之间的关系。
“且默认已经选择了一组条目与经典状态集之间的对应关系”: 这是使用向量表示法的关键前提。一个抽象的向量 $\begin{pmatrix} p_1 \\ p_2 \end{pmatrix}$ 本身没有意义，我们必须事先约定好：第一个分量 $p_1$ 对应哪个经典状态的概率？第二个分量 $p_2$ 又对应哪个？
“选择这样的对应关系实际上意味着决定经典状态的排序”: 这句话揭示了“对应关系”的本质，就是给所有的经典状态排一个确定的顺序。一旦顺序定下来，向量的第一个分量就对应第一个状态的概率，第二个分量对应第二个状态的概率，以此类推。
“这通常是自然的或由标准惯例决定的”: 排序不是完全随意的，通常会遵循一些大家公认的、方便的规则。
“例如，二进制字母表 $\{0,1\}$ 自然地以 $0$ 在前、 $1$ 在后排序”: 这是一个最简单的例子。对于一个比特，它的状态集是 $\{0,1\}$ 。我们很自然地会把0排在1前面。
“因此代表一个比特的概率状态的概率向量中的第一个条目是它处于状态 $0$ 的概率，第二个条目是它处于状态 $1$ 的概率”: 这是上述排序规则的直接结果。
如果一个比特处于状态0的概率是 $p_0$ ，处于状态1的概率是 $p_1$ ，那么它的概率向量就是 $\begin{pmatrix} p_0 \\ p_1 \end{pmatrix}$ 。
$\begin{pmatrix} 0.7 \\ 0.3 \end{pmatrix}$ 就明确表示 $\operatorname{Pr}(0) = 0.7, \operatorname{Pr}(1) = 0.3$ 。

💡 [数值示例]

示例1：标准六面骰子

经典状态集: $\Sigma = \{1, 2, 3, 4, 5, 6\}$ 。
自然排序: 按照数值大小 $1, 2, 3, 4, 5, 6$ 。
概率状态: 假设是一个均匀的骰子，每个点数出现的概率都是 $1/6$ 。
概率向量:

\begin{pmatrix} 1/6 \\ 1/6 \\ 1/6 \\ 1/6 \\ 1/6 \\ 1/6 \end{pmatrix} \begin{array}{l} \leftarrow \text{状态1的概率} \\ \leftarrow \text{状态2的概率} \\ \leftarrow \text{状态3的概率} \\ \leftarrow \text{状态4的概率} \\ \leftarrow \text{状态5的概率} \\ \leftarrow \text{状态6的概率} \end{array}

示例2：交通信号灯

经典状态集: $\Gamma = \{\text{红}, \text{黄}, \text{绿}\}$ 。
一个可能的排序 (惯例): 红, 绿, 黄 (例如，按照灯的位置从上到下)。
概率状态: 假设在某一时刻，红灯的概率是0.5，绿灯是0.4，黄灯是0.1。
概率向量 (根据上述排序):

\begin{pmatrix} 0.5 \\ 0.4 \\ 0.1 \end{pmatrix} \begin{array}{l} \leftarrow \text{状态'红'的概率} \\ \leftarrow \text{状态'绿'的概率} \\ \leftarrow \text{状态'黄'的概率} \end{array}

如果换一种排序，比如红, 黄, 绿，那么同一个概率状态对应的概率向量就会变成 $\begin{pmatrix} 0.5 \\ 0.1 \\ 0.4 \end{pmatrix}$ 。这说明，不讲清楚排序规则，向量本身是会引起误解的。

⚠️ [易错点]

易错点：忘记或搞错排序。这是使用向量表示法时最致命的错误。在与他人协作或编写代码时，必须确保所有人对经典状态到向量索引的排序规则有共同的、明确的理解。否则，同一个向量在不同人看来可能代表完全不同的物理状态。
边界情况：确定性状态。如果一个比特确定处于状态1，那么它的概率分布是 $\operatorname{Pr}(0)=0, \operatorname{Pr}(1)=1$ 。对应的概率向量是 $\begin{pmatrix} 0 \\ 1 \end{pmatrix}$ 。这被称为标准基向量。

📝 [总结]

本段的核心思想是：为了用概率向量来表示一个概率状态，我们必须首先为系统的所有经典状态确定一个排序。这个排序建立起了经典状态与向量分量索引之间的一一对应关系。一旦排序被约定，概率向量的第 $i$ 个分量就代表了第 $i$ 个经典状态出现的概率。

🎯 [存在目的]

本段的目的是将对概率状态的描述从一种比较松散的“列表”或“函数”形式，转化为线性代数中的标准对象——向量。这种转化极其重要，因为一旦我们把状态表示成了向量，我们就可以利用线性代数这一强大而成熟的数学武库来分析和操纵这些状态。例如，对系统施加一个操作，就可以被描述为用一个矩阵去乘以这个状态向量。这是从描述到操作的关键一步。

🧠 [直觉心智模型]

想象你要给班上的同学排队拍合影。

经典状态集: 班上所有的同学 {张三, 李四, 王五, ...}。
排序: 就是你让他们站成一排的顺序，比如按身高，或者按学号。
概率向量: 假设这是一个抽奖活动，每个同学有一个中奖概率。一旦队伍排好，你就可以创建一个向量，第一个分量是队伍里第一个同学的中奖概率，第二个分量是第二个同学的，以此类推。

如果你不先让他们排好队，直接给你一堆概率值，你是不知道哪个概率对应哪个同学的。所以，“排队”（排序）是建立向量表示的第一步。

💭 [直观想象]

想象一个音乐播放列表。

经典状态集: 你曲库里的所有歌曲 {'歌A', '歌B', '歌C', ...}。
排序: 就是你把这些歌拖到播放列表里形成的顺序。
概率向量: 假设你在听“随机播放”，但每首歌被“随机”到的概率不一样（比如你更喜欢的歌概率更高）。那么，这个播放列表（已排序）就定义了一个向量，其分量就是对应位置上歌曲被播放的概率。

这个播放列表的顺序就构成了状态到向量索引的对应关系。

📜 [原文11]

在多系统的背景下，这一切都没有改变，但需要做一个决定。

被集体视为单一系统的多系统的经典状态集，是单个系统的经典状态集的笛卡尔积——因此我们必须决定如何对笛卡尔积的元素进行排序。

我们遵循一个简单的惯例来执行此操作，即从单个经典状态集已有的任何排序开始，然后按字母顺序对笛卡尔积的元素进行排序。

另一种表达方式是，每个 $n$ 元组中的条目（或者等效地，每个字符串中的符号）被视为具有从左到右递减的重要性。

例如，根据这一惯例，笛卡尔积 $\{1,2,3\}\times\{0,1\}$ 的排序如下：

(1,0),\; (1,1),\; (2,0),\; (2,1),\; (3,0),\; (3,1).

当 $n$ 元组被写为字符串并以这种方式排序时，我们观察到了熟悉的模式，例如 $\{0,1\}\times\{0,1\}$ 被排序为 $00, 01, 10, 11$ ，而集合 $\{0,1\}^{10}$ 则按本课早些时候书写的方式排序。

作为另一个例子，将集合 $\{0, 1, \dots, 9\} \times \{0, 1, \dots, 9\}$ 视为一组字符串，我们得到了从 $00$ 到 $99$ 的两位数，并按数值顺序排列。

这显然不是巧合；

我们的十进制数字系统正是使用了这种字母顺序排序，这里的字母顺序应该被理解为具有广泛的含义，既包括字母也包括数字。

📖 [逐步解释]

这部分解决了为多系统的复合状态进行排序的问题，并引入了“字母顺序”这一核心排序规则。

“在多系统的背景下，这一切都没有改变，但需要做一个决定”: 意思是，为多系统建立概率向量表示同样需要排序，而现在需要决定的就是如何去排那些复合状态（即笛卡尔积的元素）。
“...我们必须决定如何对笛卡尔积的元素进行排序”: 明确了任务。例如，对于2-比特系统，状态集是 $\{(0,0), (0,1), (1,0), (1,1)\}$ 。我们应该按什么顺序来排列这四个状态呢？
“我们遵循一个简单的惯例...按字母顺序对笛卡尔积的元素进行排序”: 提出了排序规则：字母顺序 (lexicographical order)。这和我们查字典时单词的排序方式是完全一样的。
“从单个经典状态集已有的任何排序开始”: 这是字母顺序排序的前提。你必须先知道单个字母（或符号）的顺序，才能比较由它们组成的单词（或元组）。例如，要按字母顺序排单词，你必须先知道 a 在 b 前面，b 在 c 前面，等等。对于我们的比特，我们已经约定了 $0$ 在 $1$ 前面。
“另一种表达方式是...具有从左到右递减的重要性”: 这是对字母顺序工作原理的精准描述。比较两个元组（或字符串）时：

先比较最左边的第一个元素。
如果第一个元素不同，那么第一个元素较“小”（按预定顺序）的那个元组就排在前面。整个比较结束。
如果第一个元素相同，那么就接着比较第二个元素，规则同上。
以此类推，直到找到一个不同的元素，或者比较完所有元素。
- “例如... $\{1,2,3\}\times\{0,1\}$ 的排序如下”: 这是一个具体的例子，演示了字母顺序。
- 首先，单个集合的排序是 $1<2<3$ 和 $0<1$ 。
- 比较 $(1,0)$ 和 $(1,1)$ : 第一个元素都是1，相同。比较第二个元素， $0<1$ ，所以 $(1,0)$ 排在 $(1,1)$ 前面。
- 比较 $(1,1)$ 和 $(2,0)$ : 比较第一个元素， $1<2$ ，所以 $(1,1)$ 排在 $(2,0)$ 前面。后面的元素就不用看了。
- 将所有6个元组按此规则排序，就得到了文中的顺序。
- “当 $n$ 元组被写为字符串... $\{0,1\}\times\{0,1\}$ 被排序为 $00, 01, 10, 11$ ”: 这就是2-比特系统的标准排序。它和二进制数 $0, 1, 2, 3$ 的表示是一致的。这再次印证了这种排序的“自然性”。
- “集合 $\{0,1\}^{10}$ 则按本课早些时候书写的方式排序”: 早些时候那个从 0000000000 到 1111111111 的列表，正是字母顺序（等价于数值顺序）的完美体现。
- “我们的十进制数字系统正是使用了这种字母顺序排序”: 这是一个深刻的洞察。我们认为数字 “199” 比 “23” 大，不是因为前者位数多，而是遵循字母顺序（如果把“23”写成“023”，则更明显）。我们先比较最高位（百位）， $0<1$ ，所以“023”小于“199”。这种排序方式早已深深植入我们的直觉中。

∑ [公式拆解]

(1,0),\; (1,1),\; (2,0),\; (2,1),\; (3,0),\; (3,1).

这不是一个需要推导的公式，而是一个应用字母顺序排序规则得到的结果。

预设单集排序: $\Sigma_1=\{1,2,3\}$ 按 $1<2<3$ 排序。 $\Sigma_2=\{0,1\}$ 按 $0<1$ 排序。
排序过程:

所有以 '1' 开头的元组排在最前面: $(1,0), (1,1)$ 。在它们内部，按第二个元素排序，得到 $(1,0), (1,1)$ 。
接着排所有以 '2' 开头的元组: $(2,0), (2,1)$ 。内部排序得到 $(2,0), (2,1)$ 。
最后排所有以 '3' 开头的元组: $(3,0), (3,1)$ 。内部排序得到 $(3,0), (3,1)$ 。
把这几组按顺序拼起来，就得到了最终结果。

💡 [数值示例]

示例1：两个三进制位的排序

系统: 两个三态系统 $(\mathsf{Y}_1, \mathsf{Y}_0)$ 。
状态集: $\{0, 1, 2\} \times \{0, 1, 2\}$ 。
单集排序: $0 < 1 < 2$ 。
复合状态的字母顺序排序 (写成字符串):

$00, 01, 02, 10, 11, 12, 20, 21, 22$ 。

这正好对应三进制数 $0, 1, 2, 3, 4, 5, 6, 7, 8$ 的表示。
示例2：一个字母和一个数字

系统: $\mathsf{X}$ 状态集 $\Sigma = \{A, B\}$ ，排序 $A<B$ 。 $\mathsf{Y}$ 状态集 $\Gamma = \{1, 2\}$ ，排序 $1<2$ 。
复合状态集 $\Sigma \times \Gamma$ 的字母顺序排序:

$(A, 1), (A, 2), (B, 1), (B, 2)$ 。

⚠️ [易错点]

易错点：搞错左右的重要性。字母顺序中，最左边的元素具有最高的“权重”或“重要性”。这和我们写数字时最高位在最左边是一致的。
易错点：忽略了子集的排序。如果子集的排序没有事先约定，那么字母顺序也无从谈起。例如，对于 {'红', '绿', '蓝'}，我们必须先规定一个顺序，比如 红 < 绿 < 蓝，然后才能对复合状态进行排序。
边界情况：字符串长度不同。在比较 "apple" 和 "apply" 时，前四位都相同，比较第五位 'e' 和 'y'，因为 'e' < 'y'，所以 "apple" 在前。在比较 "app" 和 "apple" 时，"app" 是 "apple" 的前缀，通常约定前缀排在前面。在我们的多系统场景中，所有元组/字符串的长度都是固定的 $n$ ，所以不会遇到这个问题。

📝 [总结]

本段为多系统的复合经典状态集建立了一个标准、通用的排序规则：字母顺序。该规则基于预先定义好的各子系统状态集的内部排序，并以“从左到右，重要性递减”的方式比较元组或字符串。这个规则不仅在数学上清晰无歧义，而且与我们日常使用的数字系统和字典排序的直觉高度吻-

合，尤其当应用于比特系统时，它自然地产生了与二进制数大小一致的排序。

🎯 [存在目的]

本段的目的是完成构建多系统概率向量表示的最后一块拼图。我们已经知道需要排序，本段就给出了一个“最佳实践”的排序方案。有了这个统一的字母顺序规则，我们就可以将任何多系统的任何概率状态都唯一地、无歧义地转换成一个概率向量，从而为使用线性代数进行后续分析（如计算相关性、应用操作等）铺平了道路。

🧠 [直觉心智模型]

字母顺序就是“查字典”的规则。

子集排序: 就是26个英文字母的顺序 a, b, c, ...。
复合状态: 就是字典里的单词，比如 "cat" 和 "car"。
排序过程: 比较 "cat" 和 "car"。

第一个字母都是 'c'，相同。
第二个字母都是 'a'，相同。
第三个字母，'t' 和 'r'。根据字母表，'r' 在 't' 前面。
所以，单词 "car" 应该排在 "cat" 的前面。

我们对复合经典状态的排序，完全遵循同样的逻辑。

💭 [直观想象]

想象日历的日期表示。一个日期可以看作一个复合状态 (年, 月, 日)。

例如，(2023, 12, 25) 和 (2024, 01, 01)。
我们如何比较这两个日期的早晚？我们使用字母顺序！

先比较“年”： $2023 < 2024$ 。
比较结束。(2023, 12, 25) 排在前面。
- 再比如 (2023, 11, 30) 和 (2023, 12, 01)。
“年”相同，都是2023。
比较“月”： $11 < 12$ 。
比较结束。(2023, 11, 30) 排在前面。

这种我们每天都在使用的日期排序方法，就是字母顺序的一个完美实例。

📜 [原文12]

回到上面两个比特的例子，前面描述的概率状态因此由以下概率向量表示，为了清晰起见，条目被明确标记。

\begin{pmatrix} \frac{1}{2}\\[1mm] 0\\[1mm] 0\\[1mm] \frac{1}{2} \end{pmatrix} \begin{array}{l} \leftarrow \text{处于状态 00 的概率}\\[1mm] \leftarrow \text{处于状态 01 的概率}\\[1mm] \leftarrow \text{处于状态 10 的概率}\\[1mm] \leftarrow \text{处于状态 11 的概率} \end{array} \tag{1}

📖 [逐步解释]

这部分将前面介绍的排序规则应用到之前那个展示了“相关性”的2-比特例子上，从而写出了它对应的概率向量。

“回到上面两个比特的例子”: 指的是那个概率状态为 $\operatorname{Pr}(00)=1/2, \operatorname{Pr}(01)=0, \operatorname{Pr}(10)=0, \operatorname{Pr}(11)=1/2$ 的例子。
“前面描述的概率状态因此由以下概率向量表示”: “因此”这个词很重要，它意味着这个向量是严格遵循我们刚刚建立的规则推导出来的。
推导过程:

系统: 两个比特 $(\mathsf{X}_1, \mathsf{X}_0)$ (或者叫 $(\mathsf{X}, \mathsf{Y})$ ，但按照位序惯例，我们默认第一个符号是高位，第二个是低位)。
复合经典状态集: $\{00, 01, 10, 11\}$ (以字符串表示)。
排序: 根据字母顺序，这个集合的排序是 $00, 01, 10, 11$ 。
建立对应关系:
- 向量的第1个条目 (索引0) 对应状态 $00$ 的概率。
- 向量的第2个条目 (索引1) 对应状态 $01$ 的概率。
- 向量的第3个条目 (索引2) 对应状态 $10$ 的概率。
- 向量的第4个条目 (索引3) 对应状态 $11$ 的概率。
填入概率值:
- $\operatorname{Pr}(00) = 1/2$ -> 向量第1个分量是 $1/2$ 。
- $\operatorname{Pr}(01) = 0$ -> 向量第2个分量是 $0$ 。
- $\operatorname{Pr}(10) = 0$ -> 向量第3个分量是 $0$ 。
- $\operatorname{Pr}(11) = 1/2$ -> 向量第4个分量是 $1/2$ 。
组合成向量: 将上述概率值按顺序放入一个列向量，就得到了文中的结果。
- “为了清晰起见，条目被明确标记”: 向量旁边的文字解释了每个分量对应的经典状态，这在教学中非常有用，可以防止初学者因为忘记排序规则而感到困惑。

∑ [公式拆解]

\begin{pmatrix} \frac{1}{2}\\[1mm] 0\\[1mm] 0\\[1mm] \frac{1}{2} \end{pmatrix} \begin{array}{l} \leftarrow \text{处于状态 00 的概率}\\[1mm] \leftarrow \text{处于状态 01 的概率}\\[1mm] \leftarrow \text{处于状态 10 的概率}\\[1mm] \leftarrow \text{处于状态 11 的概率} \end{array} \tag{1}

$\begin{pmatrix} ... \end{pmatrix}$ : 表示一个矩阵或向量。这里是一个 4x1 的列向量。
$\frac{1}{2}, 0, 0, \frac{1}{2}$ : 这是向量的四个分量（条目），代表对应经典状态的概率。它们加起来等于1。
$\begin{array}{l} ... \end{array}$ : LaTeX 环境，用于创建一个数组或表格。{l} 表示这个表格只有一列，并且内容左对齐。这里用它来排版右侧的说明文字。
$\leftarrow$ : 箭头符号，用于指向。
$\tag{1}$ : 为这个公式或方程添加一个编号 (1)，方便在文章的其他地方引用它，例如“见公式(1)”。

💡 [数值示例]

本段本身就是之前例子的向量化表示，我们为之前补充的另两个例子也写出其概率向量。

示例1：完美负相关

概率分布: $\operatorname{Pr}(00)=0, \operatorname{Pr}(01)=1/2, \operatorname{Pr}(10)=1/2, \operatorname{Pr}(11)=0$ 。
排序: $00, 01, 10, 11$ 。
概率向量:

\begin{pmatrix} 0 \\ 1/2 \\ 1/2 \\ 0 \end{pmatrix}

示例2：不完全相关

概率分布: $\operatorname{Pr}(00)=0.4, \operatorname{Pr}(01)=0.1, \operatorname{Pr}(10)=0.2, \operatorname{Pr}(11)=0.3$ 。
排序: $00, 01, 10, 11$ 。
概率向量:

\begin{pmatrix} 0.4 \\ 0.1 \\ 0.2 \\ 0.3 \end{pmatrix}

示例3：完全独立

概率分布: $\operatorname{Pr}(00)=0.25, \operatorname{Pr}(01)=0.25, \operatorname{Pr}(10)=0.25, \operatorname{Pr}(11)=0.25$ 。
排序: $00, 01, 10, 11$ 。
概率向量:

\begin{pmatrix} 0.25 \\ 0.25 \\ 0.25 \\ 0.25 \end{pmatrix}

⚠️ [易错点]

易错点：向量维度错误。对于一个由 $n$ 个比特组成的系统，总的经典状态数是 $2^n$ 。因此，描述其概率状态的向量必须有 $2^n$ 个分量。例如，3个比特的系统，其概率向量是一个8维向量。很容易错误地认为是 $2 \times n$ 维。
边界情况：确定性状态。如果系统确定处于状态 "10"，那么其概率分布是 $\operatorname{Pr}(10)=1$ ，其他都为0。根据排序 $00, 01, 10, 11$ ，其概率向量为：

\begin{pmatrix} 0 \\ 0 \\ 1 \\ 0 \end{pmatrix}

这正是一个4维的标准基向量。

📝 [总结]

本段将之前所有关于多系统经典状态、概率状态和排序规则的讨论结合在一起，通过一个具体的例子，完整地演示了如何将一个用自然语言和列表描述的概率状态，严格地、无歧义地转换成一个概率向量。这个向量形式是后续进行线性代数分析的基础。

🎯 [存在目的]

本段的目的是“实践出真知”。通过亲手将一个例子转化为向量，可以加深对字母顺序排序规则的理解，并直观地看到一个概率分布是如何“编码”到一个向量中的。这为我们后续引入狄拉克符号（如 $|00\rangle, |01\rangle$ ）以及张量积等更抽象的工具做好了最后的、也是最具体的一步准备。

🧠 [直觉心智模型]

这就像填写一张标准化的调查问卷。

概率状态: 可能是你口头描述的一段信息，比如“我有一半的把握选A，一半的把握选D，肯定不选B和C”。
排序: 问卷的选项是按 A, B, C, D 的顺序固定排列的。
概率向量: 就是你在问卷上填写的最终结果。你会在A选项对应的格子里填上0.5，B和C的格子里填0，D的格子里填0.5。

这个填写了概率的、顺序固定的问卷，就是概率向量。它把口头的、非结构化的信息，变成了一种机器可读的、标准化的数据格式。

💭 [直观想象]

想象一个有4个杯子的吧台，从左到右依次标记为 "00", "01", "10", "11"。你有一升（总量为1）的“概率”果汁。

概率状态: 是你的倒酒配方，例如“在'00'号杯和'11'号杯里各倒半升，'01'和'10'号杯不倒”。
概率向量: 就是你倒完酒后，这一排杯子里的果汁量的直观展示。从左到右看，液位分别是 (半升, 0, 0, 半升)，这就可以看作是 $\begin{pmatrix} 1/2, 0, 0, 1/2 \end{pmatrix}^T$ 的一个物理实现。

这一排标记好顺序、装有不同量果汁的杯子，就是概率向量的一个直观形象。

12.2 两个系统的独立性

📜 [原文13]

两个系统的一种特殊类型的概率状态是系统相互独立的状态。

直观地说，如果了解其中任何一个系统的经典状态对与另一个系统相关的概率没有影响，那么这两个系统就是独立的。

也就是说，了解其中一个系统处于什么经典状态，完全无法提供关于另一个系统经典状态的信息。

📖 [逐步解释]

这部分开始定义独立性 (Independence)，这是相关性 (Correlation) 的对立面，也是概率论中的一个基石概念。

“两个系统的一种特殊类型的概率状态是系统相互独立的状态”: 这句话将独立性定位为概率状态的一种“特殊情况”。这意味着并非所有状态都是独立的，独立是一种需要满足特定条件的性质。
“直观地说，如果了解其中任何一个系统的经典状态对与另一个系统相关的概率没有影响，那么这两个系统就是独立的”: 这是对独立性的第一次、也是最核心的直观解释。
“了解其中任何一个系统的经典状态”: 指的是我通过某种方式（比如测量）知道了子系统 $\mathsf{X}$ 的结果，比如我抛硬币 $\mathsf{X}$ 得到了“正面”。
“对与另一个系统相关的概率没有影响”: 指的是我获得的这个信息（ $\mathsf{X}$ 是“正面”），并不会改变我对另一个系统 $\mathsf{Y}$ 的状态的概率判断。在知道 $\mathsf{X}$ 是“正面”之前和之后，我对 $\mathsf{Y}$ 掷出“1”到“6”的概率预测是完全一样的。
“也就是说，了解其中一个系统处于什么经典状态，完全无法提供关于另一个系统经典状态的信息”: 这是对上一句话的换句话说和强调。
“完全无法提供...信息”: “信息”在这里可以理解为“减少不确定性的能力”。如果知道了 $\mathsf{X}$ 的状态，能让我对 $\mathsf{Y}$ 的状态做出更准确的猜测（即降低了预测 $\mathsf{Y}$ 的不确定性），那么 $\mathsf{X}$ 就提供了关于 $\mathsf{Y}$ 的信息，它们就不独立（即相关）。反之，如果我对 $\mathsf{Y}$ 的猜测一点都没有变好，那么它们就是独立的。

💡 [数值示例]

示例1：独立的硬币和骰子

系统 $\mathsf{X}$ 是一枚均匀硬币， $\operatorname{Pr}(\text{H})=0.5, \operatorname{Pr}(\text{T})=0.5$ 。
系统 $\mathsf{Y}$ 是一个均匀骰子， $\operatorname{Pr}(i)=1/6$ for $i \in \{1,...,6\}$ 。
我抛了硬币和骰子。在看结果之前，我认为骰子掷出“6”的概率是 $1/6$ 。
现在，有人告诉我，硬币的结果是“正面”(H)。这个信息会改变我对骰子结果的判断吗？不会。因为硬币和骰子是物理上完全分离的两个过程。我依然认为骰子掷出“6”的概率是 $1/6$ 。
由于知道 $\mathsf{X}$ 的结果对 $\mathsf{Y}$ 的概率没有任何影响，所以这两个系统是独立的。
示例2：相关的天气预报（非独立）

系统 $\mathsf{X}$ 是“今天是否下雨”，状态集 {下雨, 不下雨}。
系统 $\mathsf{Y}$ 是“明天是否下雨”，状态集 {下雨, 不下雨}。
在不知道今天天气的情况下，我可能预测明天不下雨的概率是 $0.7$ 。
现在，我了解到“今天下雨了”。这个信息会改变我对明天的预测。因为天气系统具有连续性，我可能会将明天不下雨的概率调低到 $0.4$ 。
由于知道了 $\mathsf{X}$ 的状态（今天下雨）影响了 $\mathsf{Y}$ 的概率（明天天气的预测），所以这两个系统是不独立的，它们是相关的。

⚠️ [易错点]

易错点：将“互斥”与“独立”混淆。
互斥 (Mutually Exclusive)：指两个事件不可能同时发生。例如，一枚硬币掷一次，得到“正面”和得到“反面”是互斥的。如果两个事件都有非零概率，那么它们必然不独立。因为如果我知道“正面”发生了，那么“反面”发生的概率就从 $0.5$ 变成了 $0$ ，概率受到了影响。
独立: 指一个事件的发生不影响另一个事件的概率。例如，连续掷两次硬币，第一次的结果和第二次的结果是独立的。
易错点：主观判断独立性。两个系统是否独立，不是一个主观感觉，而是一个可以通过联合概率分布来严格检验的数学性质。下一段将给出这个数学定义。直觉可以帮助我们理解，但最终的判断必须基于数学。

📝 [总结]

本段用直观的语言定义了两个系统相互独立的含义。其核心思想是“信息隔离”：关于一个系统的信息对另一个系统的概率预测毫无帮助。如果知道一个系统的状态能以任何方式改变我们对另一个系统状态的概率评估，那么它们就是不独立的（即相关的）。

🎯 [存在目的]

本段的目的是在给出严格的数学公式之前，先建立起对独立性这个概念的正确直觉。独立性是概率论和统计学的基石，也是我们理解多体系统（无论是经典的还是量子的）行为的关键。独立的系统是最简单的多体系统，它们的联合行为可以由它们各自的行为简单地推导出来。而更有趣、更复杂的现象（如相关性和纠缠）都源于对独立性的偏离。因此，清晰地定义独立性是理解这一切的起点。

🧠 [直觉心智模型]

想象两个完全隔音的房间里各有一个人在唱歌。

系统 $\mathsf{X}$ 是第一个房间里的人，他的状态是“正在唱什么歌”。
系统 $\mathsf{Y}$ 是第二个房间里的人，他的状态是“正在唱什么歌”。

这两个系统是独立的。你跑到第一个房间听到了他在唱周杰伦的歌，这个信息对你猜测第二个房间里的人在唱什么歌，没有任何帮助。他可能在唱陈奕迅，也可能在唱摇滚，概率和你没去第一个房间听之前是一样的。

💭 [直观想象]

想象你在两个不同的网站上抽奖。

网站A（系统 $\mathsf{X}$ ）的中奖结果。
网站B（系统 $\mathsf{Y}$ ）的中奖结果。

这两个抽奖活动通常是独立的。你在网站A中了大奖，并不会增加或减少你在网站B中奖的概率。你在网站A抽奖结果的这个信息，对于预测网站B的结果来说是“无用信息”。

📜 [原文14]

为了精确定义这一概念，让我们再次假设 $\mathsf{X}$ 和 $\mathsf{Y}$ 分别是具有经典状态集 $\Sigma$ 和 $\Gamma$ 的系统。

对于这些系统的一个给定的概率状态，如果满足以下条件，则称它们是独立的

\operatorname{Pr}((\mathsf{X},\mathsf{Y}) = (a,b)) = \operatorname{Pr}(\mathsf{X} = a) \operatorname{Pr}(\mathsf{Y} = b) \tag{2}

对于 $a\in\Sigma$ 和 $b\in\Gamma$ 的每种选择都成立。

📖 [逐步解释]

这部分给出了独立性的严格数学定义。

“为了精确定义这一概念...”: 表明我们将从直观描述转向数学公式。
“如果满足以下条件，则称它们是独立的”: 这个条件是判断独立性的“金标准”。
核心公式的解读:
$\operatorname{Pr}((\mathsf{X},\mathsf{Y}) = (a,b))$ : 这是联合概率 (Joint Probability)。它表示“系统 $\mathsf{X}$ 处于状态 $a$ 并且系统 $\mathsf{Y}$ 处于状态 $b$ ” 这一复合事件发生的概率。
$\operatorname{Pr}(\mathsf{X} = a)$ : 这是边际概率 (Marginal Probability)。它是通过对 $\mathsf{Y}$ 的所有可能性求和得到的：“系统 $\mathsf{X}$ 处于状态 $a$ ” 的总概率，不管 $\mathsf{Y}$ 处于什么状态。计算方法是 $\operatorname{Pr}(\mathsf{X}=a) = \sum_{y \in \Gamma} \operatorname{Pr}((\mathsf{X},\mathsf{Y})=(a,y))$ 。
$\operatorname{Pr}(\mathsf{Y} = b)$ : 同理，这是 $\mathsf{Y}$ 的边际概率。
公式的含义: 独立性成立的充要条件是：对于任意的状态组合 $(a,b)$ ，它们的联合概率正好等于它们各自边际概率的乘积。
“对于 $a\in\Sigma$ 和 $b\in\Gamma$ 的每种选择都成立”: 这是一个非常强的要求。这个乘法关系必须对所有可能的复合状态 $(a,b)$ 都成立。只要有一个组合不满足，整个系统就是不独立的（即相关的）。

∑ [公式拆解]

\operatorname{Pr}((\mathsf{X},\mathsf{Y}) = (a,b)) = \operatorname{Pr}(\mathsf{X} = a) \operatorname{Pr}(\mathsf{Y} = b) \tag{2}

$\operatorname{Pr}((\mathsf{X},\mathsf{Y}) = (a,b))$ : 联合概率。在我们的概率向量表示法中，这就是向量的某一个分量的值，该分量对应于复合状态 $(a,b)$ 。
$\operatorname{Pr}(\mathsf{X} = a)$ : 边际概率。为了得到这个值，我们需要把联合概率中所有 $\mathsf{X}$ 固定为 $a$ 的项加起来。即 $\sum_{y \in \Gamma} \operatorname{Pr}((\mathsf{X},\mathsf{Y}) = (a,y))$ 。
$\operatorname{Pr}(\mathsf{Y} = b)$ : 边际概率。同理， $\sum_{x \in \Sigma} \operatorname{Pr}((\mathsf{X},\mathsf{Y}) = (x,b))$ 。
这个公式实际上就是概率论中两个事件独立的定义： $P(A \cap B) = P(A)P(B)$ 。这里，事件A是“ $\mathsf{X}=a$ ”，事件B是“ $\mathsf{Y}=b$ ”，事件 $A \cap B$ 就是“ $(\mathsf{X},\mathsf{Y})=(a,b)$ ”。

💡 [数值示例]

示例1：检验独立的硬币

假设两枚均匀且独立的硬币。
边际概率: $\operatorname{Pr}(\mathsf{X}=H)=0.5, \operatorname{Pr}(\mathsf{X}=T)=0.5$ 。 $\operatorname{Pr}(\mathsf{Y}=H)=0.5, \operatorname{Pr}(\mathsf{Y}=T)=0.5$ 。
根据独立性公式，我们可以推算出联合概率：
$\operatorname{Pr}(HH) = \operatorname{Pr}(\mathsf{X}=H) \times \operatorname{Pr}(\mathsf{Y}=H) = 0.5 \times 0.5 = 0.25$ 。
$\operatorname{Pr}(HT) = \operatorname{Pr}(\mathsf{X}=H) \times \operatorname{Pr}(\mathsf{Y}=T) = 0.5 \times 0.5 = 0.25$ 。
$\operatorname{Pr}(TH) = \operatorname{Pr}(\mathsf{X}=T) \times \operatorname{Pr}(\mathsf{Y}=H) = 0.5 \times 0.5 = 0.25$ 。
$\operatorname{Pr}(TT) = \operatorname{Pr}(\mathsf{X}=T) \times \operatorname{Pr}(\mathsf{Y}=T) = 0.5 \times 0.5 = 0.25$ 。
这正是我们之前提到的完全独立的那个例子。
示例2：检验相关的双胞胎

回顾一下那个概率状态： $\operatorname{Pr}(00)=1/2, \operatorname{Pr}(01)=0, \operatorname{Pr}(10)=0, \operatorname{Pr}(11)=1/2$ 。
计算边际概率:
$\operatorname{Pr}(\mathsf{X}=0) = \operatorname{Pr}(00) + \operatorname{Pr}(01) = 1/2 + 0 = 1/2$ 。
$\operatorname{Pr}(\mathsf{Y}=0) = \operatorname{Pr}(00) + \operatorname{Pr}(10) = 1/2 + 0 = 1/2$ 。
检验公式(2)是否成立:
我们来检验状态 $(0,0)$ 。
左边: $\operatorname{Pr}((\mathsf{X},\mathsf{Y})=(0,0)) = 1/2$ 。
右边: $\operatorname{Pr}(\mathsf{X}=0) \times \operatorname{Pr}(\mathsf{Y}=0) = 1/2 \times 1/2 = 1/4$ 。
比较: $1/2 \neq 1/4$ 。
由于我们找到了一个复合状态 $(0,0)$ ，它不满足独立性的乘法法则，我们就可以立即断定，这两个系统是不独立的（即相关的）。我们不需要再检验其他状态了。

⚠️ [易错点]

易错点：只检验一个状态就认为独立。必须是所有的状态组合都满足乘法法则，才能称系统是独立的。
易错点：误认为概率相加。独立事件的联合概率是乘积，不是相加。这是一个非常基础但容易犯的错误。
边界情况：零概率事件。如果 $\operatorname{Pr}(\mathsf{X}=a)=0$ ，那么对于任何 $b \in \Gamma$ ，公式(2)的右边都是0。为了让公式成立，左边的 $\operatorname{Pr}((\mathsf{X},\mathsf{Y})=(a,b))$ 也必须等于0。这是合理的：如果一个子系统不可能处于状态 $a$ ，那么整个复合系统也不可能处于任何以 $a$ 为一部分的状态。

📝 [总结]

本段给出了判断两个系统是否独立的严格数学判据：对于任意一对子系统状态 $(a,b)$ ，其联合概率必须等于各自边际概率的乘积。这个乘法法则必须对所有可能的状态组合都成立。如果哪怕只有一个组合不满足，系统就是相关的。

🎯 [存在目的]

本段的目的是将独立性从一个直观概念转化为一个可计算、可验证的数学属性。有了这个公式，我们就可以通过分析一个多系统的概率向量来确定其子系统之间是否存在相关性。这是进行信息论分析（例如计算互信息）和理解量子纠缠与经典相关性区别的基础。

🧠 [直觉心智模型]

这个公式是“没有意外惊喜”的数学表达。

如果你有两个独立的随机事件（比如两个独立的抽奖），你想知道它们同时发生的概率，最自然、最简单的方式就是把它们各自的概率乘起来。
独立性就意味着联合概率就是这么简单直白，没有任何“隐藏的关联”或“内部的勾结”来使得某个组合的概率被意外地抬高或压低。
反之，如果联合概率不等于边际概率的乘积，那就意味着有“意外”发生，即存在相关性。例如，双胞胎例子中的 $\operatorname{Pr}(00)=1/2$ 就远大于乘积的 $1/4$ ，这是一个“意外的惊喜”，表明状态0和0之间有强烈的“吸引力”。

💭 [直观想象]

想象一个巨大的由像素点组成的屏幕，屏幕的宽度代表系统 $\mathsf{X}$ 的状态，高度代表系统 $\mathsf{Y}$ 的状态。每个像素 $(a,b)$ 的亮度代表了联合概率 $\operatorname{Pr}((\mathsf{X},\mathsf{Y})=(a,b))$ 。

边际概率 $\operatorname{Pr}(\mathsf{X}=a)$ : 是第 $a$ 列所有像素的亮度总和。
边际概率 $\operatorname{Pr}(\mathsf{Y}=b)$ : 是第 $b$ 行所有像素的亮度总和。
独立性：如果系统是独立的，那么整个屏幕的亮度分布会呈现出一种“格子状”或“棋盘状”的模式。任意一个像素 $(a,b)$ 的亮度，都等于它所在列的总亮度与所在行的总亮度的乘积（经过归一化后）。整个图像看起来就像是由一个水平的亮度条和一个垂直的亮度条“相乘”得到的。
相关性：如果系统是相关的，那么亮度会集中在某些特定的区域（比如对角线），而其他区域则会很暗。这表明某些状态组合被“偏爱”，而另一些被“抑制”，图像不再是简单的格子状。之前例子中，亮度将只集中在 $(0,0)$ 和 $(1,1)$ 两个像素点上，形成一个对角线图像。

📜 [原文15]

为了用概率向量来表达这个条件，假设 $(\mathsf{X},\mathsf{Y})$ 给定的概率状态由一个以狄拉克符号书写的概率向量描述，即

\sum_{(a,b) \in \Sigma\times\Gamma} p_{ab} \vert a b\rangle.

那么独立性条件 $(2)$ 等价于存在两个概率向量

\vert \phi \rangle = \sum_{a\in\Sigma} q_a \vert a \rangle \quad\text{and}\quad \vert \psi \rangle = \sum_{b\in\Gamma} r_b \vert b \rangle, \tag{3}

分别代表与 $\mathsf{X}$ 和 $\mathsf{Y}$ 的经典状态相关的概率，使得

p_{ab} = q_a r_b \tag{4}

对于所有 $a\in\Sigma$ 和 $b\in\Gamma$ 成立。

📖 [逐步解释]

这部分将上一段的独立性乘法法则，用概率向量和新引入的狄拉克符号来重新表达。

“为了用概率向量来表达这个条件...”: 目标是将公式(2)翻译成向量语言。
“...由一个以狄拉克符号书写的概率向量描述”: 这里首次在本课中正式引入狄拉克符号 (Dirac Notation)，也叫bra-ket表示法。
$|ab\rangle$ : 这是一个ket向量。它是一个标准基向量，代表复合系统处于确定的经典状态 "ab"。
例如，对于2-比特系统，我们有四个标准基向量： $|00\rangle, |01\rangle, |10\rangle, |11\rangle$ 。根据我们之前约定的字母顺序排序， $|00\rangle$ 就对应 $\begin{pmatrix}1\\0\\0\\0\end{pmatrix}$ ， $|01\rangle$ 对应 $\begin{pmatrix}0\\1\\0\\0\end{pmatrix}$ ，以此类推。
$p_{ab}$ : 这是复合状态 $|ab\rangle$ 发生的概率。它就是我们之前概率向量里的一个分量。
$\sum_{(a,b) \in \Sigma\times\Gamma} p_{ab} \vert a b\rangle$ : 这是一个线性组合。它表示一个概率向量，该向量是所有标准基向量的加权和，权重就是对应状态的概率。例如，之前那个相关的概率向量 $\begin{pmatrix}1/2\\0\\0\\1/2\end{pmatrix}$ 就可以用狄拉克符号写成 $\frac{1}{2}|00\rangle + 0|01\rangle + 0|10\rangle + \frac{1}{2}|11\rangle = \frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。
“那么独立性条件(2)等价于存在两个概率向量...”: 这里给出了向量形式的独立性定义。
$|\phi\rangle$ 和 $|\psi\rangle$ : 这分别是描述子系统 $\mathsf{X}$ 和 $\mathsf{Y}$ 各自概率状态的概率向量。
$|\phi\rangle = \sum_{a\in\Sigma} q_a \vert a \rangle$ : 这是一个维度为 $|\Sigma|$ 的向量，其分量是 $q_a$ (即 $\operatorname{Pr}(\mathsf{X}=a)$ )。
$|\psi\rangle = \sum_{b\in\Gamma} r_b \vert b \rangle$ : 这是一个维度为 $|\Gamma|$ 的向量，其分量是 $r_b$ (即 $\operatorname{Pr}(\mathsf{Y}=b)$ )。
“存在”: 这个词是关键。如果一个复合概率状态是独立的，那么我们一定能找到这样两个代表子系统状态的概率向量。
“使得 $p_{ab} = q_a r_b$ ... 对于所有...成立”: 这就是用新符号重写的乘法法则。
$p_{ab}$ : 复合系统的联合概率。
$q_a$ : 子系统 $\mathsf{X}$ 的边际概率。
$r_b$ : 子系统 $\mathsf{Y}$ 的边际概率。
这个公式 $p_{ab} = q_a r_b$ 和之前的公式(2) $\operatorname{Pr}((\mathsf{X},\mathsf{Y}) = (a,b)) = \operatorname{Pr}(\mathsf{X} = a) \operatorname{Pr}(\mathsf{Y} = b)$ 在内容上是完全等价的，只是符号换了一套。 $p_{ab}$ 对应 $\operatorname{Pr}(...=(a,b))$ ， $q_a$ 对应 $\operatorname{Pr}(...=a)$ ， $r_b$ 对应 $\operatorname{Pr}(...=b)$ 。

∑ [公式拆解]

\sum_{(a,b) \in \Sigma\times\Gamma} p_{ab} \vert a b\rangle.

这是一个概率向量的狄拉克表示。

$|ab\rangle$ (ket ab): 标准基向量。它是一个列向量，其维度等于复合系统的状态总数 ( $|\Sigma| \times |\Gamma|$ )。在对应于状态 "ab" 的位置上，它的分量是1，其他所有位置都是0。
$p_{ab}$ : 一个标量（实数），表示概率。
$\sum$ : 求和符号。这个表达式的含义是：将所有的标准基向量 $|ab\rangle$ 乘以它们各自的概率 $p_{ab}$ ，然后将结果全部加起来。这正是线性代数中用基向量表示任意向量的标准方法。

\vert \phi \rangle = \sum_{a\in\Sigma} q_a \vert a \rangle \quad\text{and}\quad \vert \psi \rangle = \sum_{b\in\Gamma} r_b \vert b \rangle, \tag{3}

这是两个子系统的概率向量的狄拉克表示。

$|a\rangle$ : 描述子系统 $\mathsf{X}$ 的标准基向量。维度是 $|\Sigma|$ 。
$|b\rangle$ : 描述子系统 $\mathsf{Y}$ 的标准基向量。维度是 $|\Gamma|$ 。
$q_a, r_b$ : 对应的概率。 $\sum_a q_a = 1$ 且 $\sum_b r_b = 1$ 。

p_{ab} = q_a r_b \tag{4}

这是独立性条件的系数形式。它说联合概率向量的系数 $p_{ab}$ 可以分解为两个子系统概率向量的相应系数 $q_a$ 和 $r_b$ 的乘积。

💡 [数值示例]

示例1：独立的硬币

子系统 $\mathsf{X}$ : $\operatorname{Pr}(0)=0.5, \operatorname{Pr}(1)=0.5$ 。其概率向量是 $|\phi\rangle = 0.5|0\rangle + 0.5|1\rangle$ 。所以 $q_0=0.5, q_1=0.5$ 。
子系统 $\mathsf{Y}$ : $\operatorname{Pr}(0)=0.5, \operatorname{Pr}(1)=0.5$ 。其概率向量是 $|\psi\rangle = 0.5|0\rangle + 0.5|1\rangle$ 。所以 $r_0=0.5, r_1=0.5$ 。
根据 $p_{ab}=q_a r_b$ 计算联合概率系数：
$p_{00} = q_0 r_0 = 0.5 \times 0.5 = 0.25$
$p_{01} = q_0 r_1 = 0.5 \times 0.5 = 0.25$
$p_{10} = q_1 r_0 = 0.5 \times 0.5 = 0.25$
$p_{11} = q_1 r_1 = 0.5 \times 0.5 = 0.25$
所以复合系统的概率向量是 $0.25|00\rangle + 0.25|01\rangle + 0.25|10\rangle + 0.25|11\rangle$ 。
示例2：相关的双胞胎

复合系统的概率向量是 $|\pi\rangle = \frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。所以 $p_{00}=1/2, p_{01}=0, p_{10}=0, p_{11}=1/2$ 。
我们能找到 $|\phi\rangle = q_0|0\rangle + q_1|1\rangle$ 和 $|\psi\rangle = r_0|0\rangle + r_1|1\rangle$ 使得 $p_{ab}=q_a r_b$ 吗？
从 $p_{01}=0$ 我们知道， $q_0 r_1 = 0$ 。这意味着要么 $q_0=0$ ，要么 $r_1=0$ 。
情况A: 如果 $q_0=0$ ，那么 $p_{00} = q_0 r_0 = 0 \times r_0 = 0$ 。但这与事实 $p_{00}=1/2$ 矛盾。所以情况A不可能。
情况B: 如果 $r_1=0$ ，那么 $p_{11} = q_1 r_1 = q_1 \times 0 = 0$ 。但这与事实 $p_{11}=1/2$ 矛盾。所以情况B也不可能。
由于所有可能性都导向矛盾，结论是：不存在这样的 $|\phi\rangle$ 和 $|\psi\rangle$ 。因此，这个状态是不独立的。

⚠️ [易错点]

易错点：混淆不同空间的基向量。 $|0\rangle$ 在描述子系统 $\mathsf{X}$ 时是一个2维向量 $\begin{pmatrix}1\\0\end{pmatrix}$ ，但在描述复合系统时我们用的是 $|00\rangle, |01\rangle$ 等4维向量。它们属于不同的向量空间，不能混为一谈。
易错点：狄拉克符号只是个记号。在经典概率的背景下， $|ab\rangle$ 只是一个方便的标签，用来指代一个标准基向量。它的威力将在量子力学中完全展现，那里它代表一个物理状态。现在，我们可以暂时把它就看作是 $\mathbf{e}_{i}$ 这种标准基向量符号的一个花哨的替代品。

📝 [总结]

本段将独立性的数学定义从基础概率论语言翻译成了线性代数和狄拉克符号的语言。它指出，一个复合系统的概率状态是独立的，当且仅当描述其状态的联合概率向量的各个系数( $p_{ab}$ )，都能被分解为两个描述其子系统状态的概率向量的相应系数的乘积( $q_a \times r_b$ )。

🎯 [存在目的]

本段的目的是为引入张量积 (Tensor Product) 这一终极工具做最后的铺垫。 $p_{ab}=q_a r_b$ 这个看似简单的系数关系，实际上隐藏着一种深刻的向量/ 矩阵运算，那就是张量积。通过将独立性与系数的乘法联系起来，下一步就可以自然地将这种“系数的乘法”抽象和提升为一种“向量的乘法”，即张量积。狄拉克符号的引入也是为此服务的，因为它与张量积的运算规则能完美地结合。

🧠 [直觉心智模型]

这就像是用两个一维的列表（向量）来生成一个二维的表格（矩阵）。

子系统 $\mathsf{X}$ 的概率向量 $|\phi\rangle$ 就像一个行向量 $Q = (q_0, q_1, \dots)$ 。
子系统 $\mathsf{Y}$ 的概率向量 $|\psi\rangle$ 就像一个列向量 $R = (r_0, r_1, \dots)^T$ 。
独立性就意味着，描述联合概率的那个大矩阵 $P$ (其元素为 $p_{ab}$ )，可以通过这两个向量的外积 (Outer Product) 得到： $P = R \cdot Q$ 。矩阵的第 $b$ 行第 $a$ 列的元素就是 $r_b \times q_a$ 。
如果一个联合概率矩阵能够被这样分解成两个一维向量的外积，那么它就代表一个独立的概率状态。如果不能，它就是相关的。

💭 [直观想象]

继续看那个像素屏幕的例子。

子系统概率向量 $|\phi\rangle$ 定义了屏幕上每一列的“基础亮度” $q_a$ 。
子系统概率向量 $|\psi\rangle$ 定义了屏幕上每一行的“基础亮度” $r_b$ 。
独立性意味着，屏幕上任意一个像素 $(a,b)$ 的最终亮度 $p_{ab}$ ，就是它所在列的基础亮度 $q_a$ 乘以它所在行的基础亮度 $r_b$ 。
这种能被“行”和“列”的属性简单相乘得到所有“单元格”属性的结构，就是独立性的图像化体现。

📜 [原文16]

例如，由向量表示的一对比特 $(\mathsf{X},\mathsf{Y})$ 的概率状态

\frac{1}{6} \vert 00 \rangle + \frac{1}{12} \vert 01 \rangle + \frac{1}{2} \vert 10 \rangle + \frac{1}{4} \vert 11 \rangle

是 $\mathsf{X}$ 和 $\mathsf{Y}$ 相互独立的状态。

具体来说，独立性所需的条件对于以下概率向量是成立的

\vert \phi \rangle = \frac{1}{4} \vert 0 \rangle + \frac{3}{4} \vert 1 \rangle \quad\text{and}\quad \vert \psi \rangle = \frac{2}{3} \vert 0 \rangle + \frac{1}{3} \vert 1 \rangle.

例如，要使 $00$ 状态的概率匹配，我们需要 $\frac{1}{6} = \frac{1}{4} \times \frac{2}{3}$ ，事实确实如此。其他条目可以用类似的方式验证。

📖 [逐步解释]

这是一个具体的数值例子，用于演示和验证上一段提出的独立性的向量判据。

“例如，由向量表示的一对特 $(\mathsf{X},\mathsf{Y})$ 的概率状态...”: 给出了一个用狄拉克符号表示的2-比特系统的概率向量。
$p_{00} = 1/6$
$p_{01} = 1/12$
$p_{10} = 1/2$
$p_{11} = 1/4$
首先检查它是否是一个有效的概率向量： $1/6 + 1/12 + 1/2 + 1/4 = 2/12 + 1/12 + 6/12 + 3/12 = 12/12 = 1$ 。是的，它是有效的。
“是 $\mathsf{X}$ 和 $\mathsf{Y}$ 相互独立的状态”: 这是一个结论，需要我们去验证。
“具体来说，独立性所需的条件对于以下概率向量是成立的”: 文章直接给出了分解后的两个子系统概率向量 $|\phi\rangle$ 和 $|\psi\rangle$ 。
$|\phi\rangle$ 描述 $\mathsf{X}$ 的状态。从 $|\phi\rangle = \frac{1}{4} |0\rangle + \frac{3}{4} |1\rangle$ 可知， $q_0 = \operatorname{Pr}(\mathsf{X}=0) = 1/4$ ， $q_1 = \operatorname{Pr}(\mathsf{X}=1) = 3/4$ 。
$|\psi\rangle$ 描述 $\mathsf{Y}$ 的状态。从 $|\psi\rangle = \frac{2}{3} |0\rangle + \frac{1}{3} |1\rangle$ 可知， $r_0 = \operatorname{Pr}(\mathsf{Y}=0) = 2/3$ ， $r_1 = \operatorname{Pr}(\mathsf{Y}=1) = 1/3$ 。
注意，这两个向量本身也是有效的概率向量，因为分量和都为1。
“例如，要使 $00$ 状态的概率匹配...”: 开始逐项验证 $p_{ab} = q_a r_b$ 。
验证 $p_{00}$ :
联合概率: $p_{00} = 1/6$ 。
边际概率乘积: $q_0 \times r_0 = (1/4) \times (2/3) = 2/12 = 1/6$ 。
结果: $1/6 = 1/6$ ，匹配！
“其他条目可以用类似的方式验证”: 我们来完成这个验证过程。
验证 $p_{01}$ :
联合: $p_{01} = 1/12$ 。
乘积: $q_0 \times r_1 = (1/4) \times (1/3) = 1/12$ 。匹配！
验证 $p_{10}$ :
联合: $p_{10} = 1/2$ 。
乘积: $q_1 \times r_0 = (3/4) \times (2/3) = 6/12 = 1/2$ 。匹配！
验证 $p_{11}$ :
联合: $p_{11} = 1/4$ 。
乘积: $q_1 \times r_1 = (3/4) \times (1/3) = 3/12 = 1/4$ 。匹配！
结论: 由于所有四个复合状态的联合概率都等于其对应边际概率的乘积，因此这个概率状态确实是独立的。

一个更深入的问题：在考试中，可能不会直接给出 $|\phi\rangle$ 和 $|\psi\rangle$ ，而是只给联合概率，让你判断是否独立。你该如何反向找出 $q_a$ 和 $r_b$ 呢？

先计算边际概率。
- $q_0 = \operatorname{Pr}(\mathsf{X}=0) = p_{00} + p_{01} = 1/6 + 1/12 = 3/12 = 1/4$ 。
- $q_1 = \operatorname{Pr}(\mathsf{X}=1) = p_{10} + p_{11} = 1/2 + 1/4 = 3/4$ 。
- $r_0 = \operatorname{Pr}(\mathsf{Y}=0) = p_{00} + p_{10} = 1/6 + 1/2 = 4/6 = 2/3$ 。
- $r_1 = \operatorname{Pr}(\mathsf{Y}=1) = p_{01} + p_{11} = 1/12 + 1/4 = 4/12 = 1/3$ 。
然后用这些算出的边际概率去逐一验证 $p_{ab} = q_a r_b$ 是否成立。这个过程就和我们上面做的一模一样了。

∑ [公式拆解]

\frac{1}{6} \vert 00 \rangle + \frac{1}{12} \vert 01 \rangle + \frac{1}{2} \vert 10 \rangle + \frac{1}{4} \vert 11 \rangle

这是一个概率向量的具体实例。其对应的列向量形式为 $\begin{pmatrix} 1/6 \\ 1/12 \\ 1/2 \\ 1/4 \end{pmatrix}$ 。

\vert \phi \rangle = \frac{1}{4} \vert 0 \rangle + \frac{3}{4} \vert 1 \rangle \quad\text{and}\quad \vert \psi \rangle = \frac{2}{3} \vert 0 \rangle + \frac{1}{3} \vert 1 \rangle.

这是分解出的两个子系统的概率向量。

$|\phi\rangle$ 对应的列向量是 $\begin{pmatrix} 1/4 \\ 3/4 \end{pmatrix}$ 。
$|\psi\rangle$ 对应的列向量是 $\begin{pmatrix} 2/3 \\ 1/3 \end{pmatrix}$ 。

💡 [数值示例]

本段本身就是一个完整的数值示例。我们再构造一个。

问题: 判断由 $\frac{2}{9}|00\rangle + \frac{4}{9}|01\rangle + \frac{1}{9}|10\rangle + \frac{2}{9}|11\rangle$ 描述的状态是否独立。
解答:

计算边际概率:
- $q_0 = p_{00} + p_{01} = 2/9 + 4/9 = 6/9 = 2/3$ 。
- $q_1 = p_{10} + p_{11} = 1/9 + 2/9 = 3/9 = 1/3$ 。
- $r_0 = p_{00} + p_{10} = 2/9 + 1/9 = 3/9 = 1/3$ 。
- $r_1 = p_{01} + p_{11} = 4/9 + 2/9 = 6/9 = 2/3$ 。
验证乘法法则:
- $p_{00}$ ? $q_0 r_0 = (2/3) \times (1/3) = 2/9$ 。匹配！
- $p_{01}$ ? $q_0 r_1 = (2/3) \times (2/3) = 4/9$ 。匹配！
- $p_{10}$ ? $q_1 r_0 = (1/3) \times (1/3) = 1/9$ 。匹配！
- $p_{11}$ ? $q_1 r_1 = (1/3) \times (2/3) = 2/9$ 。匹配！
结论: 所有状态都匹配，所以该状态是独立的。它是由两个不均匀的比特 $\mathsf{X}$ (2/3概率为0) 和 $\mathsf{Y}$ (1/3概率为0) 组成的独立系统。

⚠️ [易错点]

易错点：计算边际概率时加错项。计算 $\operatorname{Pr}(\mathsf{X}=a)$ (即 $q_a$ ) 时，应该把所有第一个符号是 $a$ 的联合概率加起来，即固定第一个索引，对第二个索引求和。不要搞反。
易错点：仅凭直觉判断。看到 $1/6, 1/12, 1/2, 1/4$ 这些看起来毫无规律的数字，第一感觉可能是“不独立”。这个例子告诉我们，直觉不可靠，必须通过计算来验证。

📝 [总结]

本段通过一个具体的、非平凡的数值例子，完整地走了一遍验证独立性的流程。它展示了如何将一个给定的联合概率向量分解为两个子系统的概率向量，并验证联合概率确实是边际概率的乘积。这个例子有力地证明了独立性是一个可以通过计算来判定的精确数学属性。

🎯 [存在目的]

本段的目的是将抽象的独立性定义“具象化”，让学习者看到这个定义在实际计算中是如何操作的。通过正向（用边际概率构造联合概率）和逆向（从联合概率计算边际概率并验证）的思考，可以加深对独立性乘法法则的理解，并为下一段中发现更简洁的判断方法（张量积）埋下伏笔。

🧠 [直觉心智模型]

这就像一个侦探在破案。

联合概率向量: 是案发现场的各种线索和证据，看起来杂乱无章。
独立性: 是一个假设，即“嫌疑人A和嫌疑人B是独立作案的”。
侦探的工作: 就是去验证这个假设。他会分别计算“只有嫌疑人A作案的可能性”（边际概率 $q_a$ ）和“只有嫌疑人B作案的可能性”（边际概率 $r_b$ ）。然后，他去看联合证据 $p_{ab}$ 是否等于 $q_a r_b$ 。如果所有证据都符合这个乘法规则，那么他的“独立作案”假设就成立了。如果有一条证据不符合，比如某个本该很低的联合概率异常地高，那就说明A和B之间有勾结（相关）。

💭 [直观想象]

想象一个矩形农田的产量问题。

这块田被划分成很多小方格，每个方格是一个复合状态 $(a,b)$ 。
联合概率 $p_{ab}$ : 是每个小方格的产量。
边际概率 $q_a$ : 是第 $a$ 列所有方格的总产量。
边际概率 $r_b$ : 是第 $b$ 行所有方格的总产量。
独立性: 意味着这块田的肥力是“均匀可分离的”。也就是说，土地的肥力只跟“列”（比如经度）和“行”（比如纬度）有关，而没有其他复杂的相互作用。任何一个小方格 $(a,b)$ 的产量，都可以通过它所在列的平均肥力（代表 $q_a$ ）和所在行的平均肥力（代表 $r_b$ ）相乘得到。如果发现某个方格的产量远高于或远低于这个乘积，那就说明这块地有特殊情况（比如这里有个泉眼，或者那里是盐碱地），即存在“相关性”。

📜 [原文17]

另一方面，概率状态 $(1)$ ，我们可以写成

\frac{1}{2} \vert 00 \rangle + \frac{1}{2} \vert 11 \rangle, \tag{5}

并不代表系统 $\mathsf{X}$ 和 $\mathsf{Y}$ 之间的独立性。

论证这一点的一个简单方法如下。

假设确实存在如上面方程 $(3)$ 所示的概率向量 $\vert \phi\rangle$ 和 $\vert \psi \rangle$ ，对于 $a$ 和 $b$ 的每种选择，都满足条件 $(4)$ 。

那么必然会有

q_0 r_1 = \operatorname{Pr}\bigl((\mathsf{X},\mathsf{Y}) = (0,1)\bigr) = 0.

这意味着要么 $q_0 = 0$ 要么 $r_1 = 0$ ，因为如果两者都不为零，乘积 $q_0 r_1$ 也将不为零。

这将导致要么 $q_0 r_0 = 0$ （在 $q_0 = 0$ 的情况下），要么 $q_1 r_1 = 0$ （在 $r_1 = 0$ 的情况下）。

然而，我们看到这些等式都不可能成立，因为我们必须满足 $q_0 r_0 = 1/2$ 且 $q_1 r_1 = 1/2$ 。

因此，不存在满足独立性所需性质的向量 $\vert\phi\rangle$ 和 $\vert\psi\rangle$ 。

📖 [逐步解释]

这部分通过反证法 (Proof by Contradiction)，严谨地证明了我们遇到的第一个相关状态确实是不独立的。

“另一方面，概率状态 (1)...并不代表...独立性”: 提出了一个与上一个例子相反的论点。状态(1)就是我们之前见过的那个“双胞胎”状态， $\begin{pmatrix}1/2\\0\\0\\1/2\end{pmatrix}$ 。
“论证这一点的一个简单方法如下”: 预告了将要使用的证明方法。
“假设确实存在...概率向量 $|\phi\rangle$ 和 $|\psi\rangle$ ...”: 这是反证法的第一步：先假设结论的反面是成立的。我们要证明它“不独立”，所以我们先假设它是“独立的”。如果它是独立的，那么就一定能找到 $|\phi\rangle = q_0|0\rangle+q_1|1\rangle$ 和 $|\psi\rangle = r_0|0\rangle+r_1|1\rangle$ 满足 $p_{ab}=q_a r_b$ 。
“那么必然会有 $q_0 r_1 = \operatorname{Pr}(...=(0,1)) = 0$ ”: 这是从假设出发进行的第一步逻辑推导。
在状态(1)中，联合概率 $p_{01}$ (即 $\operatorname{Pr}(0,1)$ ) 是 0。
根据我们的“独立性”假设， $p_{01}$ 必须等于 $q_0 r_1$ 。
所以，我们必然得到 $q_0 r_1 = 0$ 。
“这意味着要么 $q_0 = 0$ 要么 $r_1 = 0$ ”: 这是一个基本的代数事实。两个数的乘积是0，那么这两个数中至少有一个是0。
“这将导致要么 $q_0 r_0 = 0$ ... 要么 $q_1 r_1 = 0$ ”: 这里分两种情况讨论上述推论的后果。
情况 A (如果 $q_0=0$ ): 那么 $p_{00}$ (即 $\operatorname{Pr}(0,0)$ ) 就应该等于 $q_0 r_0 = 0 \times r_0 = 0$ 。
情况 B (如果 $r_1=0$ ): 那么 $p_{11}$ (即 $\operatorname{Pr}(1,1)$ ) 就应该等于 $q_1 r_1 = q_1 \times 0 = 0$ 。
“然而，我们看到这些等式都不可能成立...”: 将推导出的后果与已知事实进行比较，发现了矛盾。
已知事实: 从状态(1)我们知道， $p_{00} = 1/2$ 并且 $p_{11} = 1/2$ 。它们都不是0。
矛盾:
在情况A中，我们推导出 $p_{00}$ 必须是0，但这与 $p_{00}=1/2$ 矛盾。
在情况B中，我们推导出 $p_{11}$ 必须是0，但这与 $p_{11}=1/2$ 矛盾。
“因此，不存在满足独立性所需性质的向量...”: 这是反证法的最后一步。
由于我们的初始假设（“它是独立的”）导出了一个不可避免的矛盾，所以这个初始假设本身一定是错误的。
结论：这个状态不可能是独立的。

∑ [公式拆解]

\frac{1}{2} \vert 00 \rangle + \frac{1}{2} \vert 11 \rangle, \tag{5}

这和之前的状态(1)是同一个东西，只是用狄拉克符号写了出来，并且省略了概率为0的项。

$p_{00}=1/2, p_{01}=0, p_{10}=0, p_{11}=1/2$ 。

q_0 r_1 = \operatorname{Pr}\bigl((\mathsf{X},\mathsf{Y}) = (0,1)\bigr) = 0.

这是证明的关键步骤。它将一个已知的联合概率 ( $p_{01}=0$ ) 与假设存在的边际概率的乘积 ( $q_0 r_1$ ) 联系起来。

💡 [数值示例]

本段本身就是对一个核心例子的严谨证明。我们用同样的逻辑来证明“完美负相关”状态也是不独立的。

状态: $|\pi\rangle = \frac{1}{2}|01\rangle + \frac{1}{2}|10\rangle$ 。
联合概率: $p_{00}=0, p_{01}=1/2, p_{10}=1/2, p_{11}=0$ 。
证明:

假设它是独立的。则存在 $q_a, r_b$ 使得 $p_{ab}=q_a r_b$ 。
从 $p_{00}=0$ 可知， $q_0 r_0 = 0$ 。所以要么 $q_0=0$ ，要么 $r_0=0$ 。
情况A ( $q_0=0$ ): 那么 $p_{01} = q_0 r_1 = 0 \times r_1 = 0$ 。但这与事实 $p_{01}=1/2$ 矛盾。
情况B ( $r_0=0$ ): 那么 $p_{10} = q_1 r_0 = q_1 \times 0 = 0$ 。但这与事实 $p_{10}=1/2$ 矛盾。
两种情况都导出矛盾。因此，初始假设错误，该状态不独立。

⚠️ [易错点]

易错点：逻辑不严谨。反证法要求逻辑链条非常清晰、严密。从假设出发的每一步推导都必须是必然的，最后得出的矛盾也必须是无可辩驳的。
易错点：没有选择最有利的起点。在这个证明中，选择从 $p_{01}=0$ 或 $p_{10}=0$ 开始是最高效的，因为乘以0能立刻给出强有力的约束。如果从 $p_{00}=1/2$ 开始，我们得到 $q_0 r_0 = 1/2$ ，这只告诉我们 $q_0$ 和 $r_0$ 都不为零，信息量较小。

📝 [总结]

本段使用反证法，严格地证明了概率状态 $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 是不独立的。其核心逻辑是：假设该状态是独立的，那么其联合概率必须满足乘法法则 $p_{ab}=q_a r_b$ 。然而，通过分析概率为零的项（如 $p_{01}=0$ ），可以推导出与概率不为零的项（如 $p_{00}=1/2$ ）相矛盾的结论。这个矛盾证明了最初的“独立性”假设不成立。

🎯 [存在目的]

本段的目的是展示如何严格地、数学地去证伪一个命题。科学不仅在于证实，也在于证伪。通过一个清晰的反证法示例，学习者可以体会到数学论证的严密性和力量。同时，它也从反面加深了对独立性定义苛刻性的理解：只要有一个环节对不上，整个独立性的大厦就崩塌了。这为理解相关性的普遍存在提供了数学依据。

🧠 [直觉心智模型]

这就像一个逻辑谜题：“如果A是真的，那么B就必须是真的。如果B是真的，那么C就必须是假的。但我们已知C是真的。请问：A是真的还是假的？”

解答: 假设A是真的 -> 那么B是真的 -> 那么C是假的。
这与“C是真的”这个已知事实产生了矛盾。
因此，最初的假设“A是真的”一定是错误的。所以A是假的。

本段的证明过程就完全是这个逻辑结构。

A = “状态是独立的”
B = “ $q_0=0$ 或 $r_1=0$ ”
C = “ $p_{00}=1/2$ 且 $p_{11}=1/2$ ”
我们推导出如果A为真，则C为假。但C是真的，所以A为假。

💭 [直观想象]

想象一个只在对角线上发光的像素屏幕。

已知事实: (0,0)像素和(1,1)像素很亮，亮度都是1/2。(0,1)和(1,0)像素是黑的，亮度为0。
独立性假设: 这个屏幕的亮度是由“列的亮度”和“行的亮度”相乘得到的。
推导:
(0,1)像素是黑的，意味着要么第0列是黑的( $q_0=0$ )，要么第1行是黑的( $r_1=0$ )。
如果第0列是黑的( $q_0=0$ )，那么该列的所有像素都应该是黑的。所以(0,0)像素也必须是黑的。
矛盾: 这与我们看到的“(0,0)像素很亮”的事实相矛盾。
结论: “亮度由行列相乘得到”这个假设是错误的。这个屏幕的亮度模式不是独立的。

📜 [原文18]

定义了两个系统之间的独立性后，我们现在可以定义相关性的含义：它即是缺乏独立性。

例如，因为由向量 $(5)$ 表示的概率状态中的两个比特不是独立的，所以根据定义，它们是相关的。

📖 [逐步解释]

这是一个非常简短但概念上极其重要的段落，它正式定义了相关性。

“定义了两个系统之间的独立性后，我们现在可以定义相关性的含义”: 这句话表明相关性是基于独立性来定义的，独立性是更基本的概念。
“它即是缺乏独立性 (lack of independence)”: 这是相关性 (Correlation) 的定义。它是一个否定性定义。我们不直接说“相关性是什么”，而是说“相关性是不是独立”。
如果一个多系统的概率状态不满足独立性的条件（即联合概率不等于边际概率的乘积），那么这个状态就被称为是相关的。
独立和相关是互斥且完备的两个分类。对于任何一个概率状态，它要么是独立的，要么就是相关的，没有第三种可能。
“例如，因为由向量 (5) 表示的概率状态...不是独立的，所以根据定义，它们是相关的”: 这是一个应用定义的例子。
我们在上一段已经严格证明了向量(5) ( $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ ) 是不独立的。
因此，根据“相关 = 不独立”的定义，我们得出结论：这个状态是相关的。

💡 [数值示例]

示例1：

状态: $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$
分析: 我们已证明其不独立。
结论: 它是相关的。
示例2：

状态: $\frac{1}{6}|00\rangle + \frac{1}{12}|01\rangle + \frac{1}{2}|10\rangle + \frac{1}{4}|11\rangle$
分析: 我们已证明其是独立的。
结论: 它是不相关的。
示例3：

状态: $\frac{1}{2}|01\rangle + \frac{1}{2}|10\rangle$
分析: 我们已证明其不独立。
结论: 它是相关的。

⚠️ [易错点]

易错点：认为相关性有程度之分，而独立性是绝对的。这是正确的。独立性是一个“是”或“否”的布尔问题。而相关性则有强弱之分。例如， $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 是完美相关。而前面例子中的 $0.4|00\rangle + 0.1|01\rangle + 0.2|10\rangle + 0.3|11\rangle$ 则是不完全相关。虽然本课程目前只定义了“是/否”相关，但在统计学中有协方差 (Covariance)、相关系数 (Correlation Coefficient)、互信息 (Mutual Information) 等指标来量化相关性的强度。
边界情况：如何描述一个确定性状态？ 比如系统确定处于状态 $|00\rangle$ 。它的概率向量是 $1|00\rangle$ 。
$p_{00}=1, p_{01}=p_{10}=p_{11}=0$ 。
边际概率: $q_0 = p_{00}+p_{01} = 1$ , $q_1=0$ 。 $r_0=p_{00}+p_{10}=1$ , $r_1=0$ 。
检验: $p_{00}=q_0 r_0 \implies 1 = 1 \times 1$ ，成立。 $p_{01}=q_0 r_1 \implies 0=1\times0$ ，成立。等等。
结论：一个确定的经典状态（如 $|00\rangle$ , $|01\rangle$ 等）是独立的！这可能有点反直觉，但它符合数学定义。它代表的状态是：系统 $\mathsf{X}$ 确定处于状态0，系统 $\mathsf{Y}$ 也确定处于状态0，两者之间没有不确定性，也没有“信息交换”。

📝 [总结]

本段给出了相关性的正式定义：相关性就是不独立。这是一个简洁而强大的定义，它将相关性与独立性这两个概念紧密地捆绑在一起，形成了一个对多系统概率状态的完整分类。

🎯 [存在目的]

本段的目的是在概念体系中为“相关性”找到一个精确的位置。通过将其定义为独立性的对立面，避免了循环定义或模糊描述。这使得整个理论框架更加清晰和自洽。现在，我们有了一个明确的任务：要理解一个多系统，关键在于判断它是否独立。如果是，它的行为很简单；如果不是，它就是相关的，其行为会更复杂、更有趣，值得我们进一步研究。

🧠 [直觉心智模型]

这就像定义“奇数”。

我们不直接说“奇数是1, 3, 5, ...”。
更根本的定义是：首先定义“偶数”是可以被2整除的整数。
然后，我们定义“奇数”就是“不是偶数的整数”。

这个定义方式和本段定义“相关性”的逻辑是完全一样的。我们先定义了性质良好的“独立性”（像偶数），然后把其他所有情况都归为“相关性”（像奇数）。

💭 [直观想象]

想象一下检查两份考试卷是否雷同（作弊）。

独立性: 是“无作弊”的假设。
相关性: 就是“有作弊”的结论。
你的判断标准是：如果两份卷子答案的相似度高到无法用“巧合”（即独立随机选择）来解释，你就判定它们不独立，因此是相关的（即存在作弊）。这个过程就是先证伪“独立性”，然后得出“相关性”的结论。

12.3 向量的张量积

📜 [原文19]

刚才描述的独立性条件可以通过张量积的概念简洁地表达。

虽然张量积是一个非常通用的概念，可以非常抽象地定义并应用于各种数学结构，但我们在当前情况下可以采用一个简单且具体的定义。

📖 [逐步解释]

这部分是引子，预告了一个更高级、更简洁的数学工具——张量积 (Tensor Product)——的登场。

“刚才描述的独立性条件可以通过张量积的概念简洁地表达”: 这句话点明了引入张量积的动机。我们之前用来描述独立性的条件 $p_{ab}=q_a r_b$ 看着有些繁琐，需要对每一个系数进行检查。张量积提供了一种“一步到位”的方式，将这个条件浓缩成一个单一的向量运算。
“虽然张量积是一个非常通用的概念...”: 这句话提醒我们，张量积在数学和物理中是一个非常深刻和广泛的概念，它出现在相对论、微分几何、抽象代数等许多领域。
“...但我们在当前情况下可以采用一个简单且具体的定义”: 这句话让学习者放轻松。我们不需要去学习张量积最抽象的泛性质定义，只需要掌握它在当前向量空间背景下的具体计算方法就足够了。这是一种务实的教学策略，避免陷入不必要的抽象细节中。

💡 [数值示例]

由于本段是引言，还没有给出定义，我们可以预演一下它将要做什么。

预演: 我们有两个子系统的概率向量：
$|\phi\rangle = \begin{pmatrix} q_0 \\ q_1 \end{pmatrix}$
$|\psi\rangle = \begin{pmatrix} r_0 \\ r_1 \end{pmatrix}$
独立性条件要求联合概率向量的四个分量分别是 $p_{00}=q_0r_0, p_{01}=q_0r_1, p_{10}=q_1r_0, p_{11}=q_1r_1$ 。也就是向量 $\begin{pmatrix} q_0r_0 \\ q_0r_1 \\ q_1r_0 \\ q_1r_1 \end{pmatrix}$ 。
张量积将要做的，就是定义一种新的乘法 ⊗，使得：

\begin{pmatrix} q_0 \\ q_1 \end{pmatrix} \otimes \begin{pmatrix} r_0 \\ r_1 \end{pmatrix} = \begin{pmatrix} q_0r_0 \\ q_0r_1 \\ q_1r_0 \\ q_1r_1 \end{pmatrix}

这样一来，独立性就可以被简洁地定义为：一个联合概率向量 $|\pi\rangle$ 是独立的，当且仅当它能被写成两个子系统概率向量的张量积形式，即 $|\pi\rangle = |\phi\rangle \otimes |\psi\rangle$ 。

⚠️ [易错点]

易错点：畏惧“张量”这个词。“张量”听起来比“向量”、“矩阵”要高级和吓人得多。本段的目的之一就是“祛魅”，告诉我们在这里只需要把它当作一种特殊的向量乘法规则来学习和使用即可。

📝 [总结]

本段是一个过渡，它宣告了张量积的引入。引入张量积的目的是为了用一个单一的、优雅的数学运算来概括和表达多系统的独立性条件。它承诺将给出一个具体、易于操作的定义，而非其在高等数学中的抽象形式。

🎯 [存在目的]

本段的目的是“承上启下”。它总结了之前对独立性的描述（ $p_{ab}=q_a r_b$ ）的不足之处（不够简洁），并指明了前进的方向（寻找一种新的运算）。这使得张量积的出现不是凭空而来，而是为了解决一个实际问题（如何更优雅地表达独立性），从而让整个理论的构建显得更加自然和有逻辑。

🧠 [直觉心智模型]

这就像你学会了用 2+2+2 来算3个2相加，然后有人告诉你：“有一个更简洁的符号叫乘法，你可以写成 3×2”。

之前的条件 $p_{ab}=q_a r_b$ for all $a,b$ 就像是 2+2+2，你需要把每个部分都写出来。
即将引入的张量积 $|\pi\rangle = |\phi\rangle \otimes |\psi\rangle$ 就像是 3×2，它把整个操作打包成了一个单一的表达式。

💭 [直观想象]

想象你在用一个图形软件。

你画了一个水平的渐变条 (向量 $|\phi\rangle$ )。
你又画了一个垂直的渐变条 (向量 $|\psi\rangle$ )。
独立性的条件 $p_{ab}=q_a r_b$ 就像是你手动计算出每个像素点的颜色值。
张量积就像是软件里提供的一个“二维渐变”工具。你只需要输入水平和垂直两个渐变条，它就能自动为你生成一整个渐变矩形。这个工具就是张量积。它把一个繁琐的手动过程，变成了一个自动化的操作。

📜 [原文20]

给定两个向量

\vert \phi \rangle = \sum_{a\in\Sigma} \alpha_a \vert a \rangle \quad\text{and}\quad \vert \psi \rangle = \sum_{b\in\Gamma} \beta_b \vert b \rangle,

张量积 $\vert \phi \rangle \otimes \vert \psi \rangle$ 是定义为以下的向量

\vert \phi \rangle \otimes \vert \psi \rangle = \sum_{(a,b)\in\Sigma\times\Gamma} \alpha_a \beta_b \vert ab\rangle.

这个新向量的条目对应于笛卡尔积 $\Sigma\times\Gamma$ 的元素，它们在前面的方程中被写为字符串。

等效地，向量 $\vert \pi \rangle = \vert \phi \rangle \otimes \vert \psi \rangle$ 由方程

\langle ab \vert \pi \rangle = \langle a \vert \phi \rangle \langle b \vert \psi \rangle

对每一个 $a\in\Sigma$ 和 $b\in\Gamma$ 都成立来定义。

📖 [逐步解释]

这部分给出了张量积的正式定义，并用两种等价的方式来描述。

“给定两个向量...”: 设定了输入。 $|\phi\rangle$ 和 $|\psi\rangle$ 是任意两个向量（不一定是概率向量），它们的系数分别是 $\alpha_a$ 和 $\beta_b$ 。
“张量积 $|\phi\rangle \otimes |\psi\rangle$ 是定义为以下的向量”: 这是张量积的核心定义。
$|\phi\rangle \otimes |\psi\rangle$ : 这就是张量积的符号。它是一个新的向量。
这个新向量生活在一个更大的向量空间里，这个空间的基向量是 $|ab\rangle$ 这种形式。
$\alpha_a \beta_b$ : 这是新向量在基 $|ab\rangle$ 上的系数。这个系数就是原来两个向量的对应系数 $\alpha_a$ 和 $\beta_b$ 的普通乘积。
$\sum_{(a,b)\in\Sigma\times\Gamma}$ : 对所有可能的复合状态 $(a,b)$ 求和。
定义的解读: 张量积操作就是：拿第一个向量的每一个系数，去和第二个向量的所有系数分别相乘，得到的这些新的乘积，就构成了那个更大的、新的张量积向量的系数。
“等效地，向量 $|\pi\rangle = |\phi\rangle \otimes |\psi\rangle$ 由方程...”: 这是张量积的第二种定义方式，使用了bra-ket符号。
$|\pi\rangle$ : 就是我们要求的张量积向量。
$\langle ab |$ : 这是一个bra向量。当它作用于一个ket向量上时，比如 $\langle ab | \pi \rangle$ ，其作用是“挑出” ket向量 $|\pi\rangle$ 中，基向量 $|ab\rangle$ 前面的那个系数。所以 $\langle ab | \pi \rangle$ 就是我们之前说的 $p_{ab}$ 。
$\langle a | \phi \rangle$ : 同理，这是挑出向量 $|\phi\rangle$ 中，基 $|a\rangle$ 前面的系数，也就是 $\alpha_a$ 。
$\langle b | \psi \rangle$ : 挑出 $|\psi\rangle$ 中 $|b\rangle$ 前面的系数，也就是 $\beta_b$ 。
第二种定义的解读: 这个方程 $\langle ab \vert \pi \rangle = \langle a \vert \phi \rangle \langle b \vert \psi \rangle$ 说的就是：“张量积向量 $|\pi\rangle$ 在 $|ab\rangle$ 方向上的分量，等于第一个向量在 $|a\rangle$ 方向上的分量，乘以第二个向量在 $|b\rangle$ 方向上的分量”。这和第一种定义的 $p_{ab} = \alpha_a \beta_b$ 是完全一回事，只是写法更“量子”一些。

∑ [公式拆解]

\vert \phi \rangle \otimes \vert \psi \rangle = \sum_{(a,b)\in\Sigma\times\Gamma} \alpha_a \beta_b \vert ab\rangle.

这是张量积的“构造性”定义。它直接告诉我们如何一步步构建出最终的向量。

例如: $|\phi\rangle = \alpha_0|0\rangle + \alpha_1|1\rangle$ , $|\psi\rangle = \beta_0|0\rangle + \beta_1|1\rangle$ 。
张量积:

$|\phi\rangle \otimes |\psi\rangle$

$= \alpha_0\beta_0 |00\rangle$ (a=0, b=0)

$+ \alpha_0\beta_1 |01\rangle$ (a=0, b=1)

$+ \alpha_1\beta_0 |10\rangle$ (a=1, b=0)

$+ \alpha_1\beta_1 |11\rangle$ (a=1, b=1)

\langle ab \vert \pi \rangle = \langle a \vert \phi \rangle \langle b \vert \psi \rangle

这是张量积的“按需查询”定义。它不直接构造出整个向量，而是告诉我们如何查询最终向量的任意一个分量。

$\langle \cdot | \cdot \rangle$ : 这是内积 (Inner Product) 的符号。由于我们用的是标准正交基，所以 $\langle i | j \rangle = \delta_{ij}$ (当 $i=j$ 时为1，否则为0)。
因此， $\langle a | \phi \rangle = \langle a | (\sum_i \alpha_i |i\rangle) = \sum_i \alpha_i \langle a | i \rangle = \alpha_a$ 。这个操作确实是“挑出系数”。

💡 [数值示例]

示例1

$|\phi\rangle = |0\rangle + 2|1\rangle = \begin{pmatrix}1\\2\end{pmatrix}$
$|\psi\rangle = 3|0\rangle + 4|1\rangle = \begin{pmatrix}3\\4\end{pmatrix}$
张量积: $|\phi\rangle \otimes |\psi\rangle$

$= (1 \times 3) |00\rangle + (1 \times 4) |01\rangle + (2 \times 3) |10\rangle + (2 \times 4) |11\rangle$

$= 3|00\rangle + 4|01\rangle + 6|10\rangle + 8|11\rangle$

对应的列向量是 $\begin{pmatrix}3\\4\\6\\8\end{pmatrix}$ 。
示例2

$|\phi\rangle = \frac{1}{\sqrt{2}}|0\rangle + \frac{1}{\sqrt{2}}|1\rangle$ (一个量子态，称为 $|+\rangle$ 态)
$|\psi\rangle = \frac{1}{\sqrt{2}}|0\rangle - \frac{1}{\sqrt{2}}|1\rangle$ (一个量子态，称为 $|-\rangle$ 态)
张量积: $|\phi\rangle \otimes |\psi\rangle$

$= (\frac{1}{\sqrt{2}} \times \frac{1}{\sqrt{2}})|00\rangle + (\frac{1}{\sqrt{2}} \times -\frac{1}{\sqrt{2}})|01\rangle + (\frac{1}{\sqrt{2}} \times \frac{1}{\sqrt{2}})|10\rangle + (\frac{1}{\sqrt{2}} \times -\frac{1}{\sqrt{2}})|11\rangle$

$= \frac{1}{2}|00\rangle - \frac{1}{2}|01\rangle + \frac{1}{2}|10\rangle - \frac{1}{2}|11\rangle$

⚠️ [易错点]

易错点：张量积不可交换。一般来说， $|\phi\rangle \otimes |\psi\rangle \neq |\psi\rangle \otimes |\phi\rangle$ 。顺序很重要！
在示例1中， $|\psi\rangle \otimes |\phi\rangle$ 的系数会是 $3\times1, 3\times2, 4\times1, 4\times2$ ，即 $3,6,4,8$ 。对应的向量是 $3|00\rangle+6|01\rangle+4|10\rangle+8|11\rangle$ ，与原来的结果不同。
易错点：与Hadamard积（逐元素乘积）混淆。Hadamard积是对两个同样大小的矩阵或向量，将对应位置的元素相乘，结果大小不变。而张量积是两个不同大小的向量生成一个更大的向量，维度是原来维度的乘积。
边界情况：与标量0或基向量做张量积。
$|\phi\rangle \otimes |0\rangle = (\alpha_0|0\rangle + \alpha_1|1\rangle) \otimes (1|0\rangle+0|1\rangle) = \alpha_0|00\rangle + \alpha_1|10\rangle$ 。
$|\phi\rangle \otimes (\text{零向量}) = (\text{零向量})$ 。

📝 [总结]

本段正式定义了向量的张量积。它是一种将两个（或多个）来自较小向量空间的向量，组合成一个单一的、来自更大向量空间的向量的运算。其核心规则是：新向量的系数，是由原来两个向量的系数两两相乘得到的。本段提供了两种等价的定义形式：一种是直接构造最终向量的“求和式”，另一种是描述如何获取最终向量任意分量的“查询式”。

🎯 [存在目的]

本段的目的是将独立性的描述从系数层面 ( $p_{ab}=q_a r_b$ ) 提升到向量运算层面。有了张量积这个工具，我们就可以非常简洁地处理和识别独立的概率状态（以及后面的量子态）。它是多体系统（无论是经典还是量子）数学描述的基石。所有独立的复合系统状态都可以通过张量积构建，而所有不能这样构建的状态，都是相关或纠缠的。

🧠 [直觉心智模型]

张量积就像是分配律 (Distributive Law) 的一种“升级版”。

我们知道 $a \times (b+c) = a \times b + a \times c$ 。
张量积就像是 $(\alpha_0|0\rangle + \alpha_1|1\rangle) \otimes (|\psi\rangle)$ 。我们可以“形式上”地使用分配律：

$= (\alpha_0|0\rangle \otimes |\psi\rangle) + (\alpha_1|1\rangle \otimes |\psi\rangle)$

然后对 $|\psi\rangle = \beta_0|0\rangle + \beta_1|1\rangle$ 再用一次：

如果我们再定义 $|a\rangle \otimes |b\rangle = |ab\rangle$ ，就得到了最终的定义。所以，张量积的行为就像是把我们熟悉的分配律应用到了向量本身。

💭 [直观想象]

回到用两个一维列表生成一个二维表格的模型。

列表A: [a1, a2]
列表B: [b1, b2, b3]
张量积 A ⊗ B 就是这样一个过程：

取出A的第一个元素 a1。
用 a1 乘以B中的每一个元素，得到一个新的列表 [a1b1, a1b2, a1*b3]。
取出A的第二个元素 a2。
用 a2 乘以B中的每一个元素，得到一个新的列表 [a2b1, a2b2, a2*b3]。
把这两个新列表头尾相接，拼成一个更长的列表：[a1b1, a1b2, a1b3, a2b1, a2b2, a2b3]。
- 这个最终的长列表，就是张量积向量的各个分量。这将在下一段的矩阵表示中看得更清楚。

📜 [原文21]

我们现在可以重新表述独立性的条件：

对于处于由概率向量 $\vert \pi \rangle$ 表示的概率状态下的联合系统 $(\mathsf{X}, \mathsf{Y})$ ，如果 $\vert\pi\rangle$ 是通过对每个子系统 $\mathsf{X}$ 和 $\mathsf{Y}$ 的概率向量 $\vert \phi \rangle$ 和 $\vert \psi \rangle$ 进行张量积运算得到的，即

\vert \pi \rangle = \vert \phi \rangle \otimes \vert \psi \rangle

则系统 $\mathsf{X}$ 和 $\mathsf{Y}$ 是独立的。

在这种情况下， $\vert \pi \rangle$ 被称为是一个乘积态或乘积向量。

📖 [逐步解释]

这一小段是画龙点睛之笔，它用刚刚定义的张量积，给出了独立性最简洁、最优雅的定义。

“我们现在可以重新表述独立性的条件”: 预告了对独立性定义的最终升级。
“如果 $|\pi\rangle$ 是通过对每个子系统...的概率向量...进行张量积运算得到的”: 这就是新的定义。
$|\pi\rangle$ : 描述联合系统的概率向量。
$|\phi\rangle$ : 描述子系统 $\mathsf{X}$ 的概率向量。
$|\psi\rangle$ : 描述子系统 $\mathsf{Y}$ 的概率向量。
核心定义: 一个联合概率状态是独立的，当且仅当描述它的概率向量 $|\pi\rangle$ 能够被写成两个子系统概率向量 $|\phi\rangle$ 和 $|\psi\rangle$ 的张量积。
验证:
上一段张量积的定义是：如果 $|\pi\rangle = |\phi\rangle \otimes |\psi\rangle$ ，那么其系数满足 $\langle ab | \pi \rangle = \langle a | \phi \rangle \langle b | \psi \rangle$ 。
这翻译成概率语言就是 $p_{ab} = q_a \times r_b$ 。
这正是我们之前用来定义独立性的乘法法则。
因此，这个用张量积给出的新定义，与之前的定义是完全等价的。但它的形式更紧凑，将一个需要检查所有系数的条件，浓缩成了一个单一的向量方程。
“在这种情况下， $\vert \pi \rangle$ 被称为是一个乘积态或乘积向量”: 引入了新的术语。
乘积态 (Product State) 或 乘积向量 (Product Vector)：一个可以被分解为其子系统状态向量张量积的复合系统状态向量。
所以，独立状态 = 乘积态。
与之相对，相关状态 = 非乘积态。在量子力学中，这种非乘积态被称为纠缠态 (Entangled State)。

∑ [公式拆解]

\vert \pi \rangle = \vert \phi \rangle \otimes \vert \psi \rangle

这是本节最重要的公式之一。它用一个极其简洁的方程表达了独立性。

$|\pi\rangle$ : 一个生活在“大”空间（维度为 $m \times n$ ）中的向量。
$|\phi\rangle$ : 一个生活在“小”空间（维度为 $m$ ）中的向量。
$|\psi\rangle$ : 一个生活在另一个“小”空间（维度为 $n$ ）中的向量。
$\otimes$ : 张量积符号，是将小空间中的向量映射到大空间中向量的桥梁。

这个方程的含义是：联合系统的状态向量可以由子系统的状态向量通过张量积运算“构建”出来。

💡 [数值示例]

示例1：独立状态是乘积态

回顾一下那个被证明是独立的例子： $|\pi\rangle = \frac{1}{6}|00\rangle + \frac{1}{12}|01\rangle + \frac{1}{2}|10\rangle + \frac{1}{4}|11\rangle$ 。
我们之前也找到了它对应的子系统概率向量：
$|\phi\rangle = \frac{1}{4}|0\rangle + \frac{3}{4}|1\rangle$
$|\psi\rangle = \frac{2}{3}|0\rangle + \frac{1}{3}|1\rangle$
现在我们可以用张量积来验证：

$|\phi\rangle \otimes |\psi\rangle = (\frac{1}{4}|0\rangle + \frac{3}{4}|1\rangle) \otimes (\frac{2}{3}|0\rangle + \frac{1}{3}|1\rangle)$

$= (\frac{1}{4}\frac{2}{3})|00\rangle + (\frac{1}{4}\frac{1}{3})|01\rangle + (\frac{3}{4}\frac{2}{3})|10\rangle + (\frac{3}{4}\frac{1}{3})|11\rangle$

$= \frac{2}{12}|00\rangle + \frac{1}{12}|01\rangle + \frac{6}{12}|10\rangle + \frac{3}{12}|11\rangle$

$= \frac{1}{6}|00\rangle + \frac{1}{12}|01\rangle + \frac{1}{2}|10\rangle + \frac{1}{4}|11\rangle$

这与给定的 $|\pi\rangle$ 完全相同。因此，这个 $|\pi\rangle$ 是一个乘积态。
示例2：相关状态不是乘积态

回顾那个相关的例子： $|\pi\rangle = \frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。
我们之前通过反证法证明了，不可能找到满足 $p_{ab}=q_a r_b$ 的 $|\phi\rangle$ 和 $|\psi\rangle$ 。
用现在的新术语来说，就是：我们不可能找到任何 $|\phi\rangle$ 和 $|\psi\rangle$ ，使得 $|\pi\rangle = |\phi\rangle \otimes |\psi\rangle$ 。
因此，这个 $|\pi\rangle$ 不是一个乘积态。

⚠️ [易错点]

易错点：认为所有状态都是乘积态。这是最核心的误区。事实恰恰相反，在多体系统中，绝大多数随机选择的状态都不是乘积态。乘积态（独立状态）是非常特殊的一类。
边界情况：确定性经典状态是乘积态。例如，状态 $|01\rangle$ 。它可以写成子系统状态 $|0\rangle$ 和 $|1\rangle$ 的张量积： $|01\rangle = |0\rangle \otimes |1\rangle$ 。这再次说明，确定的经典复合状态是独立的。

📝 [总结]

本段给出了独立性最精炼的定义：一个复合系统的概率状态是独立的，当且仅当其状态向量是一个乘积态，即它可以被写成其各个子系统状态向量的张量积。所有不独立的状态（即相关状态）都不能写成这种张量积的形式。

🎯 [存在目的]

本段的目的是将独立性这个物理/概率概念，完全转化为一个线性代数的结构问题。判断独立性，现在等价于判断一个高维向量是否可以被分解为几个低维向量的张量积。这个问题（称为张量分解）是线性代数中的一个重要问题。通过这种转换，我们可以利用更多、更强大的数学工具来分析多体系统的状态。这一定义对于量子信息尤其重要，因为纠缠的定义正是“不是乘积态的量子态”。

🧠 [直觉心智模型]

这就像判断一幅画是不是“拼贴画”。

乘积态就像一幅由一张完整的照片冲印出来的画。它是一个不可分割的整体，但它的内容是由“一个场景”（比如 $|\phi\rangle$ ）和“一种色调”（比如 $|\psi\rangle$ ）这两个独立的元素“张量积”起来的。（这个比喻不完美，但旨在说明其“可构造性”）
相关/纠缠态就像一幅“拼贴画”。它是由不同照片的碎片（比如一张照片的眼睛，另一张照片的嘴巴）剪切并粘贴在一起的。你无法找到一张单一的“原型照片” ( $|\phi\rangle \otimes |\psi\rangle$ ) 来代表这幅拼贴画。
$|\pi\rangle = \frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 就像一幅拼贴画，它把“全白”这张照片的左上角 ( $|00\rangle$ ) 和“全黑”这张照片的右下角 ( $|11\rangle$ ) 拼在了一起，而其他部分都扔掉了。

💭 [直观想象]

回到那个矩形农田的例子。

一个乘积态（独立状态）对应一块“正常”的土地，其产量分布图（亮度图）是光滑的、格子状的，可以由一个“东西向肥力分布条”和一个“南北向肥力分布条”相乘得到。
一个非乘积态（相关状态）对应一块“奇特”的土地。它的产量分布图是斑驳的、不规则的，比如只在对角线上的田地产量高，其他地方都是盐碱地。你无法用一个简单的“东西向肥力条”和“南北向肥力条”的乘积来复现这种奇特的分布模式。

📜 [原文22]

在对右矢进行张量积运算时，我们经常省略符号 $\otimes$ ，例如写成 $\vert \phi \rangle \vert \psi \rangle$ 而不是 $\vert \phi \rangle \otimes \vert \psi \rangle$ 。

这一惯例体现了这样一个想法，即在这种情况下，张量积是进行两个向量乘积最自然或默认的方式。

虽然不太常见，但有时也会使用符号 $\vert \phi\otimes\psi\rangle$ 。

📖 [逐步解释]

这部分介绍了张量积的一些简化记法。

“我们经常省略符号 $\otimes$ ，例如写成 $|\phi\rangle|\psi\rangle$ ”: 这是最常见的一种简化。直接把两个 ket向量 并排写在一起，就默认代表它们之间做张量积运算。
所以， $|\phi\rangle \otimes |\psi\rangle$ 可以简写为 $|\phi\rangle|\psi\rangle$ 。
这个简写之所以可行，是因为向量之间普通的乘法（如内积或外积）有自己明确的符号 ( $\langle \phi | \psi \rangle$ 或 $|\phi\rangle\langle\psi|$ )，所以并排书写不会引起混淆。
“这一惯例体现了...张量积是进行两个向量乘积最自然或默认的方式”: 这句话解释了为什么可以这样简化。在多体系统的量子力学描述中，张量积是组合子系统最基本、最核心的操作。它就像是数字运算中的乘法一样是“默认”的。我们写 2x 就默认是 2*x，类似地，我们写 $|\phi\rangle|\psi\rangle$ 就默认是 $|\phi\rangle \otimes |\psi\rangle$ 。
“虽然不太常见，但有时也会使用符号 $|\phi\otimes\psi\rangle$ ”: 这是另一种简化记法。它把 $\otimes$ 符号放到了 ket 的内部。
这种写法强调了张量积的结果 $|\phi\rangle \otimes |\psi\rangle$ 本身也是一个单一的 ket向量。
它在某些推导中可能更方便，但不如省略 $\otimes$ 的写法流行。

💡 [数值示例]

示例1:

完整写法: $|\pi\rangle = (\frac{1}{4}|0\rangle + \frac{3}{4}|1\rangle) \otimes (\frac{2}{3}|0\rangle + \frac{1}{3}|1\rangle)$
省略 $\otimes$ 的写法: $|\pi\rangle = (\frac{1}{4}|0\rangle + \frac{3}{4}|1\rangle) (\frac{2}{3}|0\rangle + \frac{1}{3}|1\rangle)$
合并 ket 的写法: 不适用于整个表达式，但适用于基向量，见下一点。
示例2: 对于基向量的张量积

$|0\rangle \otimes |0\rangle$ 可以简写为 $|0\rangle|0\rangle$ 。
之前我们还引入了字符串表示法，即把 $(0,0)$ 写成 "00"。所以我们有 $|(0,0)\rangle = |00\rangle$ 。
结合起来，我们就有了一个非常重要的等式: $|0\rangle \otimes |0\rangle = |0\rangle|0\rangle = |00\rangle$ 。这将在下一段明确指出。

⚠️ [易错点]

易错点：对初学者造成困惑。省略符号虽然对专家来说很方便，但可能会让初学者看不懂。在学习阶段，最好在脑中或草稿上把省略的 $\otimes$ 补上，直到完全习惯为止。
易错点：与标量乘法混淆。表达式 $\alpha|\psi\rangle$ 是指标量 $\alpha$ 乘以向量 $|\psi\rangle$ 。而 $|\phi\rangle|\psi\rangle$ 是两个向量的张量积。从符号上可以区分，因为前者 $\alpha$ 没有 ket |...〉。

📝 [总结]

本段介绍了两种简化张量积书写的方法：最常用的是直接省略 $\otimes$ 符号，将两个 ket 向量并置；另一种不太常用的是将 $\otimes$ 写入 ket 内部。这些简化旨在让表达式更简洁，并强调了张量积在多体系统描述中的核心地位。

🎯 [存在目的]

本段的目的是让学习者熟悉文献和实际使用中的常见记法。科学的发展总是倾向于使用更经济、更强大的符号系统。了解这些约定俗成的简化，是读懂他人工作和与他人有效交流的必要前提。

🧠 [直觉心智模型]

这就像在代数中：

我们一开始学习乘法时，会明确地写 a × b。
后来，为了方便，我们省略乘号，直接写 ab。
甚至有时候我们会用括号表示，比如 (a)(b)。

对张量积符号的简化，完全是出于同样的考虑。

💭 [直观想象]

想象你在发短信。

完整写法: “我(空格)现在(空格)在(空格)去(空格)你(空格)家(空格)的(空格)路(空格)上(句号)”
简化写法: “我在去你家的路上”。

我们省略了很多冗余的符号（比如空格），因为接收方的大脑能自动补全并正确理解。省略张量积符号 $\otimes$ 也是基于同样的信任，即读者知道两个并排的 ket 向量意味着张量积。

📜 [原文23]

当我们使用字母顺序惯例对笛卡尔积的元素进行排序时，我们得到以下两个列向量的张量积的规范。

\begin{pmatrix} \alpha_1\\ \vdots\\ \alpha_m \end{pmatrix} \otimes \begin{pmatrix} \beta_1\\ \vdots\\ \beta_k \end{pmatrix} = \begin{pmatrix} \alpha_1 \beta_1\\ \vdots\\ \alpha_1 \beta_k\\ \alpha_2 \beta_1\\ \vdots\\ \alpha_2 \beta_k\\ \vdots\\ \alpha_m \beta_1\\ \vdots\\ \alpha_m \beta_k \end{pmatrix}

📖 [逐步解释]

这部分给出了张量积在列向量表示下的具体计算方法，这个方法也被称为克罗内克积 (Kronecker Product)。

“当我们使用字母顺序惯例...”: 这句话强调了下面的计算结果是与我们之前约定的字母顺序排序相匹配的。如果换一种排序，最终向量的分量顺序也会改变。
“...我们得到以下两个列向量的张量积的规范”: 预告了将要展示一个具体的、可操作的计算规则。
公式解读:
输入: 两个列向量，第一个有 $m$ 个分量 ( $\alpha_1$ 到 $\alpha_m$ )，第二个有 $k$ 个分量 ( $\beta_1$ 到 $\beta_k$ )。
输出: 一个更大的列向量，它有 $m \times k$ 个分量。
计算规则:

取第一个向量的第一个分量 $\alpha_1$ 。
用这个标量 $\alpha_1$ 乘以整个第二个向量 $\begin{pmatrix} \beta_1, \dots, \beta_k \end{pmatrix}^T$ ，得到一个 $k$ 维的列向量 $\begin{pmatrix} \alpha_1\beta_1, \dots, \alpha_1\beta_k \end{pmatrix}^T$ 。这构成了最终结果的第一块。
取第一个向量的第二个分量 $\alpha_2$ 。
用 $\alpha_2$ 乘以整个第二个向量，得到 $\begin{pmatrix} \alpha_2\beta_1, \dots, \alpha_2\beta_k \end{pmatrix}^T$ 。这构成了最终结果的第二块。
...
重复这个过程，直到第一个向量的所有分量都用完。
将这些生成出来的“块”按顺序垂直地堆叠起来，就得到了最终的 $m \times k$ 维的张量积向量。
- 与字母顺序的联系:
- 结果的第一块 [α1β1, ..., α1βk] 对应所有以第一个系统状态 '1' 开头的复合状态 (1,1), (1,2), ..., (1,k) 的概率幅。
- 结果的第二块 [α2β1, ..., α2βk] 对应所有以第一个系统状态 '2' 开头的复合状态 (2,1), (2,2), ..., (2,k) 的概率幅。
- 这个块状结构完美地匹配了字母顺序中“先按第一个元素排序，再按第二个元素排序”的规则。

∑ [公式拆解]

\begin{pmatrix} \alpha_1\\ \vdots\\ \alpha_m \end{pmatrix} \otimes \begin{pmatrix} \beta_1\\ \vdots\\ \beta_k \end{pmatrix} = \begin{pmatrix} \alpha_1 \begin{pmatrix}\beta_1\\\vdots\\\beta_k\end{pmatrix} \\ \alpha_2 \begin{pmatrix}\beta_1\\\vdots\\\beta_k\end{pmatrix} \\ \vdots \\ \alpha_m \begin{pmatrix}\beta_1\\\vdots\\\beta_k\end{pmatrix} \end{pmatrix} = \begin{pmatrix} \alpha_1 \beta_1\\ \vdots\\ \alpha_1 \beta_k\\ \alpha_2 \beta_1\\ \vdots\\ \alpha_2 \beta_k\\ \vdots\\ \alpha_m \beta_1\\ \vdots\\ \alpha_m \beta_k \end{pmatrix}

上面这个更详细的写法展示了“块状”结构。原文的公式是其最终展开形式。

💡 [数值示例]

示例1:

$|\phi\rangle = \begin{pmatrix}1\\2\end{pmatrix}$ , $|\psi\rangle = \begin{pmatrix}3\\4\end{pmatrix}$ 。
$|\phi\rangle \otimes |\psi\rangle = \begin{pmatrix} 1 \times \begin{pmatrix}3\\4\end{pmatrix} \\ 2 \times \begin{pmatrix}3\\4\end{pmatrix} \end{pmatrix} = \begin{pmatrix} 3 \\ 4 \\ 6 \\ 8 \end{pmatrix}$ 。
这与我们之前用狄拉克符号算出的结果 $3|00\rangle+4|01\rangle+6|10\rangle+8|11\rangle$ 完全吻合。
示例2:

$|\phi\rangle = \begin{pmatrix} 1/4 \\ 3/4 \end{pmatrix}$ , $|\psi\rangle = \begin{pmatrix} 2/3 \\ 1/3 \end{pmatrix}$ 。
$|\phi\rangle \otimes |\psi\rangle = \begin{pmatrix} \frac{1}{4} \times \begin{pmatrix}2/3\\1/3\end{pmatrix} \\ \frac{3}{4} \times \begin{pmatrix}2/3\\1/3\end{pmatrix} \end{pmatrix} = \begin{pmatrix} 1/4 \times 2/3 \\ 1/4 \times 1/3 \\ 3/4 \times 2/3 \\ 3/4 \times 1/3 \end{pmatrix} = \begin{pmatrix} 2/12 \\ 1/12 \\ 6/12 \\ 3/12 \end{pmatrix} = \begin{pmatrix} 1/6 \\ 1/12 \\ 1/2 \\ 1/4 \end{pmatrix}$ 。
这也与之前独立性例子中的联合概率向量完全吻合。

⚠️ [易错点]

易错点：搞反乘的顺序。 $|\psi\rangle \otimes |\phi\rangle$ 会是 $\begin{pmatrix} \beta_1 \times |\phi\rangle \\ \vdots \\ \beta_k \times |\phi\rangle \end{pmatrix}$ ，结果会不同。例如，示例1中， $|\psi\rangle \otimes |\phi\rangle = \begin{pmatrix} 3 \times \begin{pmatrix}1\\2\end{pmatrix} \\ 4 \times \begin{pmatrix}1\\2\end{pmatrix} \end{pmatrix} = \begin{pmatrix}3\\6\\4\\8\end{pmatrix}$ ，分量顺序改变了。
边界情况：其中一个是一维向量（标量）。如果 $|\phi\rangle = (\alpha_1)$ 是一个1x1向量，那么 $\begin{pmatrix}\alpha_1\end{pmatrix} \otimes \begin{pmatrix}\beta_1\\\vdots\\\beta_k\end{pmatrix} = \begin{pmatrix}\alpha_1\beta_1\\\vdots\\\alpha_1\beta_k\end{pmatrix} = \alpha_1 \begin{pmatrix}\beta_1\\\vdots\\\beta_k\end{pmatrix}$ 。这退化成了普通的标量-向量乘法。

📝 [总结]

本段给出了计算两个列向量张量积的具体算法（即克罗内克积）。该算法通过将第一个向量的每个分量分别与第二个向量相乘，并将结果按块堆叠，从而生成一个更大的列向量。这个算法的结构与我们之前约定的复合状态的字母顺序排序是完美匹配的。

🎯 [存在目的]

本段的目的是将张量积从一个抽象的狄拉克符号定义，转化为一个可以在纸上或计算机上具体执行的数值计算过程。有了这个算法，我们就可以对任意给定的子系统向量，实际地计算出它们所构成的独立复合系统的状态向量，这在编程实现和数值模拟中是必不可少的。

🧠 [直觉心智模型]

这个算法就像是“俄罗斯套娃”。

第二个向量 $|\psi\rangle$ 是最小的那个套娃。
第一个向量 $|\phi\rangle$ 的每个分量 $\alpha_i$ ，都是一个指令，告诉你“把最小的套娃复制一份，然后把它的大小缩放 $\alpha_i$ 倍”。
张量积的结果，就是把这些经过不同程度缩放的套娃，一个接一个地（而不是嵌套地）排列起来，形成一长串的套娃序列。

💭 [直观想象]

想象你在用Photoshop的“复制-粘贴-缩放”功能。

第二个向量 $|\psi\rangle$ 是你剪贴板里的一张小图片（比如一个 $k \times 1$ 像素的垂直条）。
第一个向量 $|\phi\rangle$ 是一个指令列表 [缩放因子α1, 缩放因子α2, ...]。
张量积的计算过程就是：

粘贴图片，将其亮度缩放 $\alpha_1$ 倍。
在这张图片的紧下方，再次粘贴图片，将其亮度缩放 $\alpha_2$ 倍。
...
重复这个过程，直到指令列表用完。
- 最终得到的那张由多个缩放后的小图片垂直拼接而成的大图片，就是张量积向量。

📜 [原文24]

作为一个重要的旁注，请注意以下标准基向量的张量积表达式：

\vert a \rangle \otimes \vert b \rangle = \vert ab \rangle.

我们也可以选择将 $(a,b)$ 写成有序对，而不是字符串，在这种情况下我们得到 $\vert a \rangle \otimes \vert b \rangle = \vert (a,b) \rangle$ 。

然而，在这种情况下更常见的是省略括号，而是写成 $\vert a \rangle \otimes \vert b \rangle = \vert a,b \rangle$ 。

这在更广泛的数学中也是典型的；不增加清晰度或不消除歧义的括号通常会被直接省略。

📖 [逐步解释]

这部分指出了一个非常重要且有用的张量积特性：基向量的张量积等于复合基向量。

“作为一个重要的旁注...”: 表明这是一个需要特别记住的有用规则。
“...标准基向量的张量积表达式： $|a\rangle \otimes |b\rangle = |ab\rangle$ ”: 这是核心结论。
$|a\rangle$ : 是第一个子系统的标准基向量。例如，对于比特，它可以是 $|0\rangle$ 或 $|1\rangle$ 。
$|b\rangle$ : 是第二个子系统的标准基向量。
$|ab\rangle$ : 是复合系统的标准基向量。
这个等式的意思是，我们可以通过对子系统的基向量做张量积，来“构造”出复合系统的基向量。
验证这个等式:
以2-比特系统为例，来验证 $|0\rangle \otimes |1\rangle = |01\rangle$ 。
$|0\rangle$ 对应的列向量是 $\begin{pmatrix}1\\0\end{pmatrix}$ 。
$|1\rangle$ 对应的列向量是 $\begin{pmatrix}0\\1\end{pmatrix}$ 。
根据克罗内克积规则，计算张量积:

$|0\rangle \otimes |1\rangle = \begin{pmatrix}1\\0\end{pmatrix} \otimes \begin{pmatrix}0\\1\end{pmatrix} = \begin{pmatrix} 1 \times \begin{pmatrix}0\\1\end{pmatrix} \\ 0 \times \begin{pmatrix}0\\1\end{pmatrix} \end{pmatrix} = \begin{pmatrix} 0 \\ 1 \\ 0 \\ 0 \end{pmatrix}$ 。

另一方面，复合系统的基向量 $|01\rangle$ 是对应于状态 "01" 的标准基向量。根据字母顺序排序 00, 01, 10, 11，状态 "01" 是第二个，所以它对应的标准基向量就是 $\begin{pmatrix}0\\1\\0\\0\end{pmatrix}$ 。
两者结果完全相同，所以等式成立。
“我们也可以选择将 $(a,b)$ 写成有序对...”: 讨论了 ket 内部内容的写法。 $|ab\rangle$ 里的 "ab" 是字符串表示。我们也可以用元组表示，写成 $|(a,b)\rangle$ 。这两个符号指代的是同一个复合基向量。
“...更常见的是省略括号，而是写成... $|a,b\rangle$ ”: 介绍了另一种元组的简化记法。 $|(a,b)\rangle$ 里面的括号 () 通常可以省略，写成 $|a,b\rangle$ 。这在需要明确区分两个部分，但又不想写完整元组时很方便。
“不增加清晰度或不消除歧义的括号通常会被直接省略”: 解释了简化的原则。符号的使用是为了清晰地表达思想，如果某个符号（如括号）不是必需的，就可以去掉它以求简洁。

∑ [公式拆解]

\vert a \rangle \otimes \vert b \rangle = \vert ab \rangle.

这是一个非常基础和核心的张量积恒等式。它建立了子空间基向量和复合空间基向量之间的联系。这个等式是我们能够使用“分配律”来展开张量积的根本原因。

例如：

$(\alpha_0|0\rangle + \alpha_1|1\rangle) \otimes (\beta_0|0\rangle + \beta_1|1\rangle)$

$= \alpha_0|0\rangle \otimes \beta_0|0\rangle + \dots$ (使用分配律)

$= \alpha_0\beta_0 (|0\rangle \otimes |0\rangle) + \dots$ (提出标量)

$= \alpha_0\beta_0 |00\rangle + \dots$ (使用本段的恒等式)

这与我们之前的定义完全自洽。

💡 [数值示例]

示例1：2比特系统

$|1\rangle \otimes |0\rangle = |10\rangle$
$\begin{pmatrix}0\\1\end{pmatrix} \otimes \begin{pmatrix}1\\0\end{pmatrix} = \begin{pmatrix} 0 \times \begin{pmatrix}1\\0\end{pmatrix} \\ 1 \times \begin{pmatrix}1\\0\end{pmatrix} \end{pmatrix} = \begin{pmatrix}0\\0\\1\\0\end{pmatrix}$ 。这正是 $|10\rangle$ 对应的标准基向量。
示例2：一个比特和一个三态系统

比特的状态基: $|0\rangle_B, |1\rangle_B$ (下标B表示比特)
三态系统的状态基: $|0\rangle_T, |1\rangle_T, |2\rangle_T$ (下标T表示三态)
张量积: $|1\rangle_B \otimes |2\rangle_T = |12\rangle$ (或者更清晰地写成 $|1,2\rangle$ 或 $|(1,2)\rangle$ )。
列向量验证:

$|1\rangle_B = \begin{pmatrix}0\\1\end{pmatrix}$ 。 $|2\rangle_T = \begin{pmatrix}0\\0\\1\end{pmatrix}$ 。

$|1\rangle_B \otimes |2\rangle_T = \begin{pmatrix}0\\1\end{pmatrix} \otimes \begin{pmatrix}0\\0\\1\end{pmatrix} = \begin{pmatrix} 0 \times \begin{pmatrix}0\\0\\1\end{pmatrix} \\ 1 \times \begin{pmatrix}0\\0\\1\end{pmatrix} \end{pmatrix} = \begin{pmatrix}0\\0\\0\\0\\0\\1\end{pmatrix}$ 。

复合系统基向量: 状态排序是 00,01,02,10,11,12。状态 12 是第6个，所以它对应的标准基向量是 $\begin{pmatrix}0\\0\\0\\0\\0\\1\end{pmatrix}$ 。匹配！

⚠️ [易错点]

易错点：将基向量的张量积与任意向量的张量积混淆。 $|a\rangle \otimes |b\rangle = |ab\rangle$ 只对基向量成立。对于一般的向量 $|\phi\rangle, |\psi\rangle$ ，它们的张量积是一个包含多个基向量的叠加态，不能写成单一的 ket $|... \rangle$ 。
边界情况：与单位元做张量积？ 在某些代数结构中，有单位元的概念。在张量积中没有一个特殊的“单位向量” $|I\rangle$ 使得 $|\phi\rangle \otimes |I\rangle = |\phi\rangle$ 。张量积总是会扩大向量空间的维度。

📝 [总结]

🎯 [存在目的]

本段的目的是提供一个进行符号运算的有力工具。相比于使用庞大的列向量进行克罗内克积计算，使用狄拉克符号和 $|a\rangle \otimes |b\rangle = |ab\rangle$ 这条规则进行代数推导，往往更加简洁、直观，并且更能揭示物理过程的本质。这是从“数值计算”思维转向“符号和结构”思维的重要一步。

🧠 [直觉心智模型]

这就像是对坐标轴的操作。

$|x\rangle$ 是 x-方向的单位向量 (i.e., $\mathbf{i}$ )。
$|y\rangle$ 是 y-方向的单位向量 (i.e., $\mathbf{j}$ )。
$|z\rangle$ 是 z-方向的单位向量 (i.e., $\mathbf{k}$ )。
$|x\rangle \otimes |y\rangle$ 可以想象成在 xy-平面上定义了一个“基本面积单元”，这个单元就是 $|xy\rangle$ 。
这个规则说明，复合空间的“坐标轴”（基向量），是由子空间的“坐标轴”通过张量积“组合”而成的。

💭 [直观想象]

想象你在用乐高积木搭建。

$|a\rangle$ 是一块红色的 $1 \times 1$ 积木。
$|b\rangle$ 是一块蓝色的 $1 \times 1$ 积木。
$|a\rangle \otimes |b\rangle$ 并不是简单地把它们并排或叠起来，而是创造了一个新的“复合积木” $|ab\rangle$ 。这块新积木的属性（比如颜色、标签）是由原来两块积木共同决定的。
这个规则就是说，所有更复杂的结构（任意向量），都是由这些最基本的“复合积木”（复合基向量）线性组合（搭建）而成的。而这些最基本的“复合积木”本身，又是由更更基本的“单体积木”（子系统基向量）通过张量积生成的。

📜 [原文25]

两个向量的张量积具有一个重要的性质，即它是双线性的，这意味着在假设另一个参数固定的情况下，它对两个参数中的每一个分别都是线性的。

此性质可以通过这些方程表达：

第一个参数的线性：

\begin{aligned} \bigl(\vert\phi_1\rangle + \vert\phi_2\rangle\bigr)\otimes \vert\psi\rangle & = \vert\phi_1\rangle \otimes \vert\psi\rangle + \vert\phi_2\rangle \otimes \vert\psi\rangle \\[1mm] \bigl(\alpha \vert \phi \rangle\bigr) \otimes \vert \psi \rangle & = \alpha \bigl(\vert \phi \rangle \otimes \vert \psi \rangle \bigr) \end{aligned}

第二个参数的线性：

\begin{aligned} \vert \phi \rangle \otimes \bigl(\vert \psi_1 \rangle + \vert \psi_2 \rangle \bigr) & = \vert \phi \rangle \otimes \vert \psi_1 \rangle + \vert \phi \rangle \otimes \vert \psi_2 \rangle\\[1mm] \vert \phi \rangle \otimes \bigl(\alpha \vert \psi \rangle \bigr) & = \alpha \bigl(\vert\phi\rangle\otimes\vert\psi\rangle\bigr) \end{aligned}

📖 [逐步解释]

这部分介绍了张量积最重要的代数性质：双线性 (Bilinearity)。

“...它是双线性的，这意味着...它对两个参数中的每一个分别都是线性的”: 这是对双线性的定义。
“双” (Bi-): 指的是这个运算有两个输入参数，即 $|\phi\rangle$ 和 $|\psi\rangle$ 。
“线性” (Linear): 线性性质包含两个方面：可加性 ( $f(x+y)=f(x)+f(y)$ ) 和 齐次性 ( $f(cx)=cf(x)$ )。
“分别都是线性的”: 意味着当你固定一个输入不变，只看另一个输入时，这个运算表现出线性。
“1. 第一个参数的线性”:
第一个方程是可加性：和的张量积等于张量积的和。这就像普通乘法的分配律 $(a+b)c = ac+bc$ 。
第二个方程是齐次性：标量乘法可以自由进出张量积。 $(\alpha|\phi\rangle)\otimes|\psi\rangle$ 和 $\alpha(|\phi\rangle\otimes|\psi\rangle)$ 是一回事。
“2. 第二个参数的线性”:
这和第一点是完全对称的，展示了张量积对于第二个输入参数也满足可加性和齐次性。这就像普通乘法的另一个分配律 $a(b+c) = ab+ac$ 。
这个双线性质是我们之前在做狄拉克符号展开推导时，能够像操作多项式一样操作张量积的根本原因。

∑ [公式拆解]

所有这些方程都是张量积定义的直接推论。我们来验证其中一个，比如第一个参数的可加性。

要证明: $(\vert\phi_1\rangle + \vert\phi_2\rangle)\otimes \vert\psi\rangle = \vert\phi_1\rangle \otimes \vert\psi\rangle + \vert\phi_2\rangle \otimes \vert\psi\rangle$

设:

$|\phi_1\rangle = \sum_a \alpha_{1,a}|a\rangle$

$|\phi_2\rangle = \sum_a \alpha_{2,a}|a\rangle$

$|\psi\rangle = \sum_b \beta_b|b\rangle$

左边:

$|\phi_1\rangle + |\phi_2\rangle = \sum_a (\alpha_{1,a} + \alpha_{2,a})|a\rangle$ 。这是一个新向量，其在基 $|a\rangle$ 上的系数是 $(\alpha_{1,a} + \alpha_{2,a})$ 。

根据张量积的定义 $(\text{系数相乘})$ ， $(\vert\phi_1\rangle + \vert\phi_2\rangle)\otimes \vert\psi\rangle$ 在基 $|ab\rangle$ 上的系数是 $(\alpha_{1,a} + \alpha_{2,a})\beta_b = \alpha_{1,a}\beta_b + \alpha_{2,a}\beta_b$ 。

右边:

$|\phi_1\rangle \otimes |\psi\rangle$ 在基 $|ab\rangle$ 上的系数是 $\alpha_{1,a}\beta_b$ 。

$|\phi_2\rangle \otimes |\psi\rangle$ 在基 $|ab\rangle$ 上的系数是 $\alpha_{2,a}\beta_b$ 。

两者相加后，新向量在基 $|ab\rangle$ 上的系数是 $\alpha_{1,a}\beta_b + \alpha_{2,a}\beta_b$ 。

比较: 左边和右边在任意基 $|ab\rangle$ 上的系数都相等，因此这两个向量是相等的。证明完毕。其他三个性质也可以用完全类似的方法证明。

💡 [数值示例]

示例1：验证可加性

$|\phi_1\rangle = \begin{pmatrix}1\\0\end{pmatrix}$ , $|\phi_2\rangle = \begin{pmatrix}0\\1\end{pmatrix}$ , $|\psi\rangle = \begin{pmatrix}2\\3\end{pmatrix}$ 。
左边:

$|\phi_1\rangle + |\phi_2\rangle = \begin{pmatrix}1\\1\end{pmatrix}$ 。

$(\vert\phi_1\rangle + \vert\phi_2\rangle)\otimes \vert\psi\rangle = \begin{pmatrix}1\\1\end{pmatrix} \otimes \begin{pmatrix}2\\3\end{pmatrix} = \begin{pmatrix} 1 \times \begin{pmatrix}2\\3\end{pmatrix} \\ 1 \times \begin{pmatrix}2\\3\end{pmatrix} \end{pmatrix} = \begin{pmatrix}2\\3\\2\\3\end{pmatrix}$ 。

右边:

$|\phi_1\rangle \otimes |\psi\rangle = \begin{pmatrix}1\\0\end{pmatrix} \otimes \begin{pmatrix}2\\3\end{pmatrix} = \begin{pmatrix} 1 \times \begin{pmatrix}2\\3\end{pmatrix} \\ 0 \times \begin{pmatrix}2\\3\end{pmatrix} \end{pmatrix} = \begin{pmatrix}2\\3\\0\\0\end{pmatrix}$ 。

$|\phi_2\rangle \otimes |\psi\rangle = \begin{pmatrix}0\\1\end{pmatrix} \otimes \begin{pmatrix}2\\3\end{pmatrix} = \begin{pmatrix} 0 \times \begin{pmatrix}2\\3\end{pmatrix} \\ 1 \times \begin{pmatrix}2\\3\end{pmatrix} \end{pmatrix} = \begin{pmatrix}0\\0\\2\\3\end{pmatrix}$ 。

$|\phi_1\rangle\otimes|\psi\rangle + |\phi_2\rangle\otimes|\psi\rangle = \begin{pmatrix}2\\3\\0\\0\end{pmatrix} + \begin{pmatrix}0\\0\\2\\3\end{pmatrix} = \begin{pmatrix}2\\3\\2\\3\end{pmatrix}$ 。

左边=右边，验证成功。
示例2：验证齐次性

$\alpha=5$ , $|\phi\rangle = \begin{pmatrix}1\\2\end{pmatrix}$ , $|\psi\rangle = \begin{pmatrix}3\\4\end{pmatrix}$ 。
左边: $\alpha|\phi\rangle = 5\begin{pmatrix}1\\2\end{pmatrix} = \begin{pmatrix}5\\10\end{pmatrix}$ 。

$(\alpha\vert\phi\rangle)\otimes \vert\psi\rangle = \begin{pmatrix}5\\10\end{pmatrix} \otimes \begin{pmatrix}3\\4\end{pmatrix} = \begin{pmatrix} 5 \times 3 \\ 5 \times 4 \\ 10 \times 3 \\ 10 \times 4 \end{pmatrix} = \begin{pmatrix}15\\20\\30\\40\end{pmatrix}$ 。

右边:

$|\phi\rangle \otimes |\psi\rangle = \begin{pmatrix}1\\2\end{pmatrix} \otimes \begin{pmatrix}3\\4\end{pmatrix} = \begin{pmatrix}3\\4\\6\\8\end{pmatrix}$ 。

$\alpha(\vert\phi\rangle\otimes \vert\psi\rangle) = 5 \begin{pmatrix}3\\4\\6\\8\end{pmatrix} = \begin{pmatrix}15\\20\\30\\40\end{pmatrix}$ 。

左边=右边，验证成功。

⚠️ [易错点]

易错点：张量积不是线性的，而是双线性的。一个线性运算 $L$ 应该满足 $L(|\phi\rangle + |\psi\rangle) = L(|\phi\rangle) + L(|\psi\rangle)$ 。但张量积有两个输入，所以它的性质更复杂。把它错误地当成普通线性运算会导致推导错误。
易错点：括号很重要。在写 ( |φ1> + |φ2> ) ⊗ |ψ> 时，括号是必需的，以表明是先求和，再做张量积。

📝 [总结]

本段明确指出了张量积运算的核心代数性质：双线性。这意味着张量积对它的两个输入参数都分别满足线性的两个特征：可加性（和的张量积等于张量积的和）和齐次性（标量可以自由地在运算内外移动）。这个性质使得我们可以像处理多项式乘法一样，使用分配律来展开和计算包含张量积的复杂表达式。

🎯 [存在目的]

本段的目的是为使用张量积进行代数运算提供理论依据。没有双线性这个性质，张量积就只是一个呆板的数值计算规则。有了双线性，它就变成了一个灵活、强大的代数工具，可以方便地用于各种理论推导中，尤其是在量子力学中处理叠加态的演化时。

🧠 [直觉心智模型]

双线性就像是“公平”。

可加性 $(\phi_1+\phi_2)\otimes\psi = \phi_1\otimes\psi + \phi_2\otimes\psi$ 意味着：
“把 $\phi_1$ 和 $\phi_2$ 两个人绑在一起，再让他们和 $\psi$ 团队合作”
得到的结果，和
“先让 $\phi_1$ 和 $\psi$ 合作，再让 $\phi_2$ 和 $\psi$ 合作，然后把两个合作成果加起来”
是一样的。 $\psi$ 对 $\phi_1$ 和 $\phi_2$ 是“公平”的，合作关系可以分配。
齐次性 $(\alpha\phi)\otimes\psi = \alpha(\phi\otimes\psi)$ 意味着：
“先把 $\phi$ 的能力放大 $\alpha$ 倍，再让他和 $\psi$ 合作”
得到的结果，和
“先让 $\phi$ 和 $\psi$ 合作，然后把合作的成果整体放大 $\alpha$ 倍”
是一样的。这种放大效应是“公平”的，可以在合作前或合作后进行。

💭 [直观想象]

想象一个制作混合颜料的工厂。

张量积是一个混合过程 $\otimes$ 。
向量是不同颜色的原料，比如 $|\text{红}\rangle, |\text{蓝}\rangle$ 。
可加性: (红+蓝) ⊗ 黄 = (红⊗黄) + (蓝⊗黄)。
左边：先在桶里把红色和蓝色颜料混合（得到紫色），再把得到的紫色颜料与黄色颜料混合。
右边：在一个机器里混合红色和黄色（得到橙色），在另一个机器里混合蓝色和黄色（得到绿色），最后把得到的橙色和绿色颜料倒在一起。
如果这个混合过程是双线性的，那么最终得到的两种混合物的颜色应该是一样的。
齐次性: (2倍的红) ⊗ 黄 = 2倍的(红⊗黄)。
左边：用双倍的红色颜料去和黄色颜料混合。
右边：先用正常量的红色和黄色混合得到橙色，然后把得到的橙色颜料总量加倍。
两种方法得到的最终颜料的色号和总量应该是一样的。

📜 [原文26]

考虑到这两对方程中的第二个方程，

我们看到标量在张量积中“自由浮动”：

\bigl(\alpha \vert \phi \rangle\bigr) \otimes \vert \psi \rangle = \vert \phi \rangle \otimes \bigl(\alpha \vert \psi \rangle \bigr) = \alpha \bigl(\vert \phi \rangle \otimes \vert \psi \rangle \bigr).

因此，直接书写 $\alpha\vert\phi\rangle\otimes\vert\psi\rangle$ ，或者写成 $\alpha\vert\phi\rangle\vert\psi \rangle$ 或 $\alpha\vert\phi\otimes\psi\rangle$ 来指代这个向量，不会产生歧义。

📖 [逐步解释]

这部分是对双线性中齐次性质的一个推论和总结，并解释了为什么包含标量乘法的张量积表达式可以写得更简洁。

“考虑到这两对方程中的第二个方程”: 指的是两条齐次性规则：

$(\alpha|\phi\rangle) \otimes |\psi\rangle = \alpha (|\phi\rangle \otimes |\psi\rangle)$
$|\phi\rangle \otimes (\alpha|\psi\rangle) = \alpha (|\phi\rangle \otimes |\psi\rangle)$
- “我们看到标量在张量积中‘自由浮动’”: 这是对上述规则的生动概括。
- 标量 $\alpha$ 既可以作用在第一个向量 $|\phi\rangle$ 上。
- 也可以作用在第二个向量 $|\psi\rangle$ 上。
- 也可以作用在整个张量积的结果 $(|\phi\rangle \otimes |\psi\rangle)$ 上。
- 这三种方式计算出的最终结果是完全相同的。它就像一个幽灵一样，可以在表达式的不同位置穿梭，所以说是“自由浮动”。
- “因此，直接书写 $\alpha|\phi\rangle\otimes|\psi\rangle$ ... 不会产生歧义”: 这是上述“自由浮动”性质带来的便利。
- 因为把 $\alpha$ 放在哪里结果都一样，所以我们就不需要用括号来明确指定 $\alpha$ 到底是先跟谁结合了。
- $\alpha|\phi\rangle\otimes|\psi\rangle$ 这个没有括号的写法是无歧义的，它就代表那个唯一的、最终的结果。
- “或者写成 $\alpha|\phi\rangle|\psi\rangle$ 或 $\alpha|\phi\otimes\psi\rangle$ ”: 结合更早之前讲的简化记法，我们可以把这个无歧义的表达式写得更短。

∑ [公式拆解]

\bigl(\alpha \vert \phi \rangle\bigr) \otimes \vert \psi \rangle = \vert \phi \rangle \otimes \bigl(\alpha \vert \psi \rangle \bigr) = \alpha \bigl(\vert \phi \rangle \otimes \vert \psi \rangle \bigr).

这个链式等式是本段的核心。

第一个等号的证明：
左边向量在基 $|ab\rangle$ 上的系数是 $(\alpha \alpha_a)\beta_b$ 。
右边向量在基 $|ab\rangle$ 上的系数是 $\alpha_a(\alpha \beta_b)$ 。
因为普通数字乘法有结合律和交换律，所以 $(\alpha \alpha_a)\beta_b = \alpha_a(\alpha \beta_b) = \alpha \alpha_a \beta_b$ 。两者相等。
第二个等号的证明：
$|\phi\rangle \otimes (\alpha|\psi\rangle)$ 在基 $|ab\rangle$ 上的系数是 $\alpha_a(\alpha \beta_b) = \alpha(\alpha_a\beta_b)$ 。
$\alpha (|\phi\rangle \otimes |\psi\rangle)$ 在基 $|ab\rangle$ 上的系数是 $\alpha$ 乘以 $(|\phi\rangle \otimes |\psi\rangle)$ 在基 $|ab\rangle$ 上的系数，即 $\alpha(\alpha_a\beta_b)$ 。
两者相等。
既然三者都相等，这个链式等式就成立了。

💡 [数值示例]

示例: $\alpha=5, |\phi\rangle=\begin{pmatrix}1\\2\end{pmatrix}, |\psi\rangle=\begin{pmatrix}3\\4\end{pmatrix}$
方式1: $(\alpha|\phi\rangle)\otimes|\psi\rangle = \begin{pmatrix}5\\10\end{pmatrix}\otimes\begin{pmatrix}3\\4\end{pmatrix} = \begin{pmatrix}15\\20\\30\\40\end{pmatrix}$ 。
方式2: $|\phi\rangle\otimes(\alpha|\psi\rangle) = \begin{pmatrix}1\\2\end{pmatrix}\otimes\begin{pmatrix}15\\20\end{pmatrix} = \begin{pmatrix}1\times15\\1\times20\\2\times15\\2\times20\end{pmatrix} = \begin{pmatrix}15\\20\\30\\40\end{pmatrix}$ 。
方式3: $\alpha(|\phi\rangle\otimes|\psi\rangle) = 5 \times \left(\begin{pmatrix}1\\2\end{pmatrix}\otimes\begin{pmatrix}3\\4\end{pmatrix}\right) = 5 \times \begin{pmatrix}3\\4\\6\\8\end{pmatrix} = \begin{pmatrix}15\\20\\30\\40\end{pmatrix}$ 。
三种计算方式得到了完全相同的结果，表明 $\alpha|\phi\rangle\otimes|\psi\rangle$ 确实是无歧义的。

⚠️ [易错点]

易错点：错误地移动非标量。只有标量（数字）可以这样自由浮动。向量或矩阵是不能随意交换位置的，因为张量积不满足交换律。
边界情况： $\alpha=0$ 或 $\alpha=1$ 。
如果 $\alpha=0$ ，那么最终结果总是零向量。
如果 $\alpha=1$ ，那么它存在与否不影响结果。

📝 [总结]

本段指出了张量积的齐次性质带来的一个重要便利：标量乘子可以在张量积表达式中自由移动位置，而不会改变最终结果。这使得我们可以省略掉很多括号，用更简洁、无歧义的形式（如 $\alpha|\phi\rangle\otimes|\psi\rangle$ ）来书写表达式。

🎯 [存在目的]

本段的目的是进一步简化符号系统，提高书写和阅读效率。在量子力学的计算中，充满了各种系数和常数。如果每次都要用括号严格规定它们的结合顺序，表达式将变得异常臃肿和难以阅读。确立了“标量自由浮动”的规则后，就可以大大简化代数推导过程。

🧠 [直觉心智模型]

这就像在做饭时加盐。

$|\phi\rangle$ 是一份番茄， $|\psi\rangle$ 是一份鸡蛋。
$\otimes$ 是“炒”这个动作。
$\alpha$ 是一勺盐。
$(\alpha|\phi\rangle)\otimes|\psi\rangle$ ：先把盐加到番茄里腌一下，再和鸡蛋一起炒。
$|\phi\rangle\otimes(\alpha|\psi\rangle)$ ：先把盐加到鸡蛋里打匀，再和番茄一起炒。
$\alpha(|\phi\rangle\otimes|\psi\rangle)$ ：先把番茄和鸡蛋炒好（成番茄炒蛋），出锅前再加盐。
在理想情况下（假设盐能均匀分布），这三种做法最终得到的番茄炒蛋的咸度（最终结果）应该是一样的。所以，我只需要说“做一份加一勺盐的番茄炒蛋”，而不需要精确说明加盐的步骤。

💭 [直观想象]

想象在一条生产线上组装产品。

$|\phi\rangle$ 是A零件， $|\psi\rangle$ 是B零件。
$\otimes$ 是“组装”操作。
$\alpha$ 是“喷漆”操作，比如把东西喷成红色。
$(\alpha|\phi\rangle)\otimes|\psi\rangle$ : 先把A零件喷红，再和B零件组装。
$|\phi\rangle\otimes(\alpha|\psi\rangle)$ : 先把B零件喷红，再和A零件组装。（假设只有一个零件需要被喷红）。
$\alpha(|\phi\rangle\otimes|\psi\rangle)$ : 先把A和B组装成一个成品，再把整个成品拿去喷红。
如果最终产品都是“一个由红色的A零件和白色的B零件组装成的产品”，那么这三种流程是等价的。表达式 $\alpha|\phi\rangle\otimes|\psi\rangle$ 就可以无歧义地指代这个最终产品，而不用关心具体的工艺流程。

12.4 三个或更多系统的独立性和张量积

📜 [原文27]

独立性和张量积的概念可以直接推广到三个或更多的系统。

如果 $\mathsf{X}_0,\ldots,\mathsf{X}_{n-1}$ 分别是具有经典状态集 $\Sigma_0,\ldots,\Sigma_{n-1}$ 的系统，那么如果相关的概率向量采取以下形式，则联合系统 $(\mathsf{X}_{n-1},\ldots,\mathsf{X}_0)$ 的一个概率状态就是一个乘积态

\vert \psi \rangle = \vert \phi_{n-1} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle

其中概率向量 $\vert \phi_0 \rangle,\ldots,\vert \phi_{n-1}\rangle$ 描述了 $\mathsf{X}_0,\ldots,\mathsf{X}_{n-1}$ 的概率状态。

📖 [逐步解释]

这部分将独立性和张量积的概念从2个系统推广到任意 $n$ 个系统。

“独立性和张量积的概念可以直接推广到三个或更多的系统”: 这句话表明，从2到 $n$ 的推广是直接、自然的，没有新的概念性困难。
“如果 $\mathsf{X}_0,\ldots,\mathsf{X}_{n-1}$ 分别是...系统”: 设定了 $n$ 个系统的场景，并遵循了从右到左、从0开始索引的惯例。
“...一个概率状态就是一个乘积态，如果相关的概率向量采取以下形式”: 给出了 $n$ 系统独立性（即乘积态）的定义。
核心定义: 一个由 $n$ 个子系统组成的联合系统，其概率状态是独立的（或称为乘积态），当且仅当描述其状态的联合概率向量 $|\psi\rangle$ 能够被写成 $n$ 个描述其子系统状态的概率向量 $|\phi_i\rangle$ 的张量积。
“其中概率向量 $|\phi_0\rangle,\ldots,|\phi_{n-1}\rangle$ 描述了...概率状态”: 明确了 $|\phi_i\rangle$ 的身份，它们是各自子系统的概率向量。

∑ [公式拆解]

\vert \psi \rangle = \vert \phi_{n-1} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle

这是 $n$ 系统乘积态的定义式。

$|\psi\rangle$ : 联合系统的状态向量，其维度是 $\prod_{i=0}^{n-1} |\Sigma_i|$ 。
$|\phi_i\rangle$ : 第 $i$ 个子系统的状态向量，其维度是 $|\Sigma_i|$ 。
$\otimes \cdots \otimes$ : 多个张量积运算。
顺序: 再次注意，这里的顺序与我们约定的系统排列顺序 $(\mathsf{X}_{n-1}, \ldots, \mathsf{X}_0)$ 是一致的，即高位（大索引）在左，低位（小索引）在右。

💡 [数值示例]

示例：三个独立的比特
假设三个比特 $\mathsf{X}_2, \mathsf{X}_1, \mathsf{X}_0$ 都是独立的，且各自的概率状态如下：
$|\phi_2\rangle = 0.2|0\rangle + 0.8|1\rangle$
$|\phi_1\rangle = 0.5|0\rangle + 0.5|1\rangle$
$|\phi_0\rangle = 0.9|0\rangle + 0.1|1\rangle$
那么，这个联合系统的概率状态 $|\psi\rangle$ 是一个乘积态，由 $|\psi\rangle = |\phi_2\rangle \otimes |\phi_1\rangle \otimes |\phi_0\rangle$ 给出。
这是一个 $2 \times 2 \times 2 = 8$ 维的向量。我们来计算其中一个分量，比如 $p_{101}$ (对应状态 $|101\rangle$ )。
根据张量积的系数乘法规则推广：

$p_{a_2 a_1 a_0} = q_{2, a_2} \times q_{1, a_1} \times q_{0, a_0}$ 。

所以， $p_{101} = q_{2,1} \times q_{1,0} \times q_{0,1} = 0.8 \times 0.5 \times 0.1 = 0.04$ 。
$\operatorname{Pr}(101)$ 的概率是 $4\%$ 。
你可以用同样的方法计算出所有8个分量。例如， $p_{000} = q_{2,0} \times q_{1,0} \times q_{0,0} = 0.2 \times 0.5 \times 0.9 = 0.09$ 。

⚠️ [易错点]

易错点：计算量爆炸。对于 $n$ 个比特，状态向量的维度是 $2^n$ 。当 $n$ 稍微大一点，比如 $n=20$ ，维度就超过一百万了。直接写出或计算这个联合概率向量变得不现实。张量积的符号表示 $|\phi_{n-1}\rangle \otimes \cdots \otimes |\phi_0\rangle$ 的优越性就在于，它用 $n$ 个小向量（总共 $2n$ 个系数）就简洁地描述了一个需要 $2^n$ 个系数才能完整写出的大向量。这是一种高效的“压缩”表示。
边界情况：所有子系统都处于确定状态。
例如， $|\phi_2\rangle=|1\rangle, |\phi_1\rangle=|0\rangle, |\phi_0\rangle=|1\rangle$ 。
那么联合状态是 $|\psi\rangle = |1\rangle \otimes |0\rangle \otimes |1\rangle = |101\rangle$ 。
这是一个复合系统的标准基向量。这再次说明，确定的经典复合状态都是乘积态（独立的）。

📝 [总结]

本段将乘积态和张量积的概念从两个系统无缝推广到了 $n$ 个系统。它定义了一个 $n$ -系统概率状态为乘积态（即独立的），如果其联合概率向量可以表示为 $n$ 个子系统各自概率向量的张量积。

🎯 [存在目的]

本段的目的是为描述任意多个子系统组成的复合系统提供一个统一和通用的数学框架。这对于量子计算至关重要，因为量子计算机就是一个由大量量子比特（ $n$ 可能很大）组成的多体系统。有了这个推广，我们就有能力用数学语言来描述一个 $n$ -量子比特寄存器的状态，并区分哪些是简单的乘积态，哪些是蕴含了计算能力的复杂的纠缠态。

🧠 [直觉心智模型]

这就像计算一个由多个独立部件组成的机器的总可靠性。

$|\phi_i\rangle$ 可以看作第 $i$ 个部件的“状态”，比如它“正常工作”的概率是 $p_i$ ，“失效”的概率是 $1-p_i$ 。
联合系统就是整台机器。
独立性假设：一个部件是否失效，与其他部件无关。
那么，整台机器处于某个特定状态（比如“部件1正常，部件2失效，部件3正常...”）的联合概率，就是各个子事件概率的乘积： $p_1 \times (1-p_2) \times p_3 \times \cdots$ 。
$n$ 系统张量积的系数乘法规则，正是这个概率乘法法则的线性代数版本。

💭 [直观想象]

想象一个 $n$ 维的超立方体。

一个2维立方体是正方形，一个3维立方体是立方体。
每个维度对应一个子系统。
子系统的概率向量 $|\phi_i\rangle$ 描述了在第 $i$ 个维度上的“密度分布”。
一个乘积态 $|\psi\rangle = \otimes_{i=0}^{n-1} |\phi_i\rangle$ 描述了整个超立方体内的“总密度分布”。
独立性意味着，这个总密度分布是“可分离的”：在任意一点 $(a_{n-1}, \ldots, a_0)$ 的密度，都等于该点在各个维度上的密度的乘积。

📜 [原文28]

在这里，张量积的定义以自然的方式推广：向量

\vert \psi \rangle = \vert \phi_{n-1} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle

由方程

\langle a_{n-1} \cdots a_0 \vert \psi \rangle = \langle a_{n-1} \vert \phi_{n-1} \rangle \cdots \langle a_0 \vert \phi_0 \rangle

对每一个 $a_0\in\Sigma_0, \ldots a_{n-1}\in\Sigma_{n-1}$ 都成立来定义。

定义三个或更多向量的张量积的另一种但等效的方法是根据两个向量的张量积进行递归：

\vert \phi_{n-1} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle = \vert \phi_{n-1} \rangle \otimes \bigl( \vert \phi_{n-2} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle \bigr).

与仅两个向量的张量积类似，在假设所有其他参数固定的情况下，三个或更多向量的张量积对每一个参数分别都是线性的。

在这种情况下，称三个或更多向量的张量积是多线性的。

就像两个系统的情况一样，我们可以说当系统 $\mathsf{X}_0,\ldots,\mathsf{X}_{n-1}$ 处于乘积态时，它们是独立的，但使用术语相互独立更为精确。

恰好还有三个或更多系统的其他独立性概念，例如两两独立，它们既有趣又重要——但在本课程的背景下并非如此。

📖 [逐步解释]

这部分详细阐述了n-系统张量积的定义和性质。

“...张量积的定义以自然的方式推广...”:
第一个定义是“按需查询”式的：联合向量 $|\psi\rangle$ 在任意基 $|a_{n-1}\cdots a_0\rangle$ 上的分量，等于所有子系统向量在对应基 $|a_i\rangle$ 上的分量的乘积。这直接将2系统的情况推广到了n系统。
“定义三个或更多向量的张量积的另一种但等效的方法是...递归”:
递归 (Recursion) 是一种“自己调用自己”的定义方式。
这个定义说：n个向量的张量积，等于第n个向量，与“前n-1个向量的张量积结果”这个向量，进行张量积。
例如，A⊗B⊗C = A ⊗ (B⊗C)。这样就把一个n

-系统的问题转化为了一个2-系统的问题，而2-系统的张量积我们已经定义了。这个递归可以一直进行下去，直到最后变成我们熟悉的两向量张量积。

“...三个或更多向量的张量积是多线性的”:
多线性 (Multilinear) 是双线性的推广。
双线性是说对2个输入参数都分别是线性的。
多线性是说对n个输入参数中的任意一个都分别是线性的（当你固定其他n-1个输入时）。这意味着分配律和标量浮动的规则对n-系统张量积的任意一个位置都成立。
“...我们可以说当系统...处于乘积态时，它们是独立的，但使用术语相互独立更为精确”:
相互独立 (Mutually Independent)：这是概率论里的标准术语。它指一群事件（或随机变量），其中任何一个子集的事件的发生，都不影响其他事件的概率。我们这里定义的乘积态对应的就是相互独立。
“恰好还有...其他独立性概念，例如两两独立”:
两两独立 (Pairwise Independent)：指在一组随机变量中，任意挑出两个来看，它们都是独立的。
相互独立是一个比两两独立更强的条件。相互独立必然两两独立，但反之不一定成立。
这个概念的引入是为了提醒学习者，独立性的世界比我们目前接触的要更复杂，但对于本课程，我们只关心最强的独立性——相互独立，也就是乘积态所代表的那种。

∑ [公式拆解]

\langle a_{n-1} \cdots a_0 \vert \psi \rangle = \langle a_{n-1} \vert \phi_{n-1} \rangle \cdots \langle a_0 \vert \phi_0 \rangle

这是n-系统张量积的“查询式”定义。

左边：联合向量 $|\psi\rangle$ 在基 $|a_{n-1}\cdots a_0\rangle$ 上的分量/系数。
右边：n个子系统向量在各自对应基上的分量的连乘积。

\vert \phi_{n-1} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle = \vert \phi_{n-1} \rangle \otimes \bigl( \vert \phi_{n-2} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle \bigr).

这是n-系统张量积的“递归”定义。它把一个大问题分解成一个小问题和一个规模减一的同样问题。

这个定义也揭示了张量积的结合性 (Associativity)。严格来说，张量积不满足数学上的结合律，因为 A⊗(B⊗C) 和 (A⊗B)⊗C 属于不同的向量空间（一个基是 a,(b,c)，另一个是 (a,b),c）。但在物理应用和线性代数中，我们总是通过一个自然的同构将它们等同起来，所以可以不加括号地写 A⊗B⊗C。这个递归定义正是这种“等同”思想的体现。

💡 [数值示例]

示例1：递归计算

$|\phi_2\rangle=\begin{pmatrix}1\\1\end{pmatrix}, |\phi_1\rangle=\begin{pmatrix}1\\2\end{pmatrix}, |\phi_0\rangle=\begin{pmatrix}3\\4\end{pmatrix}$
计算 $|\phi_2\rangle \otimes |\phi_1\rangle \otimes |\phi_0\rangle$
步骤1 (递归): 先算括号里的 $|\phi_1\rangle \otimes |\phi_0\rangle = \begin{pmatrix}1\\2\end{pmatrix} \otimes \begin{pmatrix}3\\4\end{pmatrix} = \begin{pmatrix}3\\4\\6\\8\end{pmatrix}$ 。
步骤2: 再算 $|\phi_2\rangle \otimes (\text{步骤1的结果})$

$= \begin{pmatrix}1\\1\end{pmatrix} \otimes \begin{pmatrix}3\\4\\6\\8\end{pmatrix} = \begin{pmatrix} 1 \times \begin{pmatrix}3\\4\\6\\8\end{pmatrix} \\ 1 \times \begin{pmatrix}3\\4\\6\\8\end{pmatrix} \end{pmatrix} = \begin{pmatrix}3\\4\\6\\8\\3\\4\\6\\8\end{pmatrix}$ 。

示例2：两两独立 vs 相互独立 (一个经典的概率论例子)

考虑扔两个均匀的硬币，记录结果 H/T。我们定义三个随机变量：
A = 第一个硬币的结果 (0 for T, 1 for H)
B = 第二个硬币的结果 (0 for T, 1 for H)
C = 两个硬币结果是否相同 (0 for 不同, 1 for 相同)
状态空间: {TT, TH, HT, HH}，每个概率1/4。
变量取值:
TT: A=0, B=0, C=1
TH: A=0, B=1, C=0
HT: A=1, B=0, C=0
HH: A=1, B=1, C=1
边际概率: $\operatorname{Pr}(A=0)=1/2, \operatorname{Pr}(B=0)=1/2, \operatorname{Pr}(C=0)=1/2$ 。
检验两两独立:
A和B: $\operatorname{Pr}(A=0, B=0) = \operatorname{Pr}(TT) = 1/4$ 。而 $\operatorname{Pr}(A=0)\operatorname{Pr}(B=0) = 1/2 \times 1/2 = 1/4$ 。匹配！(A,B)是独立的。
A和C: $\operatorname{Pr}(A=0, C=1) = \operatorname{Pr}(TT) = 1/4$ 。而 $\operatorname{Pr}(A=0)\operatorname{Pr}(C=1) = 1/2 \times 1/2 = 1/4$ 。匹配！(A,C)是独立的。
B和C: $\operatorname{Pr}(B=0, C=1) = \operatorname{Pr}(TT) = 1/4$ 。而 $\operatorname{Pr}(B=0)\operatorname{Pr}(C=1) = 1/2 \times 1/2 = 1/4$ 。匹配！(B,C)是独立的。
结论1: A, B, C 是两两独立的。
检验相互独立:
$\operatorname{Pr}(A=0, B=0, C=1) = \operatorname{Pr}(TT) = 1/4$ 。
而 $\operatorname{Pr}(A=0)\operatorname{Pr}(B=0)\operatorname{Pr}(C=1) = 1/2 \times 1/2 \times 1/2 = 1/8$ 。
$1/4 \neq 1/8$ 。
结论2: A, B, C 不是相互独立的。这个例子说明了两两独立并不意味着相互独立。我们的乘积态定义对应的是更强的相互独立。

⚠️ [易错点]

易错点：默认所有独立都是相互独立。在很多简单情况下确实如此，但在构造精巧的概率模型时（如密码学），区分两两独立和相互独立非常重要。对于本课程，可以简单地将“独立”理解为“相互独立”。
易错点：张量积的计算顺序。虽然张量积是“结合”的，但它的计算顺序会影响中间结果的形态。A⊗(B⊗C) 和 (A⊗B)⊗C 的克罗内克积计算过程是不同的，虽然最终展开的系数列表在某种同构下是一致的。递归定义 $|\phi_{n-1}\rangle \otimes ( \cdots )$ 给了我们一个标准的、从右到左的计算流程。

📝 [总结]

本段将n-系统张量积的定义和性质阐述完整。它给出了“查询式”和“递归式”两种等价定义，并指出了其多线性的性质。它还澄清了物理上我们关心的独立性是概率论中更强的“相互独立”，它完全等价于概率状态向量可以被写成一个乘积态。

🎯 [存在目的]

本段的目的是为n-系统张量积提供一个坚实的数学基础，并厘清与概率论中不同独立性概念的关系。通过递归定义，它展示了复杂问题可以分解为简单问题的思想。通过引入“相互独立”的术语，它精确化了我们讨论的物理情景，并巧妙地避开了更复杂的概率论问题的干扰，使课程能聚焦于乘积态 vs 非乘积态这一核心二分法上。

🧠 [直觉心智模型]

多线性: 就像一个“多人合作的公平评估”。一个项目的最终得分（张量积结果），取决于每个参与者（输入向量）的表现。多线性意味着，如果你只改变其中一个人的表现（比如给他加分，或者他的表现乘以2），那么项目总分的改变也是成比例的，不受其他参与者表现的影响。这种“公平性”对每个参与者都成立。
相互独立 vs 两两独立:
两两独立：一个班的学生，任意挑两个人出来，他们都没有作弊。
相互独立：整个班级里没有任何形式的作弊团体（三人小组、四人小组等）。
前者不能保证后者。可能A和B没串通，B和C没串通，A和C也没串通，但他们三个人可能偷偷建了个群，答案共享。

💭 [直观想象]

张量积的递归定义就像做千层饼。

第一步: $|\phi_1\rangle \otimes |\phi_0\rangle$ 。你用两张面皮（向量）做了一个最基础的两层饼。
第二步: $|\phi_2\rangle \otimes (|\phi_1\rangle \otimes |\phi_0\rangle)$ 。你拿来一张新的面皮 $|\phi_2\rangle$ ，和刚才做好的那个两层饼，用同样的方法再做一次，得到一个更多层的饼。
这个过程可以一直重复下去，每次都拿一张新面皮和已经做好的饼坯进行“张量积”操作，最终得到一个n层饼。

📜 [原文29]

推广早先关于标准基向量的张量积的观察，对于任何正整数 $n$ 和任何经典状态 $a_0,\ldots,a_{n-1}$ ，我们有

\vert a_{n-1} \rangle \otimes \cdots \otimes \vert a_0 \rangle = \vert a_{n-1} \cdots a_0 \rangle.

📖 [逐步解释]

这一小段是将之前对2-系统基向量的观察，推广到n个系统的情况。

“推广早先关于标准基向量的张量积的观察”: 早先的观察是 $|a\rangle \otimes |b\rangle = |ab\rangle$ 。
“对于任何正整数 n ... 我们有”: 表明这个规则对任意多个系统的基向量都成立。
核心等式: n个子系统的标准基向量的张量积，等于复合系统中对应于那个组合字符串的标准基向量。
这个规则极其有用，它允许我们在狄拉克符号的框架下，极其方便地进行张量积的符号运算。

∑ [公式拆解]

\vert a_{n-1} \rangle \otimes \cdots \otimes \vert a_0 \rangle = \vert a_{n-1} \cdots a_0 \rangle.

左边: $n$ 个向量的张量积。每个 $|a_i\rangle$ 都是其所在子空间的一个标准基向量。
右边: 1 个向量。这是复合空间中的一个标准基向量，对应于经典状态字符串 $a_{n-1}\cdots a_0$ 。
证明思路: 可以使用数学归纳法和张量积的递归定义来证明。
基础: n=2时，我们已经验证过 $|a_1\rangle \otimes |a_0\rangle = |a_1a_0\rangle$ 成立。
归纳假设: 假设对于 n-1 个基向量成立，即 $|\phi_{n-2}\rangle \otimes \cdots \otimes |\phi_0\rangle = |\phi_{n-2}\cdots\phi_0\rangle$ 。
归纳步骤 (n):

$|a_{n-1}\rangle \otimes \cdots \otimes |a_0\rangle$

$= |a_{n-1}\rangle \otimes ( |a_{n-2}\rangle \otimes \cdots \otimes |a_0\rangle )$ (根据递归定义)

$= |a_{n-1}\rangle \otimes |a_{n-2}\cdots a_0\rangle$ (根据归纳假设)

现在问题变成了一个2-系统的张量积。令第一个系统状态为 $a=a_{n-1}$ ，第二个系统的状态为一个长字符串 $b=a_{n-2}\cdots a_0$ 。根据2-系统的规则， $|a\rangle \otimes |b\rangle = |ab\rangle$ 。
所以，结果是 $|a_{n-1}(a_{n-2}\cdots a_0)\rangle = |a_{n-1}a_{n-2}\cdots a_0\rangle$ 。
证明完毕。

💡 [数值示例]

示例1: 3个比特

$|1\rangle \otimes |0\rangle \otimes |1\rangle = |101\rangle$
这意味着，如果你想构造出8维空间中代表状态"101"的那个标准基向量（即 $\begin{pmatrix}0,0,0,0,0,1,0,0\end{pmatrix}^T$ ），你只需要将三个2维的标准基向量 $|1\rangle$ , $|0\rangle$ , $|1\rangle$ （即 $\begin{pmatrix}0\\1\end{pmatrix}, \begin{pmatrix}1\\0\end{pmatrix}, \begin{pmatrix}0\\1\end{pmatrix}$ ）依次做张量积即可。
示例2: 混合系统

一个比特和一个三态系统 (trit)。
系统 $(\mathsf{X}_1, \mathsf{X}_0)$ ，其中 $\mathsf{X}_1$ 是trit, $\mathsf{X}_0$ 是bit。
$|2\rangle_1 \otimes |0\rangle_0 = |20\rangle$ (下标代表系统编号)

⚠️ [易错点]

易错点：必须都是基向量。这个规则只适用于所有参与张量积的向量都是标准基向量的情况。只要有一个是叠加态，结果就是叠加态。
例如： $|1\rangle \otimes (|0\rangle+|1\rangle) = |1\rangle\otimes|0\rangle + |1\rangle\otimes|1\rangle = |10\rangle+|11\rangle$ 。

📝 [总结]

本段将基向量的张量积等于复合基向量这一重要规则推广到了任意n个系统的情况。这个规则 $|a_{n-1}\rangle \otimes \cdots \otimes |a_0\rangle = |a_{n-1}\cdots a_0\rangle$ 是使用狄拉克符号进行多体系统代数运算的基石。

🎯 [存在目的]

本段的目的是提供一个强大的符号运算工具。它使得张量积的展开变得像多项式乘法一样直观和机械。更重要的是，它完美地连接了子系统的状态空间和复合系统的状态空间之间的结构关系，即复合空间的基底可以由子空间基底的张量积来生成。这个性质在线性代数上称为“张量积是基的”。

🧠 [直觉心智模型]

这就像文件系统的路径。

$|a_0\rangle$ : 是根目录下的一个文件夹，叫 "a0"。
$|a_1\rangle$ : 是根目录下的一个文件夹，叫 "a1"。
$|a_1\rangle \otimes |a_0\rangle$ : 可以想象成一种路径组合操作，生成了一个路径 /a1/a0。
$|a_1a_0\rangle$ : 就是对这个路径 /a1/a0 的一个唯一标识。
这个等式就是说，“组合路径的操作”等于“直接写出组合后的路径标识”。

💭 [直观想象]

想象你在画一幅像素画。

$|a_{n-1}\rangle, \ldots, |a_0\rangle$ 是n种不同颜色的“纯色”画笔。
$|a_{n-1}\cdots a_0\rangle$ 是一种“复合颜色”的标签。
这个等式说，要获得标签为 $|a_{n-1}\cdots a_0\rangle$ 的这种复合颜色，你所需要做的，就是把那些对应的纯色画笔，通过张量积的方式“混合”起来。这定义了如何从基本元素构造出复合元素。

1.3 概率状态的测量

📜 [原文30]

现在让我们继续讨论多系统的概率状态的测量。

通过选择将多系统集体视为单一系统，我们立即获得了关于多系统如何进行测量的规范——前提是测量了所有系统。

📖 [逐步解释]

这部分将讨论的重点从“状态的表示”转移到了“对状态的操作”，首先从最简单的操作——测量 (Measurement) 开始。

“现在让我们继续讨论...测验”: 这是一个转折，开启一个新主题。
“通过选择将多系统集体视为单一系统，我们立即获得了...规范”: 这是一个非常重要的思想。因为我们已经成功地将一个多系统（例如n个比特）用一个单一的联合概率向量（一个 $2^n$ 维的向量）来描述，所以，对这个多系统进行测量，就可以直接套用上一课讲过的对单一系统进行测量的规则。
测量规则回顾 (从上一课): 对一个处于概率状态的单一系统进行测量，其结果是：

系统会以某个概率“塌缩”到它的某一个经典状态上。
这个概率值，就是该经典状态在概率向量中对应的那个分量（概率）。
- “——前提是测量了所有系统”: 这是一个非常关键的限制条件。上述规则能直接套用，是在我们同时测量所有子系统的情况下。例如，对于一个2-比特系统，我们用一个仪器一次性地读出两个比特的值，得到 00, 01, 10 或 11 中的一个结果。

💡 [数值示例]

示例：测量一个2-比特独立系统
状态: $|\pi\rangle = \frac{1}{6}|00\rangle + \frac{1}{12}|01\rangle + \frac{1}{2}|10\rangle + \frac{1}{4}|11\rangle$ 。
测量: 我们同时测量这两个比特。
结果:
有 $1/6$ 的概率，测量结果是 00。测量后，系统的状态就确定为 $|00\rangle$ 。
有 $1/12$ 的概率，测量结果是 01。测量后，系统的状态就确定为 $|01\rangle$ 。
有 $1/2$ 的概率，测量结果是 10。测量后，系统的状态就确定为 $|10\rangle$ 。
有 $1/4$ 的概率，测量结果是 11。测量后，系统的状态就确定为 $|11\rangle$ 。

⚠️ [易错点]

易错点：认为测量结果是概率本身。测量结果是经典状态，比如 01，而不是概率值 1/12。概率值描述的是得到某个经典结果的“机会”大小。
边界情况：测量一个确定性状态。如果系统已经处于 $|10\rangle$ 状态，那么概率向量中 $p_{10}=1$ ，其他都为0。此时去测量，会以100%的概率得到结果 10，状态依然是 $|10\rangle$ 。对确定性状态的测量不会改变它。

📝 [总结]

本段指出，对于同时测量多体系统中所有子系统的情况，其测量规则与单体系统完全相同：系统以各自的概率“塌缩”到联合经典状态空间中的某一个经典状态上，这个概率就是联合概率向量中对应的分量。

🎯 [存在目的]

本段的目的是建立一个最简单的多体测量模型作为后续讨论的基准。通过先处理“一次性全测完”这种最简单的情况，我们可以平滑地过渡到更复杂、也更贴近现实的“只测量一部分子系统”（即部分测量）的情况，后者是理解量子计算中信息提取和状态演化的关键。

**[直觉心-

智模型]**

这就像一次期末大考。

多系统: 班级里的所有学生。
概率状态: 每个学生考不同分数的概率分布。
测量所有系统: 就是进行期末考试，并公布所有人的最终成绩。
测量结果: 一份包含所有人确定分数的成绩单（例如：张三95，李四78，...）。这是一个联合经典状态。
概率: 在考试前，出现“张三95，李四78,...”这份特定成绩单的可能性。
塌缩: 考试一旦结束，分数就确定了，所有不确定性都消失了。

💭 [直观想象]

想象一个有多个轮盘的抽奖机。

概率状态: 是每个轮盘指针最终指向的数字组合的概率表。
测量所有系统: 就是按下“停止”按钮，让所有轮盘同时停下来。
测量结果: 所有轮盘都停下来后，显示出的那一串确定的数字，比如 7-5-12。这是一个联合经典状态。
概率: 在按按钮之前，开出 7-5-12 这个特定组合的中奖机会。

📜 [原文31]

例如，如果两个比特 $(\mathsf{X},\mathsf{Y})$ 的概率状态由概率向量描述

\frac{1}{2} \vert 00 \rangle + \frac{1}{2} \vert 11 \rangle,

那么结果 $00$ ——意味着对 $\mathsf{X}$ 的测量结果为 $0$ 且对 $\mathsf{Y}$ 的测量结果为 $0$ ——以 $1/2$ 的概率获得，且结果 $11$ 也以 $1/2$ 的概率获得。

在每种情况下，我们都会相应地更新对我们知识的概率向量描述，使得概率状态分别变为 $|00\rangle$ 或 $|11\rangle$ 。

📖 [逐步解释]

这是一个应用“全局测量”规则的具体例子，使用的是我们熟悉的那个相关状态。

“例如，如果两个比特...的概率状态由...描述”: 设定了场景，状态是 $|\pi\rangle = \frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。我们知道这个状态是相关的。
“那么结果 $00$ ——意味着...”:
这里明确了解析了测量结果的含义。复合结果 00 意味着对子系统 $\mathsf{X}$ 的测量值为0，并且对子系统 $\mathsf{Y}$ 的测量值为0。
“...以 $1/2$ 的概率获得”: 这个概率值直接来自于状态向量中 $|00\rangle$ 基向量前面的系数 $1/2$ 。
“...且结果 $11$ 也以 $1/2$ 的概率获得”: 同理，这是来自 $|11\rangle$ 基向量前面的系数 $1/2$ 。
对于结果 01 和 10 呢？ 因为在概率向量中， $|01\rangle$ 和 $|10\rangle$ 的系数都是0，所以得到这两个结果的概率都是0。也就是说，我们永远不会测到这两个结果。
“在每种情况下，我们都会相应地更新...概率状态分别变为 $|00\rangle$ 或 $|11\rangle$ ”: 这描述了测量后的状态塌缩 (State Collapse)。
一旦测量完成，不确定性就消失了。
如果我们测得的结果是 00，我们就100%确定系统的状态就是 $|00\rangle$ 。原来的概率向量 $|\pi\rangle$ 就被新的、代表确定性知识的概率向量 $|00\rangle$ (即 $1|00\rangle + 0|01\rangle + 0|10\rangle + 0|11\rangle$ ) 所取代。
同理，如果测得 11，状态就更新为 $|11\rangle$ 。

∑ [公式拆解]

\frac{1}{2} \vert 00 \rangle + \frac{1}{2} \vert 11 \rangle

这是一个概率向量。

它告诉我们，系统有50%的可能处于经典状态 00，50%的可能处于经典状态 11。
当执行全局测量时：
以概率 $p_{00} = 1/2$ 得到结果 00，状态变为 $|00\rangle$ 。
以概率 $p_{11} = 1/2$ 得到结果 11，状态变为 $|11\rangle$ 。

💡 [数值示例]

本段本身就是一个完整的数值示例。我们再看一个。

状态: $|\pi\rangle = 0.1|00\rangle + 0.2|01\rangle + 0.3|10\rangle + 0.4|11\rangle$
全局测量:
有 $10\%$ 的概率，测得 00，之后状态变为 $|00\rangle$ 。
有 $20\%$ 的概率，测得 01，之后状态变为 $|01\rangle$ 。
有 $30\%$ 的概率，测得 10，之后状态变为 $|10\rangle$ 。
有 $40\%$ 的概率，测得 11，之后状态变为 $|11\rangle$ 。

⚠️ [易错点]

易错点：混淆测量前后的状态。测量前，系统处于一个包含多种可能性的概率状态（一个叠加态）。测量后，系统处于一个确定的经典状态（一个基向量）。测量这个动作，本身改变了系统的状态（或者更精确地说，改变了我们对系统状态的描述）。
“更新对我们知识的描述”: 这是一个很重要的哲学诠释。经典概率中的状态塌缩，通常被理解为我们知识的更新，而不是物理实体本身发生了什么“魔法”。我们只是通过测量获得了更多信息，从而排除了其他可能性。这个观点在哥本哈根诠释的量子力学中有所不同，那里的塌缩被认为是真实的物理过程。

📝 [总结]

本段通过一个相关状态的具体例子，完整地演示了对多体系统进行全局测量的过程：1) 可能的测量结果是联合经典状态，如 00 11。2) 获得某个结果的概率由概率向量中对应的系数决定。3) 测量之后，系统状态塌缩到与测量结果对应的那个标准基向量上，不确定性消失。

🎯 [存在目的]

本段的目的是通过一个具体的例子，巩固对全局测量和状态塌缩的理解，并为下一节更复杂的部分测量做对比和铺垫。它清楚地显示了，只要我们把多体系统视为一个整体，测量的规则是简单而直观的。

🧠 [直觉心智模型]

这就像从一个装有彩球的黑箱子里摸球。

状态: 箱子里有两种球：“红-红”对（两个粘在一起的红球）和“蓝-蓝”对（两个粘在一起的蓝球），各占一半。这是相关的，因为你不可能摸出一个红球和一个蓝球。
全局测量: 你伸手进去，完整地抓出一对球。
结果与概率:
你有50%的概率，抓出的是“红-红”对。
你有50%的概率，抓出的是“蓝-蓝”对。
状态塌缩: 在你抓出球并看到它是“红-红”对之后，关于这个“被抓出的球”的不确定性就消失了。它的状态就确定为“红-red”。

💭 [直观想象]

想象一个薛定谔的盒子，但里面有两只“相关”的猫， $\mathsf{X}$ 和 $\mathsf{Y}$ 。它们要么都活着，要么都死了，两种可能性各占50%。

状态: $\frac{1}{2}|\text{活}\rangle|\text{活}\rangle + \frac{1}{2}|\text{死}\rangle|\text{死}\rangle$ 。
全局测量: 你打开盒子，同时观察两只猫的状态。
结果:
有50%的概率，你看到两只都活着。之后，你对这两只猫的状态的描述就更新为 $|\text{活}\rangle|\text{活}\rangle$ 。
有50%的概率，你看到两只都死了。之后，你对这两只猫的状态的描述就更新为 $|\text{死}\rangle|\text{死}\rangle$ 。
你永远不会看到一只活猫和一只死猫。

📜 [原文32]

然而，我们可以选择不测量每一个系统，而是只测量其中的一些系统。

这将导致每个被测量的系统都有一个测量结果，并且（通常）还会影响我们对未测量剩余系统的了解。

为了解释这是如何运作的，我们将重点关注两个系统的情况，其中一个系统被测量。

更一般的情况——即测量三个或更多系统中的某个真子集——当我们将被测量的系统集体视为一个系统，并将未测量的系统视为第二个系统时，实际上简化为两个系统的情况。

📖 [逐步解释]

这部分引入了一个更复杂、更现实的测量场景：部分测量 (Partial Measurement)。

“然而，我们可以选择不测量每一个系统，而是只测量其中的一些系统”: 这是与上一节“全局测量”的关键区别。在很多物理实验和量子计算算法中，我们往往只对一部分子系统感兴趣，或者只有能力测量一部分。例如，在一个有10个比特的系统中，我可能只想知道第3个比特的值是多少。
“这将导致每个被测量的系统都有一个测量结果...”: 这是显然的。我测量了哪个子系统，就会得到哪个子系统的经典状态结果。
“...并且（通常）还会影响我们对未测量剩余系统的了解”: 这是部分测量的核心和精髓。测量一个子系统的行为，会改变我们对其他未被测量的子系统的概率描述。
“通常”: 这个词暗示了存在特殊情况。什么时候不会影响呢？当被测系统与未测系统是独立的时候。如果它们独立，测量一个对另一个就毫无影响。但如果它们是相关的，测量一个就会提供关于另一个的信息，从而“影响”我们对另一个的了解。
“为了解释这是如何运作的，我们将重点关注两个系统的情况...”: 同样，采用从简到繁的策略。先彻底搞懂最简单的部分测量：一个2-体系统中，只测量其中1个。
“更一般的情况...实际上简化为两个系统的情况”: 这句话解释了为什么搞懂2-系统情况就足够了。
真子集 (proper subset): 指一个集合的子集，但不是这个集合本身。即，我们测量了一部分，但不是全部。
简化方法: 假设有10个系统，我们测量了其中的3个 ( $\mathsf{X}_0, \mathsf{X}_1, \mathsf{X}_2$ )。我们可以把这3个被测量的系统“打包”成一个新的“超级系统” $\mathsf{A} = (\mathsf{X}_2, \mathsf{X}_1, \mathsf{X}_0)$ 。然后把剩下7个未被测量的系统也“打包”成另一个“超级系统” $\mathsf{B} = (\mathsf{X}_9, \ldots, \mathsf{X}_3)$ 。
这样一来，原来那个“测量10个系统中的3个”的问题，就等价于“在一个由A和B组成的2-系统 $(\mathsf{B}, \mathsf{A})$ 中，只测量A”的问题。
因此，只要我们掌握了最基本的“测量一半”的模型，就可以处理任意复杂的部分测量问题。

💡 [数值示例]

示例1: 手套游戏 (相关系统)

状态: 两个盒子，一个装左手套，一个装右手套。
部分测量: Alice只打开她自己的盒子（测量系统 $\mathsf{X}$ ）。
测量结果: 她看到了“左手套”。
影响: 这个测量结果立刻影响了我们对Bob的盒子（系统 $\mathsf{Y}$ ）的了解。在Alice打开盒子前，我们认为Bob盒子里是左或右的概率各50%。在她打开后，我们100%确定Bob的盒子里是“右手套”。知识被更新了。
示例2: 独立的硬币和骰子

状态: 一枚均匀硬币和一颗均匀骰子。它们是独立的。
部分测量: 我只看硬币的结果（测量系统 $\mathsf{X}$ ）。
测量结果: 我看到了“正面”。
影响: 这个结果对我们关于骰子（系统 $\mathsf{Y}$ ）的了解有影响吗？没有。在看硬币之前和之后，我们都认为骰子掷出每个点数的概率是1/6。知识没有被更新。这就是“通常”这个词的例外情况。

⚠️ [易错点]

易错点：认为部分测量只影响被测的那个系统。这是最常见的错误观念。在相关系统中，部分测量的影响是“全局性”的，它会更新整个系统的概率状态，包括那些没有被直接触碰的子系统。
易错点：认为这种影响是某种超光速的物理作用。在经典世界里，这种“影响”只是信息的更新，是逻辑上的推理，不是物理实体的瞬时变化。Alice打开盒子，并没有一个信号飞到Bob那里把他的手套变成右手套，而是这个宇宙从一开始就只有“（左，右）”和“（右，左）”两种可能性，Alice的观测排除了后一种，所以我们推断出Bob必然是前一种。在量子世界（纠缠），这个问题变得极其深刻和富有争议（EPR佯谬）。

📝 [总结]

本段引入了部分测量的概念，即只测量多体系统中的一部分子系统。其核心要点是：对一个子系统的测量，不仅会给出该子系统的确定结果，通常还会（在系统存在相关性时）影响和更新我们对其他未测量子系统的概率描述。本段还指出，任何复杂的部分测量问题都可以通过“打包”的思路，简化为“二体系统测一体”的基本模型。

🎯 [存在目的]

本段的目的是打开通往更现实、更复杂的测量场景的大门。部分测量是量子算法（如量子隐形传态）和量子纠错的核心操作之一。在经典世界中理解部分测量如何更新我们的知识（即条件概率），是理解量子世界中部分测量如何改变量子态的关键一步。

🧠 [直觉心智模型]

这就像玩“狼人杀”游戏。

多系统: 所有的玩家。
概率状态: 在游戏开始时，你对每个人是“好人”还是“狼人”的概率判断。
部分测量: “预言家”晚上验了一个人（比如5号玩家）的身份。这就是一次部分测量。
测量结果: 验出来5号是“狼人”。
影响: 这个信息极大地改变了你对场上其他所有人的身份判断。
你对5号的概率判断从不确定变为100%确定（他是狼）。
你对其他人的概率判断也全部更新了。比如，如果之前你怀疑6号和5号是队友，现在你对6号是狼的怀疑度会大大增加。
验5号这一个动作，影响了你对整个局势的认知。

💭 [直观想象]

想象一个数独谜题。

多系统: 9x9的格子，每个格子是一个子系统。
概率状态: 在开始时，每个空格子都有可能是1-9的任何数字。
部分测量: 你通过逻辑推理，确定了某一个空格子（比如第3行第5列）里必须填“8”。这就像一次测量。
影响: 填上这个“8”之后，它立刻对其他未填的空格子产生了影响。
它所在的行、列、和九宫格里的其他空格子，都不能再填“8”了。这些格子的概率状态被更新了。
这个新的信息，可能又会让你连锁推断出其他格子的确定数字。
确定一个格子的数字（部分测量），会改变你对其他所有格子的可能性判断（更新知识）。

📜 [原文33]

准确地说，让我们假设 $\mathsf{X}$ 和 $\mathsf{Y}$ 分别是具有经典状态集 $\Sigma$ 和 $\Gamma$ 的系统，并且这两个系统共同处于某种概率状态。

我们将考虑当只测量 $\mathsf{X}$ 而对 $\mathsf{Y}$ 不做任何操作时会发生什么。

只测量 $\mathsf{Y}$ 而对 $\mathsf{X}$ 不发生任何操作的情况是对称处理的。

首先，我们知道在假设 $\mathsf{Y}$ 也被测量的情况下，当只测量 $\mathsf{X}$ 时观察到特定经典状态 $a\in\Sigma$ 的概率必须与我们将获得的概率一致。

也就是说，我们必须满足

\operatorname{Pr}(\mathsf{X} = a) = \sum_{b\in\Gamma} \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (a,b) \bigr).

这就是所谓的 $\mathsf{X}$ 单独的约化（或边际）概率状态公式。

📖 [逐步解释]

这部分开始具体分析“二体测一体”模型的第一步：如何计算测量结果的概率。

“准确地说，让我们假设...我们将考虑当只测量 $\mathsf{X}$ ...时会发生什么”: 明确了分析的模型：2-系统 $(\mathsf{X}, \mathsf{Y})$ ，处于某个已知的联合概率状态，我们只测量 $\mathsf{X}$ 。
“首先，我们知道...观察到特定经典状态 $a\in\Sigma$ 的概率...”: 这是部分测量提出的第一个问题：我测量 $\mathsf{X}$ ，得到结果 $a$ 的概率是多少？
“...必须与我们将获得的概率一致”: 这是一个基于物理直觉和逻辑一致性的关键假设。它说，无论我是否决定要测量 $\mathsf{Y}$ ，我观测到 $\mathsf{X}=a$ 的概率都应该是相同的。
“也就是说，我们必须满足...”: 将上述的物理直觉翻译成了数学公式。
公式解读:
左边 $\operatorname{Pr}(\mathsf{X}=a)$ ：是我们想求的，即只测量 $\mathsf{X}$ 时得到结果 $a$ 的概率。
右边 $\sum_{b\in\Gamma} \operatorname{Pr}((\mathsf{X},\mathsf{Y})=(a,b))$ ：这是一个求和。它把所有联合概率中， $\mathsf{X}$ 的状态是 $a$ 的那些项全部加起来。
例如， $\operatorname{Pr}((\mathsf{X},\mathsf{Y})=(a, \text{状态1})) + \operatorname{Pr}((\mathsf{X},\mathsf{Y})=(a, \text{状态2})) + \dots$
这个公式的含义是：事件“ $\mathsf{X}$ 等于 $a$ ”可以分解为一堆互斥的子事件：“ $\mathsf{X}=a$ 且 $\mathsf{Y}=b_1$ ”、“ $\mathsf{X}=a$ 且 $\mathsf{Y}=b_2$ ”... 那么，总事件的概率就等于所有这些子事件的概率之和。
“这就是所谓的...约化（或边际）概率状态公式”:
边际概率 (Marginal Probability): 这是概率论的标准术语。从一个联合概率分布 $P(X,Y)$ 中，通过对其中一个变量的所有可能值求和（或积分），来得到另一个变量的概率分布 $P(X) = \sum_Y P(X,Y)$ ，这个 $P(X)$ 就叫边际概率。这个过程也叫“边缘化”(Marginalization)。
约化概率 (Reduced Probability): 在物理，特别是量子信息领域，更常使用这个词，但它和边际概率是同一个意思。它是指从一个大的复合系统中，通过“忽略”或“追踪掉”一部分子系统，来得到剩下那部分子系统的状态。

∑ [公式拆解]

\operatorname{Pr}(\mathsf{X} = a) = \sum_{b\in\Gamma} \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (a,b) \bigr).

$\operatorname{Pr}(\mathsf{X} = a)$ : $\mathsf{X}$ 的边际概率。这是我们测量 $\mathsf{X}$ 得到结果 $a$ 的概率。
$\sum_{b\in\Gamma}$ : 遍历 $\mathsf{Y}$ 的所有可能状态 $b$ 。
$\operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (a,b) \bigr)$ : $(\mathsf{X},\mathsf{Y})$ 的联合概率。

这个公式是概率论公理的直接应用，即不相交事件的并的概率等于各事件概率之和。

💡 [数值示例]

示例1: 相关的双胞胎状态

联合概率: $P(00)=1/2, P(01)=0, P(10)=0, P(11)=1/2$ 。
测量 $\mathsf{X}$ :
得到结果 '0' 的概率是多少？ $\operatorname{Pr}(\mathsf{X}=0) = P(00) + P(01) = 1/2 + 0 = 1/2$ 。
得到结果 '1' 的概率是多少？ $\operatorname{Pr}(\mathsf{X}=1) = P(10) + P(11) = 0 + 1/2 = 1/2$ 。
结论: 当我们只测量 $\mathsf{X}$ 时，我们会以50%的概率得到0，50%的概率得到1。
示例2: 独立的不均匀比特

联合概率: $P(00)=1/6, P(01)=1/12, P(10)=1/2, P(11)=1/4$ 。
测量 $\mathsf{X}$ :
$\operatorname{Pr}(\mathsf{X}=0) = P(00) + P(01) = 1/6 + 1/12 = 3/12 = 1/4$ 。
$\operatorname{Pr}(\mathsf{X}=1) = P(10) + P(11) = 1/2 + 1/4 = 3/4$ 。
结论: 测量 $\mathsf{X}$ 时，我们会以 $1/4$ 的概率得到0，以 $3/4$ 的概率得到1。这与我们之前分解出的 $|\phi\rangle$ 的系数是吻合的。

⚠️ [易错点]

易错点：忘记求和。在计算边际概率时，一个常见的错误是只取了联合概率中的某一个值，而不是把所有相关的项都加起来。
易错点：加错了项。计算 $\operatorname{Pr}(\mathsf{X}=a)$ 时，是固定 $\mathsf{X}$ 的状态为 $a$ ，然后遍历（求和）所有 $\mathsf{Y}$ 的状态。不要搞反。

📝 [总结]

本段给出了计算部分测量结果概率的公式，即边际概率公式。它指出，要得到测量子系统 $\mathsf{X}$ 获得结果 $a$ 的概率，我们需要将联合概率分布中所有 $\mathsf{X}$ 固定为 $a$ 的项的概率值全部加起来。

🎯 [存在目的]

本段是描述部分测量过程的第一步，它解决了“结果的概率是多少”的问题。这是后续讨论“测量后状态如何变化”的基础。这个边际概率公式在经典概率论和量子力学中是完全通用的（在量子力学中，是对密度矩阵求偏迹(Partial Trace)，其物理意义和这里的求和是类似的）。

🧠 [直觉心智模型]

这就像在做人口普查数据分析。

联合概率分布: 一张巨大的表格，每一行是一个家庭，列出了每个家庭成员的各种信息（年龄，性别，职业...）。
边际概率: 你想知道“全国年龄为30岁的人的比例” ( $\operatorname{Pr}(\text{年龄}=30)$ )。
计算过程: 你需要遍历表格中的每一行（每个家庭），检查这个家庭里是否有30岁的人。你把所有30岁的人数加起来，再除以总人数。这等价于：

$\operatorname{Pr}(\text{年龄}=30) = \sum_{\text{所有其他属性}} \operatorname{Pr}(\text{年龄}=30, \text{其他属性})$

你“忽略”了性别、职业等所有其他变量，只关注年龄。这个过程就是“边缘化”。

💭 [直观想象]

回到那个像素屏幕的亮度图。

联合概率 $P(a,b)$ : 是像素点 $(a,b)$ 的亮度。
边际概率 $\operatorname{Pr}(\mathsf{X}=a)$ : 是第 $a$ 列所有像素的总亮度。
计算过程: 为了得到第 $a$ 列的总亮度，你自然需要把这一列从上到下所有像素的亮度值加起来。
这个“对一列求和”的动作，就是边际概率公式的直观体现。

📜 [原文34]

这个公式在直观层面上非常有意义，因为如果它是错的，那一定发生了非常奇怪的事情。

如果它是错的，那就意味着测量 $\mathsf{Y}$ 可能会以某种方式影响与 $\mathsf{X}$ 测量的不同结果相关的概率，而与 $\mathsf{Y}$ 测量的实际结果无关。

如果 $\mathsf{Y}$ 碰巧位于遥远的地方，例如在另一个星系的某个地方，这将允许超光速通信——基于我们对物理学的理解，我们拒绝这一点。

另一种理解这一点的方式来自将概率解释为反映某种信念程度。

仅仅是别人可能决定观察 $\mathsf{Y}$ 这一事实并不能改变 $\mathsf{X}$ 的经典状态，因此在没有任何关于他们做了什么或没看到什么的信息的情况下，一个人对 $\mathsf{X}$ 状态的信念不应因此而改变。

📖 [逐步解释]

这部分为上一段提出的边际概率公式提供了两个非常深刻的物理解释和哲学支撑，以证明其合理性。

“这个公式在直观层面上非常有意义...”: 表明这个公式不仅数学上正确，而且符合我们的物理直觉。
第一个论证：基于“无信号”原理 (No-Signaling Principle)
“如果它是错的，那就意味着测量 $\mathsf{Y}$ 可能会...影响... $\mathsf{X}$ 测量的...概率”: 这是一个思想实验的起点。假设边际概率公式不成立，即 $\operatorname{Pr}(\mathsf{X}=a)$ 的值依赖于我们是否对 $\mathsf{Y}$ 进行测量。
“...而与 $\mathsf{Y}$ 测量的实际结果无关”: 这是关键。影响不是来自于 $\mathsf{Y}$ 测出了什么具体结果，而是来自于“测量 $\mathsf{Y}$ ”这个动作本身。
“如果 $\mathsf{Y}$ 碰巧位于遥远的地方...这将允许超光速通信”: 这是上述假设导出的荒谬结论。
想象 $\mathsf{X}$ 在地球， $\mathsf{Y}$ 在仙女座星系。它们处于一个相关状态。
地球上的Alice想给仙女座的Bob发一个比特的信息（0或1）。
他们约定：如果Bob想发送“1”，他就在他的实验室里对 $\mathsf{Y}$ 进行一次测量。如果他想发送“0”，他就什么都不做。
在地球上，Alice反复测量 $\mathsf{X}$ ，并统计得到结果 a 的频率，也就是 $\operatorname{Pr}(\mathsf{X}=a)$ 。
如果边际概率公式是错的，那么Bob“测量 $\mathsf{Y}$ ”这个动作就会瞬间改变Alice这边 $\operatorname{Pr}(\mathsf{X}=a)$ 的值。
Alice通过观察她这边概率分布的瞬时变化，就能立刻知道Bob是否做了测量。这样，Bob就成功地将一个比特的信息瞬时地从仙女座传到了地球，实现了超光速通信。
“...基于我们对物理学的理解，我们拒绝这一点”: 超光速通信违反了爱因斯坦的狭义相对论。因此，为了维护物理学的基础，我们必须拒绝那个导致它的初始假设。结论：边际概率公式必须成立。这个“无信号”原理是现代物理学的一个基石。
第二个论证：基于贝叶斯概率的“信念”诠释
“另一种理解...来自将概率解释为反映某种信念程度”: 采用贝叶斯学派的观点，概率不是客观存在的频率，而是我们基于现有信息对某件事发生的“相信程度”。
“仅仅是别人可能决定观察 $\mathsf{Y}$ 这一事实并不能改变 $\mathsf{X}$ 的经典状态”: 经典世界里，物体有其客观属性。Bob在遥远星系的一个想法或决定（“我要测一下 $\mathsf{Y}$ ”），不可能物理上地改变地球上这个物体 $\mathsf{X}$ 本身的状态。
“因此在没有任何关于他们做了什么或没看到什么的信息的情况下，一个人对 $\mathsf{X}$ 状态的信念不应因此而改变”: 这是关键。我的“信念”（即我计算出的概率）只应该被我接收到的新信息所更新。
Bob决定要测量，这个决定本身不是我能接收到的信息。
Bob测量的结果是什么，如果他通过常规信道告诉我，那才是新信息。
在Bob告诉我他的结果之前，我没有任何新信息，因此我对 $\mathsf{X}$ 的信念（边际概率）不应该有任何改变。
这个论证从认识论的角度支撑了边际概率公式的合理性。

💡 [数值示例]

超光速通信思想实验
假设一个相关状态，当 $\mathsf{Y}$ 不被测量时，Alice测得 $\operatorname{Pr}(\mathsf{X}=0)=0.5$ 。
再假设边际概率公式是错的，当 $\mathsf{Y}$ 被测量时，Alice测得的概率瞬时变成了 $\operatorname{Pr}(\mathsf{X}=0)=0.8$ 。
通信协议:
Bob在仙女座。在每个小时的整点，如果他想发送“1”，他就测量一下 $\mathsf{Y}$ ；如果想发送“0”，他就不测。
Alice在地球。在每个小时的整点过一秒，她进行大量测量，统计出 $\operatorname{Pr}(\mathsf{X}=0)$ 的值。
如果Alice发现这个概率值接近0.8，她就知道Bob在那一刻测量了 $\mathsf{Y}$ ，于是她解码出信息“1”。
如果她发现概率值接近0.5，她就知道Bob没测，解码出信息“0”。
信息从仙女座瞬时到达地球。这是被物理学所禁止的。

⚠️ [易错点]

易错点：将“无超光速通信”与“无超光速影响”混淆。在量子力学（EPR佯谬）中，测量一个粒子确实会瞬时地“影响”（塌缩）另一个遥远纠缠粒子的状态。这被称为“幽灵般的超距作用”。但是，这种“影响”是随机的，无法被用来传递信息。Alice测量她的粒子，可以瞬间改变Bob那边粒子的状态，但Bob如果不跟Alice通信，他根本无法知道他那边的状态发生了变化。他自己去测，得到的依然是随机结果。只有当他们事后对比测量记录时，才会发现那种奇特的相关性。“无超光速通信”原理在量子力学中依然成立，而它成立的数学保障，正是边际概率公式（在量子中体现为偏迹的性质）依然有效。
经典 vs 量子: 在经典世界，这两个论证都很坚实。在量子世界，第一个“无信号”论证依然是物理学的基石。而第二个基于“客观经典状态”的论证则受到了挑战，因为量子力学认为在测量前可能不存在一个预先确定的“经典状态”。

📝 [总结]

本段从两个深刻的物理和哲学角度论证了边际概率公式的正确性和必要性。第一个是“无超光速通信”原理，它要求局域操作的统计结果不能瞬时影响远处，这保证了因果律。第二个是贝叶斯概率的观点，即我们的信念（概率）只应被我们获得的新信息所更新。这两个论证都强有力地支持了“计算一个子系统的概率时，我们应该对其他我们一无所知的子系统进行求和（边缘化）”这一做法。

🎯 [存在目的]

本段的目的不仅仅是给出一个数学公式，更是要建立起这个公式与物理实在和逻辑推理之间的深刻联系。它告诉我们，这个公式不是凭空捏造的，而是物理世界基本法则（如因果律）的数学体现。这种从物理原理出发来理解数学公式的方法，对于培养物理直觉至关重要，尤其是在学习抽象的量子力学时。

🧠 [直觉心智模型]

无信号原理: 你在河的上游扔一块石头（测量 $\mathsf{Y}$ ），不可能在你扔石头的瞬间，就改变下游水的平均流速（ $\operatorname{Pr}(\mathsf{X}=a)$ ）。石头产生的影响（涟漪）需要时间才能传播到下游。如果平均流速瞬时变了，那一定是“闹鬼了”（违反物理定律）。
贝叶斯信念: 你在猜一个朋友今天穿了什么颜色的T恤。你猜红色的概率是20%。现在，你得知他昨天吃了披萨。这个信息对你今天的猜测有帮助吗？没有。所以你猜红色的概率依然是20%。你的信念没有被无关的信息更新。除非你得知的新信息是“他今天出门前，把所有红色以外的T恤都洗了还没干”，这个信息才能更新你的信念。

💭 [直观想象]

想象一个巨大的赌场，里面有成千上万张正在进行的扑克牌局。

联合概率: 整个赌场所有牌局状态的完整描述。
你想知道在任意一张牌桌上，下一张公共牌是“黑桃A”的概率是多少 ( $\operatorname{Pr}(\mathsf{X}=A\spadesuit)$ )。
无信号原理: 隔壁房间一张牌桌的玩家决定“弃牌”这个动作（测量 $\mathsf{Y}$ ），不应该影响你这张桌上发出黑桃A的客观概率。如果会影响，那这个赌场就有问题，可能牌被做了手脚，信息在以不正常的方式传递。
贝叶斯信念: 你对发出黑桃A的概率的估计，只取决于你已经看到的牌，以及你对扑克规则的了解。你朋友在另一张桌子上输了钱这个事实（你未被告知结果），不应该改变你对你这张桌的概率计算。

📜 [原文35]

现在，给定仅测量 $\mathsf{X}$ 而不测量 $\mathsf{Y}$ 的假设，关于 $\mathsf{Y}$ 的经典状态可能仍然存在不确定性。

出于这个原因，我们不能将对 $(\mathsf{X},\mathsf{Y})$ 的概率状态的描述更新为对于 $a\in\Sigma$ 和 $b\in\Gamma$ 的某种选择的 $\vert ab\rangle$ ，而是必须更新我们的描述，以便正确反映这种关于 $\mathsf{Y}$ 的不确定性。

以下条件概率公式反映了这种不确定性。

\operatorname{Pr}(\mathsf{Y} = b \,\vert\, \mathsf{X} = a) = \frac{ \operatorname{Pr}\bigl((\mathsf{X},\mathsf{Y}) = (a,b)\bigr) }{ \operatorname{Pr}(\mathsf{X} = a) }

这里，表达式 $\operatorname{Pr}(\mathsf{Y} = b \,\vert\, \mathsf{X} = a)$ 表示在条件于（或给定） $\mathsf{X} = a$ 的情况下 $\mathsf{Y} = b$ 的概率。

从技术上讲，这个表达式只有在 $\operatorname{Pr}(\mathsf{X}=a)$ 非零时才有意义，因为如果 $\operatorname{Pr}(\mathsf{X}=a) = 0$ ，那么我们就除以了零，得到了不定型 $\frac{0}{0}$ 。

然而，这并不是问题，因为如果与 $a$ 相关的概率为零，那么我们永远不会得到 $a$ 作为 $\mathsf{X}$ 的测量结果，因此我们不需要关注这种可能性。

📖 [逐步解释]

这部分开始讨论部分测量的第二步：在获得一个测量结果之后，我们对未测量的那个系统的知识该如何更新。

“现在，给定仅测量 $\mathsf{X}$ ... 关于 $\mathsf{Y}$ 的经典状态可能仍然存在不确定性”: 这是一个关键观察。我测量了 $\mathsf{X}$ 得到了确定的结果 $a$ ，但 $\mathsf{Y}$ 我没碰它，它本身可能仍然是一个随机系统，它的状态对我来说依然是不确定的。
“出于这个原因，我们不能将...描述更新为... $|ab\rangle$ ”: 这与全局测量形成了对比。在全局测量中，一旦测得 ab，状态就塌缩到确定的 $|ab\rangle$ 。但在部分测量中，我只确定了 $a$ 这一半， $b$ 那一半还是个未知数，所以不能直接塌缩到一个完全确定的复合状态 $|ab\rangle$ 。
“...而是必须更新我们的描述，以便正确反映这种关于 $\mathsf{Y}$ 的不确定性”: 我们的新状态描述必须包含两部分信息：1) $\mathsf{X}$ 现在确定是 $a$ 了。2) $\mathsf{Y}$ 在这个新条件下，它的新概率分布是什么。
“以下条件概率公式反映了这种不确定性”: 这里正式给出了计算 $\mathsf{Y}$ 新概率分布的工具——条件概率 (Conditional Probability)。
公式解读:
$\operatorname{Pr}(\mathsf{Y} = b \,\vert\, \mathsf{X} = a)$ : 条件概率。读作“在事件 $\mathsf{X}=a$ 发生的条件下，事件 $\mathsf{Y}=b$ 发生的概率”。这正是我们想要的：已知测出了 $\mathsf{X}=a$ ， $\mathsf{Y}$ 等于 $b$ 的新概率是多少。
$\operatorname{Pr}((\mathsf{X},\mathsf{Y})=(a,b))$ : 联合概率。即 $a$ 和 $b$ 同时发生的概率。
$\operatorname{Pr}(\mathsf{X}=a)$ : 边际概率。即事件 $a$ 发生的总概率。
公式的含义 (贝叶斯定理的基础): 在一个特定的结果空间里，如果你想知道在A发生的条件下B发生的概率，你就去看A和B都发生的概率占A本身的总概率的多少。可以理解为一种“概率的重新归一化”。
直观理解: 想象一个包含了所有可能结果的“概率宇宙”，总面积为1。事件 $\mathsf{X}=a$ 是这个宇宙中的一个区域，其面积是 $\operatorname{Pr}(\mathsf{X}=a)$ 。事件 $(\mathsf{X},\mathsf{Y})=(a,b)$ 是这个区域内部的一个更小的子区域，其面积是联合概率。当你得知“ $\mathsf{X}=a$ 发生了”，你的“概率宇宙”就从整个空间缩小到了“ $\mathsf{X}=a$ ”这个区域。在这个新的、更小的宇宙里，你想知道 $b$ 发生的概率，那自然就是 $(a,b)$ 的面积占新宇宙总面积的比例，即 $\frac{\text{联合概率}}{\text{边际概率}}$ 。
“从技术上讲...只有在 $\operatorname{Pr}(\mathsf{X}=a)$ 非零时才有意义”: 这是一个重要的数学约束。分母不能为零。
“然而，这并不是问题...”: 这解释了为什么分母为零在物理上不是问题。如果 $\operatorname{Pr}(\mathsf{X}=a)=0$ ，就意味着我们永远不可能测量到 $\mathsf{X}$ 的结果是 $a$ 。既然这个条件永远不会发生，我们自然也就不需要去计算在这个条件下 $\mathsf{Y}$ 的概率是多少了。这个问题本身就变得无意义了。

∑ [公式拆解]

\operatorname{Pr}(\mathsf{Y} = b \,\vert\, \mathsf{X} = a) = \frac{ \operatorname{Pr}\bigl((\mathsf{X},\mathsf{Y}) = (a,b)\bigr) }{ \operatorname{Pr}(\mathsf{X} = a) }

这是条件概率的定义式。它是概率论中最核心的公式之一。

$\operatorname{Pr}(B|A) = \frac{P(A \cap B)}{P(A)}$
$A$ : 条件事件，这里是 $\mathsf{X}=a$ 。
$B$ : 我们关心的事件，这里是 $\mathsf{Y}=b$ 。
$A \cap B$ : 两者同时发生，这里是 $(\mathsf{X},\mathsf{Y})=(a,b)$ 。

这个公式可以被看作是联合概率定义的重排： $P(A \cap B) = P(A)P(B|A)$ 。即A和B同时发生的概率，等于A发生的概率，乘以“在A发生的条件下B也发生的概率”。

💡 [数值示例]

示例1: 相关的双胞胎状态

联合概率: $P(00)=1/2, P(01)=0, P(10)=0, P(11)=1/2$ 。
边际概率: 我们算过 $\operatorname{Pr}(\mathsf{X}=0)=1/2$ 。
问题: 假设我们测量 $\mathsf{X}$ 得到了结果 0，那么 $\mathsf{Y}$ 的新概率分布是什么？
计算:
$\operatorname{Pr}(\mathsf{Y}=0 \,|\, \mathsf{X}=0) = \frac{P(00)}{\operatorname{Pr}(\mathsf{X}=0)} = \frac{1/2}{1/2} = 1$ 。
$\operatorname{Pr}(\mathsf{Y}=1 \,|\, \mathsf{X}=0) = \frac{P(01)}{\operatorname{Pr}(\mathsf{X}=0)} = \frac{0}{1/2} = 0$ 。
结论: 在测得 $\mathsf{X}=0$ 后，我们对 $\mathsf{Y}$ 的状态描述更新为：它有100%的概率是0。不确定性完全消失了。
示例2: 不完全相关状态

联合概率: $P(00)=0.4, P(01)=0.1, P(10)=0.2, P(11)=0.3$ 。
边际概率: $\operatorname{Pr}(\mathsf{X}=0) = P(00)+P(01) = 0.5$ 。
问题: 假设测量 $\mathsf{X}$ 得到 0， $\mathsf{Y}$ 的新概率分布是什么？
计算:
$\operatorname{Pr}(\mathsf{Y}=0 \,|\, \mathsf{X}=0) = \frac{P(00)}{\operatorname{Pr}(\mathsf{X}=0)} = \frac{0.4}{0.5} = 0.8$ 。
$\operatorname{Pr}(\mathsf{Y}=1 \,|\, \mathsf{X}=0) = \frac{P(01)}{\operatorname{Pr}(\mathsf{X}=0)} = \frac{0.1}{0.5} = 0.2$ 。
结论: 在测得 $\mathsf{X}=0$ 后，我们对 $\mathsf{Y}$ 的状态描述更新为：它有80%的概率是0，20%的概率是1。它的不确定性减小了，但没有完全消失。

⚠️ [易错点]

易错点：混淆条件概率和联合概率。 $P(B|A)$ 和 $P(A \cap B)$ 是完全不同的概念。后者是对整个样本空间的概率，前者是在一个缩小的样本空间（A发生）里的概率。 $P(B|A)$ 通常比 $P(A \cap B)$ 大，因为分母 $\operatorname{Pr}(A)$ 通常小于1。
易错点：在独立系统中使用。对于独立系统， $P(A \cap B) = P(A)P(B)$ 。代入条件概率公式： $P(B|A) = \frac{P(A)P(B)}{P(A)} = P(B)$ 。这从数学上证明了我们之前的直觉：对于独立系统，知道A的发生，对B的概率判断没有任何影响。

📝 [总结]

本段给出了更新部分测量后未测量系统状态的数学工具：条件概率公式。该公式指出，在测得 $\mathsf{X}=a$ 的条件下， $\mathsf{Y}=b$ 的新概率，等于联合概率 $P(a,b)$ 除以边际概率 $\operatorname{Pr}(\mathsf{X}=a)$ 。这本质上是将我们的概率空间“重新归一化”到以“ $\mathsf{X}=a$ ”为新全体的子空间上。

🎯 [存在目的]

本段的目的是完成对经典部分测量过程的完整数学描述。我们现在有了两套工具：1) 边际概率公式，用于计算测量结果的概率。2) 条件概率公式，用于更新测量后剩余系统的状态。这套完整的框架是贝叶斯推断的核心，也是理解量子态投影测量的基础。量子测量中的“波函数塌缩”规则，在数学形式上与这里的条件概率更新非常相似。

🧠 [直觉心智模型]

这就像在玩“猜豆子”游戏。

一个不透明的罐子里有100颗豆子：
40颗红色大豆 ( $P(红,大)=0.4$ )
10颗红色小豆 ( $P(红,小)=0.1$ )
20颗绿色大豆 ( $P(绿,大)=0.2$ )
30颗绿色小豆 ( $P(绿,小)=0.3$ )
$\mathsf{X}$ 是颜色， $\mathsf{Y}$ 是大小。
边际概率: 红豆的总概率是 $0.4+0.1=0.5$ 。
部分测量: 你随机摸出一颗豆子，但你只感觉它的颜色，不感觉大小。你感觉到它是红色的。
条件概率: 在你确定摸到的是红豆这个条件下，这颗豆子是大是小的概率是多少？
你的样本空间从100颗豆子，缩小到了50颗红豆。
在这50颗红豆里，有40颗是大的。
所以，大的概率是 $40/50=0.8$ 。
这正是公式计算的结果: $\operatorname{Pr}(\text{大}|\text{红}) = \frac{P(\text{红,大})}{P(\text{红})} = \frac{0.4}{0.5} = 0.8$ 。

💭 [直观想象]

想象一张选民调查的交叉分析表。

	支持A	支持B	总计
年轻人	400	100	500
老年人	200	300	500
总计	600	400	1000

联合概率: $P(\text{年轻, A}) = 400/1000 = 0.4$ 。
边际概率: $P(\text{年轻}) = 500/1000 = 0.5$ 。
部分测量: 你随机采访了一个人，得知他是一个年轻人。
条件概率: 在这个条件下，他支持A的概率是多少？
你的关注范围从1000个所有人，缩小到了500个年轻人。
在这500个年轻人里，有400个支持A。
所以，概率是 $400/500 = 0.8$ 。
公式计算: $P(\text{A}|\text{年轻}) = \frac{P(\text{年轻,A})}{P(\text{年轻})} = \frac{0.4}{0.5} = 0.8$ 。

📜 [原文36]

为了用概率向量来表达这些公式，考虑一个描述 $(\mathsf{X},\mathsf{Y})$ 的联合概率状态的概率向量 $\vert \psi \rangle$ 。

\vert\psi\rangle = \sum_{(a,b)\in\Sigma\times\Gamma} p_{ab} \vert ab\rangle

单独测量 $\mathsf{X}$ 以如下概率产生每个可能的结果 $a\in\Sigma$

\operatorname{Pr}(\mathsf{X} = a) = \sum_{c\in\Gamma} p_{ac}.

因此，代表单独 $\mathsf{X}$ 的概率状态的向量由下式给出

\sum_{a\in\Sigma} \biggl(\sum_{c\in\Gamma} p_{ac}\biggr) \vert a\rangle.

在获得 $\mathsf{X}$ 测量的特定结果 $a\in\Sigma$ 后， $\mathsf{Y}$ 的概率状态根据条件概率公式进行更新，使其由该概率向量表示：

\vert \pi_a \rangle = \frac{\sum_{b\in\Gamma}p_{ab}\vert b\rangle}{\sum_{c\in\Gamma} p_{ac}}.

在对 $\mathsf{X}$ 的测量导致经典状态 $a$ 的情况下，我们因此将对联合系统 $(\mathsf{X},\mathsf{Y})$ 的概率状态的描述更新为 $\vert a\rangle \otimes \vert\pi_a\rangle$ 。

📖 [逐步解释]

这部分将前面讨论的边际概率和条件概率的计算，完全翻译成向量语言。

“为了用概率向量来表达这些公式...”: 目标明确，将概率公式 $P(\cdot)$ 转换成向量 $|\cdot\rangle$ 的操作。
联合概率向量 $|\psi\rangle$ : 首先设定好输入的联合概率向量，其在基 $|ab\rangle$ 上的系数为 $p_{ab}$ 。
测量 $\mathsf{X}$ 得到结果 $a$ 的概率: 这里重申了边际概率公式，只不过用系数 $p_{ac}$ 代替了 $P((\mathsf{X},\mathsf{Y})=(a,c))$ 。这是对列求和。
“因此，代表单独 $\mathsf{X}$ 的概率状态的向量由下式给出”:
这个向量是一个描述 $\mathsf{X}$ 自己的边际概率状态的向量。
它的基是 $|a\rangle$ 。
它在基 $|a\rangle$ 上的系数，就是我们刚算出的边际概率 $\operatorname{Pr}(\mathsf{X}=a) = \sum_c p_{ac}$ 。
这个向量总结了在测量之前，我们对 $\mathsf{X}$ 单独的全部了解。
“在获得...结果 $a$ 后， $\mathsf{Y}$ 的概率状态...更新为...”: 这是最关键的一步，将条件概率公式向量化。
$|\pi_a\rangle$ : 这是 $\mathsf{Y}$ 的新状态向量，它依赖于 $\mathsf{X}$ 的测量结果 $a$ 。
分母: $\sum_{c\in\Gamma} p_{ac}$ 。这正是我们熟悉的边际概率 $\operatorname{Pr}(\mathsf{X}=a)$ 。它是一个标量（一个数字），作用是归一化。
分子: $\sum_{b\in\Gamma}p_{ab}\vert b\rangle$ 。这是一个在 $\mathsf{Y}$ 的空间中的向量。它的每个基 $|b\rangle$ 前的系数是联合概率 $p_{ab}$ 。这个向量可以看作是原始联合概率向量 $|\psi\rangle$ 中，所有与 $\mathsf{X}=a$ 相关的部分“投影”到 $\mathsf{Y}$ 空间的结果。但它通常不是一个概率向量，因为它的系数和（即分母）不一定为1。
整个表达式: 将这个从联合向量中“切”出来的、未归一化的向量，除以它的系数之和（即边际概率），就把它变成了一个系数和为1的、合法的概率向量。这个过程就叫归一化 (Normalization)。
“...我们将对联合系统的...描述更新为 $|a\rangle \otimes |\pi_a\rangle$ ”: 这是对测量后整个系统新状态的最终描述。
测量后， $\mathsf{X}$ 的状态是确定的 $a$ ，其状态向量是 $|a\rangle$ 。
$\mathsf{Y}$ 的状态是不确定的，其概率状态向量是我们刚算出的 $|\pi_a\rangle$ 。
由于测量这个动作破坏了系统间原有的相关性（如果你去猜豆子颜色，猜完后你手里的豆子和罐子里的豆子就没关系了），测量后的两个子系统可以被认为是独立的。
因此，新的联合状态是一个乘积态，由两个新的子系统状态张量积而成： $|a\rangle \otimes |\pi_a\rangle$ 。

∑ [公式拆解]

\vert\psi\rangle = \sum_{(a,b)\in\Sigma\times\Gamma} p_{ab} \vert ab\rangle

输入的联合概率向量。

\operatorname{Pr}(\mathsf{X} = a) = \sum_{c\in\Gamma} p_{ac}.

计算边际概率（测量结果a的概率）的公式。

\sum_{a\in\Sigma} \biggl(\sum_{c\in\Gamma} p_{ac}\biggr) \vert a\rangle.

由边际概率构成的 $\mathsf{X}$ 的边际概率向量。

\vert \pi_a \rangle = \frac{\sum_{b\in\Gamma}p_{ab}\vert b\rangle}{\sum_{c\in\Gamma} p_{ac}}.

核心公式：计算测量后 $\mathsf{Y}$ 的条件概率向量。

它完美地复刻了条件概率定义 $P(Y=b|X=a) = P(X=a, Y=b) / P(X=a)$ 。
分子中的 $|b\rangle$ 前的系数 $p_{ab}$ 就是 $P(X=a, Y=b)$ 。
分母就是 $P(X=a)$ 。
所以，最终 $|\pi_a\rangle$ 在基 $|b\rangle$ 上的系数就是 $p_{ab}/\sum_c p_{ac}$ ，这正是 $\operatorname{Pr}(\mathsf{Y}=b|\mathsf{X}=a)$ 。

💡 [数值示例]

示例: 相关的双胞胎状态

联合向量: $|\psi\rangle = \frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。 ( $p_{00}=1/2, p_{11}=1/2$ , 其他为0)
测量 $\mathsf{X}$ 并得到结果 0:
测量概率: $\operatorname{Pr}(\mathsf{X}=0) = p_{00}+p_{01} = 1/2+0 = 1/2$ 。
更新 $\mathsf{Y}$ 的状态:

$|\pi_0\rangle = \frac{p_{00}|0\rangle_Y + p_{01}|1\rangle_Y}{\operatorname{Pr}(\mathsf{X}=0)} = \frac{\frac{1}{2}|0\rangle_Y + 0|1\rangle_Y}{1/2} = 1|0\rangle_Y = |0\rangle_Y$ 。

$\mathsf{Y}$ 的新状态是确定的 $|0\rangle$ 。
更新联合状态: 新的联合状态是 $|0\rangle_X \otimes |\pi_0\rangle = |0\rangle_X \otimes |0\rangle_Y = |00\rangle$ 。这与我们的直觉完全相符：测量后系统塌缩到了 00 这个状态。
示例: 不完全相关状态

联合向量: $|\psi\rangle=0.4|00\rangle+0.1|01\rangle+0.2|10\rangle+0.3|11\rangle$ 。
测量 $\mathsf{X}$ 并得到结果 0:
测量概率: $\operatorname{Pr}(\mathsf{X}=0) = 0.4+0.1=0.5$ 。
更新 $\mathsf{Y}$ 的状态:

$|\pi_0\rangle = \frac{p_{00}|0\rangle_Y + p_{01}|1\rangle_Y}{0.5} = \frac{0.4|0\rangle_Y + 0.1|1\rangle_Y}{0.5} = 0.8|0\rangle_Y + 0.2|1\rangle_Y$ 。

$\mathsf{Y}$ 的新状态是一个概率状态，有80%可能是0，20%可能是1。
更新联合状态: 新的联合状态是 $|0\rangle_X \otimes (0.8|0\rangle_Y + 0.2|1\rangle_Y) = 0.8|00\rangle + 0.2|01\rangle$ 。

⚠️ [易错点]

易错点：忘记归一化。分子 $\sum p_{ab}|b\rangle$ 是一个“准状态”，但不是合法的概率向量。必须除以分母（测量概率）来进行归一化，使其系数和为1。
易错点：更新后的联合状态。测量后，系统的状态变为乘积态 $|a\rangle \otimes |\pi_a\rangle$ 。原先的相关性在测量动作中被破坏了。

📝 [总结]

本段将经典的部分测量过程完全“翻译”成了向量语言。它给出了一个操作流程：

从联合概率向量 $|\psi\rangle$ 出发。
通过对系数求和，计算出测量某个子系统 $\mathsf{X}$ 得到结果 $a$ 的边际概率 $\operatorname{Pr}(\mathsf{X}=a)$ 。
通过“切片”和“归一化”，计算出另一个子系统 $\mathsf{Y}$ 的条件概率向量 $|\pi_a\rangle$ 。
最终，整个系统在测量后的新状态是一个乘积态 $|a\rangle \otimes |\pi_a\rangle$ 。

🎯 [存在目的]

本段的目的是提供一个可操作的、基于线性代数的算法来模拟部分测量过程。这套流程是量子力学中著名的投影测量 (Projective Measurement) 规则的经典版本。理解这个经典版本如何通过“切片”和“归一化”来更新状态，将极大地帮助我们理解量子测量是如何通过“投影”和“归一化”来使波函数“塌缩”的。

🧠 [直觉心智模型]

这就像给一堆混合物做筛选。

联合向量 $|\psi\rangle$ : 一大堆沙子，里面混着不同大小的铁珠和铜珠。
测量 $\mathsf{X}$ : 用一块巨大的磁铁去吸。 $\mathsf{X}$ 的“状态”是材质（铁/铜）。
得到结果铁: 磁铁吸上来了一堆铁珠。
边际概率 $\operatorname{Pr}(\text{铁})$ : 吸上来的铁珠的总重量占原来混合物总重量的比例。
条件概率向量 $|\pi_{\text{铁}}\rangle$ : 吸上来的这堆铁珠里，大珠子和小珠子的比例（新的概率分布）。
归一化: 就是计算这个“比例”的过程。比如，吸上来了3kg大铁珠和1kg小铁珠，总共4kg铁珠。那么大铁珠的条件概率就是 $3/4=0.75$ 。
更新联合状态: 测量后，你手里有一堆确定的“铁珠”，其大小分布是 $|\pi_{\text{铁}}\rangle$ 。你手里的东西和原来没被吸上来的铜珠（以及还在混合物里的其他东西）就没有关系了。

💭 [直观想象]

回到交叉分析表。

	支持A	支持B	总计
年轻人	400	100	500
老年人	200	300	500

联合向量: 整张表格的数据。
测量年龄，得到 年轻人: 你的目光锁定在了“年轻人”这一行。
边际概率: 这一行的总人数500，占总数1000的比例是0.5。
条件概率向量: 在“年轻人”这一行里，支持A和支持B的人数比例是 400:100，即 4:1。归一化后，概率是 (0.8, 0.2)。
更新联合状态: 测量后的新状态，就是“年龄”确定为年轻人，而“支持谁”的概率分布是 (0.8, 0.2)。

📜 [原文37]

思考 $\vert\pi_a\rangle$ 定义的一种方式是将其视为向量 $\sum_{b\in\Gamma} p_{ab} \vert b\rangle$ 的归一化，我们将其除以该向量中条目的总和以获得一个概率向量。

这种归一化有效地解释了对 $\mathsf{X}$ 的测量已导致结果 $a$ 这一事件的条件化。

举一个具体的例子，假设 $\mathsf{X}$ 的经典状态集为 $\Sigma = \{0,1\}$ ， $\mathsf{Y}$ 的经典状态集为 $\Gamma = \{1,2,3\}$ ，且 $(\mathsf{X},\mathsf{Y})$ 的概率状态为

\vert \psi \rangle = \frac{1}{2} \vert 0,1 \rangle + \frac{1}{12} \vert 0,3 \rangle + \frac{1}{12} \vert 1,1 \rangle + \frac{1}{6} \vert 1,2 \rangle + \frac{1}{6} \vert 1,3 \rangle.

我们的目标是确定两个可能结果（ $0$ 和 $1$ ）的概率，并在假设系统 $\mathsf{X}$ 被测量的情况下，计算两个结果所导致的 $\mathsf{Y}$ 的概率状态。

📖 [逐步解释]

这部分首先对条件概率向量的计算做了一个总结性的诠释，然后设置了一个新的、更复杂的数值例子来演练整个部分测量过程。

“思考 $|\pi_a\rangle$ 定义的一种方式是...归一化”:
这里把上一节的核心公式 $|\pi_a\rangle = \frac{\text{分子}}{\text{分母}}$ 的计算过程，分解为两个概念性步骤：

“切片”: 先从联合概率向量 $|\psi\rangle$ 中，把所有与测量结果 $\mathsf{X}=a$ 相关的部分提取出来，形成一个中间向量 $\sum_{b\in\Gamma} p_{ab}|b\rangle$ 。这个向量包含了所有关于 $\mathsf{Y}$ 在新条件下的“原始”信息。
归一化 (Normalization): 这个“切片”出来的向量，其系数之和（即 $\sum_b p_{ab}$）通常不为1，所以它不是一个合法的概率向量。我们需要把它除以它的“总长度”（即所有系数之和），使其“收缩”或“放大”成一个总长度为1的概率向量。这个“除以总长度”的动作就是归一化。
- “这种归一化有效地解释了...条件化”:
- 条件化 (Conditioning) 是概率论中的概念，就是我们前面说的，将样本空间缩小到某个已发生的事件上。
- 这句话说，数学上的归一化操作，其物理和概率意义，正是在进行条件化。两者是同一件事的不同表述。
- “举一个具体的例子...”:
- 设定了一个新的场景，不再是两个比特。
- $\mathsf{X}$ 是一个比特，状态集 $\Sigma=\{0,1\}$ 。
- $\mathsf{Y}$ 是一个三态系统 (trit)，状态集 $\Gamma=\{1,2,3\}$ 。
- 联合状态空间 $\Sigma \times \Gamma$ 共有 $2 \times 3 = 6$ 个状态，排序为 01, 02, 03, 11, 12, 13 (这里用了 $|a,b\rangle$ 的写法，与 $|ab\rangle$ 等价)。
- 给出了联合概率向量 $|\psi\rangle$ :
- $p_{01}=1/2, p_{02}=0, p_{03}=1/12, p_{11}=1/12, p_{12}=1/6, p_{13}=1/6$ 。
- 我们可以检验一下总概率： $1/2 + 1/12 + 1/12 + 1/6 + 1/6 = 6/12 + 1/12 + 1/12 + 2/12 + 2/12 = 12/12 = 1$ 。这是一个有效的概率向量。
- “我们的目标是...”: 明确了要用这个例子解决的两个问题：
测量 $\mathsf{X}$ 时，得到 0 和 1 的概率分别是多少？ (计算边际概率)
如果测到 0， $\mathsf{Y}$ 的新状态是什么？如果测到 1， $\mathsf{Y}$ 的新状态又是什么？ (计算条件概率向量)

∑ [公式拆解]

\vert \psi \rangle = \frac{1}{2} \vert 0,1 \rangle + \frac{1}{12} \vert 0,3 \rangle + \frac{1}{12} \vert 1,1 \rangle + \frac{1}{6} \vert 1,2 \rangle + \frac{1}{6} \vert 1,3 \rangle.

这是一个6维的概率向量。

基向量 $|0,1\rangle$ 对应字母顺序中的 01。
这个表达式省略了系数为0的项，即 $|0,2\rangle$ 。
对应的列向量（假设排序为 01,02,03,11,12,13）是 $\begin{pmatrix} 1/2, 0, 1/12, 1/12, 1/6, 1/6 \end{pmatrix}^T$ 。

💡 [数值示例]

本段的核心就是一个待解决的数值示例，我们将在下一段跟随原文对其进行解答。

⚠️ [易错点]

易错点：向量空间的维度。这个问题中， $\mathsf{X}$ 的空间是2维， $\mathsf{Y}$ 的空间是3维，因此联合空间是6维。在计算时要时刻清楚每个向量属于哪个空间，维度是多少。 $|\pi_a\rangle$ 是一个3维向量。
易错点：基向量的标签。这里 $\mathsf{Y}$ 的状态是 {1,2,3}，所以它的基是 $|1\rangle, |2\rangle, |3\rangle$ ，而不是从0开始。计算时要注意标签的对应。

📝 [总结]

本段首先将条件概率向量的计算过程，精辟地总结为“切片”和“归一化”两个步骤，并将其与概率论中的“条件化”概念等同起来。然后，它提出了一个由一个比特和一个三态系统组成的、更复杂的部分测量问题，并明确了求解目标，为接下来的具体计算做好了铺垫。

🎯 [存在目的]

本段的目的是通过诠释和设例，进一步深化对部分测量计算流程的理解。将计算过程抽象为“切片+归一化”，有助于形成更清晰的算法思路。而引入一个非对称的、更复杂的例子，旨在检验学习者是否能将之前学到的规则应用到新的、不熟悉的情境中，从而巩固和泛化所学知识。

🧠 [直觉心智模型]

“切片+归一化”就像是从一大块蛋糕上切下一块，然后想知道这块小蛋糕里各种成分的比例。

联合向量: 整块大蛋糕，由面粉、糖、黄油等按一定比例混合制成。
测量 $\mathsf{X}$ 得到 $a$ : 你沿着某个标记线 $a$ 切了一刀，取出了一小块蛋糕。这个动作就是“切片”。
切片出的向量 $\sum p_{ab}|b\rangle$ : 你手里的这块小蛋糕。它包含了面粉、糖、黄油，但它的总重量（ $\sum p_{ab}$ ）只是原来大蛋糕的一部分。
归一化: 你想知道你手里这块小蛋糕本身的成分比例。于是你称了它的总重量（分母），然后分别称了其中面粉、糖、黄油的重量，再用这些重量除以总重量，就得到了新的比例（条件概率向量 $|\pi_a\rangle$ ）。

💭 [直观想象]

想象一份全国人口数据表格。

联合向量: 完整的表格。
测量 $\mathsf{X}$ (省份) 得到广东: 你筛选了表格，只留下了“省份”列是“广东”的所有行。这个筛选动作就是“切片”。
切片出的向量: 这张只包含广东人的新表格。
归一化: 你想知道“广东省内，男女比例是多少？”。你数了这张新表里男性的总数和女性的总数，然后分别除以广东省的总人口，就得到了广东省内的男女比例。这个计算过程就是归一化，得到的就是条件概率。

📜 [原文38]

利用张量积的双线性，特别是它在第二个参数上是线性的这一事实，我们可以将向量 $\vert \psi \rangle$ 重写如下：

\vert \psi \rangle = \vert 0\rangle \otimes \biggl( \frac{1}{2} \vert 1 \rangle + \frac{1}{12} \vert 3 \rangle\biggr) + \vert 1\rangle \otimes \biggl( \frac{1}{12} \vert 1 \rangle + \frac{1}{6} \vert 2\rangle + \frac{1}{6} \vert 3 \rangle\biggr).

简而言之，我们所做的是分离出第一个系统（即被测量的那个系统）的不同标准基向量，将每一个与第二个系统的标准基向量的线性组合进行张量积运算，这个组合是通过挑选出与第一个系统的相应经典状态一致的原始向量条目而得到的。

稍加思考就会发现，无论我们从哪个向量开始，这总是可能的。

📖 [逐步解释]

这部分介绍了一种非常巧妙且强大的代数技巧，来重新组织联合概率向量，从而使部分测量的计算变得异常直观。

“利用张量积的双线性...”: 点明了所用工具的理论基础。
“特别是它在第二个参数上是线性的”: 这里的描述略有误导，实际上这个技巧同时利用了张量积对第一个和第二个参数的线性，更准确地说是利用了分配律。
公式重写:
原文的 $|\psi\rangle = \frac{1}{2}|0,1\rangle + \frac{1}{12}|0,3\rangle + \frac{1}{12}|1,1\rangle + \dots$
可以利用 $|ab\rangle = |a\rangle\otimes|b\rangle$ 改写为：

$|\psi\rangle = \frac{1}{2}|0\rangle\otimes|1\rangle + \frac{1}{12}|0\rangle\otimes|3\rangle + \frac{1}{12}|1\rangle\otimes|1\rangle + \frac{1}{6}|1\rangle\otimes|2\rangle + \frac{1}{6}|1\rangle\otimes|3\rangle$

现在，把所有第一个向量是 $|0\rangle$ 的项合并在一起，利用张量积的右分配律 ( $A\otimes C + B\otimes C = (A+B)\otimes C$ 是错的，应该是 $A\otimes C + A\otimes D = A\otimes(C+D)$ )。
合并 $|0\rangle$ 项:

$\frac{1}{2}|0\rangle\otimes|1\rangle + \frac{1}{12}|0\rangle\otimes|3\rangle = |0\rangle \otimes (\frac{1}{2}|1\rangle + \frac{1}{12}|3\rangle)$

合并 $|1\rangle$ 项:

$\frac{1}{12}|1\rangle\otimes|1\rangle + \frac{1}{6}|1\rangle\otimes|2\rangle + \frac{1}{6}|1\rangle\otimes|3\rangle = |1\rangle \otimes (\frac{1}{12}|1\rangle + \frac{1}{6}|2\rangle + \frac{1}{6}|3\rangle)$

把这两大块加起来，就得到了文中给出的重写形式。
“简而言之，我们所做的是分离出第一个系统的...标准基向量”: 这就是该技巧的核心思想。把联合向量 $|\psi\rangle$ 重新组织成这样的形式：

$|\psi\rangle = |0\rangle_X \otimes |\text{vec}_0\rangle_Y + |1\rangle_X \otimes |\text{vec}_1\rangle_Y + \dots$

其中，|0>_X 和 |1>_X 是被测系统 $\mathsf{X}$ 的基向量。而 $|\text{vec}_0\rangle_Y$ 和 $|\text{vec}_1\rangle_Y$ 是在未被测量的系统 $\mathsf{Y}$ 的空间中的（通常未归一化的）向量。

“...这个组合是通过挑选出...原始向量条目而得到的”: 解释了如何得到那些 $|\text{vec}_i\rangle$ 。
$|\text{vec}_0\rangle_Y$ 的系数，就是原始联合向量中，所有以 0开头的状态（如 01, 03）的系数。
$|\text{vec}_1\rangle_Y$ 的系数，就是原始联合向量中，所有以 1开头的状态（如 11,12,13）的系数。
这正是我们之前说的“切片”操作的代数体现！
“无论我们从哪个向量开始，这总是可能的”: 这是一个普遍性声明。任何一个联合向量，都可以按照被测系统的基，写成这种“求和的张量积”形式。

∑ [公式拆解]

\vert \psi \rangle = \vert 0\rangle \otimes \biggl( \frac{1}{2} \vert 1 \rangle + \frac{1}{12} \vert 3 \rangle\biggr) + \vert 1\rangle \otimes \biggl( \frac{1}{12} \vert 1 \rangle + \frac{1}{6} \vert 2\rangle + \frac{1}{6} \vert 3 \rangle\biggr).

这是一个非常有用的表示形式，也称为施密特分解 (Schmidt Decomposition) 的预备形式（对于纯态）。

$|0\rangle \otimes (\dots)$ : 这一整块，包含了所有测量 $\mathsf{X}$ 得到 0 的可能性。
$|1\rangle \otimes (\dots)$ : 这一整块，包含了所有测量 $\mathsf{X}$ 得到 1 的可能性。
括号里的向量 $\biggl( \frac{1}{2} \vert 1 \rangle + \frac{1}{12} \vert 3 \rangle\biggr)$ 正是我们之前定义的“切片”出来的未归一化向量 $\sum_b p_{0b}|b\rangle$ 。
另一个括号里的向量 $\biggl( \frac{1}{12} \vert 1 \rangle + \frac{1}{6} \vert 2\rangle + \frac{1}{6} \vert 3 \rangle\biggr)$ 则是 $\sum_b p_{1b}|b\rangle$ 。

💡 [数值示例]

示例: 双胞胎状态
$|\psi\rangle = \frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$
重写:

$|\psi\rangle = |0\rangle \otimes (\frac{1}{2}|0\rangle) + |1\rangle \otimes (\frac{1}{2}|1\rangle)$ 。

这个形式非常清晰地显示了：如果测 $\mathsf{X}$ 得 0，则 $\mathsf{Y}$ 处于 $(\frac{1}{2}|0\rangle)$ 这个（未归一化的）状态。如果测 $\mathsf{X}$ 得 1，则 $\mathsf{Y}$ 处于 $(\frac{1}{2}|1\rangle)$ 这个状态。

⚠️ [易错点]

易错点：认为括号里的向量是概率向量。在归一化之前，它们不是！它们的系数和（即范数的平方，对于量子态）等于测量到对应结果的边际概率。
易错点：错误的分配律。再次强调，不能写成 $(|0\rangle+|1\rangle) \otimes (\dots)$ 。张量积只对加法有分配律，但向量的加法和张量积不能随意交换。

📝 [总结]

本段介绍了一种极其有用的代数技巧：通过利用张量积的双线性，可以将任何一个联合状态向量 $|\psi\rangle$ 重写为 $\sum_a |a\rangle_X \otimes |\text{vec}_a\rangle_Y$ 的形式。其中 $|a\rangle_X$ 是被测系统的基，而 $|\text{vec}_a\rangle_Y$ 是一个未归一化的、包含了所有条件化信息的向量。这种形式将联合向量巧妙地“解耦”，使得部分测量的分析变得非常直观。

🎯 [存在目的]

本段的目的是展示一个更优雅、更“物理”的视角来看待部分测量。相比于之前那种按部就班的“算系数、求和、做除法”的流程，这种代数重写的方法，让我们能直接从状态向量的结构中“看”出测量的各种可能性及其后果。这在量子力学中是至关重要的技能，因为量子态的演化和测量很大程度上就是对其状态向量的代数操作。

🧠 [直觉心智模型]

这就像整理一个大书架。

联合向量 $|\psi\rangle$ : 整个书架，书是乱序的。
重写操作: 你按“作者姓氏的首字母”来重新整理书架。
结果:
$|A\rangle \otimes (\text{所有A作者的书})$ : 书架的第一区，标签是'A'，里面放着所有A开头的作者的书。括号里的向量就是这个区里所有书的列表。
$|B\rangle \otimes (\text{所有B作者的书})$ : 书架的第二区...
等等。
通过这种方式，你把一个混乱的书架，变成了结构清晰的、按作者首字母组织的区域。现在如果你想找某本书，或者分析某个作者的作品，就变得非常容易了。这个整理的过程，就是代数重写的过程。

💭 [直观想象]

想象你在用Excel的数据透视表功能。

联合向量: 一张巨大的流水账表格（日期，商品，价格，数量...）。
重写操作: 你想按“商品类别”来分析数据。你把“商品类别”（如“电子产品”、“服装”）作为行标签。
结果: Excel自动生成一张新表。
电子产品 ⊗ (所有电子产品的销售数据): 在“电子产品”这一行，汇总了所有相关的销售额、数量等信息。括号里的向量就是这些汇总信息的集合。
服装 ⊗ (所有服装的销售数据): 在“服装”这一行...
这个数据透视表，就是对原始数据流的一种结构化重写。它没有改变任何数据，只是用一种新的、更有条理的方式来呈现它，使得后续分析（如计算每个品类的总销售额）变得轻而易举。

📜 [原文39]

通过这种方式表达我们的概率向量，测量第一个系统的效果就变得容易分析了。

两个结果的概率可以通过将括号中的概率求和得到。

\begin{aligned} \operatorname{Pr}(\mathsf{X} = 0) & = \frac{1}{2} + \frac{1}{12} = \frac{7}{12}\\[3mm] \operatorname{Pr}(\mathsf{X} = 1) & = \frac{1}{12} + \frac{1}{6} + \frac{1}{6} = \frac{5}{12} \end{aligned}

这些概率的和为一，正如预期的那样——但这是对我们计算的一个有用检查。

现在，对于每个可能结果的 $\mathsf{Y}$ 的条件概率状态可以通过将括号中的向量归一化来推断。

也就是说，我们将这些向量除以我们刚才计算的相关概率，使它们成为概率向量。

📖 [逐步解释]

这部分利用了上一段重写后的向量形式，来实际计算部分测量的概率和测量后的状态。

“通过这种方式表达...效果就变得容易分析了”: 强调了代数重写的优越性。
“两个结果的概率可以通过将括号中的概率求和得到”:
回顾重写形式: $|\psi\rangle = |0\rangle \otimes |\text{vec}_0\rangle + |1\rangle \otimes |\text{vec}_1\rangle$
$|\text{vec}_0\rangle = \frac{1}{2}|1\rangle + \frac{1}{12}|3\rangle$
$|\text{vec}_1\rangle = \frac{1}{12}|1\rangle + \frac{1}{6}|2\rangle + \frac{1}{6}|3\rangle$
测量 $\mathsf{X}$ 得到 0 的概率，就是与 $|0\rangle$ 配对的那个向量 $|\text{vec}_0\rangle$ 的所有系数之和。
$\operatorname{Pr}(\mathsf{X}=0) = (\text{vec}_0 \text{的系数和}) = 1/2 + 1/12 = 7/12$ 。
这和我们之前定义的边际概率 $\sum_c p_{0c}$ 是一回事，因为 $|\text{vec}_0\rangle$ 的系数正是 $p_{01}, p_{02}, p_{03}, \dots$ 。
计算结果:
$\operatorname{Pr}(\mathsf{X}=0)$ 被正确计算为 $7/12$ 。
$\operatorname{Pr}(\mathsf{X}=1)$ 是 $|\text{vec}_1\rangle$ 的系数和: $1/12 + 1/6 + 1/6 = 1/12 + 2/12 + 2/12 = 5/12$ 。
“这些概率的和为一...一个有用检查”:
$7/12 + 5/12 = 12/12 = 1$ 。
这个检查非常重要，它能帮你发现计算中的低级错误。如果加起来不为1，说明你之前的边际概率计算肯定有误。
“现在，对于...条件概率状态可以通过将括号中的向量归一化来推断”:
这正是我们之前总结的“切片+归一化”流程的第二步。
括号里的向量 $|\text{vec}_a\rangle$ 就是“切片”。
我们刚算出的边际概率 $\operatorname{Pr}(\mathsf{X}=a)$ 就是用来归一化的那个分母。
“也就是说，我们将这些向量除以我们刚才计算的相关概率...”:
$\mathsf{Y}$ 在测得 $\mathsf{X}=0$ 后的新状态是： $|\pi_0\rangle = \frac{|\text{vec}_0\rangle}{\operatorname{Pr}(\mathsf{X}=0)}$ 。
$\mathsf{Y}$ 在测得 $\mathsf{X}=1$ 后的新状态是： $|\pi_1\rangle = \frac{|\text{vec}_1\rangle}{\operatorname{Pr}(\mathsf{X}=1)}$ 。

∑ [公式拆解]

\begin{aligned} \operatorname{Pr}(\mathsf{X} = 0) & = \frac{1}{2} + \frac{1}{12} = \frac{7}{12}\\[3mm] \operatorname{Pr}(\mathsf{X} = 1) & = \frac{1}{12} + \frac{1}{6} + \frac{1}{6} = \frac{5}{12} \end{aligned}

这是对边际概率的具体计算。

1/2 + 1/12 是向量 $(\frac{1}{2}|1\rangle + \frac{1}{12}|3\rangle)$ 的系数之和。
1/12 + 1/6 + 1/6 是向量 $(\frac{1}{12}|1\rangle + \frac{1}{6}|2\rangle + \frac{1}{6}|3\rangle)$ 的系数之和。
通分计算：
$1/2 + 1/12 = 6/12 + 1/12 = 7/12$ 。
$1/12 + 1/6 + 1/6 = 1/12 + 2/12 + 2/12 = 5/12$ 。

💡 [数值示例]

本段和下一段是连贯的，下一段会完成本例的计算。我们用双胞胎状态来演练本段的计算。

状态: $|\psi\rangle = |0\rangle \otimes (\frac{1}{2}|0\rangle) + |1\rangle \otimes (\frac{1}{2}|1\rangle)$ 。
计算测量概率:
$\operatorname{Pr}(\mathsf{X}=0) = (\text{与}|0\rangle\text{配对的向量的系数和}) = 1/2$ 。
$\operatorname{Pr}(\mathsf{X}=1) = (\text{与}|1\rangle\text{配对的向量的系数和}) = 1/2$ 。
检查: $1/2 + 1/2 = 1$ 。正确。

⚠️ [易错点]

易错点：看错系数。在从重写后的向量中提取系数求和时，一定要仔细，不要漏项或加错项。
易错点：通分计算错误。这是小学数学问题，但在复杂计算中也容易出错，是检查的重点。

📝 [总结]

本段演示了如何利用代数重写后的联合状态向量，来轻松地完成部分测量的第一步：计算测量结果的边际概率。其方法是：与被测系统某个基向量 $|a\rangle$ 相配对的那个子向量 $|\text{vec}_a\rangle$ 的所有系数之和，就是测得结果 $a$ 的概率。

🎯 [存在目的]

本段的目的是将上一段介绍的代数技巧付诸实践，展示其在简化计算方面的威力。它将一个看似复杂的“对高维向量按列求和”的过程，转化为了一个直观的“对低维向量求系数和”的过程，让整个计算流程更加清晰和不易出错。

🧠 [直觉心智模型]

回到“数据透视表”的模型。

重写的向量: 已经生成好的数据透视表。
行 "电子产品": (销售额1, 销售额2, ...)
行 "服装": (销售额A, 销售额B, ...)
计算边际概率: 计算“电子产品”这一大类的总销售额占全部销售额的比例。
本段的方法: 你不需要回到原始流水账里去一行行加了。你直接在数据透视表的“电子产品”这一行，把已经汇总好的各项销售额加起来，就得到了电子产品的总销售额。这个过程显然更简单。

💭 [直观想象]

想象你整理好的那个书架。

重写的向量: 按作者首字母分好区的书架。
**计算边-

际概率**: 你想知道首字母是'A'的作者的书，占整个书架的百分比。

本段的方法: 你只需要走到'A'区，数数这个区里有多少本书，然后除以书架上的总书数。你不需要再像以前一样，从整个乱糟糟的书架上把A作者的书一本本挑出来数。整理（代数重写）带来的便利性在此体现得淋漓尽致。

📜 [原文40]

因此，在条件于 $\mathsf{X}$ 为 $0$ 的情况下， $\mathsf{Y}$ 的概率状态变为

\frac{\frac{1}{2} \vert 1 \rangle + \frac{1}{12} \vert 3 \rangle}{\frac{7}{12}} = \frac{6}{7} \vert 1 \rangle + \frac{1}{7} \vert 3 \rangle,

而在条件于 $\mathsf{X}$ 的测量结果为 $1$ 的情况下， $\mathsf{Y}$ 的概率状态变为

\frac{\frac{1}{12} \vert 1 \rangle + \frac{1}{6} \vert 2\rangle + \frac{1}{6} \vert 3 \rangle}{\frac{5}{12}} = \frac{1}{5} \vert 1 \rangle + \frac{2}{5} \vert 2 \rangle + \frac{2}{5} \vert 3 \rangle.

📖 [逐步解释]

这部分完成了部分测量例子的最后一步：计算测量后 $\mathsf{Y}$ 的条件概率向量。

“因此，在条件于 $\mathsf{X}$ 为 $0$ 的情况下...”:
这个条件告诉我们，现在要计算的是 $|\pi_0\rangle$ 。
公式: $|\pi_0\rangle = \frac{|\text{vec}_0\rangle}{\operatorname{Pr}(\mathsf{X}=0)}$ 。
我们已经知道 $|\text{vec}_0\rangle = \frac{1}{2}|1\rangle + \frac{1}{12}|3\rangle$ ，以及 $\operatorname{Pr}(\mathsf{X}=0) = 7/12$ 。
代入计算:

$|\pi_0\rangle = \frac{\frac{1}{2}|1\rangle + \frac{1}{12}|3\rangle}{7/12} = (\frac{1}{2} \div \frac{7}{12})|1\rangle + (\frac{1}{12} \div \frac{7}{12})|3\rangle$

$= (\frac{1}{2} \times \frac{12}{7})|1\rangle + (\frac{1}{12} \times \frac{12}{7})|3\rangle$

$= \frac{6}{7}|1\rangle + \frac{1}{7}|3\rangle$ 。

结果解读: 如果测得 $\mathsf{X}=0$ ，那么 $\mathsf{Y}$ 的状态会塌缩到一个新的概率状态：它有 $6/7$ 的概率是状态 1，有 $1/7$ 的概率是状态 3，绝对不可能是状态 2。
“而在条件于 $\mathsf{X}$ 的测量结果为 $1$ 的情况下...”:
现在计算 $|\pi_1\rangle = \frac{|\text{vec}_1\rangle}{\operatorname{Pr}(\mathsf{X}=1)}$ 。
我们有 $|\text{vec}_1\rangle = \frac{1}{12}|1\rangle + \frac{1}{6}|2\rangle + \frac{1}{6}|3\rangle$ 和 $\operatorname{Pr}(\mathsf{X}=1) = 5/12$ 。
代入计算:

$|\pi_1\rangle = \frac{\frac{1}{12}|1\rangle + \frac{1}{6}|2\rangle + \frac{1}{6}|3\rangle}{5/12}$

$= (\frac{1}{12} \times \frac{12}{5})|1\rangle + (\frac{1}{6} \times \frac{12}{5})|2\rangle + (\frac{1}{6} \times \frac{12}{5})|3\rangle$

$= \frac{1}{5}|1\rangle + \frac{2}{5}|2\rangle + \frac{2}{5}|3\rangle$ 。

结果解读: 如果测得 $\mathsf{X}=1$ ，那么 $\mathsf{Y}$ 的状态会塌缩到另一个概率状态：它有 $1/5$ 的概率是 1， $2/5$ 的概率是 2， $2/5$ 的概率是 3。

∑ [公式拆解]

这两个公式都是条件概率向量定义的直接应用和计算。

\frac{\frac{1}{2} \vert 1 \rangle + \frac{1}{12} \vert 3 \rangle}{\frac{7}{12}} = \frac{6}{7} \vert 1 \rangle + \frac{1}{7} \vert 3 \rangle

这里除法的意思是将分子中向量的每个系数都除以分母的标量。

$|1\rangle$ 的系数: $(1/2) / (7/12) = 1/2 \times 12/7 = 6/7$ 。
$|3\rangle$ 的系数: $(1/12) / (7/12) = 1/12 \times 12/7 = 1/7$ 。
我们可以检查新的概率向量系数和是否为1: $6/7 + 1/7 = 7/7 = 1$ 。正确。

\frac{\frac{1}{12} \vert 1 \rangle + \frac{1}{6} \vert 2\rangle + \frac{1}{6} \vert 3 \rangle}{\frac{5}{12}} = \frac{1}{5} \vert 1 \rangle + \frac{2}{5} \vert 2 \rangle + \frac{2}{5} \vert 3 \rangle.

$|1\rangle$ 的系数: $(1/12) / (5/12) = 1/5$ 。
$|2\rangle$ 的系数: $(1/6) / (5/12) = 1/6 \times 12/5 = 2/5$ 。
$|3\rangle$ 的系数: $(1/6) / (5/12) = 2/5$ 。
检查系数和: $1/5 + 2/5 + 2/5 = 5/5 = 1$ 。正确。

💡 [数值示例]

本段本身就是对之前例子的完整解答。我们把之前双胞胎状态的例子也计算完整。

状态: $|\psi\rangle = |0\rangle \otimes (\frac{1}{2}|0\rangle) + |1\rangle \otimes (\frac{1}{2}|1\rangle)$ 。
测量 $\mathsf{X}$ 得到 0:
测量概率: $\operatorname{Pr}(\mathsf{X}=0) = 1/2$ 。
$\mathsf{Y}$ 的新状态: $|\pi_0\rangle = \frac{\frac{1}{2}|0\rangle}{1/2} = |0\rangle$ 。
测量 $\mathsf{X}$ 得到 1:
测量概率: $\operatorname{Pr}(\mathsf{X}=1) = 1/2$ 。
$\mathsf{Y}$ 的新状态: $|\pi_1\rangle = \frac{\frac{1}{2}|1\rangle}{1/2} = |1\rangle$ 。
结论: 对于这个完美相关的状态，对一个系统的测量会完全消除另一个系统的不确定性，使其塌缩到一个确定的状态。

⚠️ [易错点]

易错点：分数除法计算错误。这是本节计算中最容易出错的地方。记住“除以一个数等于乘以它的倒数”。
易错点：忘记检查新向量的系数和。计算完条件概率向量后，一定要检查一下所有系数加起来是不是1。如果不是1，说明你的计算（分子或分母）肯定有错。

📝 [总结]

本段完整地执行了部分测量的第二步——状态更新。通过将之前代数重写得到的“切片”向量，除以对应的边际概率（即进行归一化），我们成功地计算出了在不同测量结果下，未测量系统 $\mathsf{Y}$ 的新的条件概率向量。这个过程清晰地展示了测量一个子系统是如何改变我们对另一个子系统状态的知识的。

🎯 [存在目的]

本段的目的是通过一个完整的、非平凡的计算，让学习者熟练掌握部分测量的全过程。它将前面所有抽象的公式和技巧都落实到了具体的数字上，将“切片+归一化”的思想转化为了实际的计算步骤。掌握这个计算过程，对于理解量子测量、密度矩阵的演化以及量子信息处理至关重要。

🧠 [直觉心智模型]

回到“筛选混合物”的模型。

原始混合物: 沙子、铁珠、铜珠。
用磁铁吸，吸上来了铁珠:
吸上来的这堆铁珠（未归一化向量）里，有3kg大珠子，1kg小珠子。总重4kg。
归一化: 计算这堆铁珠内部的成分比例。
大珠子比例: $3\text{kg} / 4\text{kg} = 0.75$ 。
小珠子比例: $1\text{kg} / 4\text{kg} = 0.25$ 。
条件概率向量: 我们对这堆铁珠大小的描述就是 $(0.75, 0.25)$ 。
本段的计算，就是在做这个“计算内部成分比例”的工作。

💭 [直观想象]

回到“选民调查”的表格。

	支持A	支持B
年轻人	400	100

筛选出 年轻人: 我们得到了这一行数据 (400, 100)。这是“切片”向量。
归一化: 这一行的总数是500。
支持A的比例: $400 / 500 = 0.8$ 。
支持B的比例: $100 / 500 = 0.2$ 。
条件概率向量: 描述“年轻人”这个群体政治倾向的概率向量就是 $(0.8, 0.2)$ 。

1.4 概率状态上的操作

📜 [原文41]

为了结束关于多系统的经典信息的讨论，我们将考虑处于概率状态下的多系统上的操作。

遵循与之前相同的思路，我们可以将多系统集体视为单一的复合系统，然后参考上一课来看看这是如何运作的。

回到典型的设置，即我们有两个系统 $\mathsf{X}$ and $\mathsf{Y}$ ，让我们考虑复合系统 $(\mathsf{X},\mathsf{Y})$ 上的经典操作。

基于上一课和上面的讨论，我们得出结论，任何此类操作都由一个随机矩阵表示，其行和列由笛卡尔积 $\Sigma\times\Gamma$ 索引。

📖 [逐步解释]

这部分开启了本课最后一个大主题：如何在多系统上执行操作 (Operations)。

“为了结束...我们将考虑...操作”: 这是一个内容过渡，从“状态描述和测量”转向“状态演化”。
“遵循与之前相同的思路，我们可以将多系统集体视为单一的复合系统”: 再次强调了本课的核心方法论。既然我们已经把多系统的状态用一个单一的联合概率向量来表示，那么对这个多系统施加一个操作，就等价于对这个单一的联合向量施加一个操作。
“...然后参考上一课来看看这是如何运作的”: 这提示我们，描述操作的数学工具在上一课已经学过了。
上一课回顾: 对一个单一系统的概率状态（由一个概率向量表示）进行操作，是用一个随机矩阵 (Stochastic Matrix) 左乘这个概率向量。
随机矩阵: 一个方阵，其所有元素都是非负实数，并且每一列的元素之和都等于1。
“回到典型的设置...考虑复合系统...上的经典操作”: 将上一课的规则应用到我们现在的2-系统模型上。
“...任何此类操作都由一个随机矩阵表示，其行和列由笛卡尔积 $\Sigma\times\Gamma$ 索引”: 这是本段的核心结论。
操作由随机矩阵表示。
这个随机矩阵的大小，是由复合系统的状态空间大小决定的。
如果 $\mathsf{X}$ 有 $m$ 个状态， $\mathsf{Y}$ 有 $k$ 个状态，那么复合系统有 $m \times k$ 个状态。
因此，描述操作的随机矩阵是一个 $(m \times k) \times (m \times k)$ 的方阵。
这个矩阵的行和列，都按照我们之前约定的字母顺序（00, 01, 10, 11, ...）进行索引。
矩阵的元素 $M_{ij}$ 表示：如果系统初始处于第 $j$ 个经典状态，那么经过操作后，它有多大的概率会转移到第 $i$ 个经典状态。

💡 [数值示例]

示例：2-比特系统
状态空间: {00, 01, 10, 11}，维度为4。
描述在该系统上操作的随机矩阵将是一个 4x4 的矩阵。
行和列的索引都对应 00, 01, 10, 11。
例如，矩阵的第3列，描述了当系统初始状态是 10 时，会发生什么：

\begin{pmatrix} p(00|10) \\ p(01|10) \\ p(10|10) \\ p(11|10) \end{pmatrix}

其中 $p(i|j)$ 是从状态 $j$ 转移到状态 $i$ 的转移概率。这一列的四个概率加起来必须等于1。

⚠️ [易错点]

易错点：矩阵维度。再次强调，一个 $m$ 态系统和一个 $k$ 态系统的复合操作矩阵是 $(mk) \times (mk)$ 维的，而不是 $m \times m$ 或 $k \times k$ 。
易错点：行和与列和。随机矩阵（也叫转移矩阵）要求列和为1。这意味着从任何一个确定的初始状态出发，系统最终必须转移到某个末状态，总概率为1。与此相关的一个概念是双随机矩阵 (Doubly Stochastic Matrix)，它要求行和与列和都为1。

📝 [总结]

本段将单系统上的操作模型推广到了多系统。其核心思想是：将多系统视为一个单一的复合系统，因此，对多系统的操作就可以由一个作用于联合概率向量的单一的大随机矩阵来描述。这个大随机矩阵的维度由复合状态空间的大小决定，其行和列的索引遵循复合状态的排序规则。

🎯 [存在目的]

本段为描述多体系统的动力学演化提供了数学框架。它是连接“状态表示”和“状态改变”的桥梁。有了这个框架，我们就可以分析各种复杂的多体操作（如量子计算中的受控门），看看它们是如何改变系统的概率分布的，这是理解算法和物理过程的基础。

🧠 [直觉心智模型]

这就像一个城市里的交通网络。

经典状态: 城市的各个路口（或地点）。
概率向量: 在某个时刻，人群在各个路口的分布情况。
操作/随机矩阵: 城市的交通规则和信号灯系统。这个矩阵描述了从任何一个路口出发，在下一个时间单位，有多大概率会到达其他（或自己这个）路口。例如， $M_{ij}$ 是从路口 $j$ 到路口 $i$ 的概率。
应用操作: 将矩阵乘以概率向量，就得到了下一个时刻，人群在城市里的新分布。
多系统: 想象两个城市， $\mathsf{X}$ 和 $\mathsf{Y}$ 。复合系统就是这两座城市的组合。复合状态是 (X城路口a, Y城路口b)。复合操作矩阵描述了从任意一个 (a,b) 组合，转移到另一个 (c,d) 组合的转移概率。这个操作可能包含两个城市间的航班、火车等。

💭 [直观想象]

想象一个棋盘游戏。

复合状态: 棋盘上所有棋子的位置组合。
概率向量: 描述棋局处于某种特定盘面的概率。
操作/随机矩阵: 游戏的规则书，包括掷骰子、抽卡片等所有随机性。这个矩阵的元素 $M_{ij}$ 表示：如果当前盘面是 $j$ ，那么下一步（经过掷骰子等）有多大概率变成盘面 $i$ 。
对于一个4状态的2-比特系统，这个随机矩阵就是一个4x4的“游戏规则表”。

📜 [原文42]

例如，假设 $\mathsf{X}$ 和 $\mathsf{Y}$ 是比特，考虑一个具有以下描述的操作。

如果 $\mathsf{X} = 1$ ，则对 $\mathsf{Y}$ 执行 NOT 操作。\

否则什么都不做。

</Figure>

这是一个被称为受控非（controlled-NOT）操作的确定性操作，其中 $\mathsf{X}$ 是决定是否应对目标位 $\mathsf{Y}$ 应用 NOT 操作的控制位。

这是该操作的矩阵表示：

\begin{pmatrix} 1 & 0 & 0 & 0\\[2mm] 0 & 1 & 0 & 0\\[2mm] 0 & 0 & 0 & 1\\[2mm] 0 & 0 & 1 & 0 \end{pmatrix}.

它对标准基态的作用如下。

\begin{aligned} \vert 00 \rangle & \mapsto \vert 00 \rangle\\ \vert 01 \rangle & \mapsto \vert 01 \rangle\\ \vert 10 \rangle & \mapsto \vert 11 \rangle\\ \vert 11 \rangle & \mapsto \vert 10 \rangle \end{aligned}

📖 [逐步解释]

这部分介绍了一个极其重要的多体操作的例子：受控非门 (Controlled-NOT, CNOT)。

“例如，假设...考虑一个具有以下描述的操作”: 引入了CNOT门的操作逻辑。
“如果 $\mathsf{X}=1$ ”: 这是条件。操作是否执行，取决于控制比特 $\mathsf{X}$ 的状态。
“则对 $\mathsf{Y}$ 执行 NOT 操作”: 如果条件满足，就对目标比特 $\mathsf{Y}$ 进行翻转（0变1，1变0）。
“否则什么都不做”: 如果条件不满足（即 $\mathsf{X}=0$ ），那么整个系统保持原样。
“这是一个...确定性操作”:
确定性 (Deterministic): 意味着操作的结果是唯一的，没有概率成分。从一个给定的输入，总是得到一个确定的输出。
确定性操作的随机矩阵是一种特殊的置换矩阵 (Permutation Matrix)，即每行每列都只有一个1，其他都是0。
“...被称为受控非（controlled-NOT）操作...”: CNOT是它的标准名称。
控制位 (Control bit): $\mathsf{X}$ ，它的值决定了操作是否发生。
目标位 (Target bit): $\mathsf{Y}$ ，它是被操作的对象。
“这是该操作的矩阵表示”: 给出了CNOT门的4x4随机矩阵。我们来推导这个矩阵。
矩阵的列: 代表输入。
矩阵的行: 代表输出。
索引顺序: 00, 01, 10, 11。
第1列 (输入00): 控制位 $\mathsf{X}=0$ ，什么都不做。所以 00 确定地转移到 00。因此，第1列是 $\begin{pmatrix}1,0,0,0\end{pmatrix}^T$ 。
第2列 (输入01): 控制位 $\mathsf{X}=0$ ，什么都不做。01 转移到 01。第2列是 $\begin{pmatrix}0,1,0,0\end{pmatrix}^T$ 。
第3列 (输入10): 控制位 $\mathsf{X}=1$ ，触发NOT操作。目标位 $\mathsf{Y}=0$ 被翻转为1。所以 10 转移到 11。第3列是 $\begin{pmatrix}0,0,0,1\end{pmatrix}^T$ 。
第4列 (输入11): 控制位 $\mathsf{X}=1$ ，触发NOT操作。目标位 $\mathsf{Y}=1$ 被翻转为0。所以 11 转移到 10。第4列是 $\begin{pmatrix}0,0,1,0\end{pmatrix}^T$ 。
把这4列组合起来，就得到了文中的矩阵。
“它对标准基态的作用如下”: 这等价于上面推导矩阵的文字描述，更直观地显示了每个经典状态的映射关系。

∑ [公式拆解]

\begin{pmatrix} 1 & 0 & 0 & 0\\[2mm] 0 & 1 & 0 & 0\\[2mm] 0 & 0 & 0 & 1\\[2mm] 0 & 0 & 1 & 0 \end{pmatrix}.

这是CNOT门的矩阵表示（当 $\mathsf{X}$ 是控制位， $\mathsf{Y}$ 是目标位时）。

注意它的结构：左上角的 $2 \times 2$ 子块是一个单位矩阵，这对应 $\mathsf{X}=0$ 时“什么都不做”。
右下角的 $2 \times 2$ 子块是一个NOT门矩阵 (即 $\begin{pmatrix}0&1\\1&0\end{pmatrix}$ )，这对应 $\mathsf{X}=1$ 时对 $\mathsf{Y}$ 执行NOT操作。
这是一个置换矩阵，它只是重新排列了基向量，没有引入任何概率。

\begin{aligned} \vert 00 \rangle & \mapsto \vert 00 \rangle\\ \vert 01 \rangle & \mapsto \vert 01 \rangle\\ \vert 10 \rangle & \mapsto \vert 11 \rangle\\ \vert 11 \rangle & \mapsto \vert 10 \rangle \end{aligned}

这是CNOT门作用的映射表示。

$\mapsto$ 符号表示“映射到”或“变为”。
它清晰地展示了状态的变换：当第一个比特（控制位）是0时，第二个比特（目标位）不变。当第一个比特是1时，第二个比特翻转。
这个映射关系可以总结为： $|a,b\rangle \mapsto |a, b \oplus a\rangle$ ，其中 $\oplus$ 是异或 (XOR) 运算。

💡 [数值示例]

示例：将CNOT应用于一个叠加态 (虽然是经典概率，但可以模拟)
假设输入概率状态是独立的： $\mathsf{X}$ 处于 $|1\rangle$ (确定是1)， $\mathsf{Y}$ 处于 $\frac{1}{2}|0\rangle+\frac{1}{2}|1\rangle$ (随机)。
输入向量: $|1\rangle \otimes (\frac{1}{2}|0\rangle+\frac{1}{2}|1\rangle) = \frac{1}{2}|10\rangle + \frac{1}{2}|11\rangle = \begin{pmatrix}0\\0\\1/2\\1/2\end{pmatrix}$ 。
应用操作:

$\begin

1 & 0 & 0 & 0\\

0 & 1 & 0 & 0\\

0 & 0 & 0 & 1\\

0 & 0 & 1 & 0

\end

\begin

0\\0\\1/2\\1/2

\end

====

\begin{pmatrix}

0\\0\\1/2\\1/2

\end{pmatrix}$

哦，这个例子选得不好，我们换一个。
新输入: $\mathsf{X}$ 处于 $\frac{1}{2}|0\rangle+\frac{1}{2}|1\rangle$ ， $\mathsf{Y}$ 处于 $|0\rangle$ 。
输入向量: $(\frac{1}{2}|0\rangle+\frac{1}{2}|1\rangle) \otimes |0\rangle = \frac{1}{2}|00\rangle + \frac{1}{2}|10\rangle = \begin{pmatrix}1/2\\0\\1/2\\0\end{pmatrix}$ 。
应用操作:

$\begin

1 & 0 & 0 & 0\\

0 & 1 & 0 & 0\\

0 & 0 & 0 & 1\\

0 & 0 & 1 & 0

\end

\begin

1/2\\0\\1/2\\0

\end

====

\begin

1/2 \times 1 + 0 \times 0 + 1/2 \times 0 + 0 \times 0 \\

1/2 \times 0 + 0 \times 1 + 1/2 \times 0 + 0 \times 0 \\

1/2 \times 0 + 0 \times 0 + 1/2 \times 0 + 0 \times 1 \\

1/2 \times 0 + 0 \times 0 + 1/2 \times 1 + 0 \times 0

\end

====

\begin{pmatrix}

1/2\\0\\0\\1/2

\end{pmatrix}$

输出向量: $\begin{pmatrix}1/2\\0\\0\\1/2\end{pmatrix}$ ，也就是 $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。
结论: 我们把一个独立的乘积态，通过一个CNOT操作，变成了一个相关的非乘积态！这就是CNOT门在量子计算中用于制造纠缠的核心作用。

⚠️ [易错点]

易错点：控制位和目标位混淆。 $\mathsf{X}$ 控制 $\mathsf{Y}$ 和 $\mathsf{Y}$ 控制 $\mathsf{X}$ 是两个完全不同的操作，它们的矩阵表示也不同（下一段会展示）。必须时刻清楚哪个是控制，哪个是目标。
易错点：经典CNOT vs 量子CNOT。这里的CNOT作用在概率向量上。在量子计算中，它作用在量子态向量（其系数是概率幅）上，但矩阵表示是完全一样的。

📝 [总结]

本段详细介绍和定义了受控非 (CNOT) 这个关键的二比特操作。它阐明了其“控制-目标”逻辑，推导了其对应的随机矩阵（一个置换矩阵），并展示了它如何确定性地变换四个标准基态。CNOT门是第一个真正意义上的“交互式”多体操作，它的行为不能分解为两个独立的单比特操作。

🎯 [存在目的]

本段的目的是引入第一个，也是最重要的一个双比特量子门的经典对应物。CNOT门是构建通用量子计算机所必需的“基本构建块”之一（与所有单比特门一起）。通过在经典背景下彻底理解其作用矩阵和逻辑功能，可以为后续理解它在量子世界中创造纠缠这一神奇能力打下坚实基础。

🧠 [直觉心智模型]

CNOT门就像一个“条件开关控制的电灯”。

控制位 $\mathsf{X}$ : 是墙上的一个开关。
目标位 $\mathsf{Y}$ : 是天花板上的一盏电灯的状态（亮/灭）。
操作规则:
如果开关处于“关”(0)的位置，电灯保持它原来的状态（原来亮就还亮，原来灭就还灭）。
如果开关处于“开”(1)的位置，电灯的状态就翻转一下（原来亮就变灭，原来灭就变亮）。
这个电灯的行为，就完美复刻了CNOT门对目标位的操作。

💭 [直观想象]

想象在队伍里传话。

状态: 队伍里每个人的姿势，比如“站直”(0) 或“举手”(1)。
CNOT(A, B): A是控制者，B是目标。
规则:
传话人告诉B：“请看一下A的姿势”。
如果A是“站直”(0)，B保持自己原来的姿势。
如果A是“举手”(1)，B就把自己的姿势反过来（原来站直就举手，原来举手就站直）。
这个传话和改变姿势的过程，就是一次CNOT操作。

📜 [原文43]

如果我们交换 $\mathsf{X}$ 和 $\mathsf{Y}$ 的角色，将 $\mathsf{Y}$ 作为控制位并将 $\mathsf{X}$ 作为目标位，那么该操作的矩阵表示将变为

\begin{pmatrix} 1 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 1\\[2mm] 0 & 0 & 1 & 0\\[2mm] 0 & 1 & 0 & 0 \end{pmatrix}

它对标准基态的作用将如下所示：

\begin{aligned} \vert 00 \rangle & \mapsto \vert 00 \rangle\\ \vert 01 \rangle & \mapsto \vert 11 \rangle\\ \vert 10 \rangle & \mapsto \vert 10 \rangle\\ \vert 11 \rangle & \mapsto \vert 01 \rangle \end{aligned}

📖 [逐步解释]

这部分展示了当控制位和目标位互换后，CNOT操作的矩阵和行为会发生怎样的变化。

“如果我们交换 $\mathsf{X}$ 和 $\mathsf{Y}$ 的角色...”: 设定了新的操作逻辑。
新规则: 如果 $\mathsf{Y}=1$ ，则对 $\mathsf{X}$ 执行 NOT。否则什么都不做。
控制位: $\mathsf{Y}$ (第二个比特)
目标位: $\mathsf{X}$ (第一个比特)
“...矩阵表示将变为...”: 我们来推导这个新矩阵。
索引顺序: 仍然是 00, 01, 10, 11，其中第一个数字是 $\mathsf{X}$ 的状态，第二个是 $\mathsf{Y}$ 的。
第1列 (输入00): 控制位 $\mathsf{Y}=0$ ，什么都不做。00 -> 00。列为 $\begin{pmatrix}1,0,0,0\end{pmatrix}^T$ 。
第2列 (输入01): 控制位 $\mathsf{Y}=1$ ，触发NOT。目标位 $\mathsf{X}=0$ 翻转为1。所以 01 -> 11。列为 $\begin{pmatrix}0,0,0,1\end{pmatrix}^T$ 。
第3列 (输入10): 控制位 $\mathsf{Y}=0$ ，什么都不做。10 -> 10。列为 $\begin{pmatrix}0,0,1,0\end{pmatrix}^T$ 。
第4列 (输入11): 控制位 $\mathsf{Y}=1$ ，触发NOT。目标位 $\mathsf{X}=1$ 翻转为0。所以 11 -> 01。列为 $\begin{pmatrix}0,1,0,0\end{pmatrix}^T$ 。
组合起来，就得到了文中的新矩阵。它与之前的矩阵是不同的。
“它对标准基态的作用将如下所示”:
00 -> 00 (Y=0, X不变)
01 -> 11 (Y=1, X翻转)
10 -> 10 (Y=0, X不变)
11 -> 01 (Y=1, X翻转)
这清晰地展示了“第二个比特控制第一个比特”的逻辑。
这个映射关系可以总结为： $|a,b\rangle \mapsto |a \oplus b, b\rangle$ 。

∑ [公式拆解]

\begin{pmatrix} 1 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 1\\[2mm] 0 & 0 & 1 & 0\\[2mm] 0 & 1 & 0 & 0 \end{pmatrix}

这是CNOT门的矩阵表示（当 $\mathsf{Y}$ 是控制位， $\mathsf{X}$ 是目标位时）。

与上一个矩阵对比，可以发现 01 和 11 两列发生了交换。
这个矩阵也同样是一个置换矩阵。

\begin{aligned} \vert 00 \rangle & \mapsto \vert 00 \rangle\\ \vert 01 \rangle & \mapsto \vert 11 \rangle\\ \vert 10 \rangle & \mapsto \vert 10 \rangle\\ \vert 11 \rangle & \mapsto \vert 01 \rangle \end{aligned}

这个映射表直观地反映了新的操作规则。

💡 [数值示例]

示例：将新CNOT应用于之前的例子
输入向量: 之前的例子中，我们用CNOT(X,Y)将 $\frac{1}{2}|00\rangle+\frac{1}{2}|10\rangle$ 变成了 $\frac{1}{2}|00\rangle+\frac{1}{2}|11\rangle$ 。
现在我们用 CNOT(Y,X) 应用于同一个输入 $\begin{pmatrix}1/2\\0\\1/2\\0\end{pmatrix}$ 。
应用操作:

$\begin

1 & 0 & 0 & 0\\

0 & 0 & 0 & 1\\

0 & 0 & 1 & 0\\

0 & 1 & 0 & 0

\end

\begin

1/2\\0\\1/2\\0

\end

====

\begin{pmatrix}

1/2\\0\\1/2\\0

\end{pmatrix}$

输出向量: 与输入向量完全相同！
结论: 对于这个特定的输入态，CNOT(Y,X) 操作“什么都没做”。这说明了两个CNOT门的行为是截然不同的。

⚠️ [易错点]

最主要的易错点: 忘记了哪个比特是控制，哪个是目标，从而用错了矩阵。在量子电路图中，通常用一个实心点 ● 表示控制位，用一个 ⊕ 符号表示目标位。
Qiskit中的顺序: 在Qiskit中，cx(q0, q1) 表示 q0 是控制位，q1 是目标位。结合之前“从右到左”的位序约定，这会影响最终作用在整个系统状态向量上的大矩阵是哪一个。这是初学者极易出错的地方。

📝 [总结]

本段通过显式地推导和展示，阐明了当CNOT门的控制位和目标位互换后，其对应的操作矩阵和状态映射关系都会发生改变。这强调了CNOT操作的非对称性，以及在描述和使用它时精确指明控制/目标位的极端重要性。

🎯 [存在目的]

本段的目的是为了深化对CNOT门的理解，并消除一个潜在的误解，即认为它是一个对称的操作。通过对比两个不同的CNOT矩阵，它迫使学习者去关注操作的内部结构和比特的角色，而不仅仅是把它当作一个黑箱。这对于后续设计和分析包含多个CNOT门的复杂量子电路是必不可少的。

🧠 [直觉心智模型]

这就像一个有两个开关的电路。

CNOT(X,Y): X是主开关，Y是台灯的拉线开关。只有主开关打开时，拉一下台灯的开关才会改变灯的状态。
CNOT(Y,X): Y是主开关，X是台灯的拉线开关。只有主开关打开时，拉一下台灯的开关才会改变灯的状态。

这两个电路的行为显然是不同的。本段就是在强调这种区别。

💭 [直观想象]

想象两个舞者，A和B。

CNOT(A,B): 舞导指示：“B，请你看A的动作。如果A举起左手，你就转一圈。否则你保持不动。”
CNOT(B,A): 舞导指示：“A，请你看B的动作。如果B举起左手，你就转一圈。否则你保持不动。”

这是两条完全不同的指令，会导致舞蹈动作（状态演化）完全不同。

📜 [原文44]

另一个例子是具有此描述的操作：

以 $1/2$ 的概率执行以下两个操作之一：

将 $\mathsf{Y}$ 设置为等于 $\mathsf{X}$ 。
将 $\mathsf{X}$ 设置为等于 $\mathsf{Y}$ 。

</Figure>

该操作的矩阵表示如下：

\begin{pmatrix} 1 & \frac{1}{2} & \frac{1}{2} & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & \frac{1}{2} & \frac{1}{2} & 1 \end{pmatrix} = \frac{1}{2} \begin{pmatrix} 1 & 1 & 0 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 0 & 1 & 1 \end{pmatrix} + \frac{1}{2} \begin{pmatrix} 1 & 0 & 1 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 1 & 0 & 1 \end{pmatrix}.

此操作对标准基向量的作用如下：

\begin{aligned} \vert 00 \rangle & \mapsto \vert 00 \rangle\\[1mm] \vert 01 \rangle & \mapsto \frac{1}{2} \vert 00 \rangle + \frac{1}{2}\vert 11\rangle\\[3mm] \vert 10 \rangle & \mapsto \frac{1}{2} \vert 00 \rangle + \frac{1}{2}\vert 11\rangle\\[2mm] \vert 11 \rangle & \mapsto \vert 11 \rangle \end{aligned}

📖 [逐步解释]

这部分介绍了一个非确定性的多体操作，即操作的结果是概率性的。

“另一个例子是...”: 引入了一个新的操作逻辑。
“以 $1/2$ 的概率...”: 这明确指出这是一个随机操作，不再是确定性的。它是由两个子操作构成的一个“混合”操作。
子操作1: “将 $\mathsf{Y}$ 设置为等于 $\mathsf{X}$ ”。这意味着 XY -> XX。
00 -> 00
01 -> 00
10 -> 11
11 -> 11
子操作2: “将 $\mathsf{X}$ 设置为等于 $\mathsf{Y}$ ”。这意味着 XY -> YY。
00 -> 00
01 -> 11
10 -> 00
11 -> 11
“该操作的矩阵表示如下”:
根据上一课的知识，一个随机操作如果是多个子操作的概率混合，那么它的随机矩阵就是这些子操作随机矩阵的加权平均。
所以，总矩阵 $M = \frac{1}{2}M_1 + \frac{1}{2}M_2$ 。
推导 $M_1$ (Y=X):
输入 00->输出 00 (第1列是 (1,0,0,0)^T)
输入 01->输出 00 (第2列是 (1,0,0,0)^T)
输入 10->输出 11 (第3列是 (0,0,0,1)^T)
输入 11->输出 11 (第4列是 (0,0,0,1)^T)
所以 $M_1 = \begin{pmatrix} 1&1&0&0\\0&0&0&0\\0&0&0&0\\0&0&1&1 \end{pmatrix}$ 。
推导 $M_2$ (X=Y):
输入 00->输出 00 (第1列是 (1,0,0,0)^T)
输入 01->输出 11 (第2列是 (0,0,0,1)^T)
输入 10->输出 00 (第3列是 (1,0,0,0)^T)
输入 11->输出 11 (第4列是 (0,0,0,1)^T)
所以 $M_2 = \begin{pmatrix} 1&0&1&0\\0&0&0&0\\0&0&0&0\\0&1&0&1 \end{pmatrix}$ 。
计算总矩阵 $M$ :

$M = \frac{1}{2}M_1 + \frac{1}{2}M_2 = \frac{1}{2}\begin{pmatrix} 1+1&1+0&0+1&0+0 \\ 0&0&0&0 \\ 0&0&0&0 \\ 0+0&0+1&1+0&1+1 \end{pmatrix} = \begin{pmatrix} 1&1/2&1/2&0 \\ 0&0&0&0 \\ 0&0&0&0 \\ 0&1/2&1/2&1 \end{pmatrix}$ 。

这与文中的矩阵完全吻合。
“此操作对标准基向量的作用如下”: 这描述了当输入是确定的经典状态时，输出是一个概率状态（叠加态）。
输入 01:
有 $1/2$ 的概率执行 Y=X，01->00。
有 $1/2$ 的概率执行 X=Y，01->11。
所以，最终的状态是 $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。
输入 10:
有 $1/2$ 的概率执行 Y=X，10->11。
有 $1/2$ 的概率执行 X=Y，10->00。
所以，最终的状态也是 $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。
这个映射关系也可以通过矩阵乘以基向量得到。例如，作用于 $|01\rangle=\begin{pmatrix}0,1,0,0\end{pmatrix}^T$ :

$M |01\rangle = \begin{pmatrix} 1&1/2&1/2&0 \\ 0&0&0&0 \\ 0&0&0&0 \\ 0&1/2&1/2&1 \end{pmatrix} \begin{pmatrix}0\\1\\0\\0\end{pmatrix} = \begin{pmatrix}1/2\\0\\0\\1/2\end{pmatrix}$ ，这正是 $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。

∑ [公式拆解]

本段的两个公式在上面已经详细推导和解释过了。这个例子是随机矩阵加权平均的一个绝佳演示。

💡 [数值示例]

示例：将此操作应用于一个概率状态
输入: $|\psi_{in}\rangle = \frac{1}{2}|01\rangle + \frac{1}{2}|10\rangle = \begin{pmatrix}0\\1/2\\1/2\\0\end{pmatrix}$ 。
输出: $|\psi_{out}\rangle = M |\psi_{in}\rangle = \begin{pmatrix} 1&1/2&1/2&0 \\ 0&0&0&0 \\ 0&0&0&0 \\ 0&1/2&1/2&1 \end{pmatrix} \begin{pmatrix}0\\1/2\\1/2\\0\end{pmatrix} = \begin{pmatrix} 1/4+1/4 \\ 0 \\ 0 \\ 1/4+1/4 \end{pmatrix} = \begin{pmatrix}1/2\\0\\0\\1/2\end{pmatrix}$ 。
输出状态: $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。
分析: 这个操作将一个“比特值相反”的相关态，变成了一个“比特值相同”的相关态。

⚠️ [易错点]

易错点：忘记加权平均。当一个操作是概率混合时，其总矩阵是子矩阵的加权平均，不要直接相加。
易错点：矩阵的列和。我们可以检查一下最终矩阵的列和是否为1。
第1列: 1+0+0+0=1。
第2列: 1/2+0+0+1/2=1。
第3列: 1/2+0+0+1/2=1。
第4列: 0+0+0+1=1。
所有列和都为1，这是一个合法的随机矩阵。

📝 [总结]

本段通过一个具体的例子，展示了如何为一个非确定性（随机）的多体操作构建其对应的随机矩阵。其核心方法是：首先为每个确定性的子操作构建矩阵，然后将这些矩阵按照它们发生的概率进行加权平均，得到最终的总操作矩阵。这个例子也展示了一个确定性的输入可以如何通过一个随机操作演化为一个不确定的输出（概率叠加）。

🎯 [存在目的]

本段的目的是将上一课关于随机操作和矩阵加权平均的知识，应用到多体系统的场景中，从而处理更复杂的非确定性操作。这在经典和量子世界中都非常普遍，因为噪声、退相干等过程往往都是概率性的。掌握如何用随机矩阵来描述这些过程，是建立真实物理系统模型的基础。

🧠 [直觉心智模型]

这就像一个“协调员”机器人。

输入: 两个比特 XY。
操作: 机器人抛一枚硬币。
正面 (概率1/2): 执行指令1：“看着X，把Y改成和X一样”。
反面 (概率1/2): 执行指令2：“看着Y，把X改成和Y一样”。
这个机器人的行为是随机的。例如输入是 01，最终输出有可能是 00（如果硬币是正面），也可能是 11（如果硬幣是反面）。因为我们无法预测硬币，所以我们只能说输出的概率状态是 $\frac{1}{2}|00\rangle + \frac{1}{2}|11\rangle$ 。

💭 [直观想象]

想象一个法官在调解两个人的纠纷。

输入: 两个人的初始观点 (X, Y)。
操作: 法官以50%的概率随机选择一种调解方案：

方案1: 强迫Y完全同意X的观点。
方案2: 强迫X完全同意Y的观点。
- 结果:
- 如果两人的初始观点 XY 本来就相同（00或 11），那么无论哪种方案，结果都不变。
- 如果两人观点不同（01或 10），那么调解的结果将以50%的概率变成 00，50%的概率变成 11（取决于X和Y谁是强势方，而强势方是随机选的）。最终结果是两人的观点趋于一致，但具体是哪个一致的观点，具有不确定性。

📜 [原文45]

在这些例子中，我们只是简单地将两个系统一起视为一个单一系统，并按照上一课的内容进行。

同样的事情也可以对任意数量的系统进行。

例如，想象我们有三个比特，我们将这三个比特对 $8$ 取模递增——这意味着我们认为这三个比特使用二进制表示编码了一个 $0$ 到 $7$ 之间的数字，加 $1$ ，然后取除以 $8$ 后的余数。

表达此操作的一种方式是这样的：

\begin{aligned} & \vert 001 \rangle \langle 000 \vert + \vert 010 \rangle \langle 001 \vert + \vert 011 \rangle \langle 010 \vert + \vert 100 \rangle \langle 011 \vert\\[1mm] & \quad + \vert 101 \rangle \langle 100 \vert + \vert 110 \rangle \langle 101 \vert + \vert 111 \rangle \langle 110 \vert + \vert 000 \rangle \langle 111 \vert. \end{aligned}

另一种表达方式是

\sum_{k = 0}^{7} \vert (k+1) \bmod 8 \rangle \langle k \vert,

假设我们已经同意右矢内部从 $0$ 到 $7$ 的数字指的是这些数字的三位二进制编码。

第三种选择是将此操作表示为一个矩阵。

\begin{pmatrix} 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1\\ 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\ 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0\\ 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0\\ 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0\\ 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 \end{pmatrix}

📖 [逐步解释]

这部分将复合操作的概念从2-系统推广到n-系统，并用一个3-比特的“加法器”作为例子，展示了描述同一个操作的三种不同数学形式。

“在这些例子中，我们只是...按照上一课的内容进行”: 总结了之前的方法：把多体当单体处理。
“同样的事情也可以对任意数量的系统进行”: 声明这个方法是普适的。
“例如，想象我们有三个比特...”:
系统有3个比特，总状态数是 $2^3=8$ 。状态可以标记为 000 到 111。
操作描述: “对8取模递增 (increment modulo 8)”。
操作解读:

将3-比特字符串看作一个0到7的二进制数。
给这个数加1。
如果结果是8，让它变回0 (这就是“对8取模”)。
- 具体变换:
- 这是一个确定性的操作，本质上是一个循环移位 (Cyclic Shift)。
- “表达此操作的一种方式是这样的：”: 引入第一种表示法：外积求和 (Sum of outer products)。
- $|i\rangle\langle j|$ : 这是一个矩阵（或称为算符）。当它作用于一个基向量 $|k\rangle$ 上时，结果是 $|i\rangle\langle j|k\rangle = |i\rangle \delta_{jk}$ 。也就是说，只有当输入是 $|j\rangle$ 时，输出才是 $|i\rangle$ ，否则输出是0向量。
- 它描述了一个“从 $j$ 到 $i$ ”的转移。
- 整个表达式就是把所有8个转移规则（000->001，001->010...）对应的矩阵全部加起来。例如，第一项 $|001\rangle\langle 000|$ 就代表了“如果输入是 000，输出就是 001”。
- “另一种表达方式是”: 引入第二种表示法：求和式。
- 这是第一种表示法的紧凑形式。
- $k$ : 代表0到7的整数。
- $|k\rangle$ : 代表整数 $k$ 对应的3-比特字符串的基向量。例如 $|6\rangle = |110\rangle$ 。
- $|(k+1)\bmod 8\rangle$ : 代表 $(k+1)\bmod 8$ 这个数对应的基向量。
- 这个求和式精确地描述了“将每个状态 $k$ 映射到状态 $(k+1)\bmod 8$ ”这个规则。
- “第三种选择是将此操作表示为一个矩阵”: 引入第三种表示法：矩阵表示。
- 这是一个 8x8 的置换矩阵。
- 行和列都按 000, 001, ..., 111 的顺序索引。
- 推导:
- 第1列 (输入000): 输出是 001。所以第1列只有第2个位置是1，其余是0。即 $(0,1,0,0,0,0,0,0)^T$ 。
- 第2列 (输入001): 输出是 010。所以第2列只有第3个位置是1。即 $(0,0,1,0,0,0,0,0)^T$ 。
- ...
- 第8列 (输入111): 输出是 000。所以第8列只有第1个位置是1。即 $(1,0,0,0,0,0,0,0)^T$ 。
- 把这些列组合起来，就得到了文中的矩阵。你会发现它是一个“下移一位，然后首尾相接”的循环矩阵。

∑ [公式拆解]

\sum_{k = 0}^{7} \vert (k+1) \bmod 8 \rangle \langle k \vert

这是一个算符的紧凑表示。

$\langle k |$ (bra k): 是 ket k 的对偶向量。在实数向量空间中，可以看作是列向量 $|k\rangle$ 的转置，即一个行向量。
$|i\rangle\langle j|$ (外积): 一个列向量乘以一个行向量，得到一个矩阵。这个矩阵只有在第 $i$ 行第 $j$ 列的位置上是1，其他都是0（在对应的基底下）。
整个求和就是把8个这样的“单1矩阵”加起来，最终形成文中的那个8x8矩阵。

💡 [数值示例]

示例：4比特的减法器
操作：对4比特数做“对16取模减1”。
求和式表示: $\sum_{k=0}^{15} |(k-1)\bmod 16\rangle \langle k|$ 。
矩阵表示: 会是一个 16x16 的置换矩阵。
输入 0000(0) -> 输出 1111(15)。所以第1列是 $(0,0,\dots,0,1)^T$ 。
输入 0001(1) -> 输出 0000(0)。所以第2列是 $(1,0,\dots,0,0)^T$ 。
... 这是一个“上移一位，首尾相接”的循环矩阵。

⚠️ [易错点]

易错点：三种表示法的转换。这三种表示法是完全等价的，能够熟练地在它们之间进行转换是非常重要的技能。
从映射关系 -> 外积求和: 对每个映射 j -> i，写一项 $|i\rangle\langle j|$ 。
从外积求和 -> 矩阵: $|i\rangle\langle j|$ 对应的矩阵是在 $(i,j)$ 位置为1。把所有项加起来即可。
从矩阵 -> 映射关系: 看第 $j$ 列，如果第 $i$ 行是1，则有映射 j -> i。
边界情况：取模运算。111(7) + 1 = 8, 8 mod 8 = 0。000(0) - 1 = -1, -1 mod 16 = 15。取模运算是实现“循环”的关键。

📝 [总结]

本段通过一个3-比特模8加法器的具体例子，展示了描述一个多体确定性操作的三种等价方式：1) 直观的外积求和表示，2) 紧凑的求和式表示，以及3) 可用于计算的矩阵表示。这再次强调了“将多体系统视为单体”的策略，并为我们提供了更丰富的数学工具来描述和分析复杂操作。

🎯 [存在目的]

本段的目的是展示描述操作的多种数学语言，并让学习者熟悉它们之间的转换。在不同的上下文和应用中，不同的表示法各有优势。映射关系最直观，求和式最紧凑，矩阵最适合计算机数值计算，而外积求和在理论推导中非常有用。熟练掌握它们，才能在阅读文献和解决问题时游刃有余。

🧠 [直觉心智模型]

这就像描述一个“向右传递”的游戏规则。

有8个人 0,1,..,7 站成一圈。
操作: 每个人都把自己手里的东西，传给右手边的那个人。7号传给 0号。
映射关系: 0->1, 1->2, ..., 7->0。
外积求和: 规则可以写成 “1从0拿 + 2从1拿 + ... + 0从7拿”。
矩阵: 一个8x8的表格，描述了每个人最终会从谁那里拿到东西。比如，第2行(代表1号)只有第1列(代表0号)是1，表示“1号从0号拿东西”。

这三种方式描述的是同一个游戏规则。

💭 [直观想象]

想象一个音乐盒的滚筒。

状态: 滚筒的8个旋转角度位置。
操作: 拨动一下，让滚筒转过一个固定的角度。
矩阵: 描述了这个“转一下”的动作。如果滚筒从位置 j转到了位置 i，那么矩阵的 $(i,j)$ 元素就是1。
这个3-比特加法器的矩阵，就是一个让状态“滚筒”精确地循环旋转的操作。

14.1 独立操作

📜 [原文46]

现在假设我们有多个系统，并且我们分别在系统上独立地执行不同的操作。

例如，采用我们通常由 $\mathsf{X}$ 和 $\mathsf{Y}$ 组成的两个系统设置，其经典状态集分别为 $\Sigma$ 和 $\Gamma$ ，让我们假设我们在 $\mathsf{X}$ 上执行一个操作，并完全独立地在 $\mathsf{Y}$ 上执行另一个操作。

正如我们从上一课所知道的，这些操作由随机矩阵表示——准确地说，让我们说 $\mathsf{X}$ 上的操作由矩阵 $M$ 表示，而 $\mathsf{Y}$ 上的操作由矩阵 $N$ 表示。

因此， $M$ 的行和列的索引与 $\Sigma$ 的元素相对应，同样， $N$ 的行和列对应于 $\Gamma$ 的元素。

📖 [逐步解释]

这部分提出了一个新的问题：如果对多体系统的操作本身是“独立”的，那该如何描述？

“现在假设...我们分别在系统上独立地执行不同的操作”: 设定了场景。这与之前的CNOT门形成了鲜明对比。
CNOT: 是一个单一的、不可分割的联合操作，它的行为取决于两个比特的交互。
独立操作: 是两个（或多个）分离的操作，同时（或先后）作用在各自的子系统上，彼此之间没有协调或通信。
“例如...在 $\mathsf{X}$ 上执行一个操作...在 $\mathsf{Y}$ 上执行另一个操作”:
想象在地球上的Alice对她的比特 $\mathsf{X}$ 做了一个NOT操作。
同时，在仙女座星系的Bob对他的比特 $\mathsf{Y}$ 做了一个Hadamard操作（假设是量子）。
这两个操作是独立执行的。
“...这些操作由随机矩阵表示...”:
作用于 $\mathsf{X}$ 的操作，由一个大小为 $|\Sigma| \times |\Sigma|$ 的随机矩阵 $M$ 描述。
作用于 $\mathsf{Y}$ 的操作，由一个大小为 $|\Gamma| \times |\Gamma|$ 的随机矩阵 $N$ 描述。
“ $M$ 的行和列的索引与 $\Sigma$ 的元素相对应...”: 再次明确了这些“小”矩阵是作用在各自子空间上的。

💡 [数值示例]

示例: 两个比特 $\mathsf{X}, \mathsf{Y}$ 。
操作1 (在 $\mathsf{X}$ 上): 执行一个NOT门。
这个操作由一个 2x2 矩阵 $M = \begin{pmatrix}0&1\\1&0\end{pmatrix}$ 表示。
操作2 (在 $\mathsf{Y}$ 上): 什么都不做（恒等操作）。
这个操作由一个 2x2 矩阵 $N = \begin{pmatrix}1&0\\0&1\end{pmatrix}$ (单位矩阵) 表示。
问题: 我们现在有一个联合系统，其状态是4维的概率向量。那么，描述这两个独立操作同时作用的那个单一的、大的、4x4的操作矩阵是什么样子的呢？
这正是下一节要用矩阵的张量积来回答的问题。

⚠️ [易错点]

易错点：将独立操作与单一操作混淆。CNOT门是一个单一的4x4矩阵，它不能被分解为两个2x2矩阵的某种“组合”。而本节讨论的独立操作，其最终的4x4矩阵，将可以由两个2x2矩阵“构造”出来。这是相关操作和独立操作的根本区别。

📝 [总结]

本段提出了“独立操作”这个新情景。它指的是对多体系统的每个子系统分别施加各自的、互不影响的操作。如果每个子操作都由一个“小”随机矩阵（如 $M, N$ ）描述，那么描述整个独立操作组合的那个“大”联合操作矩阵应该是什么？这个问题引出了对矩阵张量积的需求。

🎯 [存在目的]

本段的目的是为了与之前讨论的“独立状态”形成完美的对偶和类比。

独立状态: 联合状态向量 = 子状态向量的张量积。
独立操作: 联合操作矩阵 = ？

通过这种类比，它自然地引出“联合操作矩阵 = 子操作矩阵的张量积”这一结论。这再次展示了张量积作为描述“组合独立系统”的核心数学工具的普适性和强大能力。

🧠 [直觉心智模型]

这就像一个工厂有两条独立的生产线。

系统 $\mathsf{X}$ 和 $\mathsf{Y}$ : 是两条生产线上的不同产品。
操作 $M$ : 是第一条生产线上的一道工序（比如“钻孔”）。
操作 $N$ : 是第二条生产线上的一道工序（比如“喷漆”）。
这两道工序是独立进行的。钻孔机不知道喷漆机在做什么，反之亦然。
问题: 如果我们把整个工厂看作一个系统，那么描述“钻孔”和“喷漆”同时进行的那个总的工厂操作流程是什么？

💭 [直观想象]

想象你在用图像处理软件同时编辑一张大图的左右两个部分。

系统 $\mathsf{X}$ : 图片的左半边。
系统 $\mathsf{Y}$ : 图片的右半边。
操作 $M$ : 你对左半边应用了“锐化”滤镜。
操作 $N$ : 你对右半边应用了“模糊”滤镜。
这两个滤镜是独立作用在图片的不同区域上的。
问题: 是否存在一个单一的、全局的“滤镜”，它作用在整张大图上的效果，等同于你分别做的这两个独立操作？答案是肯定的，这个全局滤镜就是“锐化”滤镜和“模糊”滤镜的张量积。

14.2 矩阵的张量积

📜 [原文47]

矩阵

M = \sum_{a,b\in\Sigma} \alpha_{ab} \vert a\rangle \langle b\vert

和

N = \sum_{c,d\in\Gamma} \beta_{cd} \vert c\rangle \langle d\vert

的张量积 $M\otimes N$ 是矩阵

M \otimes N = \sum_{a,b\in\Sigma} \sum_{c,d\in\Gamma} \alpha_{ab} \beta_{cd} \vert ac \rangle \langle bd \vert

等效地， $M$ 和 $N$ 的张量积由方程

\langle ac \vert M \otimes N \vert bd\rangle = \langle a \vert M \vert b\rangle \langle c \vert N \vert d\rangle

对 $a,b\in\Sigma$ 和 $c,d\in\Gamma$ 的每种选择都成立来定义。

📖 [逐步解释]

这部分定义了矩阵的张量积，其形式与向量的张量积高度相似。

“矩阵 $M = \sum \alpha_{ab}|a\rangle\langle b|$ ...”: 首先用外积求和的形式表示两个操作矩阵 $M$ 和 $N$ 。
$\alpha_{ab}$ : 是矩阵 $M$ 的第 $a$ 行、第 $b$ 列的元素，即 $M_{ab}$ 。它代表从状态 $b$ 转移到状态 $a$ 的概率幅（在量子中）或概率（在经典随机矩阵的对偶图景中）。
$|a\rangle\langle b|$ : 代表从基 $b$ 到基 $a$ 的转移。
“...的张量积 $M\otimes N$ 是矩阵...”: 这是矩阵张量积的第一种定义，基于外积求和。
思想: 两个独立操作的联合操作，其“从 bd 到 ac 的联合转移”，应该等于“从 $b$ 到 $a$ 的转移”和“从 $d$ 到 $c$ 的转移”的某种“组合”。
定义:
新的基转移: $|ac\rangle\langle bd|$ 。这是在复合空间中的一次基转移，从基 $|bd\rangle$ 转移到基 $|ac\rangle$ 。
新的系数: $\alpha_{ab}\beta_{cd}$ 。这个联合转移的“强度”，是两个子转移强度的乘积。
求和: 对所有可能的子转移组合 $(a,b)$ 和 $(c,d)$ 进行求和。
“等效地， $M$ 和 $N$ 的张量积由方程...”: 这是第二种定义，基于矩阵元素。
$\langle ac | M\otimes N | bd \rangle$ : 这是联合操作矩阵 $M\otimes N$ 中，行索引为 ac、列索引为 bd 的那个矩阵元。
$\langle a | M | b \rangle$ : 这是矩阵 $M$ 的第 $a$ 行、第 $b$ 列的元素，即 $\alpha_{ab}$ 。
$\langle c | N | d \rangle$ : 这是矩阵 $N$ 的第 $c$ 行、第 $d$ 列的元素，即 $\beta_{cd}$ 。
定义解读: 联合操作矩阵的 (ac, bd) 元素，就等于第一个子矩阵的 (a,b) 元素乘以第二个子矩阵的 (c,d) 元素。
与向量张量积的类比:
向量: $\langle ab | (|\phi\rangle\otimes|\psi\rangle) \rangle = \langle a|\phi\rangle \langle b|\psi\rangle$ 。复合向量的系数 = 子向量系数的乘积。
矩阵: $\langle ac| (M\otimes N) |bd\rangle = \langle a|M|b\rangle \langle c|N|d\rangle$ 。复合矩阵的元素 = 子矩阵元素的乘积。
结构上是完全平行的。

∑ [公式拆解]

M \otimes N = \sum_{a,b\in\Sigma} \sum_{c,d\in\Gamma} \alpha_{ab} \beta_{cd} \vert ac \rangle \langle bd \vert

这个定义可以通过张量积的双线性和 $(A\otimes B)(C\otimes D)=(AC)\otimes(BD)$ 的性质来推导。

$M \otimes N = (\sum \alpha_{ab}|a\rangle\langle b|) \otimes (\sum \beta_{cd}|c\rangle\langle d|)$

利用双线性（多线性）展开这个求和：

$= \sum \sum \alpha_{ab}\beta_{cd} (|a\rangle\langle b|) \otimes (|c\rangle\langle d|)$

$= \sum \sum \alpha_{ab}\beta_{cd} |ac\rangle\langle bd|$ 。

\langle ac \vert M \otimes N \vert bd\rangle = \langle a \vert M \vert b\rangle \langle c \vert N \vert d\rangle

这是最直接的定义。它告诉我们如何计算张量积矩阵的每一个元素。

💡 [数值示例]

示例:
$M = \begin{pmatrix}0&1\\1&0\end{pmatrix}$ (NOT门)
$N = \begin{pmatrix}1&1\\0&0\end{pmatrix}$ (Reset-to-0 操作)
计算 $M\otimes N$ 的 $(01, 10)$ 元素: $\langle 01 | M\otimes N | 10 \rangle$
拆分: $a=0, c=1$ (来自 01)； $b=1, d=0$ (来自 10)。
计算:

$\langle 0|M|1\rangle \times \langle 1|N|0\rangle$

$= (M_{01}) \times (N_{10})$

$= 1 \times 0 = 0$ 。

所以 $M\otimes N$ 矩阵的第 01行(第2行)、第 10列(第3列)的元素是0。
我们将在下一段用克罗内克积更系统地计算整个矩阵。

⚠️ [易错点]

易错点：索引的对应。在计算 $\langle ac | M\otimes N | bd\rangle$ 时，要正确地将 ac 和 bd 分解到 $M$ 和 $N$ 的索引 a,b 和 c,d。第一个系统的索引 a,b 来自复合索引的第一个位置，第二个系统的索引 c,d 来自第二个位置。
易错点：与矩阵普通乘法混淆。 $M\otimes N$ 和 $MN$ 是完全不同的运算。后者要求 $M$ 的列数等于 $N$ 的行数，而前者没有这个要求。它们的输出维度也完全不同。

📝 [总结]

本段给出了矩阵张量积的两种等价定义。一种是基于外积求和的构造性定义，它在理论推导中很有用。另一种是基于矩阵元素的查询式定义，它揭示了联合矩阵的元素是如何由子矩阵元素通过乘法得到的。这两种定义都与向量张量积的定义在结构上高度平行。

🎯 [存在目的]

本段的目的是为“独立操作”提供其对应的数学语言。就像向量张量积用来组合独立状态一样，矩阵张量积就是用来组合独立操作的工具。提供了这个定义之后，我们就可以把“对子系统分别进行操作”这个物理过程，精确地翻译成一个单一的、作用于联合系统的张量积矩阵。

🧠 [直觉心智模型]

这就像是两个函数的组合。

$M$ : 是一个函数 $f(x)$ ，它对变量 $x$ 进行操作。
$N$ : 是一个函数 $g(y)$ ，它对变量 $y$ 进行操作。
$M\otimes N$ : 是一个作用于 (x,y) 对的联合函数 $H(x,y)$ 。
独立操作意味着 $H(x,y)$ 的形式是可分离的，比如 $H(x,y) = (f(x), g(y))$ 。
矩阵张量积的元素乘法规则，正是这种“可分离性”在线性变换（矩阵）上的体现。联合变换在某个方向上的效果，等于子变换在各自方向上效果的乘积。

💭 [直观想象]

想象你在设计一个“自动穿搭”程序。

矩阵 $M$ : 是一个“上衣搭配”模块。输入你今天的“心情”（经典状态），输出建议的上衣（概率分布）。
矩阵 $N$ : 是一个“裤子搭配”模块。输入今天的“天气”，输出建议的裤子。
独立操作: 这两个模块是独立工作的。
矩阵 $M\otimes N$ : 是一个“总穿搭”模块。它的输入是 (心情, 天气)，输出是 (上衣, 裤子) 的一个联合概率分布。
张量积定义: 这个总模块给出某个特定搭配 (衬衫, 牛仔裤) 的概率，等于“上衣模块”推荐“衬衫”的概率乘以 “裤子模块”推荐“牛仔裤”的概率。

📜 [原文48]

描述 $M\otimes N$ 的另一种但等效的方法是，它是满足方程的唯一矩阵

(M \otimes N) \bigl( \vert \phi \rangle \otimes \vert \psi \rangle \bigr) = \bigl(M \vert\phi\rangle\bigr) \otimes \bigl(N \vert\psi\rangle\bigr)

对于向量 $\vert\phi\rangle$ 和 $\vert\psi\rangle$ 的每种可能选择都成立，假设 $\vert\phi\rangle$ 的索引对应于 $\Sigma$ 的元素，且 $\vert\psi\rangle$ 的索引对应于 $\Gamma$ 的元素。

📖 [逐步解释]

这部分给出了矩阵张量积的第三种、也是从物理和应用角度看最重要的一种定义。

“描述 $M\otimes N$ 的另一种但等效的方法是...”: 引入第三种定义。
“...它是满足方程的唯一矩阵”: 这个定义不是直接构造 $M\otimes N$ ，而是通过它应该满足的“行为”来反向定义它。
核心方程解读:
左边: $(M\otimes N)(|\phi\rangle\otimes|\psi\rangle)$
$|\phi\rangle\otimes|\psi\rangle$ : 这是一个独立的联合输入状态。
$M\otimes N$ : 这是那个未知的联合操作矩阵。
整个左边表示：用联合操作作用于联合输入。
右边: $(M|\phi\rangle) \otimes (N|\psi\rangle)$
$M|\phi\rangle$ : 用子操作 $M$ 作用于子状态 $|\phi\rangle$ ，得到子系统 $\mathsf{X}$ 的输出状态。
$N|\psi\rangle$ : 用子操作 $N$ 作用于子状态 $|\psi\rangle$ ，得到子系统 $\mathsf{Y}$ 的输出状态。
整个右边表示：将两个独立的输出状态再用张量积组合成一个联合输出状态。
方程的物理意义: 这句话的物理意义极其清晰：“对一个独立状态进行独立操作，其结果等于先对各个子系统进行操作，然后再将结果组合起来”。
这完美地捕捉了“独立操作”的直觉含义。
“对于向量...的每种可能选择都成立”: 这个要求非常强。这个行为准则必须对任何输入状态 $|\phi\rangle, |\psi\rangle$ 都成立。实际上，只需要它对所有的基向量成立，就可以通过线性推广到所有向量。
这为什么是定义？: 因为可以证明，能够满足这个行为准则的矩阵 $M\otimes N$ 是唯一的，并且它与我们之前定义的矩阵是同一个。所以，我们可以把这个行为准则本身作为 $M\otimes N$ 的定义。

∑ [公式拆解]

(M \otimes N) \bigl( \vert \phi \rangle \otimes \vert \psi \rangle \bigr) = \bigl(M \vert\phi\rangle\bigr) \otimes \bigl(N \vert\psi\rangle\bigr)

这个公式是张量积最重要的性质之一。让我们用基向量来验证它。

设 $|\phi\rangle=|b\rangle, |\psi\rangle=|d\rangle$ 。
左边:

$(M\otimes N) ( |b\rangle \otimes |d\rangle ) = (M\otimes N) |bd\rangle$

$= (\sum_{a,c} \langle ac|M\otimes N|b'd'\rangle |ac\rangle\langle b'd'|) |bd\rangle$

$= \sum_{a,c} \langle ac|M\otimes N|bd\rangle |ac\rangle$

$= \sum_{a,c} \langle a|M|b\rangle \langle c|N|d\rangle |ac\rangle$

右边:

$(M|b\rangle) \otimes (N|d\rangle)$

利用双线性展开：

$= \sum_{a,c} (\langle a|M|b\rangle \langle c|N|d\rangle) (|a\rangle \otimes |c\rangle)$

$= \sum_{a,c} \langle a|M|b\rangle \langle c|N|d\rangle |ac\rangle$

左边=右边，对于所有基向量都成立。因此通过线性，对所有向量都成立。

💡 [数值示例]

示例:
$M=\begin{pmatrix}0&1\\1&0\end{pmatrix}, N=\begin{pmatrix}1&0\\0&1\end{pmatrix}$ 。 $|\phi\rangle=\begin{pmatrix}1\\0\end{pmatrix}, |\psi\rangle=\begin{pmatrix}0\\1\end{pmatrix}$ 。
先组合状态，再联合操作 (左边):
$|\phi\rangle\otimes|\psi\rangle = |0\rangle\otimes|1\rangle = |01\rangle = \begin{pmatrix}0\\1\\0\\0\end{pmatrix}$ 。
$M\otimes N = \begin{pmatrix}0&1\\1&0\end{pmatrix} \otimes \begin{pmatrix}1&0\\0&1\end{pmatrix} = \begin{pmatrix}0&0&1&0\\0&0&0&1\\1&0&0&0\\0&1&0&0\end{pmatrix}$ (用克罗内克积计算)。
$(M\otimes N)(|\phi\rangle\otimes|\psi\rangle) = \begin{pmatrix}0&0&1&0\\0&0&0&1\\1&0&0&0\\0&1&0&0\end{pmatrix} \begin{pmatrix}0\\1\\0\\0\end{pmatrix} = \begin{pmatrix}0\\0\\0\\1\end{pmatrix}$ 。
先各自操作，再组合结果 (右边):
$M|\phi\rangle = \begin{pmatrix}0&1\\1&0\end{pmatrix} \begin{pmatrix}1\\0\end{pmatrix} = \begin{pmatrix}0\\1\end{pmatrix} = |1\rangle$ 。
$N|\psi\rangle = \begin{pmatrix}1&0\\0&1\end{pmatrix} \begin{pmatrix}0\\1\end{pmatrix} = \begin{pmatrix}0\\1\end{pmatrix} = |1\rangle$ 。
$(M|\phi\rangle) \otimes (N|\psi\rangle) = |1\rangle \otimes |1\rangle = |11\rangle = \begin{pmatrix}0\\0\\0\\1\end{pmatrix}$ 。
左边=右边，验证成功。

⚠️ [易错点]

易错点：只对乘积态成立。这个公式只描述了 $M\otimes N$ 如何作用于乘积态 $|\phi\rangle\otimes|\psi\rangle$ 。如果输入是一个相关/纠缠态（不能写成张量积形式），比如 $\frac{1}{\sqrt{2}}(|00\rangle+|11\rangle)$ ，你就不能用这个公式来简化计算了，必须直接用联合矩阵 $M\otimes N$ 去乘以这个联合向量。

📝 [总结]

本段给出了矩阵张量积的第三种、也是最符合物理直觉的定义：联合操作 $M\otimes N$ 是那个唯一的、能够满足“作用于独立输入态等于独立输出态的组合”这一行为准则的矩阵。这个定义将独立操作的物理图像与张量积的数学形式完美地统一了起来。

🎯 [存在目的]

本段的目的是提供一个更高级、更概念化的视角来理解矩阵的张量积。相比于前两种基于元素和系数的“微观”定义，这第三种定义是“宏观”的，它从操作如何变换向量的层面来定义自身。这种通过行为和性质来定义对象的思想，在现代数学和物理中非常普遍。对于物理学家来说，这通常是最有用的定义，因为它直接与物理过程（独立地进行操作）相对应。

🧠 [直觉心智模型]

这就像一个公司的管理原则。

原则: “子公司A的重组方案，和子公司B的重组方案，应该是独立制定的。最终集团的重组报告，应该就是这两份独立方案的简单合并。”
左边: 集团总部制定一个庞大的、统一的重组矩阵 $M\otimes N$ ，直接作用于整个集团的初始状态 $|\phi\rangle\otimes|\psi\rangle$ 。
右边: 子公司A自己根据方案 $M$ 进行重组，得到新状态 $M|\phi\rangle$ 。子公司B自己根据方案 $N$ 进行重组，得到新状态 $N|\psi\rangle$ 。然后把两份成果合并 $(M|\phi\rangle)\otimes(N|\psi\rangle)$ 。
这个定义说，总部的“统一操作”，必须等同于“各自为政然后合并”的结果。

💭 [直观想象]

想象你在用代码写一个函数。

operate_X(state_X)
operate_Y(state_Y)
tensor_product(vec1, vec2)
operate_XY_jointly(state_XY)
这个定义说的就是:

operate_XY_jointly( tensor_product(state_X, state_Y) )

必须总是等于

tensor_product( operate_X(state_X), operate_Y(state_Y) )。

这个性质可以用一个交换图 (Commutative Diagram) 来表示，在范畴论中非常常见。它表示从左上角到右下角的两条路径是等价的。

📜 [原文49]

遵循前面描述的对笛卡尔积元素排序的惯例，我们也可以将两个矩阵的张量积明确地写成如下形式：

\begin{gathered} \begin{pmatrix} \alpha_{11} & \cdots & \alpha_{1m} \\ \vdots & \ddots & \vdots \\ \alpha_{m1} & \cdots & \alpha_{mm} \end{pmatrix} \otimes \begin{pmatrix} \beta_{11} & \cdots & \beta_{1k} \\ \vdots & \ddots & \vdots\\ \beta_{k1} & \cdots & \beta_{kk} \end{pmatrix} \hspace{6cm}\\[8mm] \hspace{1cm} = \begin{pmatrix} \alpha_{11}N & \cdots & \alpha_{1m}N \\ \vdots & \ddots & \vdots \\ \alpha_{m1}N & \cdots & \alpha_{mm}N \end{pmatrix} = \begin{pmatrix} \alpha_{11}\beta_{11} & \cdots & \alpha_{11}\beta_{1k} & & \alpha_{1m}\beta_{11} & \cdots & \alpha_{1m}\beta_{1k} \\ \vdots & \ddots & \vdots & \hspace{2mm}\cdots\hspace{2mm} & \vdots & \ddots & \vdots \\ \alpha_{11}\beta_{k1} & \cdots & \alpha_{11}\beta_{kk} & & \alpha_{1m}\beta_{k1} & \cdots & \alpha_{1m}\beta_{kk} \\[2mm] & \vdots & & \ddots & & \vdots & \\[2mm] \alpha_{m1}\beta_{11} & \cdots & \alpha_{m1}\beta_{1k} & & \alpha_{mm}\beta_{11} & \cdots & \alpha_{mm}\beta_{1k} \\ \vdots & \ddots & \vdots & \hspace{2mm}\cdots\hspace{2mm} & \vdots & \ddots & \vdots \\ \alpha_{m1}\beta_{k1} & \cdots & \alpha_{m1}\beta_{kk} & & \alpha_{mm}\beta_{k1} & \cdots & \alpha_{mm}\beta_{kk} \end{pmatrix} \end{gathered}

📖 [逐步解释]

这部分给出了矩阵张量积的具体计算方法，即克罗内克积 (Kronecker Product)，其形式与向量的计算方法完全平行。

“...我们也可以将两个矩阵的张量积明确地写成如下形式”: 预告了一个具体的、块状的矩阵构造方法。
公式解读:
输入: 一个 $m \times m$ 矩阵 $M$ （元素为 $\alpha_{ij}$ ）和一个 $k \times k$ 矩阵 $N$ （元素为 $\beta_{ij}$ ）。
输出: 一个 $(mk) \times (mk)$ 的大矩阵。
计算规则:

这个大矩阵可以被看作是一个由 $k \times k$ 的子块 (sub-block) 组成的 $m \times m$ 的块矩阵 (block matrix)。
这个块矩阵的第 $i$ 行、第 $j$ 列的那个子块，等于第一个矩阵 $M$ 的对应元素 $\alpha_{ij}$ 乘以整个第二个矩阵 $N$ 。
即，块 $(i,j) = \alpha_{ij}N$。
- 展开形式: 文中最终的那个大矩阵，就是把所有这些 $\alpha_{ij}N$ 子块全部展开后的样子。
- 例如，左上角的 $k \times k$ 块，就是 $\alpha_{11}N = \begin{pmatrix} \alpha_{11}\beta_{11} & \dots \\ \vdots & \ddots \end{pmatrix}$ 。
- 右上角的 $k \times k$ 块，就是 $\alpha_{1m}N = \begin{pmatrix} \alpha_{1m}\beta_{11} & \dots \\ \vdots & \ddots \end{pmatrix}$ 。
- 与向量克罗内克积的平行性:
- 向量: 第一个向量的每个元素，乘以整个第二个向量，然后堆叠。
- 矩阵: 第一个矩阵的每个元素，乘以整个第二个矩阵，然后按块排列。
- 规则是完全一致的。

∑ [公式拆解]

我在原文的公式中补上了一个中间步骤，以便看得更清楚。

M \otimes N = \begin{pmatrix} \alpha_{11}N & \cdots & \alpha_{1m}N \\ \vdots & \ddots & \vdots \\ \alpha_{m1}N & \cdots & \alpha_{mm}N \end{pmatrix}

💡 [数值示例]

示例1:

$M = \begin{pmatrix}0&1\\1&0\end{pmatrix}$ (NOT)
$N = \begin{pmatrix}1&0\\0&1\end{pmatrix}$ (ID)
计算 $M \otimes N$ :

$= \begin{pmatrix} 0 \cdot N & 1 \cdot N \\ 1 \cdot N & 0 \cdot N \end{pmatrix}$

$= \begin{pmatrix} \begin{pmatrix}0&0\\0&0\end{pmatrix} & \begin{pmatrix}1&0\\0&1\end{pmatrix} \\ \begin{pmatrix}1&0\\0&1\end{pmatrix} & \begin{pmatrix}0&0\\0&0\end{pmatrix} \end{pmatrix}$

展开成一个4x4矩阵:

$\begin{pmatrix}

0&0&1&0 \\

0&0&0&1 \\

1&0&0&0 \\

0&1&0&0

\end{pmatrix}$

示例2: (之前CNOT门的矩阵)

$M = \begin{pmatrix}1&0\\0&0\end{pmatrix}$ (不是随机矩阵，仅为示例)
$N = \begin{pmatrix}1&2\\3&4\end{pmatrix}$
计算 $M\otimes N$ :

$= \begin{pmatrix} 1 \cdot N & 0 \cdot N \\ 0 \cdot N & 0 \cdot N \end{pmatrix} = \begin{pmatrix} N & \mathbf{0} \\ \mathbf{0} & \mathbf{0} \end{pmatrix}$ (这里0是零矩阵)

$= \begin{pmatrix}

1&2&0&0 \\

3&4&0&0 \\

0&0&0&0 \\

0&0&0&0

\end{pmatrix}$

⚠️ [易错点]

易错点：块的位置。 $\alpha_{ij}N$ 这个块，是放在最终大矩阵的第 $i$ “块行”，第 $j$ “块列”。
易错点：不交换。 $M \otimes N \neq N \otimes M$ 。计算 $N\otimes M$ 会得到一个完全不同的块结构： $\begin{pmatrix} \beta_{11}M & \dots \\ \vdots & \ddots \end{pmatrix}$ 。

📝 [总结]

本段给出了计算矩阵张量积的具体算法——克罗内克积。它将一个张量积运算分解为一个由标量与矩阵相乘构成的、分块的构造过程。这个方法直观、机械，非常适合在计算机上编程实现，并且其结果与基于字母顺序的理论定义完全吻合。

🎯 [存在目的]

本段的目的是将矩阵张量积从抽象定义落实到具体计算。它为我们提供了一个“铅笔和纸”的方法，来实际地写出任意两个子操作矩阵所对应的联合操作矩阵。这是连接理论和实践的关键一步。

🧠 [直觉心智模型]

这就像是一个“分形”或“自相似”的构造过程。

矩阵 $N$ : 是一个基本的“图案”。
矩阵 $M$ : 是一个“指令网格”。网格中的每个单元格 $\alpha_{ij}$ 告诉我们“在对应的位置，放置一个图案 $N$ ，并将其整体亮度/大小缩放 $\alpha_{ij}$ 倍”。
张量积矩阵: 就是将所有这些缩放后的图案，按照 $M$ 的网格布局，拼接起来形成的一幅更大的、具有自相似结构的图像。

💭 [直观想象]

想象你在电脑屏幕上平铺一个窗口。

矩阵 $N$ : 代表一个窗口的内容。
矩阵 $M$ : 是一个 $2 \times 2$ 的网格布局指令 $\begin{pmatrix} \alpha_{11} & \alpha_{12} \\ \alpha_{21} & \alpha_{22} \end{pmatrix}$ 。
张量积 $M\otimes N$ : 生成了一个 $2 \times 2$ 的窗口平铺。
左上角的窗口，是原始窗口 $N$ 乘以一个透明度 $\alpha_{11}$ 。
右上角的窗口，是原始窗口 $N$ 乘以一个透明度 $\alpha_{12}$ 。
...等等。
这个最终由四个（可能半透明的）窗口拼接成的大屏幕，就是张量积矩阵。

📜 [原文50]

三个或更多矩阵的张量积以类似的方式定义。

如果 $M_0, \ldots, M_{n-1}$ 是索引对应于经典状态集 $\Sigma_0,\ldots,\Sigma_{n-1}$ 的矩阵，那么张量积 $M_{n-1}\otimes\cdots\otimes M_0$ 由以下条件定义

\langle a_{n-1}\cdots a_0 \vert M_{n-1}\otimes\cdots\otimes M_0 \vert b_{n-1}\cdots b_0\rangle = \langle a_{n-1} \vert M_{n-1} \vert b_{n-1} \rangle \cdots\langle a_0 \vert M_0 \vert b_0 \rangle

对于经典状态 $a_0,b_0\in\Sigma_0,\ldots,a_{n-1},b_{n-1}\in\Sigma_{n-1}$ 的每种选择都成立。

或者，三个或更多矩阵的张量积可以递归定义，根据两个矩阵的张量积来定义，类似于我们对向量所观察到的。

📖 [逐步解释]

这部分将矩阵张量积推广到n个矩阵的情况。

“三个或更多矩阵的张量积以类似的方式定义”: 表明推广是直接的。
“如果 $M_0, \ldots, M_{n-1}$ 是...矩阵...”: 设定了n个子操作矩阵，遵循从右到左的索引惯例。
“...由以下条件定义”: 给出了n-矩阵张量积的“按元素查询”定义。
左边: 联合操作大矩阵 $M_{n-1}\otimes\cdots\otimes M_0$ 的一个元素。其行索引是复合状态 a_n-1...a_0，列索引是 b_n-1...b_0。
右边: n个子矩阵对应元素的连乘积。
解读: 联合操作从 b 状态转移到 a 状态的“强度”，等于所有独立的子操作从各自的 $b_i$ 转移到 $a_i$ 的“强度”的乘积。这完全符合独立性的直觉。
“或者，...可以递归定义...”:
$M_{n-1}\otimes\cdots\otimes M_0 = M_{n-1} \otimes (M_{n-2}\otimes\cdots\otimes M_0)$ 。
这和向量的递归定义完全一样。它也表明矩阵张量积是“可结合的”（在同构意义下）。

∑ [公式拆解]

这两个定义是平行的，并且都与n-向量张量积的定义方式一致。克罗内克积的计算方法也可以递归地应用。

💡 [数值示例]

示例: 三个比特门的张量积
$M_2 = \begin{pmatrix}0&1\\1&0\end{pmatrix}$ (NOT)
$M_1 = \begin{pmatrix}1&0\\0&1\end{pmatrix}$ (ID)
$M_0 = \begin{pmatrix}1&1\\0&0\end{pmatrix}$ (Reset-0)
计算 $M_2 \otimes M_1 \otimes M_0$ 。这是一个8x8的矩阵。
递归计算:

先算 $M_1\otimes M_0 = \begin{pmatrix}1&0\\0&1\end{pmatrix} \otimes \begin{pmatrix}1&1\\0&0\end{pmatrix} = \begin{pmatrix} 1\cdot M_0 & 0\cdot M_0 \\ 0\cdot M_0 & 1\cdot M_0 \end{pmatrix} = \begin{pmatrix} 1&1&0&0 \\ 0&0&0&0 \\ 0&0&1&1 \\ 0&0&0&0 \end{pmatrix}$ 。
再算 $M_2 \otimes (\text{结果1}) = \begin{pmatrix}0&1\\1&0\end{pmatrix} \otimes (\text{结果1}) = \begin{pmatrix} 0\cdot(\text{结果1}) & 1\cdot(\text{结果1}) \\ 1\cdot(\text{结果1}) & 0\cdot(\text{结果1}) \end{pmatrix}$

$= \begin{pmatrix} \mathbf{0}_{4\times4} & (\text{结果1}) \\ (\text{结果1}) & \mathbf{0}_{4\times4} \end{pmatrix} = \begin{pmatrix}

0&0&0&0 & 1&1&0&0 \\

0&0&0&0 & 0&0&0&0 \\

0&0&0&0 & 0&0&1&1 \\

0&0&0&0 & 0&0&0&0 \\

1&1&0&0 & 0&0&0&0 \\

0&0&0&0 & 0&0&0&0 \\

0&0&1&1 & 0&0&0&0 \\

0&0&0&0 & 0&0&0&0

\end{pmatrix}$。

📝 [总结]

本段将矩阵张量积的定义从2个矩阵推广到n个矩阵，提供了“元素定义”和“递归定义”两种方式，并指出其“可结合”的实用性质。

📜 [原文51]

矩阵的张量积有时被称为具有可乘性，因为方程

(M_{n-1}\otimes\cdots\otimes M_0)(N_{n-1}\otimes\cdots\otimes N_0) = (M_{n-1} N_{n-1})\otimes\cdots\otimes (M_0 N_0)

总是成立的，对于矩阵 $M_0,\ldots,M_{n-1}$ 和 $N_0\ldots,N_{n-1}$ 的任何选择，前提是乘积 $M_0 N_0, \ldots, M_{n-1} N_{n-1}$ 有意义。

📖 [逐步解释]

这部分介绍了矩阵张量积的另一个极其重要的代数性质：可乘性 (Multiplicativity)。

“...被称为具有可乘性...”: 引入性质名称。
核心方程解读:
左边: $(M_{n-1}\otimes\cdots\otimes M_0)(N_{n-1}\otimes\cdots\otimes N_0)$

先各自做张量积，得到两个大的联合操作矩阵。
然后再对这两个大矩阵做普通矩阵乘法。
这代表了“先执行一次联合独立操作 Ns，再执行一次联合独立操作 Ms”。
- 右边: $(M_{n-1} N_{n-1})\otimes\cdots\otimes (M_0 N_0)$
先对各个子系统，各自做普通矩阵乘法 $M_i N_i$ 。得到n个新的子操作矩阵。
然后再对这n个新的子矩阵做张量积。
这代表了“对每个子系统，先执行操作 $N_i$，再执行操作 $M_i$，最后将这些串行操作的最终结果组合起来”。
- 等式的意义: 张量积的乘积等于乘积的张量积。
- 这个性质为什么如此强大？:
- 左边的计算非常昂贵。你需要构造两个巨大的 $(mk...)\times(mk...)$ 矩阵，然后再对它们做一个巨大的矩阵乘法。
- 右边的计算则便宜得多。你只需要做n次小的矩阵乘法，然后再做一次符号上的张量积。
- 这个等式允许我们将一个在高维空间中的复杂运算，分解为在低维空间中的n个简单运算的组合。

∑ [公式拆解]

(M\otimes N)(P\otimes Q) = (MP)\otimes(NQ)

我们来证明2x2的情况。

让这个矩阵作用在一个乘积态 $|\phi\rangle\otimes|\psi\rangle$ 上。
左边:

$(M\otimes N)(P\otimes Q) (|\phi\rangle\otimes|\psi\rangle)$

$= (M\otimes N) [ (P|\phi\rangle) \otimes (Q|\psi\rangle) ]$ (根据定义(3))

令 $|\phi'\rangle = P|\phi\rangle, |\psi'\rangle = Q|\psi\rangle$ 。

$= (M\otimes N) (|\phi'\rangle\otimes|\psi'\rangle)$

$= (M|\phi'\rangle) \otimes (N|\psi'\rangle)$ (再次用定义(3))

$= (M(P|\phi\rangle)) \otimes (N(Q|\psi\rangle))$

$= ((MP)|\phi\rangle) \otimes ((NQ)|\psi\rangle)$ (矩阵乘法结合律)

右边:

$[(MP)\otimes(NQ)] (|\phi\rangle\otimes|\psi\rangle)$

$= ((MP)|\phi\rangle) \otimes ((NQ)|\psi\rangle)$ (根据定义(3) )

由于左边和右边作用在任意乘积态上的结果都相同，而所有向量都可以由乘积态（实际上是基向量）线性组合而成，所以这两个矩阵是等价的。

📝 [总结]

本段介绍了矩阵张量积的可乘性质：张量积的乘积等于乘积的张量积。这个性质极大地简化了对连续独立操作的分析和计算，允许我们将高维空间的矩阵运算分解到低维子空间中进行。

14.3 独立操作（续）

📜 [原文52]

我们现在可以回答之前提出的问题：

如果 $M$ 是 $\mathsf{X}$ 上的概率操作， $N$ 是 $\mathsf{Y}$ 上的概率操作，并且这两个操作是独立执行的，那么在复合系统 $(\mathsf{X},\mathsf{Y})$ 上产生的操作就是张量积 $M\otimes N$ 。

因此，对于概率状态和概率操作，张量积都代表了独立性。

如果我们有两个系统 $\mathsf{X}$ 和 $\mathsf{Y}$ ，它们独立地处于概率状态 $\vert\phi\rangle$ 和 $\vert\pi\rangle$ ，那么复合系统 $(\mathsf{X},\mathsf{Y})$ 就处于概率状态 $\vert\phi\rangle\otimes\vert\pi\rangle$ ；

并且如果我们独立地对这两个系统应用概率操作 $M$ 和 $N$ ，那么在复合系统 $(\mathsf{X},\mathsf{Y})$ 上产生的动作就由操作 $M\otimes N$ 描述。

📖 [逐步解释]

这部分是对之前所有关于独立性和张量积讨论的一个总结陈词。

“我们现在可以回答之前提出的问题”: 这个问题是“描述独立操作的联合矩阵是什么？”
“...产生的操作就是张量积 $M\otimes N$ ”: 这是最终的答案。这个答案之所以正确，正是因为 $M\otimes N$ 这个数学构造，完美地满足了我们对“独立操作”的物理直觉，即 $(M\otimes N)(|\phi\rangle\otimes|\psi\rangle) = (M|\phi\rangle)\otimes(N|\psi\rangle)$ 。
“因此，对于概率状态和概率操作，张量积都代表了独立性”: 这是最核心的总结，一个极其优美的对称性。
组合独立的状态: 用向量的张量积。
组合独立的操作: 用矩阵的张量积。
“如果我们有两个系统...就处于概率状态...”: 复述了独立状态的定义。
“并且如果我们独立地...就由操作...描述”: 复述了独立操作的定义。

📝 [总结]

本段明确指出，张量积是描述“独立”这一物理概念的统一数学工具。无论是组合独立的状态，还是组合独立的操作，都通过张量积来完成。独立联合状态是子状态的张量积，独立联合操作是子操作的张量积。

📜 [原文53]

让我们看一个例子，它回想了上一课中单个比特上的概率操作：

如果该比特的经典状态为 $0$ ，则不予理会；如果该比特的经典状态为 $1$ ，则以 $1/2$ 的概率将其翻转为 0。

我们观察到此操作由矩阵表示

\begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix}.

如果此操作在一个比特 $\mathsf{X}$ 上执行，并且（独立地）在第二个比特 $\mathsf{Y}$ 上执行一个 NOT 操作，那么在复合系统 $(\mathsf{X},\mathsf{Y})$ 上的联合操作具有矩阵表示

\begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix} \otimes \begin{pmatrix} 0 & 1\\[1mm] 1 & 0 \end{pmatrix} = \begin{pmatrix} 0 & 1 & 0 & \frac{1}{2} \\[1mm] 1 & 0 & \frac{1}{2} & 0 \\[1mm] 0 & 0 & 0 & \frac{1}{2} \\[1mm] 0 & 0 & \frac{1}{2} & 0 \end{pmatrix}.

通过检查，我们看到这是一个随机矩阵。

情况将总是如此：两个或更多随机矩阵的张量积始终是随机的。

📖 [逐步解释]

这是一个计算独立操作的联合矩阵的具体例子。

“让我们看一个例子...”: 引入一个单比特的随机操作 $M$ 。
输入0 -> 输出0 (概率1)。第1列是 $\begin{pmatrix}1\\0\end{pmatrix}$ 。
输入1 -> 输出0 (概率1/2)，输出1 (概率1/2)。第2列是 $\begin{pmatrix}1/2\\1/2\end{pmatrix}$ 。
组合成矩阵 $M = \begin{pmatrix}1 & 1/2 \\ 0 & 1/2\end{pmatrix}$ 。(原文中矩阵的(1,1)元素为0，这里按描述应该是0，原文可能有误，但我们按原文矩阵算) 原文矩阵 $M = \begin{pmatrix}1 & 1/2 \\ 0 & 1/2\end{pmatrix}$ 的描述应该是：输入1，以1/2概率变为0，以1/2概率保持1。而原文的 $\begin{pmatrix}1&1/2\\0&1/2\end{pmatrix}$ 实际上描述的是：输入1，1/2概率变0，1/2概率保持1。我们将按原文给出的矩阵进行计算。
“如果此操作在一个比特 $\mathsf{X}$ 上执行...在第二个比特 $\mathsf{Y}$ 上执行一个 NOT 操作...”:
$M = \begin{pmatrix} 1 & 1/2 \\ 0 & 1/2 \end{pmatrix}$ 作用于 $\mathsf{X}$ 。
$N = \begin{pmatrix} 0 & 1 \\ 1 & 0 \end{pmatrix}$ 作用于 $\mathsf{Y}$ 。
这两个操作是独立的。
“...联合操作具有矩阵表示...”: 联合操作矩阵就是 $M\otimes N$ 。
计算克罗内克积:

$M\otimes N = \begin{pmatrix} 1 \cdot N & \frac{1}{2} \cdot N \\ 0 \cdot N & \frac{1}{2} \cdot N \end{pmatrix} = \begin{pmatrix} \begin{pmatrix}0&1\end{pmatrix} & \begin{pmatrix}0&1/2\\1/2&0\end{pmatrix} \\ \begin{pmatrix}0&0\\0&0\end{pmatrix} & \begin{pmatrix}0&1/2\\1/2&0\end{pmatrix} \end{pmatrix}$

这里似乎我的计算与原文不符，我们仔细检查原文的计算。
$M\otimes N = \begin{pmatrix} 1\cdot\begin{pmatrix}0&1\\1&0\end{pmatrix} & \frac{1}{2}\cdot\begin{pmatrix}0&1\\1&0\end{pmatrix} \\ 0\cdot\begin{pmatrix}0&1\\1&0\end{pmatrix} & \frac{1}{2}\cdot\begin{pmatrix}0&1\\1&0\end{pmatrix} \end{pmatrix} = \begin{pmatrix} \begin{pmatrix}0&1\\1&0\end{pmatrix} & \begin{pmatrix}0&1/2\\1/2&0\end{pmatrix} \\ \begin{pmatrix}0&0\\0&0\end{pmatrix} & \begin{pmatrix}0&1/2\\1/2&0\end{pmatrix} \end{pmatrix}$
展开后是 $\begin{pmatrix} 0&1&0&1/2 \\ 1&0&1/2&0 \\ 0&0&0&1/2 \\ 0&0&1/2&0 \end{pmatrix}$ 。
原文的矩阵似乎有误。原文结果是 $\begin{pmatrix} 0 & 1 & 0 & 1/2 \\ 1 & 0 & 1/2 & 0 \\ 0 & 0 & 0 & 1/2 \\ 0 & 0 & 1/2 & 0 \end{pmatrix}$ 。
让我们检查原文矩阵的列和。
第1列: 0+1+0+0 = 1.
第2列: 1+0+0+0 = 1.
第3列: 0+1/2+0+1/2 = 1.
第4列: 1/2+0+1/2+0 = 1.
原文的矩阵确实是一个合法的随机矩阵。而我的计算结果中，第2列和为1，第4列和为1，但第1列和为1，第3列和为1。让我们重新检查我的克罗内克积计算。
$\alpha_{11}N = 1\cdot N = \begin{pmatrix}0&1\\1&0\end{pmatrix}$
$\alpha_{12}N = \frac{1}{2}\cdot N = \begin{pmatrix}0&1/2\\1/2&0\end{pmatrix}$
$\alpha_{21}N = 0\cdot N = \begin{pmatrix}0&0\\0&0\end{pmatrix}$
$\alpha_{22}N = \frac{1}{2}\cdot N = \begin{pmatrix}0&1/2\\1/2&0\end{pmatrix}$
拼接: $\begin{pmatrix} \alpha_{11}N & \alpha_{12}N \\ \alpha_{21}N & \alpha_{22}N \end{pmatrix} = \begin{pmatrix} 0&1 & 0&1/2 \\ 1&0 & 1/2&0 \\ 0&0 & 0&1/2 \\ 0&0 & 1/2&0 \end{pmatrix}$
我的计算结果与原文矩阵是相同的。之前的检查有误。
“...两个或更多随机矩阵的张量积始终是随机的”: 这是一个重要的定理。可以证明，如果 $M,N$ 的列和都为1，那么 $M\otimes N$ 的列和也必为1。

📜 [原文54]

我们遇到的一种常见情况是，在一个系统上执行一个操作，而对另一个系统什么都不做。

在这种情况下，遵循完全相同的规定，记住“什么都不做”由单位矩阵表示。

例如，将比特 $\mathsf{X}$ 重置为 $0$ 状态而对 $\mathsf{Y}$ 什么都不做，在 $(\mathsf{X},\mathsf{Y})$ 上产生的概率（事实上是确定性）操作由矩阵表示

\begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix} \otimes \begin{pmatrix} 1 & 0\\[1mm] 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 & 0 \\[1mm] 0 & 1 & 0 & 1 \\[1mm] 0 & 0 & 0 & 0 \\[1mm] 0 & 0 & 0 & 0 \end{pmatrix}.

📖 [逐步解释]

这部分讨论了一种特殊的、但非常常见的独立操作：只操作一个子系统，其他子系统保持不变。

“...对另一个系统什么都不做”: 这个操作在物理上很常见。
“...记住‘什么都不做’由单位矩阵表示”:
单位矩阵 (Identity Matrix) $I$ 是一个对角线上全是1，其他地方全是0的方阵。
任何向量乘以单位矩阵，结果都是其自身： $I|\psi\rangle = |\psi\rangle$ 。所以它完美地代表了“什么都不做”这个操作。
“例如，将比特 $\mathsf{X}$ 重置为 $0$ 状态...”:
操作M (在 $\mathsf{X}$ 上): “Reset-to-0”。
输入 0 -> 输出 0。
输入 1 -> 输出 0。
对应的矩阵 $M = \begin{pmatrix}1&1\\0&0\end{pmatrix}$ 。
操作N (在 $\mathsf{Y}$ 上): “什么都不做”。
对应的矩阵 $N = I = \begin{pmatrix}1&0\\0&1\end{pmatrix}$ 。
“...产生的...操作由矩阵表示...”:
联合操作矩阵是 $M \otimes N = M \otimes I$ 。
计算克罗内克积:

$M\otimes I = \begin{pmatrix}1&1\\0&0\end{pmatrix} \otimes \begin{pmatrix}1&0\\0&1\end{pmatrix}$

$= \begin{pmatrix} 1\cdot I & 1\cdot I \\ 0\cdot I & 0\cdot I \end{pmatrix} = \begin{pmatrix} I & I \\ \mathbf{0} & \mathbf{0} \end{pmatrix}$

$= \begin{pmatrix} \begin{pmatrix}1&0\\0&1\end{pmatrix} & \begin{pmatrix}1&0\\0&1\end{pmatrix} \\ \begin{pmatrix}0&0\\0&0\end{pmatrix} & \begin{pmatrix}0&0\\0&0\end{pmatrix} \end{pmatrix}$

展开成4x4矩阵:

$\begin{pmatrix} 1&0&1&0 \\ 0&1&0&1 \\ 0&0&0&0 \\ 0&0&0&0 \end{pmatrix}$ 。

与原文结果一致。
结果验证:
输入 00 -> $M\otimes I |00\rangle = |00\rangle$ (X=0, Y=0) -> Reset X to 0 -> 00
输入 01 -> $M\otimes I |01\rangle = |01\rangle$ (X=0, Y=1) -> Reset X to 0 -> 01
输入 10 -> $M\otimes I |10\rangle = |00\rangle$ (X=1, Y=0) -> Reset X to 0 -> 00
输入 11 -> $M\otimes I |11\rangle = |01\rangle$ (X=1, Y=1) -> Reset X to 0 -> 01
将这些映射关系写成矩阵列，可以验证矩阵的正确性。例如，输入 10 (第3列) 输出 00 (第1行是1)。 $M\otimes I \begin{pmatrix}0\\0\\1\\0\end{pmatrix} = \begin{pmatrix}1\\0\\0\\0\end{pmatrix}$ 。与矩阵的第3列不符。
让我们重新检查原文的计算：

$M\otimes I \begin{pmatrix}0\\0\\1\\0\end{pmatrix} = \begin{pmatrix}1&0&1&0\\0&1&0&1\\0&0&0&0\\0&0&0&0\end{pmatrix}\begin{pmatrix}0\\0\\1\\0\end{pmatrix} = \begin{pmatrix}1\\0\\0\\0\end{pmatrix}$

这个结果是 $|00\rangle$ 。这与我们的逻辑推导 10 -> 00 是一致的。

$M\otimes I |11\rangle = \begin{pmatrix}1&0&1&0\\0&1&0&1\\0&0&0&0\\0&0&0&0\end{pmatrix}\begin{pmatrix}0\\0\\0\\1\end{pmatrix} = \begin{pmatrix}0\\1\\0\\0\end{pmatrix}$

这个结果是 $|01\rangle$ 。这与我们的逻辑推导 11 -> 01 是一致的。

所以原文的矩阵是正确的。

📝 [总结]

本段通过一个具体例子，阐明了如何表示“只对部分子系统进行操作”这一常见情景。其方法是将未被操作的子系统视为执行了单位操作（由单位矩阵 $I$ 表示），然后与其他子系统的操作矩阵进行张量积。

2行间公式索引

1. 两个系统的笛卡尔积定义：

\Sigma\times\Gamma = \bigl\{(a,b)\,:\,a\in\Sigma\;\text{and}\;b\in\Gamma\bigr\}.

这个公式定义了两个集合的笛卡尔积，它是由所有可能的有序对组成的集合，其中有序对的第一个元素来自第一个集合，第二个元素来自第二个集合。

2. n个系统的笛卡尔积定义：

\Sigma_1\times\cdots\times\Sigma_n = \bigl\{(a_1,\ldots,a_n)\,:\, a_1\in\Sigma_1,\:\ldots,\:a_n\in\Sigma_n\bigr\}.

这是对两个系统笛卡尔积的推广，定义了n个集合的笛卡尔积是由所有可能的n元组构成的集合。

3. Qiskit惯例下的经典状态：

(a_{n-1},\ldots,a_0) \in \Sigma_{n-1}\times \cdots \times \Sigma_0

这个公式展示了在从右到左、从0开始索引的惯例下，一个n系统复合状态的表示形式。

4. 10比特系统的状态集：

\Sigma_0 = \Sigma_1 = \cdots = \Sigma_9 = \{0,1\}

定义了10个比特系统中每个比特的状态集都是{0,1}。

5. 10比特系统的复合状态空间：

\Sigma_9\times\Sigma_8\times\cdots\times\Sigma_0 = \{0,1\}^{10}

说明10个比特的复合状态空间是{0,1}的10次笛卡尔积，简写为 $\{0,1\}^{10}$ 。

6. 10比特系统经典状态示例列表：

\begin{array}{c} 0000000000\\ 0000000001\\ 0000000010\\ 0000000011\\ 0000000100\\ \vdots\\[1mm] 1111111111 \end{array}

以字符串形式列出了10比特系统的一些经典状态，展示了从0到1023的二进制表示。

7. 相关性的2比特概率状态示例：

\begin{aligned} \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (0,0)\bigr) & = 1/2 \\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (0,1)\bigr) & = 0\\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (1,0)\bigr) & = 0\\[2mm] \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (1,1)\bigr) & = 1/2 \end{aligned}

给出了一个具体的2比特联合概率分布，其中两个比特的状态总是相同的，这是一个典型的相关状态。

8. 相关状态的概率向量表示：

\begin{pmatrix} \frac{1}{2}\\[1mm] 0\\[1mm] 0\\[1mm] \frac{1}{2} \end{pmatrix} \begin{array}{l} \leftarrow \text{处于状态 00 的概率}\\[1mm] \leftarrow \text{处于状态 01 的概率}\\[1mm] \leftarrow \text{处于状态 10 的概率}\\[1mm] \leftarrow \text{处于状态 11 的概率} \end{array} \tag{1}

将上述的相关概率状态用一个4维的列向量来表示，并标注了每个分量对应的状态。

9. 独立性的数学定义：

\operatorname{Pr}((\mathsf{X},\mathsf{Y}) = (a,b)) = \operatorname{Pr}(\mathsf{X} = a) \operatorname{Pr}(\mathsf{Y} = b) \tag{2}

给出了两个系统相互独立的严格数学定义：联合概率等于边际概率的乘积。

10. 狄拉克符号表示的联合概率向量：

\sum_{(a,b) \in \Sigma\times\Gamma} p_{ab} \vert a b\rangle.

引入了使用狄拉克符号（ket向量）来表示一个联合概率向量，作为标准基向量的线性组合。

11. 狄拉克符号表示的子系统概率向量：

\vert \phi \rangle = \sum_{a\in\Sigma} q_a \vert a \rangle \quad\text{and}\quad \vert \psi \rangle = \sum_{b\in\Gamma} r_b \vert b \rangle, \tag{3}

用狄拉克符号分别表示两个子系统的概率向量。

12. 独立性的系数形式：

p_{ab} = q_a r_b \tag{4}

将独立性条件用向量系数的形式表达：联合概率向量的系数等于子系统概率向量系数的乘积。

13. 一个独立的概率状态示例：

\frac{1}{6} \vert 00 \rangle + \frac{1}{12} \vert 01 \rangle + \frac{1}{2} \vert 10 \rangle + \frac{1}{4} \vert 11 \rangle

给出了一个可以分解为两个独立子系统概率状态的联合概率向量的例子。

14. 上述独立状态的子系统分解：

\vert \phi \rangle = \frac{1}{4} \vert 0 \rangle + \frac{3}{4} \vert 1 \rangle \quad\text{and}\quad \vert \psi \rangle = \frac{2}{3} \vert 0 \rangle + \frac{1}{3} \vert 1 \rangle.

展示了上一个例子中的联合概率向量是如何由两个更简单的子系统概率向量构成的。

15. 相关状态的狄拉克表示法：

\frac{1}{2} \vert 00 \rangle + \frac{1}{2} \vert 11 \rangle, \tag{5}

用狄拉克符号和省略零项的方式，简洁地表示了之前那个典型的相关状态。

16. 证明相关性所用的关键方程：

q_0 r_1 = \operatorname{Pr}\bigl((\mathsf{X},\mathsf{Y}) = (0,1)\bigr) = 0.

在反证法中，从联合概率为0的状态出发，推导出边际概率乘积也必须为0。

17. 向量张量积的定义：

\vert \phi \rangle \otimes \vert \psi \rangle = \sum_{(a,b)\in\Sigma\times\Gamma} \alpha_a \beta_b \vert ab\rangle.

给出了两个向量张量积的构造性定义：新向量的系数是原向量系数的乘积。

18. 向量张量积的等效定义：

\langle ab \vert \pi \rangle = \langle a \vert \phi \rangle \langle b \vert \psi \rangle

用bra-ket内积的形式给出了张量积的等效定义，强调了分量之间的关系。

19. 独立性的张量积表述：

\vert \pi \rangle = \vert \phi \rangle \otimes \vert \psi \rangle

用一个简洁的向量方程重新定义了独立性：联合状态是独立（乘积态），当且仅当它可以写成子状态的张量积。

20. 向量张量积的克罗内克积形式：

\begin{pmatrix} \alpha_1\\ \vdots\\ \alpha_m \end{pmatrix} \otimes \begin{pmatrix} \beta_1\\ \vdots\\ \beta_k \end{pmatrix} = \begin{pmatrix} \alpha_1 \beta_1\\ \vdots\\ \alpha_1 \beta_k\\ \alpha_2 \beta_1\\ \vdots\\ \alpha_2 \beta_k\\ \vdots\\ \alpha_m \beta_1\\ \vdots\\ \alpha_m \beta_k \end{pmatrix}

给出了计算两个列向量张量积的具体算法，即克罗内克积。

21. 基向量的张量积：

\vert a \rangle \otimes \vert b \rangle = \vert ab \rangle.

指出了一个关键规则：子系统标准基向量的张量积等于复合系统的标准基向量。

22. 张量积的双线性（对第一个参数）：

\begin{aligned} \bigl(\vert\phi_1\rangle + \vert\phi_2\rangle\bigr)\otimes \vert\psi\rangle & = \vert\phi_1\rangle \otimes \vert\psi\rangle + \vert\phi_2\rangle \otimes \vert\psi\rangle \\[1mm] \bigl(\alpha \vert \phi \rangle\bigr) \otimes \vert \psi \rangle & = \alpha \bigl(\vert \phi \rangle \otimes \vert \psi \rangle \bigr) \end{aligned}

展示了张量积对第一个输入参数满足可加性和齐次性（分配律）。

23. 张量积的双线性（对第二个参数）：

\begin{aligned} \vert \phi \rangle \otimes \bigl(\vert \psi_1 \rangle + \vert \psi_2 \rangle \bigr) & = \vert \phi \rangle \otimes \vert \psi_1 \rangle + \vert \phi \rangle \otimes \vert \psi_2 \rangle\\[1mm] \vert \phi \rangle \otimes \bigl(\alpha \vert \psi \rangle \bigr) & = \alpha \bigl(\vert\phi\rangle\otimes\vert\psi\rangle\bigr) \end{aligned}

展示了张量积对第二个输入参数也满足可加性和齐次性。

24. 标量在张量积中的自由浮动性质：

\bigl(\alpha \vert \phi \rangle\bigr) \otimes \vert \psi \rangle = \vert \phi \rangle \otimes \bigl(\alpha \vert \psi \rangle \bigr) = \alpha \bigl(\vert \phi \rangle \otimes \vert \psi \rangle \bigr).

总结了齐次性带来的便利：标量乘子可以自由移动，使得表达式可以无歧义地简化。

25. n系统乘积态的定义：

\vert \psi \rangle = \vert \phi_{n-1} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle

将乘积态的定义推广到n个系统，即联合状态是n个子系统状态的张量积。

26. n系统张量积的元素定义：

\langle a_{n-1} \cdots a_0 \vert \psi \rangle = \langle a_{n-1} \vert \phi_{n-1} \rangle \cdots \langle a_0 \vert \phi_0 \rangle

给出了n系统张量积向量的任意一个系数的计算方法。

27. n系统张量积的递归定义：

\vert \phi_{n-1} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle = \vert \phi_{n-1} \rangle \otimes \bigl( \vert \phi_{n-2} \rangle \otimes \cdots \otimes \vert \phi_0 \rangle \bigr).

提供了一种等效的递归方法来定义和计算n系统张量积，体现了其结合性。

28. n系统基向量的张量积：

\vert a_{n-1} \rangle \otimes \cdots \otimes \vert a_0 \rangle = \vert a_{n-1} \cdots a_0 \rangle.

将基向量张量积的规则推广到n个系统。

29. 边际概率（约化概率）公式：

\operatorname{Pr}(\mathsf{X} = a) = \sum_{b\in\Gamma} \operatorname{Pr}\bigl( (\mathsf{X},\mathsf{Y}) = (a,b) \bigr).

定义了如何从联合概率分布计算一个子系统的边际概率，即对另一个系统的所有状态求和。

30. 条件概率公式：

\operatorname{Pr}(\mathsf{Y} = b \,\vert\, \mathsf{X} = a) = \frac{ \operatorname{Pr}\bigl((\mathsf{X},\mathsf{Y}) = (a,b)\bigr) }{ \operatorname{Pr}(\mathsf{X} = a) }

定义了条件概率，即在已知一个事件发生的条件下，另一个事件发生的概率。

31. 联合概率向量的狄拉克表示：

\vert\psi\rangle = \sum_{(a,b)\in\Sigma\times\Gamma} p_{ab} \vert ab\rangle

用系数和基向量的形式表示一个联合概率向量。

32. 部分测量概率的系数形式：

\operatorname{Pr}(\mathsf{X} = a) = \sum_{c\in\Gamma} p_{ac}.

将边际概率公式用联合概率向量的系数来表示。

33. 边际概率向量：

\sum_{a\in\Sigma} \biggl(\sum_{c\in\Gamma} p_{ac}\biggr) \vert a\rangle.

展示了如何从联合概率系数构造一个子系统的边际概率向量。

34. 条件概率向量的定义：

\vert \pi_a \rangle = \frac{\sum_{b\in\Gamma}p_{ab}\vert b\rangle}{\sum_{c\in\Gamma} p_{ac}}.

给出了计算部分测量后未测量系统的新状态向量（条件概率向量）的公式，包含“切片”和“归一化”两个步骤。

35. 部分测量例子的初始状态：

\vert \psi \rangle = \frac{1}{2} \vert 0,1 \rangle + \frac{1}{12} \vert 0,3 \rangle + \frac{1}{12} \vert 1,1 \rangle + \frac{1}{6} \vert 1,2 \rangle + \frac{1}{6} \vert 1,3 \rangle.

提供了一个由一个比特和一个三态系统组成的复合系统的具体概率状态，用于演练部分测量。

36. 初始状态的代数重写形式：

\vert \psi \rangle = \vert 0\rangle \otimes \biggl( \frac{1}{2} \vert 1 \rangle + \frac{1}{12} \vert 3 \rangle\biggr) + \vert 1\rangle \otimes \biggl( \frac{1}{12} \vert 1 \rangle + \frac{1}{6} \vert 2\rangle + \frac{1}{6} \vert 3 \rangle\biggr).

将初始状态向量按照被测系统（第一个比特）的基向量进行分解和重写，使部分测量的分析更直观。

37. 部分测量概率的计算：

\begin{aligned} \operatorname{Pr}(\mathsf{X} = 0) & = \frac{1}{2} + \frac{1}{12} = \frac{7}{12}\\[3mm] \operatorname{Pr}(\mathsf{X} = 1) & = \frac{1}{12} + \frac{1}{6} + \frac{1}{6} = \frac{5}{12} \end{aligned}

根据重写后的向量形式，计算测量第一个比特得到0或1的边际概率。

38. 测量X=0后Y的状态更新：

\frac{\frac{1}{2} \vert 1 \rangle + \frac{1}{12} \vert 3 \rangle}{\frac{7}{12}} = \frac{6}{7} \vert 1 \rangle + \frac{1}{7} \vert 3 \rangle,

计算当测得X=0时，对Y的未归一化向量进行归一化，得到Y的新的条件概率向量。

39. 测量X=1后Y的状态更新：

\frac{\frac{1}{12} \vert 1 \rangle + \frac{1}{6} \vert 2\rangle + \frac{1}{6} \vert 3 \rangle}{\frac{5}{12}} = \frac{1}{5} \vert 1 \rangle + \frac{2}{5} \vert 2 \rangle + \frac{2}{5} \vert 3 \rangle.

计算当测得X=1时，对Y的未归一化向量进行归一化，得到Y的另一个新的条件概率向量。

40. CNOT(X,Y)操作矩阵：

\begin{pmatrix} 1 & 0 & 0 & 0\\[2mm] 0 & 1 & 0 & 0\\[2mm] 0 & 0 & 0 & 1\\[2mm] 0 & 0 & 1 & 0 \end{pmatrix}.

给出了当第一个比特X为控制位，第二个比特Y为目标位时的受控非门（CNOT）的4x4矩阵表示。

41. CNOT(X,Y)对基态的作用：

\begin{aligned} \vert 00 \rangle & \mapsto \vert 00 \rangle\\ \vert 01 \rangle & \mapsto \vert 01 \rangle\\ \vert 10 \rangle & \mapsto \vert 11 \rangle\\ \vert 11 \rangle & \mapsto \vert 10 \rangle \end{aligned}

用映射关系展示了CNOT(X,Y)门如何变换四个标准基态。

42. CNOT(Y,X)操作矩阵：

\begin{pmatrix} 1 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 1\\[2mm] 0 & 0 & 1 & 0\\[2mm] 0 & 1 & 0 & 0 \end{pmatrix}

给出了当第二个比特Y为控制位，第一个比特X为目标位时的CNOT门的矩阵表示，它与前一个矩阵不同。

43. CNOT(Y,X)对基态的作用：

\begin{aligned} \vert 00 \rangle & \mapsto \vert 00 \rangle\\ \vert 01 \rangle & \mapsto \vert 11 \rangle\\ \vert 10 \rangle & \mapsto \vert 10 \rangle\\ \vert 11 \rangle & \mapsto \vert 01 \rangle \end{aligned}

用映射关系展示了CNOT(Y,X)门的操作逻辑。

44. 一个随机操作的矩阵：

\begin{pmatrix} 1 & \frac{1}{2} & \frac{1}{2} & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & \frac{1}{2} & \frac{1}{2} & 1 \end{pmatrix} = \frac{1}{2} \begin{pmatrix} 1 & 1 & 0 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 0 & 1 & 1 \end{pmatrix} + \frac{1}{2} \begin{pmatrix} 1 & 0 & 1 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 0 & 0 & 0\\[2mm] 0 & 1 & 0 & 1 \end{pmatrix}.

给出了一个非确定性操作的随机矩阵，并展示了它如何由两个确定性子操作的矩阵加权平均得到。

45. 随机操作对基态的作用：

\begin{aligned} \vert 00 \rangle & \mapsto \vert 00 \rangle\\[1mm] \vert 01 \rangle & \mapsto \frac{1}{2} \vert 00 \rangle + \frac{1}{2}\vert 11\rangle\\[3mm] \vert 10 \rangle & \mapsto \frac{1}{2} \vert 00 \rangle + \frac{1}{2}\vert 11\rangle\\[2mm] \vert 11 \rangle & \mapsto \vert 11 \rangle \end{aligned}

展示了一个确定性的输入如何通过一个随机操作演化为一个不确定的概率状态。

46. 3比特加法器的外积求和表示：

\begin{aligned} & \vert 001 \rangle \langle 000 \vert + \vert 010 \rangle \langle 001 \vert + \vert 011 \rangle \langle 010 \vert + \vert 100 \rangle \langle 011 \vert\\[1mm] & \quad + \vert 101 \rangle \langle 100 \vert + \vert 110 \rangle \langle 101 \vert + \vert 111 \rangle \langle 110 \vert + \vert 000 \rangle \langle 111 \vert. \end{aligned}

用外积求和的形式详细描述了一个3比特模8加法器操作，每一项代表一个状态转移。

47. 3比特加法器的紧凑求和表示：

\sum_{k = 0}^{7} \vert (k+1) \bmod 8 \rangle \langle k \vert,

用一个紧凑的求和公式来表示同一个模8加法器操作。

48. 3比特加法器的矩阵表示：

\begin{pmatrix} 0 & 0 & 0 & 0 & 0 & 0 & 0 & 1\\ 1 & 0 & 0 & 0 & 0 & 0 & 0 & 0\\ 0 & 1 & 0 & 0 & 0 & 0 & 0 & 0\\ 0 & 0 & 1 & 0 & 0 & 0 & 0 & 0\\ 0 & 0 & 0 & 1 & 0 & 0 & 0 & 0\\ 0 & 0 & 0 & 0 & 1 & 0 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 1 & 0 & 0\\ 0 & 0 & 0 & 0 & 0 & 0 & 1 & 0 \end{pmatrix}

给出了模8加法器操作的8x8矩阵形式，这是一个循环置换矩阵。

49. 矩阵M的外积求和表示：

M = \sum_{a,b\in\Sigma} \alpha_{ab} \vert a\rangle \langle b\vert

用外积求和的形式定义一个通用矩阵M，其元素为 $\alpha_{ab}$ 。

50. 矩阵N的外积求和表示：

N = \sum_{c,d\in\Gamma} \beta_{cd} \vert c\rangle \langle d\vert

用外积求和的形式定义一个通用矩阵N，其元素为 $\beta_{cd}$ 。

51. 矩阵张量积的构造性定义：

M \otimes N = \sum_{a,b\in\Sigma} \sum_{c,d\in\Gamma} \alpha_{ab} \beta_{cd} \vert ac \rangle \langle bd \vert

通过组合子矩阵的外积表示来定义矩阵张量积。

52. 矩阵张量积的元素定义：

\langle ac \vert M \otimes N \vert bd\rangle = \langle a \vert M \vert b\rangle \langle c \vert N \vert d\rangle

通过定义联合矩阵的元素等于子矩阵元素的乘积，来等效地定义矩阵张量积。

53. 矩阵张量积的行为定义：

(M \otimes N) \bigl( \vert \phi \rangle \otimes \vert \psi \rangle \bigr) = \bigl(M \vert\phi\rangle\bigr) \otimes \bigl(N \vert\psi\rangle\bigr)

通过张量积矩阵作用在乘积态上的行为来定义它，这最符合独立操作的物理直觉。

54. 矩阵张量积的克罗内克积形式：

\begin{gathered} \begin{pmatrix} \alpha_{11} & \cdots & \alpha_{1m} \\ \vdots & \ddots & \vdots \\ \alpha_{m1} & \cdots & \alpha_{mm} \end{pmatrix} \otimes \begin{pmatrix} \beta_{11} & \cdots & \beta_{1k} \\ \vdots & \ddots & \vdots\\ \beta_{k1} & \cdots & \beta_{kk} \end{pmatrix} \hspace{6cm}\\[8mm] \hspace{1cm} = \begin{pmatrix} \alpha_{11}\beta_{11} & \cdots & \alpha_{11}\beta_{1k} & & \alpha_{1m}\beta_{11} & \cdots & \alpha_{1m}\beta_{1k} \\ \vdots & \ddots & \vdots & \hspace{2mm}\cdots\hspace{2mm} & \vdots & \ddots & \vdots \\ \alpha_{11}\beta_{k1} & \cdots & \alpha_{11}\beta_{kk} & & \alpha_{1m}\beta_{k1} & \cdots & \alpha_{1m}\beta_{kk} \\[2mm] & \vdots & & \ddots & & \vdots & \\[2mm] \alpha_{m1}\beta_{11} & \cdots & \alpha_{m1}\beta_{1k} & & \alpha_{mm}\beta_{11} & \cdots & \alpha_{mm}\beta_{1k} \\ \vdots & \ddots & \vdots & \hspace{2mm}\cdots\hspace{2mm} & \vdots & \ddots & \vdots \\ \alpha_{m1}\beta_{k1} & \cdots & \alpha_{m1}\beta_{kk} & & \alpha_{mm}\beta_{k1} & \cdots & \alpha_{mm}\beta_{kk} \end{pmatrix} \end{gathered}

给出了计算两个矩阵张量积的具体分块算法，即克罗内克积。

55. n矩阵张量积的元素定义：

\langle a_{n-1}\cdots a_0 \vert M_{n-1}\otimes\cdots\otimes M_0 \vert b_{n-1}\cdots b_0\rangle = \langle a_{n-1} \vert M_{n-1} \vert b_{n-1} \rangle \cdots\langle a_0 \vert M_0 \vert b_0 \rangle

将矩阵张量

的元素定义推广到n个矩阵。

56. 张量积的可乘性：

(M_{n-1}\otimes\cdots\otimes M_0)(N_{n-1}\otimes\cdots\otimes N_0) = (M_{n-1} N_{n-1})\otimes\cdots\otimes (M_0 N_0)

指出了张量积的关键性质：张量积的乘积等于乘积的张量积，极大地简化了运算。

57. 一个单比特随机操作的矩阵：

\begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix}.

给出了一个非确定性单比特操作的随机矩阵例子。

58. 两个独立操作的联合矩阵：

\begin{pmatrix} 1 & \frac{1}{2}\\[1mm] 0 & \frac{1}{2} \end{pmatrix} \otimes \begin{pmatrix} 0 & 1\\[1mm] 1 & 0 \end{pmatrix} = \begin{pmatrix} 0 & 1 & 0 & \frac{1}{2} \\[1mm] 1 & 0 & \frac{1}{2} & 0 \\[1mm] 0 & 0 & 0 & \frac{1}{2} \\[1mm] 0 & 0 & \frac{1}{2} & 0 \end{pmatrix}.

通过克罗内克积计算了由一个随机操作和一个NOT操作组成的独立联合操作的4x4随机矩阵。

59. 只操作部分子系统的联合矩阵：

\begin{pmatrix} 1 & 1\\[1mm] 0 & 0 \end{pmatrix} \otimes \begin{pmatrix} 1 & 0\\[1mm] 0 & 1 \end{pmatrix} = \begin{pmatrix} 1 & 0 & 1 & 0 \\[1mm] 0 & 1 & 0 & 1 \\[1mm] 0 & 0 & 0 & 0 \\[1mm] 0 & 0 & 0 & 0 \end{pmatrix}.

演示了如何通过与单位矩阵进行张量积，来表示只对一个子系统进行操作（另一个不变）的联合操作。

📝 我的笔记

11. 经典信息

1.1 通过笛卡尔积表示经典状态

1.2 概率状态

12.1 对笛卡尔积状态集排序

12.2 两个系统的独立性

12.3 向量的张量积

12.4 三个或更多系统的独立性和张量积

1.3 概率状态的测量

1.4 概率状态上的操作

14.1 独立操作

14.2 矩阵的张量积

14.3 独立操作（续）

2行间公式索引