经典信息论关注的问题主要是在按照经典物理定律工作的通信信道上发送经典信息——字母表中的字母,语音,比特串等。如果能够建立按照量子力学工作的通信信道,情况又会发生怎样的变化?我们可能会问:这样能更有效地传递信息吗?能利用量子力学发送机密信息而不被窃听吗?由量子力学效应导致的对信道的重新定义,使得我们重新审视导致经典信息论诞生的那些基本问题,并去寻找新的答案。本章将探讨量子信息论的一些结论,包括量子通信信道带来的一些有趣而令人惊奇的可能性。
对通信信道的研究推动了量子信息论的产生,但量子信息论具有更广泛的应用领域,其研究目标十分广泛,简练精确地描述它们是一件极具挑战性的事情。如 1.6 节所述,结合量子信息论的工作,我们可以认为其具有三个基本目标:识别量子力学中的静态资源的基本类(被识别为 "信息"的类型);识别量子力学中的动力学过程的基本类(被识别为"信息处理"的类型);量化由执行基本动力学过程所产生的资源权衡问题。量子信息论从根本上比经典信息论具有更加丰富的内涵,因为量子力学包含更多静态和动态资源的基本类,它不仅支持所有我们熟悉的经典类,还有诸如纠缠的静态资源等全新的类。量子信息论,让生活比经典更有趣。
这一章的标题是"量子信息论",你也许好奇我们怎么样才会希望在一章中涵盖量子信息论的所有方面。事实上,量子信息论的研究内容包括量子运算,保真度度量的定义和研究,量子纠错码和熵的各种概念等我们在之前的章节中已详细讨论的所有主题,以及这里涉及内容之外的许多方面。其他章节的重点是开发特定的工具,而本章的目的是以"最纯粹"的形式讨论量子信息论,我们在这里关注的是人们可以对量子信息的特性所做的最一般的陈述。
从 12.1 节开始,我们用信息论的语言讨论量子态相较于经典状态具有的一些独特性质。一般来说,量子态不仅无法复制,甚至不同量子态之间也可能无法完全区分!这一不可区分性可以由霍列沃界(Holevo bound)量化描述。然后,我们在 12.2 节中考虑信息论的一个基本任务——数据压缩,并展示量子态是如何像经典态一样被压缩的。我们通过使用典型序列定理和典型子空间定理证明香农无噪声信道编码定理的量子版本,即 Schumacher 量子无噪声信道编码定理。上
述问题的一个自然推广是噪声信道对经典信息的容量,我们在 12.3 节中定义并证明香农噪声信道编码定理的量子版本,我们称之为 Holevo-Schumacher-Westmoreland 定理。而最为困难最具挑战性的问题则是量子信息的噪声量子信道的容量,这是 12.4 节的主题。在该节中,我们定义嫡交换,量子费诺不等式和量子数据处理不等式,但信道容量的开放问题仍未得到解决。我们还介绍噪声信道关系的两个应用,量子辛格顿界限以及如何解决麦克斯韦妖,并总结本章的前半部分。纵观量子信息的探究过程,其中两个永恒的主题为纠缠和非正交性,这两个主题也是本章最后两节的重点。 12.5 节描述如何将纠缠视为物理资源,并阐释如何将纠缠转换,蒸馏和稀释。最后,在 12.6 节中,我们介绍量子密码学,这是一种可证明安全的通信方式,其安全性的成功保证来自于本章所考虑的量子信息所具有的许多属性。
我们用一个简单的游戏来说明量子信息和经典信息之间的差异,这里将使用两个虚构的人物 Alice 和 Bob 来描述这个游戏。当然,这些结论可以用更抽象的数学语言来描述,但是带有人物的故事能让我们想说明的结果更便于理解(以及写作!)
假设 Alice 有一个经典信源,以概率分布 $p_{0}, \cdots, p_{n}$ 产生符号 $X=0, \cdots, n$ 。游戏的目的是让 Bob 尽可能准确地确定 $X$ 的值。为了实现这一目标,Alice 从一些固定集合 $\rho_{0}, \cdots, \rho_{n}$ 中选取了一个量子态 $\rho_{X}$ 并将其给予 Bob,Bob 对收到的量子态进行测量,然后根据他的测量结果 $Y$ ,对 $X$ 做出尽可能准确的猜测。
一个好的衡量 Bob 通过测量得到的关于 $X$ 的信息量的标准是 $X$ 和测量结果 $Y$ 之间的互信息 $H(X: Y)$ ,其定义见第 11 章。通过数据处理不等式我们知道 $H(X: Y) \leqslant H(X)$ 总成立,并且当且仅当 $H(X: Y)=H(X)$ 时 Bob 能够从 $Y$ 推断出 $X$ 。稍后我们将看到 $H(X: Y)$ 与 $H(X)$ 的接近程度为 Bob 可以确定 $X$ 的好坏程度提供了一个定量的标准。Bob 的目标是选择最大化 $H(X: Y)$ 的测量,使其尽可能接近 $H(X)$ 。为此,我们将 Bob 的可达信息定义为所有可行的测量方案中,互信息 $H(X: Y)$ 的最大值。可达信息能够衡量 Bob 在推断由 Alice 制备的量子态时的表现优劣。
在经典信息论中,可达信息并不那么有意义,因为区分两个经典态理论上总是可行的,虽然实际中可能难以实现——譬如分辨书写潦草的笔迹。相比之下,在量子力学中,即使是在理论上也不是总能够区分不同的态。例如我们在专题 2.3 中所看到的,没有量子力学过程能可靠地区分两个非正交的量子态。在可达信息方面,如果 Alice 以概率 $p$ 制备态 $|\psi\rangle$ ,并且以概率 $1-p$ 制备另一个非正交状态 $|\varphi\rangle$ ,则其可达信息严格小于 $H(p)$ ,即 $\operatorname{Bob}$ 不能完全可靠地确定态的类型。而经典情形下,如果 Alice 以概率 $p$ 令比特处于状态 0 ,以概率 $1-p$ 令其处于状态 1 ,我们没有任何理由能让 Bob 无法区分这两个状态,所以可达信息总与熵 $H(p)$ 相等。
需要额外注意的是,在某些情况下,可达信息的概念可能具有经典意义,例如当我们需要区分的对象是概率分布时。想象一下,Alice 根据两个概率分布之一 $(p, 1-p)$ 或 $(q, 1-q)$ 制备状态 0 或 1 。Bob 的目标是根据他获得的状态确定 Alice 用于制备状态的概率分布。显然,Bob 并不总是能够完美地进行鉴别!然而,这个例子(类似于由一组混合态中选择其中一个制备的量子系统
的可达信息)并不是最重要的,最重要和最引人注目的是量子力学中的基本对象——纯量子态,它相较于经典信息论中诸如 0 和 1 等基本对象,具有明显不同且内涵更加丰富的区分性。
量子不可克隆定理从另一个角度提供了与经典信息相比较,量子信息缺乏可达性的解释。经典信息显然可以被复制,这可以通过数字信息精确地实现,例如用于生成本书的 $\mathrm{ET}_{\mathrm{E}} \mathrm{X}$ 文件的多重备份,或者与本书每页几乎一样,在发行之前已经由出版社制作完成的本书的副本。不可克隆定理指出量子力学原理不允许未知量子态被精确地复制,并严格限制我们制作其近似副本的能力。专题 12.1 证明了不可克隆定理。
我们能否复制一个未知量子态?事实证明,答案是不能。在这个专题中,我们对这一事实进行基本的证明,阐释不可克隆的根本原因。
假设有一个量子装置进行克隆,它有两个槽,标记为 $A$ 和 $B$ 。槽 $A$ 为数据槽,以未知的纯量子态 $|\psi\rangle$ 开始,这是要复制到目标槽 $B$ 的状态。假设目标槽以某些标准纯态 $|s\rangle$ 开始。克隆装置的初始状态是
$$ \begin{equation*} |\psi\rangle \otimes|s\rangle \tag{12.1} \end{equation*} $$
复制过程由酉变 $U$ 决定,理想情况下为
$$ \begin{equation*} |\psi\rangle \otimes|s\rangle \xrightarrow{U} U(|\psi\rangle \otimes|s\rangle)=|\psi\rangle \otimes|\psi\rangle \tag{12.2} \end{equation*} $$
假设该复制过程适用于两个特定的纯态 $|\psi\rangle$ 和 $|\varphi\rangle$ ,那么有
$$ \begin{align*} & U(|\psi\rangle \otimes|s\rangle)=|\psi\rangle \otimes|\psi\rangle \tag{12.3}\\ & U(|\varphi\rangle \otimes|s\rangle)=|\varphi\rangle \otimes|\varphi\rangle \tag{12.4} \end{align*} $$
对上述两式取内积可得
$$ \begin{equation*} \langle\psi \mid \varphi\rangle=(\langle\psi \mid \varphi\rangle)^{2} \tag{12.5} \end{equation*} $$
但是方程 $x=x^{2}$ 仅有两解 $x=0$ 和 $x=1$ ,所以或者 $|\psi\rangle=|\varphi\rangle$ ,或者 $|\psi\rangle$ 与 $|\varphi\rangle$ 正交。故克隆装置只能克隆正交态,因而适用于所有态的量子克隆装置是不可能实现的。举个例子,量子态 $|\psi\rangle=|0\rangle$ 和 $|\varphi\rangle=(|0\rangle+|1\rangle) / \sqrt{2}$ 是非正交的,所以任何量子克隆装置是不能复制这两个态的。
已经证明,使用酉变克隆未知量子态是不可能的。自然地,我们会提出几个疑问:如果试图克隆混合态会怎么样?如果允许克隆装置不是酉变会怎么样?如果按照一些保真度衡量方法允许克隆产生的副本与原状态有一定偏差又会怎么样?从章末的"背景资料与延伸阅读"可以看到,这些都是广受关注的好问题。关于这些问题有很多结果,简而言之,即使一个人允许非酉的克隆装置,除非人们允许克隆的态中出现一定的保真度损失,否则非正交纯
态仍然是不可能被克隆的。尽管我们需要更复杂的方法来定义什么是克隆一个混合态,但与纯态类似的结论也适用于混合态。
乍一看,不可克隆定理看起来很令人费解。毕竟经典物理学不是量子力学的特例吗?如果不能复制量子态,怎么能复制经典信息?对此的回答是,不可克隆定理并不能阻止所有量子态被复制,它只是说非正交的量子态不能被复制。更准确地说,假设 $|\psi\rangle$ 和 $|\varphi\rangle$ 是两个非正交量子态。那么不可克隆定理意味着当用 $|\psi\rangle$ 或 $|\varphi\rangle$ 输入时,不可能构造一个量子器件输出两个输人状态的副本 $|\psi\rangle|\psi\rangle$ 或 $|\varphi\rangle|\varphi\rangle$ 。另一方面,如果 $|\psi\rangle$ 和 $|\varphi\rangle$ 是正交的,那么不可克隆定理不会禁止它们的克隆。实际上,设计复制这些状态的量子电路相当容易!这一结果解决了不可克隆定理与复制经典信息的能力之间的矛盾,因为经典信息的不同状态可以被认为是正交的量子态。 习题12.1 假设 $|\psi\rangle$ 和 $|\varphi\rangle$ 是两个正交的单比特量子态。设计一个两量子比特输人("数据"比特和"目标"比特)的量子电路,其中数据比特只为 $|\psi\rangle$ 或 $|\varphi\rangle$ ,目标比特制备为标准态 $|0\rangle$ ,电路需要根据输人 $|\psi\rangle$ 或 $|\varphi\rangle$ ,输出 $|\psi\rangle|\psi\rangle$ 或 $|\varphi\rangle|\varphi\rangle$ 。
克隆和可达信息之间有什么联系?假设 Alice 以概率 $p$ 和 $1-p$ 制备了两个非正交量子态 $|\psi\rangle$和 $|\varphi\rangle$ 中的一个。假设 Bob 关于这些状态的可达信息是 $H(p)$ ,也就是说,量子力学定律允许 Bob通过测量获得足够的信息,来识别他获得的由 Alice 制备的量子态是 $|\psi\rangle$ 和 $|\varphi\rangle$ 中的哪一个。然后 Bob 可以用一种非常简单的方式来克隆量子态:他会进行测量以确定 Alice 制备了 $|\psi\rangle$ 和 $|\varphi\rangle$中的哪一个,一旦他确定了,他可以随意制备 Alice 给他的 $|\psi\rangle$ 或 $|\varphi\rangle$ 的多个副本。因此,不可克隆定理可以被视为量子态的可达信息小于 $H(p)$ 的结果。而反过来认为不可克隆定理导致了可达信息严格小于 $H(p)$ 也是正确的!想象一下,如果我们可以克隆非正交态。在从 Alice 收到态 $|\psi\rangle$或 $|\varphi\rangle$ 时,Bob 可以重复利用这种克隆装置来获得状态 $|\psi\rangle^{\otimes n}$ 或 $|\varphi\rangle^{\otimes n}$ 。当 $n$ 充分大时,这两个态变得非常接近正交,并且可以通过投影测量以任意高的正确率来区分它们。也就是说,如果克隆能够实现,那么 Bob 可以以任意高的成功率识别已经制备完成的状态 $|\psi\rangle$ 或 $|\varphi\rangle$ ,因此可达信息为 $H(p)$ 。因此,我们可以认为不可克隆定理能等价地描述为,在量子力学中非正交态的可达信息总小于制备的熵。
正如我们在整本书中所强调的那样,量子信息的隐蔽性是量子计算和量子信息能力的核心,而可达信息以量化的方式描述了量子信息的这种隐蔽性。不幸的是,我们没有用于计算可达信息的一般方法;而幸运的则是,我们可以证明一些重要的界来估计可达信息的范围,其中最重要的是霍列沃界。
霍列沃界是可达信息的极其有用的上界,在量子信息论的许多应用中起着重要作用。 定理12.1(霍列沃界)假设 Alice 制备了一个态 $\rho_{X}$ ,其中 $X$ 分别以概率分布 $p_{0}, \cdots, p_{n}$ 取 $X=0, \cdots, n$ 。Bob 对态做 POVM 测量 $\left\{E_{y}\right\}=\left\{E_{0}, \cdots, E_{m}\right\}$ ,测量结果为 $Y$ 。霍列沃界声明,
对于任意 Bob 能做的测量,有
$$ \begin{equation*} H(X: Y) \leqslant S(\rho)-\sum_{x} p_{x} S\left(\rho_{x}\right) \tag{12.6} \end{equation*} $$
其中 $\rho=\sum_{x} p_{x} \rho_{x}$ 。 因此,霍列沃界是可达信息的上界。在霍列沃界的右侧出现的量在量子信息论中非常有用,它被赋予一个名称,即霍列沃 $\chi$ 量,有时记为 $\chi$ 。
证明 霍列沃界的证明基于一个简单优美的构造,我们有三个量子系统,标记为 $P, Q, M$ ,系统 $Q$是 Alice 给 Bob 的量子系统,$P$ 和 $M$ 则是类似于第 11 章中证明许多关于熵的不等式时所做的,为了简化证明而引人的辅助系统。直观来说,$P$ 可以被当作"准备过程"的系统,根据定义,它具有标准正交基 $|x\rangle$ ,其元素对应于量子系统可能准备的标签 $0, \cdots, n \circ M$ 可以直观地被认为是 Bob 的"测量设备",它有一个基 $|y\rangle$ ,其元素对应于 Bob 的测量结果 $1, \cdots, n$ 。我们按照 $P Q M$的顺序写出张量积分解,则假设全体系统的初始状态为
$$ \begin{equation*} \rho^{P Q M}=\sum_{x} p_{x}|x\rangle\langle x| \otimes \rho_{x} \otimes|0\rangle\langle 0| \tag{12.7} \end{equation*} $$
直观来看,该状态表示 Alice 已经以概率 $p_{x}$ 选择了 $x$ 的值,制备了相应的 $\rho_{x}$ ,并将其给予将要使用测量装置对其进行测量的 Bob,测量装置最初处于标准态 $|0\rangle$ 。为了描述测量,我们引人了仅对系统 $Q$ 和 $M$ 起作用而不对 $P$ 起作用的量子算子 $\mathcal{E}$ ,其作用是对系统 $Q$ 做 POVM 测量 $\left\{E_{y}\right\}$ ,并将测量结果存储在系统 $M$ 中:
$$ \begin{equation*} \mathcal{E}(\sigma \otimes|0\rangle\langle 0|) \equiv \sum_{y} \sqrt{E_{y}} \sigma \sqrt{E_{y}} \otimes|y\rangle\langle y| \tag{12.8} \end{equation*} $$
其中 $\sigma$ 是系统 $Q$ 的任意状态,$|0\rangle$ 是测量装置的初始状态。在下面的习题中,您需要证明 $\mathcal{E}$ 为保迹的量子算子。
习题 12.2 定义 $U_{y}$ 为作用在系统 $M$ 上的西算子,其作用在基上后 $U_{y}\left|y^{\prime}\right\rangle \equiv\left|y^{\prime}+y\right\rangle$ ,其中加法在模 $n+1$ 的意义下。证明算子集 $\left\{\sqrt{E_{y}} \otimes U_{y}\right\}$ 定义了与式(12.8)中一致的一个保迹算子 $\mathcal{E}$ 。
现在对于霍列沃界证明如下。用激活态代指应用 $\mathcal{E}$ 之后 $P Q M$ 的状态,用未激活态代指应用 $\mathcal{E}$ 前的状态。因为 $M$ 最初与 $P$ 和 $Q$ 不相关,所以我们有 $S(P: Q)=S(P: Q, M)$ 。而对 $Q M$ 应用量子算子 $\mathcal{E}$ 不能增加 $P$ 和 $Q M$ 间的互信息(定理 11.15),故 $S(P: Q, M) \geqslant S\left(P^{\prime}: Q^{\prime}, M^{\prime}\right)$ 。最后,因为丢弃系统不能增加互信息(还是定理 11.15),故 $S\left(P^{\prime}: Q^{\prime}, M^{\prime}\right) \geqslant S\left(P^{\prime}: M^{\prime}\right)$ 。综上可得
$$ \begin{equation*} S\left(P^{\prime}: M^{\prime}\right) \leqslant S(P: Q) \tag{12.9} \end{equation*} $$
仅需要一点简单的代数知识,就能将上述结果理解为霍列沃界。我们先来计算右侧的量。注意到
$$ \begin{equation*} \rho^{P Q}=\sum_{x} p_{x}|x\rangle\langle x| \otimes \rho_{x} \tag{12.10} \end{equation*} $$
接着有 $S(P)=H\left(p_{x}\right), S(Q)=S(\rho)$ ,以及 $S(P, Q)=H\left(p_{x}\right)+\sum_{x} p_{x} S\left(\rho_{x}\right)$(定理11.10),因此
$$ \begin{equation*} S(P: Q)=S(P)+S(Q)-S(P, Q)=S(\rho)-\sum_{x} p_{x} S\left(\rho_{x}\right) \tag{12.11} \end{equation*} $$
这正是我们想要的霍列沃界的右侧!而为了计算式(12.9)左侧的量,注意到
$$ \begin{equation*} \rho^{P^{\prime} Q^{\prime} M^{\prime}}=\sum_{x y} p_{x}|x\rangle\langle x| \otimes \sqrt{E_{y}} \rho_{x} \sqrt{E_{y}} \otimes|y\rangle\langle y| \tag{12.12} \end{equation*} $$
对系统 $Q$ 取迹并利用如下事实:对 $(X, Y)$ 的联合概率分布 $p(x, y)$ 满足 $p(x, y)=p_{x} p(y \mid x)=$ $p_{x} \operatorname{tr}\left(\rho_{x} E_{y}\right)=p_{x} \operatorname{tr}\left(\sqrt{E_{y}} \rho_{x} \sqrt{E_{y}}\right)$ ,于是
$$ \begin{equation*} \rho^{P^{\prime} M^{\prime}}=\sum_{x y} p(x, y)|x\rangle\langle x| \otimes|y\rangle\langle y| \tag{12.13} \end{equation*} $$
因此 $S\left(P^{\prime}: M^{\prime}\right)=H(X: Y)$ ,这就是我们想要的霍列沃界的左侧!这样就完成了对于霍列沃界的证明。
霍列沃界是量子信息论中许多结果证明的基石。现在,我们将展示如何应用这一重要结果。回顾定理 11.10:
$$ \begin{equation*} S(\rho)-\sum_{x} p_{x} S\left(\rho_{x}\right) \leqslant H(X) \tag{12.14} \end{equation*} $$
等式当且仅当态 $\rho_{x}$ 具有正交支集时成立。如果状态 $\rho_{x}$ 没有正交支集,那么式(12.14)中的不等式是严格成立的。然后,霍列沃界说明 $H(X: Y)$ 严格小于 $H(X)$ ,因此 Bob 不可能根据他的测量结果 $Y$ 完全准确地判定 $X$ ,这一般化地概括了我们已有的理解,即如果由 Alice 制备的态是非正交的,那么 Bob 不可能准确地确定 Alice 制备了哪个态。
一个具体的例子是 Alice 根据抛硬币的结果在两个单量子比特态中选择一个制备,如果是正面,那么 Alice 制备态 $|0\rangle$ ;如果是反面,那么 Alice 制备态 $\cos \theta|0\rangle+\sin \theta|1\rangle$ ,其中 $\theta$ 为实参数。在基 $|0\rangle,|1\rangle$ 下 $\rho$ 可以写成
$$ \rho=\frac{1}{2}\left[\begin{array}{ll} 1 & 0 \tag{12.15}\\ 0 & 0 \end{array}\right]+\frac{1}{2}\left[\begin{array}{cc} \cos {}^{2} \theta & \cos \theta \sin \theta \\ \cos \theta \sin \theta & \sin {}^{2} \theta \end{array}\right] $$
一个简单的计算表明 $\rho$ 的特征值为 $(1 \pm \cos \theta) / 2$ ,因此霍列沃界由二元嫡 $H((1+\cos \theta) / 2)$ 给出,如图 12-1 所示。注意霍列沃界当 $\theta=\pi / 2$ 时达到最大值 1 比特,其对应于 Alice 所制备的态从正交集中选择的情况,此时 Bob 可以确定 Alice 制备了哪个态。对于 $\theta$ 的其他值,霍列沃界严格小于 1 比特,Bob 无法确定 Alice 制备了哪个态。
图 12-1 当以相等的概率制备态 $|0\rangle$ 和 $\cos \theta|0\rangle+\sin \theta|1\rangle$ 时,霍列沃界 $\chi$ 关于 $\theta$ 的函数图像。注意到霍列沃界当 $\theta=\pi / 2$ 时达到最大值,其对应于正交态。只有在这一点上,Bob 才有可能准确地确定 Alice制备了哪个态
如果我们希望基于另一个随机变量 $Y$ 来推断随机变量 $X$ 的值。直觉上,我们期望条件摘 $H(X \mid Y)$ 限制我们执行此推理的准确程度。费诺不等式严格证明了我们的这种直觉,并且在给定 $Y$ 的情况下提供了对我们推断 $X$ 准确率的一个实用的界。
假设 $\tilde{X} \equiv f(Y)$ 是我们用来对 $X$ 猜测的最佳函数。令 $p_{e} \equiv p(X \neq \tilde{X})$ 为该猜测不正确的概率。费诺不等式表述如下
$$ \begin{equation*} H\left(p_{e}\right)+p_{e} \log (|X|-1) \geqslant H(X \mid Y) \tag{12.16} \end{equation*} $$
其中 $H(\cdot)$ 为二元摘,$|X|$ 为 $X$ 可能被猜测的值的数量。定性地说,该不等式告诉我们的是,如果 $H(X \mid Y)$ 很大(即在大小上与 $\log (|X|-1)$ 相当),那么在推理中产生错误的概率 $p_{e}$ 也必定很大。
为了证明费诺不等式,定义"误差"随机变量 $E$ ,当 $X \neq \tilde{X}$ 时 $E \equiv 1$ ,当 $X=\tilde{X}$ 时 $E \equiv 0$ 。注意到 $H(E)=H\left(p_{e}\right)$ ,利用条件摘的链式法则,我们有 $H(E, X \mid Y)=H(E \mid X, Y)+H(X \mid Y)$ 。
但是,一旦知道 $X$ 和 $Y, E$ 就会完全确定,因此 $H(E \mid X, Y)=0$ ,因此 $H(E, X \mid Y)=H(X \mid Y)$ 。再对于不同的变量运用摘的链式法则,我们得到 $H(E, X \mid Y)=H(X \mid E, Y)+H(E \mid Y)$ 。条件摘会降低,因此 $H(E \mid Y) \leqslant H(E)=H\left(p_{e}\right)$ ,故 $H(X \mid Y)=H(E, X \mid Y) \leqslant H(X \mid E, Y)+H\left(p_{e}\right)$ 。对费诺不等式的证明是通过如下方式限制 $H(X \mid E, Y)$ 来得出的(我们省略了一些容易完成的简单证明细节):
$$ \begin{align*} H(X \mid E, Y) & =p(E=0) H(X \mid E=0, Y)+p(E=1) H(X \mid E=1, Y) \tag{12.17}\\ & \leqslant p(E=0) \times 0+p_{e} \log (|X|-1)=p_{e} \log (|X|-1) \tag{12.18} \end{align*} $$
其中 $H(X \mid E=1, Y) \leqslant \log (|X|-1)$ 由以下事实导出:当 $E=1$ 时,$X \neq Y$ ,并且 $X$ 最多只可能有除了 $Y$ 的 $|X|-1$ 个值,故其条件摘被限制为 $\log (|X|-1)$ 。结合 $H(X \mid E, Y) \leqslant$ $p_{e} \log (|X|-1)$ 和 $H(X \mid Y) \leqslant H(X \mid E, Y)+H\left(p_{e}\right)$ ,我们得到费诺不等式 $H(X \mid Y) \leqslant H\left(p_{e}\right)+$ $p_{e} \log (|X|-1)$ 。
通过费诺不等式(推导参见专题12.2),可以给霍列沃界赋予更多的意义。假设 Bob 基于他的测量结果 $Y$ 和一些由函数 $f(\cdot)$ 规定的猜测规则猜测 $\tilde{X}=f(Y)$ 为 Alice 制备的态。然后,根据费诺不等式和霍列沃界,
$$ \begin{align*} H(p(\tilde{X} \neq X))+p(\tilde{X} \neq X) \log (|X|-1) & \geqslant H(X \mid Y) \\ & =H(X)-H(X: Y) \\ & \geqslant H(X)-\chi \tag{12.19} \end{align*} $$
这允许我们对 Bob 推断出 $X$ 的准确程度进行估计。可以启发式地认为,$\chi$ 越小,Bob 越难以确定 Alice 制备的态。如图 12-2 所示,Alice 以一半的概率制备态 $|0\rangle$ ,一半的概率制备 $\cos \theta|0\rangle+\sin \theta|1\rangle$ ,如前文所述,其界会化为 $H(p(\tilde{X} \neq X)) \geqslant 1-\chi$ 且 $\chi=H((1+\cos \theta) / 2)$ 。注意到当 $\theta \neq \pi / 2$ 时, Bob 有一定的概率猜错。当 $\theta$ 趋近于零时,错误概率变得更大。最后,当 $\theta=0$ 时这两个状态无法被区分,下界告诉我们 Bob 的错误概率至少是一半,即他猜测 Alice 所制备状态的任何策略不会比随机更好。
习题12.3 用霍列沃界证明 $n$ 个量子比特不能传输比 $n$ 比特更多的经典信息。 习题12.4 假设 Alice 发送给 Bob 以下四个纯态的平均混合
$$ \begin{align*} & \left|X_{1}\right\rangle=|0\rangle \tag{12.20}\\ & \left|X_{2}\right\rangle=\sqrt{\frac{1}{3}}[|0\rangle+\sqrt{2}|1\rangle] \tag{12.21}\\ & \left|X_{3}\right\rangle=\sqrt{\frac{1}{3}}\left[|0\rangle+\sqrt{2} \mathrm{e}^{2 \pi \mathrm{i} / 3}|1\rangle\right] \tag{12.22}\\ & \left|X_{4}\right\rangle=\sqrt{\frac{1}{3}}\left[|0\rangle+\sqrt{2} \mathrm{e}^{4 \pi \mathrm{i} / 3}|1\rangle\right] \tag{12.23} \end{align*} $$
证明 Bob 的测量和 Alice 传输信息之间的互信息小于一比特。已知存在 POVM 使得互信息达到约 0.415 ,你能将其构造出来吗?可以构造一个更好的测量方案,达到霍列沃界吗?
图 12-2 Bob 在推断 Alice 所制备态为 $|0\rangle$ 还是 $\cos \theta|0\rangle+\sin \theta|1\rangle$ 时出错概率的下界。该下界结合费诺不等式和霍列沃界得到。可以观察到该界当 $\theta$ 接近 $\pi / 2$ 时接近于 0 ,即态能被完全区分
下面让我们转换思路来研究一个在经典和量子信息论中都有所体现的基本动态过程——数据压缩。数据压缩问题在其最一般的形式中,是确定存储一个信源所需的最少物理资源。它是信息论的基本问题之一,其深远影响远超其问题本身的范围。在经典信息论和量子信息论中,用于解决该问题的技术具有比数据压缩本身更广泛的适用范围,尽管在解决数据压缩问题时我们只关注它们最简单和最优雅的表述方式。在本节中,我们将仔细讨论量子数据压缩和经典数据压缩。
香农无噪声信道编码定理量化了我们可以压缩由经典信源产生的信息的程度。经典信源指的是什么?这种信源有很多合理的模型,一个简单而有效的模型是:一个信源由一系列随机变量 $X_{1}, X_{2}, \cdots$ 组成,其值表示信源的输出。我们会发现,假定随机变量从有限的符号字母表中获取值对于下文的论述是十分方便的,并且所得结论在字母表扩展为无限时同样有效。此外,我们假设信源的每次使用是独立同分布的,即独立同分布信源。而在现实世界中,信源通常不是依照这种方式工作,例如,很容易看出你正在阅读的文本中的字不是以独立的方式出现的,字与字之间存在很强的相关性。举一个简单的例子,我们发现"一"和"个"的出现并非独立而是相关的,"一"后面的字为"个"的频率比出现"二"的更高。尽管如此,对于很多信源(包括文本),独立同分布假设在实践中仍能表现良好,并且为处理独立同分布信源特例引人的方法也可以推广到更复杂的源的情况。
在深入了解香农无噪声信道编码定理的技术细节之前,让我们用一个简单的例子来直观理解这一结果。假设一个独立同分布信源产生比特 $X_{1}, X_{2}, X_{3}, \cdots$ ,每个比特以概率 $p$ 等于 0 ,以 $1-p$ 等于 1 。香农定理背后的关键思想是将随机变量序列 $X_{1}, \cdots, X_{n}$ 的可能出现的不同值序列 $x_{1}, \cdots, x_{n}$ 分为两类——极有可能出现的序列,称为典型序列,以及很少出现的序列,称为非典型序列。当 $n$ 变大时,我们能以很高的概率假设,从源输出的符号将有占比 $p$ 的等于 0 ,占比 $1-p$ 的等于 1 。满足上述假设的序列 $x_{1}, \cdots, x_{n}$ 被称为典型序列。将此定义与源的独立性假设相结合得到,对于典型序列,有
$$ \begin{equation*} p\left(x_{1}, \cdots, x_{n}\right)=p\left(x_{1}\right) p\left(x_{2}\right) \cdots p\left(x_{n}\right) \approx p^{n p}(1-p)^{(1-p) n} \tag{12.24} \end{equation*} $$
两边取负对数得到
$$ \begin{equation*} -\log p\left(x_{1}, \cdots, x_{n}\right) \approx-n p \log p-n(1-p) \log (1-p)=n H(X) \tag{12.25} \end{equation*} $$
其中 $X$ 是与信源同分布的随机变量,$H(X)=-p \log (p)-(1-p) \log (1-p)$ 是信源分布的熵,也称为信源的熵率。因此 $p\left(x_{1}, \cdots, x_{n}\right) \approx 2^{-n H(X)}$ ,而所有典型序列出现的概率之和不能大于 1 ,所以可以知道最多可能存在 $2^{n H(X)}$ 个典型序列。
我们现在已经能够理解数据压缩的一个简单方案。假设信源的输出是 $x_{1}, \cdots, x_{n}$ 。为了压缩此输出,我们检查 $x_{1}, \cdots, x_{n}$ 是否为典型序列。如果不是,我们放弃并宣布错误;如果是,我们将其记录下来。幸运的是,随着 $n$ 变大,出错的情况很少发生,因为当 $n$ 充分大时几乎所有序列都是典型序列。而由于存在至多 $2^{n H(X)}$ 个典型序列,因此仅需要 $n H(X)$ 位来唯一确定特定的典型序列。我们选择一些这样的方案进行识别,并将源的输出压缩到相应的 $n H(X)$ 位串描述出现的是哪个典型序列,这样以后就可以解压缩了。当 $n$ 变大时,该方案成功概率接近于 1 。
对这种压缩方案可能有几种批评意见,我们分别对其回应如下:(1)它有一个很小但有限的失败几率。稍微复杂的方案可以利用类似的思想来消除发生错误的可能性。(2)为了进行压缩,我们必须等到信源发出大量( $n$ 个)的符号。同样,存在允许在源发出符号的同时完成处理的改进方案。(3)没有给出从源的输出到压缩序列的显式映射。同样可以开发稍复杂的方案来解决这个问题。(4)数据压缩的过程取决于源的输出分布,如果不知道该怎么办?可以应对这种可能性的通用压缩算法是存在的。对这些问题和其他问题感兴趣的读者可以参考章末"背景资料与延伸阅读"列出的 Cover 和 Thomas 的著作。
让我们将典型序列的概念推广到二元以外的情形。假设 $X_{1}, X_{2}, \cdots$ 是一个独立同分布信源。通常,从信源输出的序列中任何给定字母 $x$ 的出现频率接近于在给定用户使用该信源时出现字母的概率 $p(x)$ 。通过这种直观的理解,我们对典型序列的概念做出如下严格定义。给定 $\epsilon > 0$ ,如果
$$ \begin{equation*} 2^{-n(H(X)+\epsilon)} \leqslant p\left(x_{1}, \cdots, x_{n}\right) \leqslant 2^{-n(H(X)-\epsilon)} \tag{12.26} \end{equation*} $$
我们说源的一串符号 $x_{1}, x_{2} \cdots, x_{n}$ 是 $\epsilon$ 典型的。用 $T(n, \epsilon)$ 表示所有长度为 $n$ 的 $\epsilon$ 典型序列的集
合,可以得到下面这一实用的等价定义形式
$$ \begin{equation*} \left|\frac{1}{n} \log \frac{1}{p\left(x_{1}, \cdots, x_{n}\right)}-H(X)\right| \leqslant \epsilon \tag{12.27} \end{equation*} $$
利用大数定律(在专题 12.3 中陈述并证明),我们可以证明典型序列定理,这使我们能严格地认为,在 $n$ 充分大时,信源输出的序列大多数都是典型的。
定理 12.2 (典型序列定理) 1.固定 $\epsilon > 0$ ,对于任意 $\delta > 0$ ,当 $n$ 充分大时,一个序列为 $\epsilon$ 典型的概率至少为 $1-\delta$ 。 2.对于任意固定的 $\epsilon > 0$ 和 $\delta > 0$ ,当 $n$ 充分大时,$\epsilon$ 典型序列的个数 $|T(n, \epsilon)|$ 满足
$$ \begin{equation*} (1-\delta) 2^{n(H(X)-\epsilon)} \leqslant|T(n, \epsilon)| \leqslant 2^{n(H(X)+\epsilon)} \tag{12.28} \end{equation*} $$
3.令 $S(n)$ 为由源产生的长度为 $n$ 的某些序列的集合,大小至多为 $2^{n R}$ ,其中 $R < H(X)$ 固定。对于任意 $\delta > 0$ ,当 $n$ 充分大时,
$$ \begin{equation*} \sum_{x \in S(n)} p(x) \leqslant \delta \tag{12.29} \end{equation*} $$
证明 1.直接利用大数定律。注意到 $-\log p\left(X_{i}\right)$ 是独立同分布的随机变量,由大数定律,对于任意 $\epsilon > 0$ 和 $\delta > 0$ ,当 $n$ 充分大时我们有
$$ \begin{equation*} p\left(\left|\sum_{i=1}^{n} \frac{-\log p\left(X_{i}\right)}{n}-\mathbb{E}(-\log p(X))\right| \leqslant \epsilon\right) \geqslant 1-\delta \tag{12.30} \end{equation*} $$
而 $\mathbb{E}(\log p(X))=-H(X)$ 且 $\sum_{i=1}^{n} \log p\left(X_{i}\right)=\log \left(p\left(X_{1}, \cdots, X_{n}\right)\right)$ ,因此
$$ \begin{equation*} p\left(\left|-\log \left(p\left(X_{1}, \cdots, X_{n}\right)\right) / n-H(X)\right| \leqslant \epsilon\right) \geqslant 1-\delta \tag{12.31} \end{equation*} $$
即一个序列为 $\epsilon$ 典型的概率至少为 $1-\delta$ 。 2.由典型序列的定义,观察到所有典型序列出现的概率和处于 $1-\delta$(由(1)可得)和 1 (显然概率和不能超过 1 )之间。于是
$$ \begin{equation*} 1 \geqslant \sum_{x \in T(n, \epsilon)} p(x) \geqslant \sum_{x \in T(n, \epsilon)} 2^{-n(H(X)+\epsilon)}=|T(n, \epsilon)| 2^{-n(H(X)+\epsilon)} \tag{12.32} \end{equation*} $$
从中我们推导出 $|T(n, \epsilon)| \leqslant 2^{n(H(X)+\epsilon)}$ 。另外
$$ \begin{equation*} 1-\delta \leqslant \sum_{x \in T(n, \epsilon)} p(x) \leqslant \sum_{x \in T(n, \epsilon)} 2^{-n(H(X)-\epsilon)}=|T(n, \epsilon)| 2^{-n(H(X)-\epsilon)} \tag{12.33} \end{equation*} $$
从中我们推导出 $|T(n, \epsilon)| \geqslant(1-\delta) 2^{n(H(X)-\epsilon)}$ 。 3.思路是将 $S(n)$ 中的序列分成典型和非典型序列两部分。非典型序列在 $n$ 充分大时出现概率极小。 $S(n)$ 中典型序列的数量显然不大于 $S(n)$ 中序列的总数,最多为 $2^{n R}$ ,每个典型序列出现的概率约为 $2^{-n H(X)}$ ,因此 $S(n)$ 中的典型序列的出现概率总计约为 $2^{n(R-H(X))}$ ,因 $R < H(X)$ 故当 $n$ 增大时其趋近于 0 。 更严格地讲,选择 $\epsilon$ 使得 $R < H(X)-\delta$ 且 $0 < \epsilon < \delta / 2$ 。将 $S(n)$ 中的序列分成 $\epsilon$ 典型序列和 $\epsilon$ 非典型序列。在(1)中,对于充分大的 $n$ ,可以使非典型序列的总概率小于 $\delta / 2 \circ S(n)$中最多有 $2^{n R}$ 个典型序列,每个序列的概率最多为 $2^{-n(H(X)-\epsilon)}$ ,因此典型序列的概率最多为 $2^{-n(H(X)-\epsilon-R)}$ ,当 $n$ 趋近于正无穷时,其趋近于 0 。因此,当 $n$ 充分大时,$S(n)$ 中的序列的概率和小于 $\delta$ 。
假设重复一个实验多次,每次测量一些参数 $X$ 的值。我们标记实验结果为 $X_{1}, X_{2}, \cdots$ ,假设每次实验结果是独立的,我们直观地预计均值 $\mathbb{E}(X)$ 的估计量 $S_{n} \equiv \sum_{i=1}^{n} X_{i} / n$ 当 $n \rightarrow \infty$时应趋近 $\mathbb{E}(X)$ 。大数定律是对这种直觉的严格陈述。
定理12.3(大数定律)若 $X_{1}, X_{2}, \cdots$ 为独立同分布的随机变量,它们与 $X$ 具有相同分布,其具有有限的一阶矩和二阶矩,$|\mathbb{E}(X)| < \infty$ 且 $\mathbb{E}\left(X^{2}\right) < \infty$ 。对于任意 $\epsilon > 0$ ,当 $n \rightarrow \infty$ 时, $p\left(\left|S_{n}-\mathbb{E}(X)\right| > \epsilon\right) \rightarrow 0$ 。
证明 首先我们假设 $\mathbb{E}(X)=0$ ,在之后完成证明时再讨论 $\mathbb{E}(X) \neq 0$ 时会发生什么。由于随机变量独立且均值为 0 ,因此当 $i \neq j$ 时, $\mathbb{E}\left(X_{i} X_{j}\right)=\mathbb{E}\left(X_{i}\right) \mathbb{E}\left(X_{j}\right)=0$ ,因此
$$ \begin{equation*} \mathbb{E}\left(S_{n}^{2}\right)=\frac{\sum_{i, j=1}^{n} \mathbb{E}\left(X_{i} X_{j}\right)}{n^{2}}=\frac{\sum_{i=1}^{n} \mathbb{E}\left(X_{i}^{2}\right)}{n^{2}}=\frac{\mathbb{E}\left(X^{2}\right)}{n} \tag{12.34} \end{equation*} $$
最后的等号是因为 $X_{1}, \cdots, X_{n}$ 与 $X$ 同分布。而从期望的定义我们有
$$ \begin{equation*} \mathbb{E}\left(S_{n}^{2}\right)=\int \mathrm{d} P S_{n}^{2} \tag{12.35} \end{equation*} $$
其中 $\mathrm{d} P$ 是潜在的概率测度。显然,要么 $\left|S_{n}\right| \leqslant \epsilon$ 要么 $\left|S_{n}\right| > \epsilon$ ,所以我们可以将积分分成两部分,然后丢弃其中非负的一部分得到
$$ \begin{equation*} \mathbb{E}\left(S_{n}^{2}\right)=\int_{\left|S_{n}\right| \leqslant \epsilon} \mathrm{d} P S_{n}^{2}+\int_{\left|S_{n}\right| > \epsilon} \mathrm{d} P S_{n}^{2} \geqslant \int_{\left|S_{n}\right| > \epsilon} \mathrm{d} P S_{n}^{2} \tag{12.36} \end{equation*} $$
在积分区间中 $S_{n}^{2} > \epsilon^{2}$ ,因此
$$ \begin{equation*} \mathbb{E}\left(S_{n}^{2}\right) \geqslant \epsilon^{2} \int_{\left|S_{n}\right| > \epsilon} \mathrm{d} P=\epsilon^{2} p\left(\left|S_{n}\right| > \epsilon\right) \tag{12.37} \end{equation*} $$
将这个不等式与式(12.34)进行比较,我们知道
$$ \begin{equation*} p\left(\left|S_{n}\right| > \epsilon\right) \leqslant \frac{\mathbb{E}\left(X^{2}\right)}{n \epsilon^{2}} \tag{12.38} \end{equation*} $$
令 $n \rightarrow \infty$ 即完成证明。而 $\mathbb{E}(X) \neq 0$ 的情况也很容易能得到结果,定义
$$ \begin{equation*} Y_{i} \equiv X_{i}-\mathbb{E}(X), \quad Y \equiv X-\mathbb{E}(X) \tag{12.39} \end{equation*} $$
$Y$ 和 $Y_{1}, Y_{2}, \cdots$ 是一系列独立同分布的随机变量, $\mathbb{E}(Y)=0$ 且 $\mathbb{E}\left(Y^{2}\right) < \infty$ 。结果同上。
香农无噪声信道编码定理是典型序列定理的简单应用。我们在这里给出无噪声信道编码定理一个非常简单的版本,更复杂的版本留作习题,以及在章末的"背景资料与延伸阅读"中讨论。基本设定是假设 $X_{1}, X_{2}, \cdots$ 是一个独立同分布的包含 $d$ 个符号的有限字母表的经典信源。一个压缩率为 $R$ 的压缩方案将序列 $x=\left(x_{1}, \cdots, x_{n}\right)$ 映射到长度为 $n R$ 的比特串,我们用 $C^{n}(x)=$ $C^{n}\left(x_{1}, \cdots, x_{n}\right)$ 表示。(注意 $n R$ 可能不是整数,为了方便,我们规定在这种情况下 $n R=\lfloor n R\rfloor$ 。)对应的解压缩方案将 $n R$ 压缩位映射回长度为 $n$ 的字符串 $D^{n}\left(C^{n}(X)\right)$ 。如果当 $n$ 趋近于 $\infty$ 时, $D^{n}\left(C^{n}(x)\right)=x$ 的概率趋近于 1 ,则称压缩解压缩方案 $\left(C^{n}, D^{n}\right)$ 是可靠的。香农无噪声信道编码定理说明了当压缩率 $R$ 为多少时存在可靠压缩方案,为嫡率 $H(X)$ 提供了一种实际意义的解释:它是可靠地存储来自源的输出所需要的最小物理资源。
定理12.4(香农无噪声信道编码定理)假设 $\left\{X_{i}\right\}$ 是熵率为 $H(X)$ 的独立同分布信源,若 $R > H(X)$ ,则存在对源的压缩率为 $R$ 的可靠压缩方案;反之,若 $R < H(X)$ ,则任何压缩方案都是不可靠的。
证明 若 $R > H(X)$ ,选取 $\epsilon$ 使得 $H(X)+\epsilon < R_{\circ}$ 考虑 $\epsilon$ 典型序列的集合 $T(n, \epsilon)$ ,对于任意 $\delta > 0$及充分大的 $n$ ,最多存在 $2^{n(H(X)+\epsilon)} < 2^{n R}$ 个这样的序列,且源产生这样的序列的概率至少为 $1-\delta$ 。因此,压缩方法只是简单地检查源的输出是否为典型序列。如果不是,则压缩到某个固定的 $n R$ 位串意味着失败;解压缩操作只输出随机序列 $x_{1}, \cdots, x_{n}$ 作为对源产生的信息的猜测;在这种情况下,我们放弃压缩是更有效的。如果源的输出是典型序列,那么我们仅通过简单地使用 $n R$ 位存储特定序列的标号来压缩输出,并且这显然在以后能被恢复。
若 $R < H(X)$ ,压缩解压缩操作的组合具有最多 $2^{n R}$ 个可能的输出,因此从源输出的序列中最多只有 $2^{n R}$ 个可以被正确无误地压缩并解压缩。由典型序列定理,当 $n$ 充分大时,对于 $R < H(X)$ ,一个序列由大小为 $2^{n R}$ 的序列子集中的源输出的概率趋近于 0 。因此,任何这样的压缩方案都不可靠。
习题12.5(变长无错数据压缩)对于可变长度的数据压缩方案,请考虑以下启发式算法。令 $x_{1}, \cdots, x_{n}$ 为摘率 $H(X)$ 的源独立同分布的 $n$ 次输出。如果是 $x_{1}, \cdots, x_{n}$ 是典型的,然后发送一个 $H(X)$ 位的索引指示它是哪一个典型序列。如果 $x_{1}, \cdots, x_{n}$ 是非典型的,为序列发送一个未压缩的 $\log d^{n}$ 位的索引( $d$ 为字母表大小)。对此启发式算法进行严格的论证,对于任何 $R > H(X)$ ,可以无错地将源压缩到每个源符号平均占 $R$ 位。
量子信息论在概念上的一个重大突破是我们认识到可以将量子态视为信息,并询问有关这些量子态的信息论问题。在本节中,我们定义量子信源,并研究以下问题:由该信源产生的"信息"(量子态)能被压缩到什么程度?
我们如何定义量子信源的概念?与经典信源的定义一样,我们并没有一个最好的定义,可能会提出几个不同的定义,并且不是所有定义都是等价的。我们将要使用的定义基于以下思想,纠缠是我们尝试压缩和解压缩时最关注的东西。更严格地说,一个(独立同分布)量子信源将由希尔伯特空间 $H$ 和该空间上的密度矩阵 $\rho$ 描述。我们可以认为系统的状态 $\rho$ 仅仅是处于纯态的较大系统的一部分,$\rho$ 的混合性质是由 $H$ 与系统剩余部分之间的纠缠导致的。该源的压缩率为 $R$的压缩方案由两个量子算子 $\mathcal{C}^{n}$ 和 $\mathcal{D}^{n}$ 组成,其类似于在经典情况下使用的压缩和解压缩方案。 $\mathcal{C}^{n}$ 是压缩算子,将 $H^{\otimes n}$ 中的态映射到一个 $2^{n R}$ 维状态空间(压缩空间)中,我们可以用 $n R$ 个量子比特表示压缩空间。算子 $\mathcal{D}^{n}$ 是解压缩操作,将压缩空间中的态映射到原始状态空间中。因此,压缩解压缩组合的算子是 $\mathcal{D}^{n} \circ \mathcal{C}^{n}$ 。我们对于可靠性的标准是,在 $n$ 充分大时,纠缠保真度 $F\left(\rho^{\otimes n}, \mathcal{D}^{n} \circ \mathcal{C}^{n}\right)$ 应趋近于 1 。量子数据压缩的基本思想如图 12-3 所示。
图 12-3 量子数据压缩。压缩算子 $\mathcal{C}^{n}$ 将存储在 $n \log d$ 个量子比特中的量子源 $\rho$ 映射到 $n S(\rho)$ 个量子比特。源通过解压缩算子 $\mathcal{D}^{n}$ 准确还原
证明量子无噪声信道编码定理的关键是典型序列的量子版本。假设与量子源相关联的密度算子 $\rho$ 具有正交分解
$$ \begin{equation*} \rho=\sum_{x} p(x)|x\rangle\langle x| \tag{12.40} \end{equation*} $$
其中 $|x\rangle$ 是正交集,$p(x)$ 是 $\rho$ 的特征值。 $\rho$ 的特征值 $p(x)$ 遵循与概率分布相同的规则:它们是非负的并且和为 1 。此外,$H(p(x))=S(\rho)$ 。因此,谈论一个 $\epsilon$ 典型序列 $x_{1}, \cdots, x_{n}$ 时有如下结论:
$$ \begin{equation*} \left|\frac{1}{n} \log \left(\frac{1}{p\left(x_{1}\right) p\left(x_{2}\right) \cdots p\left(x_{n}\right)}\right)-S(\rho)\right| \leqslant \epsilon \tag{12.41} \end{equation*} $$
与经典定义完全相同。一个 $\epsilon$ 典型态为一个 $\epsilon$ 典型序列 $x_{1}, x_{2}, \cdots x_{n}$ 对应的态 $\left|x_{1}\right\rangle\left|x_{2}\right\rangle \cdots\left|x_{n}\right\rangle$ 。定义 $\epsilon$ 子空间为由所有 $\epsilon$ 典型态 $\left|x_{1}\right\rangle\left|x_{2}\right\rangle \cdots\left|x_{n}\right\rangle$ 张成的子空间。我们用 $T(n, \epsilon)$ 表示 $\epsilon$ 典型子空
间,用 $P(n, \epsilon)$ 表示到典型子空间上的投影算子。注意到
$$ \begin{equation*} P(n, \epsilon)=\sum_{x \text { 为 } \epsilon \frac{\mathrm{C}}{\mathrm{C} ⿱ 一 廾 刂 土 土 灬 土 灬 心 . ~}}\left|x_{1}\right\rangle\left\langle x_{1}\right| \otimes\left|x_{2}\right\rangle\left\langle x_{2}\right| \otimes \cdots\left|x_{n}\right\rangle\left\langle x_{n}\right| \tag{12.42} \end{equation*} $$
下面可以将典型序列定理转化为其等效的量子形式,即典型子空间定理。 定理 12.5 (典型子空间定理) 1.固定 $\epsilon > 0$ ,对于任意 $\delta > 0$ ,当 $n$ 充分大时,
$$ \begin{equation*} \operatorname{tr}\left(P(n, \epsilon) \rho^{\otimes n}\right) \geqslant 1-\delta \tag{12.43} \end{equation*} $$
2.对于任意固定的 $\epsilon > 0$ 和 $\delta > 0$ ,当 $n$ 充分大时,$\epsilon$ 典型子空间 $T(n, \epsilon)$ 的维数 $|T(n, \epsilon)|=$ $\operatorname{tr}(P(n, \epsilon))$ 满足
$$ \begin{equation*} (1-\delta) 2^{n(S(\rho)-\epsilon)} \leqslant|T(n, \epsilon)| \leqslant 2^{n(S(\rho)+\epsilon)} \tag{12.44} \end{equation*} $$
3.令 $S(n)$ 为 $H^{\otimes n}$ 的维数至多为 $2^{n R}$ 的任意子空间,其中 $R < S(\rho)$ 固定。对于任意 $\delta > 0$ ,当 $n$ 充分大时,
$$ \begin{equation*} \operatorname{tr}\left(S(n) \rho^{\otimes n}\right) \leqslant \delta \tag{12.45} \end{equation*} $$
每种情况下的结果都可以直接使用大数定律来得到,但我们更喜欢使用典型序列定理,以强调其与香农无噪声信道编码定理的证明过程中所使用的技术的紧密联系。
证明
1.注意到
$$ \begin{equation*} \operatorname{tr}\left(P(n, \epsilon) \rho^{\otimes n}\right)=\sum_{x \text { 为 } \epsilon \text { 典型 }} p\left(x_{1}\right) p\left(x_{2}\right) \cdots p\left(x_{n}\right) \tag{12.46} \end{equation*} $$
结果可由典型序列定理的(1)直接得到。 2.由典型序列定理的(2)直接得到。 3.我们将迹分解为典型子空间和非典型子空间上的两部分:
$$ \begin{equation*} \left.\operatorname{tr}\left(S(n) \rho^{\otimes n}\right)=\operatorname{tr}\left(S(n) \rho^{\otimes n} P(n, \epsilon)\right)+\operatorname{tr}\left(S(n) \rho^{\otimes n}(I-P(n), \epsilon)\right)\right) \tag{12.47} \end{equation*} $$
分别处理两部分。对第一部分注意到,因为 $P(n, \epsilon)$ 是与 $\rho^{\otimes n}$ 对易的投影算子,故
$$ \begin{equation*} \rho^{\otimes n} P(n, \epsilon)=P(n, \epsilon) \rho^{\otimes n} P(n, \epsilon) \tag{12.48} \end{equation*} $$
而 $P(n, \epsilon) \rho^{\otimes n} P(n, \epsilon)$ 的特征值都不超过 $2^{-n(S(\rho)-\epsilon)}$ ,故
$$ \begin{equation*} \operatorname{tr}\left(S(n) P(n, \epsilon) \rho^{\otimes n} P(n, \epsilon)\right) \leqslant 2^{n R} 2^{-n(S(\rho)-\epsilon))} \tag{12.49} \end{equation*} $$
令 $n \rightarrow \infty$ ,我们知道第一部分趋近于 0 。对于第二部分注意到 $S(n) \leqslant I$ ,因为 $S(n)$和 $\left.\rho^{\otimes n}(I-P(n), \epsilon)\right)$ 均为正定算子,所以当 $n \rightarrow \infty$ 时 $0 \leqslant \operatorname{tr}\left(S(n) \rho^{\otimes n}(I-P(n, \epsilon))\right) \leqslant$ $\operatorname{tr}\left(\rho^{\otimes n}(I-P(n, \epsilon))\right) \rightarrow 0$ ,所以第二部分当 $n$ 变大时趋近于 0 ,结果得证。
利用典型子空间定理,我们不难证明香农无噪声信道编码定理的量子形式。证明的主要思想是类似的,但是证明中的非对易算子的出现使得分析变得更加困难,因为这些算子没有经典中的对应形式。
定理12.6(Schumacher 无噪声量子信道编码定理)令 ${H, \rho}$ 为独立同分布量子信源。如果 $R > S(\rho)$ ,那么存在对信源 ${H, \rho}$ 压缩率为 $R$ 的可靠压缩方案。如果 $R < S(\rho)$ ,那么不存在对信源 ${H, \rho}$ 压缩率为 $R$ 的可靠压缩方案。
证明 假设 $R > S(\rho)$ 并令 $\epsilon > 0$ 使得 $S(\rho)+\epsilon \leqslant R$ 。由典型子空间定理,对于任意 $\delta > 0$ 及充分大的 $n, \operatorname{tr}\left(\rho^{\otimes n} P(n, \epsilon) \geqslant 1-\delta\right.$ ,并且 $\operatorname{dim}(T(n, \epsilon)) \leqslant 2^{n R}$ 。令 $H_{c}^{n}$ 为包含 $T(n, \epsilon)$ 的任意 $2^{n R}$ 维希尔伯特空间。编码以如下方式完成。首先进行测量,由完整的正交投影算子 $P(n, \epsilon)$ 和 $I-P(n, \epsilon)$ 描述,对应的结果我们用 0 和 1 表示。如果结果 0 发生,则不再进行任何操作并保持其态处于典型子空间中。如果结果 1 发生,那么我们用从典型子空间中选择的一些标准态 $|0\rangle$ 替换系统的态,而具体使用什么态并不重要。由此得出,编码是一个到 $2^{n R}$ 维子空间 $H_{c}^{n}$ 的映射 $\mathcal{C}^{n}: H^{\otimes n} \rightarrow H_{c}^{n}$ ,其具有求和表示
$$ \begin{equation*} \mathcal{C}^{n}(\sigma) \equiv P(n, \epsilon) \sigma P(n, \epsilon)+\sum_{i} A_{i} \sigma A_{i}^{\dagger} \tag{12.50} \end{equation*} $$
其中 $A_{i} \equiv|0\rangle\langle i|,|i\rangle$ 是典型子空间正交补的标准正交基。 解码操作 $\mathcal{D}^{n}: H_{c}^{n} \rightarrow H^{\otimes n}$ 被定义为 $H_{c}^{n}$ 上的恒等算子, $\mathcal{D}^{n}(\sigma)=\sigma$ 。有了这些对编码和解码的定义,我们有
$$ \begin{align*} F\left(\rho^{\otimes n}, \mathcal{D}^{n} \circ \mathcal{C}^{n}\right) & =\left|\operatorname{tr}\left(\rho^{\otimes n} P(n, \epsilon)\right)\right|^{2}+\sum_{i}\left|\operatorname{tr}\left(\rho^{\otimes n} A_{i}\right)\right|^{2} \tag{12.51}\\ & \geqslant\left|\operatorname{tr}\left(\rho^{\otimes n} P(n, \epsilon)\right)\right|^{2} \tag{12.52}\\ & \geqslant|1-\delta|^{2} \geqslant 1-2 \delta \tag{12.53} \end{align*} $$
其中最后一行来自典型子空间定理。对于充分大的 $n, \delta$ 可以任意小,因此当 $S(\rho) < R$ 时,存在压缩率为 $R$ 的可靠压缩方案 $\left\{\mathcal{C}^{n}, \mathcal{D}^{n}\right\}$ 。
为证明其反面结论,假设 $R < S(\rho)$ ,不失一般性,我们假设从 $H^{\otimes n}$ 映射到 $2^{n R}$ 维子空间的压缩操作具有对应的投影算子 $S(n)$ 。令 $C_{j}$ 为压缩操作 $C^{n}$ 的元算子,$D_{k}$ 为解压缩操作 $\mathcal{D}^{n}$ 的元算子。然后我们有
$$ \begin{equation*} F\left(\rho^{\otimes n}, \mathcal{D}^{n} \circ \mathcal{C}^{n}\right)=\sum_{j k}\left|\operatorname{tr}\left(D_{k} C_{j} \rho^{\otimes n}\right)\right|^{2} \tag{12.54} \end{equation*} $$
每个算子 $C_{j}$ 映射到投影 $S(n)$ 的子空间内,因此 $C_{j}=S(n) C_{j}$ 。设 $S^{k}(n)$ 为到 $S(n)$ 被 $D_{k}$ 映射的子空间的投影,因此我们有 $S^{k}(n) D_{k} S(n)=D_{k} S(n)$ ,因此 $D_{k} C_{j}=D_{k} S(n) C_{j}=S^{k}(n) D_{k} S(n) C_{j}=$ $S^{k}(n) D_{k} C_{j}$ ,因此
$$ \begin{equation*} F\left(\rho^{\otimes n}, \mathcal{D}^{n} \circ \mathcal{C}^{n}\right)=\sum_{j k}\left|\operatorname{tr}\left(D_{k} C_{j} \rho^{\otimes n} S^{k}(n)\right)\right|^{2} \tag{12.55} \end{equation*} $$
应用柯西-施瓦茨不等式得到
$$ \begin{equation*} F\left(\rho^{\otimes n}, \mathcal{D}^{n} \circ \mathcal{C}^{n}\right) \leqslant \sum_{j k} \operatorname{tr}\left(D_{k} C_{j} \rho^{\otimes n} C_{j}^{\dagger} D_{k}^{\dagger}\right) \operatorname{tr}\left(S^{k}(n) \rho^{\otimes n}\right) \tag{12.56} \end{equation*} $$
应用典型子空间定理的(3),我们知道对于任意 $\delta > 0$ 及充分大的 $n, \operatorname{tr}\left(S^{k}(n) \rho^{\otimes n}\right) \leqslant \delta$ 。此外,典型子空间定理的证明意味着其成立所需要的 $n$ 的大小不依赖于 $k$ 。而因为 $\mathcal{C}^{n}$ 和 $\mathcal{D}^{n}$ 都是保迹的,故
$$ \begin{align*} F\left(\rho^{\otimes n}, \mathcal{D}^{n} \circ \mathcal{C}^{n}\right) & \leqslant \delta \sum_{j k} \operatorname{tr}\left(D_{k} C_{j} \rho^{\otimes n} C_{j}^{\dagger} D_{k}^{\dagger}\right) \tag{12.57}\\ & =\delta \tag{12.58} \end{align*} $$
由于 $\delta$ 是任意的,因此当 $n \rightarrow \infty$ 时 $F\left(\rho^{\otimes n}, \mathcal{D}^{n} \circ \mathcal{C}^{n}\right) \rightarrow 0$ ,因此压缩方案是不可靠的。
Schumacher 定理不仅讨论了可靠压缩方案的存在性,而且提供了如何实际构造压缩方案的线索。其关键是能够有效地实现从 $n$ 维希尔伯特空间到 $2^{n R}$ 维典型子空间 $H_{c}^{n}$ 中的映射 $\mathcal{C}^{n}$ : $H^{\otimes n} \rightarrow H_{c}^{n}$ 。经典的压缩技术,例如枚举编码,赫夫曼编码和算术编码能被应用到这一问题中来,但有一个很强的限制条件:编码电路必须是完全可逆的,并且在创建压缩编码的过程中要完全消除原始状态。毕竟,根据不可克隆定理,我们无法复制原始状态,因此它不能像普通的经典压缩方案那样使原状态保持不变。专题 12.4 给出了一个简单的例子,来说明量子压缩的工作原理。
考虑一个独立同分布信源,其由一个单量子比特密度矩阵描述
$$ \rho=\frac{1}{4}\left[\begin{array}{ll} 3 & 1 \tag{12.59}\\ 1 & 1 \end{array}\right] $$
例如,这可能来源于更大纠缠系统的一小部分。理解此源的另一种方法(与 9.3 节相比较)是它以等概率产生态 $\left|\psi_{0}\right\rangle=|0\rangle$ 或 $\left|\psi_{1}\right\rangle=(|0\rangle+|1\rangle) / \sqrt{2}$(参见习题12.8)。 $\rho$ 具有正交分解 $p|\overline{0}\rangle\langle\overline{0}|+(1-p)|\overline{1}\rangle\langle\overline{1}|$ ,其中 $|\overline{0}\rangle=\cos \frac{\pi}{8}|0\rangle+\sin \frac{\pi}{8}|1\rangle,|\overline{1}\rangle=-\sin \frac{\pi}{8}|0\rangle+\cos \frac{\pi}{8}|1\rangle$ ,并且 $p=[3+\tan (\pi / 8)] / 4$ 。在此基础上,可以将 $n$ 个量子比特的块写为状态
$$ \begin{equation*} \sum_{X={\overline{0} \overline{0} \cdots \overline{0}, \overline{0} \overline{0} \cdots \overline{1}, \cdots, \overline{1} \overline{1} \cdots \overline{1}}} C_{X}|X\rangle \tag{12.60} \end{equation*} $$
由定理 12.6,只有 $|X\rangle$ 为了能够以高保真度重建原始状态,需要被发送,而其汉明权重近似等于 $n p$(即典型子空间的一个基)。这很容易理解,因为 $\left|\left\langle\overline{0} \mid \psi_{k}\right\rangle\right|=\cos (\pi / 8) ~($ 对于 $k={0,1}$ )远大于 $\left|\left\langle\overline{1} \mid \psi_{k}\right\rangle\right|=\sin (\pi / 8)$ ,对于具有较大汉明权重的 $X$ ,系数 $C_{X}$ 非常小。
我们要如何实现这样的压缩方案呢?如下是一种近似的方法。假设我们有置换基矢态 $|X\rangle$ 的量子电路 $U_{n}$ ,它根据汉明权重将态按照字典序重新排序。例如,对于 $n=4$ ,如下:
$$ \begin{array}{llll} 0000 \rightarrow 0000 & 1000 \rightarrow 0100 & 1001 \rightarrow 1000 & 1011 \rightarrow 1100 \\ 0001 \rightarrow 0001 & 0011 \rightarrow 0101 & 1010 \rightarrow 1001 & 1101 \rightarrow 1101 \\ 0010 \rightarrow 0010 & 0101 \rightarrow 0110 & 1100 \rightarrow 1010 & 1110 \rightarrow 1110 \\ 0100 \rightarrow 0011 & 0110 \rightarrow 0111 & 0111 \rightarrow 1011 & 1111 \rightarrow 1111 \end{array} $$
这样的变换可以使用受控非门和 Toffoli 门实现,它能将典型子空间可逆地打包到前约 $n H(p)$个量子比特(从左到右)。为了完成该方案,我们还需要一个量子门 $V$ ,它将单个量子比特旋转到基 $|\overline{0}\rangle,|\overline{1}\rangle$ 上。然后,我们所需要的压缩方案就是 $\mathcal{C}^{n}=\left(V^{\dagger}\right)^{\otimes n} U_{n} V^{\otimes n}$ ,并且只需要发送来自 $\mathcal{C}^{n}$ 输出的前 $n H(p)$ 个量子比特,使用该电路的逆电路作为解码器,就能够以高保真度重建来自源的一系列状态。一种更有效的编码方案是将汉明权重约为 $n p$ 的状态打包到前 $n H(p)$ 个量子比特空间,这可以使用算术编码的量子版本来完成。
习题 12.6 以专题 12.4 中的记号给出 $C_{X}$ 关于 $X$ 的表达式。并对于任意的 $n$ ,描述如何构造执行 $U_{n}$ 的量子电路。你需要多少基本操作?用 $n$ 的函数表示。
习题 12.7 (数据压缩电路)对于任意 $R > S(\rho)=H(\rho)$ ,构造一个电路,以便能可靠地将一个单比特源 $\rho=p|0\rangle\langle 0|+(1-p)|1\rangle\langle 1|$ 压缩到 $n R$ 个量子比特。
习题 12.8 (量子态集合的压缩)假设不是采用基于单密度矩阵和纠缠保真度的量子源定义,而是采用以下集合定义:一个(独立同分布)量子源由一个量子态集合 $\left\{p_{j},\left|\psi_{j}\right\rangle\right\}$ 指定。量子态的连续使用是独立的,并且以概率 $p_{j}$ 产生状态 $\left|\psi_{j}\right\rangle$ 。如果整体平均保真度当 $n \rightarrow \infty$ 时接近 1 ,则说压缩解压缩方案 $\left(\mathcal{C}^{n}, \mathcal{D}^{n}\right)$ 在该定义下是可靠的,整体平均保真度
$$ \begin{equation*} \bar{F} \equiv \sum_{J} p_{j_{1}} \cdots p_{j_{n}} F\left(\rho_{J},\left(\mathcal{D}^{n} \circ \mathcal{C}^{n}\right)\left(\rho_{J}\right)\right)^{2} \tag{12.61} \end{equation*} $$
其中 $J=\left(j_{1}, \cdots, j_{n}\right)$ 且 $\rho_{J} \equiv\left|\psi_{j_{1}}\right\rangle\left\langle\psi_{j_{1}}\right| \otimes \cdots \otimes\left|\psi_{j_{n}}\right\rangle\left\langle\psi_{j_{n}}\right|$ 。定义 $\rho \equiv \sum_{j} p_{j}\left|\psi_{j}\right\rangle\left\langle\psi_{j}\right|$ ,证明给定 $R > S(\rho)$ ,存在在该保真度定义下的压缩率为 $R$ 的可靠压缩方案。