摘是量子信息论中的一个重要概念,衡量了物理系统的状态中存在多少不确定性。在本章中,我们将回顾经典和量子信息论中嫡的定义和性质。本章的部分内容包含相当详细和冗长的数学论证,读者在初次阅读时,不必弄㯵全部细节,可以在之后遇到时再返回参考。
经典信息论的核心概念是香农嫡。假设我们得到了一个变量 $X$ 的值,$X$ 的香农嫡量化了我们在获悉 $X$ 的值时所能得到的平均信息量;另一种观点是将 $X$ 的嫡看作在我们获悉 $X$ 的值前,对其不确定程度的度量。这两种观点是互补的;我们既可以将嫡看作在我们获悉 $X$ 的值前,对其不确定程度的度量,也可以看作在我们已经得到 $X$ 的值后,对获得信息量的度量。
直觉上,随机变量的信息内容不应该依赖于随机变量取值的标签。例如,有一个随机变量取值为"头"和"尾"的概率分别为 $1 / 4$ 与 $3 / 4$ ,另一个随机变量取值为 0 和 1 的概率分别为 $1 / 4$与 $3 / 4$ ,我们希望这两个随机变量包含相同的信息量。因此,随机变量的嫡被定义为关于随机变量取值的概率的函数,且不受这些值的标签影响。我们经常将嫡写作概率分布 $p_{1}, \cdots, p_{n}$ 的函数,这一概率分布的香农嫡定义为
$$ \begin{equation*} H(X) \equiv H\left(p_{1}, \cdots, p_{n}\right) \equiv-\sum_{x} p_{x} \log p_{x} \tag{11.1} \end{equation*} $$
我们稍后将论证这一定义的合理性。注意,在这一定义及整本书中,我们将用"log"表示底数为 2 的对数函数,而用"ln"表示自然对数函数。那么根据对数函数底数的约定,我们习惯上认为嫡可以用"比特"来度量。你可能会好奇当 $p_{x}=0$ 时会发生什么,因为 $\log 0$ 显然是没有定义的。直觉上,一个从来不发生的事件不会对嫡有贡献,因此我们习惯上认为 $0 \log 0 \equiv 0$ 。更形式化一点,注意到 $\lim _{x \rightarrow 0} x \log x=0$ ,这为我们的约定提供了更有力的支持。
为什么要用这种方式来定义嫡呢?本节稍后的习题 11.2 将基于某些"合理"的公理,对嫡的这一定义给出一个直观的论证,其中这些公理是信息度量被期望拥有的性质。这一直观上的论证可靠,但并不全面。这样定义嫡最好的理由是它可以用来量化存储信息所需要的资源量。更具体地说,假设有某个源(可能是无线电天线)正在产生某种类型的信息,比如以比特串的形式让我们考虑一个非常简单的模型,对于一个源:我们将它建立为一个产生一串独立同分布随机变量 $X_{1}, X_{2}, \cdots$ 的模型。大多数的真实信息源并不完全是这样的,但这通常是对真实情况的一个很好的近似。香农的问题是我们最少需要多少资源来存储由源产生的这些信息,并使其在之后可以被重构。这个问题的答案被证明就是熵,也就是对每个源的符号我们需要 $H(X)$ 个比特,其中 $H(X) \equiv H\left(X_{1}\right) \equiv H\left(X_{2}\right) \equiv \cdots$ 是源模型中每个随机变量的熵。这一结果被称为香农无噪声信道编码定理,我们将在第 12 章中证明它的经典与量子版本。
我们举一个关于香农无噪声信道编码定理的具体例子,假设有一个信息源每次产生 $1,2,3,4$四个符号中的一个。在不进行压缩的情况下,每次使用源都需要消耗 2 比特的空间来存储 4 种可能的输出。然而,假设源产生符号 1 的概率是 $1 / 2$ ,符号 2 的概率是 $1 / 4$ ,符号 3 和 4 的概率是 $1 / 8$ ,我们可以利用输出结果的这一偏向来压缩源,实现的方法是用较短的比特串来存储常见的符号例如 1 ,而用较长的比特串来存储少见的符号例如 3 和 4 。一种可行的压缩方式是将 1 编码为比特串 0,2 为比特串 10,3 为比特串 110,4 为比特串 111 。可以注意到压缩后的串的平均长度就是每次使用源产生的信息量 $\frac{1}{2} \cdot 1+\frac{1}{4} \cdot 2+\frac{1}{8} \cdot 3+\frac{1}{8} \cdot 3=\frac{7}{4}$ 比特,这比用最普通直接的方式来存储源所需要的比特数要少!令人惊讶的是它恰好等于源的熵,即 $H(X)=$ $-1 / 2 \log (1 / 2)-1 / 4 \log (1 / 4)-1 / 8 \log (1 / 8)-1 / 8 \log (1 / 8)=7 / 4$ !此外,可以证明任何尝试更进一步地压缩源的企图都将不可避免地导致信息损失;因此熵量化了可能达到的最优压缩表示。
用数据压缩来定义嫡,这一具有可操作性的动机表达了量子信息论与经典信息论共有的核心思想:信息的基本度量是对解决某些信息处理问题所需物理资源这一基本问题的回答。
习题11.1(摘的简单计算)投掷一枚"公平"硬币的熵是多少?"公平"骰子的熵呢?如果硬币或骰子是不"公平"的,那么熵会如何变化呢?
习题11.2(摘定义的直观论证)假定我们正在尝试量化在一次概率试验中可能发生的事件 $E$能够提供的信息量,我们通过使用一种取值由事件 $E$ 决定的"信息函数"$I(E)$ 来完成这件事。假定我们对这一函数有如下假设:
1.$I(E)$ 是一个只和事件 $E$ 的发生概率有关的函数,因此可以将其写作 $I=I(p), p$ 表示取值为 0 到 1 的概率。
2.$I$ 是关于概率的平滑函数。 3.当 $p, q > 0$ 时,$I(p q)=I(p)+I(q)$ 。(解释:当两个独立事件分别以概率 $p$ 与 $q$ 同时发生时所能获得的信息等于每个事件单独发生时所能获得的信息之和。)
证明 $I(p)=k \log p$ 是满足以上假设的函数,其中 $k$ 是一个常数。由此可以推出一组发生概率分别为 $p_{1}, \cdots, p_{n}$ 的互斥事件的平均信息增益等于 $k \sum_{i} p_{i} \log p_{i}$ ,而这恰好就等于香农嫡乘以一个常数。
用摘的语言有一种优雅的方式来重新叙述量子力学中的不确定性原理。首先回忆一下专题2.4中叙述的海森伯不确定性原理,它是说对于一个处于态 $|\psi\rangle$ 的量子系统,其两个可观察量 $C$ 与 $D$ 的标准差 $\Delta(C)$ 和 $\Delta(D)$ 必须满足以下关系
$$ \begin{equation*} \Delta(C) \Delta(D) \geqslant \frac{|\langle\psi|[C, D]| \psi\rangle \mid}{2} \tag{11.2} \end{equation*} $$
令 $C=\sum_{c} c|c\rangle\langle c|$ 和 $D=\sum_{d} d|d\rangle\langle d|$ 是 $C$ 与 $D$ 的谱分解。定义 $f(C, D) \equiv \max _{c, d}|\langle c \mid d\rangle|$ 为任意两个特征向量 $|c\rangle,|d\rangle$ 之间的最大保真度,以泡利矩阵为例来说,$f(X, Z)=1 / \sqrt{2}$ 。
假设量子系统被制备为量子态 $|\psi\rangle$ ,并且令 $p(c)$ 为关于 $C$ 的一次测量的概率分布,$H(C)$是它对应的摘;令 $q(d)$ 为关于 $D$ 的一次测量的概率分布,$H(D)$ 是它对应的摘;那么摘的不确定性原理可以表述为
$$ \begin{equation*} H(C)+H(D) \geqslant 2 \log \left(\frac{1}{f(C, D)}\right) \tag{11.3} \end{equation*} $$
关于这一结果的完整证明将会使我们偏离主题太远(参见"背景资料与延伸阅读");但是对于如下的弱化结果,
$$ \begin{equation*} H(C)+H(D) \geqslant-2 \log \frac{1+f(C, D)}{2} \tag{11.4} \end{equation*} $$
我们能够给出一个简单的证明。注意到
$$ \begin{equation*} H(C)+H(D)=-\sum_{c d} p(c) q(d) \log (p(c) q(d)) \tag{11.5} \end{equation*} $$
我们的目标是在上式中限制 $p(c) q(d)=|\langle c \mid \psi\rangle\langle\psi \mid d\rangle|^{2}$ 。为了做到这一点,令 $|\tilde{\psi}\rangle$ 为 $|\psi\rangle$ 在由 $|c\rangle,|d\rangle$ 张成的平面上的投影,因此 $|\tilde{\psi}\rangle$ 的模 $\lambda$ 小于等于 1 。如果 $\theta$ 是平面上 $|d\rangle$ 与 $|c\rangle$ 的夹角, $\varphi$ 是 $|\tilde{\psi}\rangle$ 与 $|d\rangle$ 的夹角,那么我们可以知道 $p(c) p(d)=|\langle c \mid \tilde{\psi}\rangle\langle\tilde{\psi} \mid d\rangle|^{2}=\lambda^{2} \cos {}^{2}(\theta-\varphi) \cos {}^{2}(\varphi)$ 。计算表明当 $\lambda=1$ 且 $\varphi=\theta / 2$ 时上式达到最大值,为 $p(c) p(d)=\cos {}^{4}(\theta / 2)$ ,可以写为如下形式
$$ \begin{equation*} p(c) p(d)=\left(\frac{1+|\langle c \mid d\rangle|}{2}\right)^{2} \tag{11.6} \end{equation*} $$
将其与式(11.5)结合起来,即可得
$$ \begin{equation*} H(C)+H(D) \geqslant-2 \log \frac{1+f(C, D)}{2} \tag{11.7} \end{equation*} $$
由于二值随机变量的嫡非常有用,因此我们给它一个特殊的名字——二元摘,定义为
$$ \begin{equation*} H_{\mathrm{bin}}(p) \equiv-p \log p-(1-p) \log (1-p) \tag{11.8} \end{equation*} $$
其中 $p$ 与 $1-p$ 是输出两个值的概率。在上下文定义清晰的情况下,我们用 $H(p)$ 来代替 $H_{\mathrm{bin}}(p)$ 。图 11-1 展示了二元嫡函数的图像。可以注意到 $H(p)=H(1-p)$ ,并且当 $p=1 / 2$ 时 $H(p)$ 达到最大值1。
图 11-1 二元熵函数 $H(p)$ 二元摘是用来理解嫡的更一般性质的极好试验场。当我们混合两个或更多的概率分布时,嫡会如何表现是一个特别令人感兴趣的性质。例如,想象一下 Alice 拥有两枚硬币,一枚是 25 美分硬币,另一枚是 1 澳元硬币。两枚硬币都被调整过以便具有某种偏向,其中美元正面朝上的概率是 $p_{\mathrm{U}}$ ,澳元正面朝上的概率是 $p_{\mathrm{A}}$ 。假设 Alice 以 $q$ 的概率掷美元,以 $1-q$ 的概率掷澳元,并且告诉 Bob 结果是正面朝上还是反面朝上。那么 Bob 平均能够获得多少信息量?直觉上,Bob 得到的信息应该至少与郑美元或郑澳元得到的平均信息量相等。这一直觉用公式可以表达为
$$ \begin{equation*} H\left(q p_{\mathrm{U}}+(1-q) p_{\mathrm{A}}\right) \geqslant q H\left(p_{\mathrm{U}}\right)+(1-q) H\left(p_{\mathrm{A}}\right) \tag{11.9} \end{equation*} $$
有时候,上述不等式是严格的,因为 Bob 获得的信息不仅包括了硬币的值,也包括关于硬币特性的额外信息。比方说,如果 $p_{\mathrm{U}}=1 / 3, p_{\mathrm{A}}=5 / 6$ ,并且结果是正面朝上,那么 $\operatorname{Bob}$ 就得到了一个相当明显的迹象,即硬币可能是澳元。
式(11.9)很容易被证明是正确的,它是凹性这一更广泛概念的一个例子,我们曾在第 9 章讨论距离度量时遇见过这一概念。回忆一下一个实值函数 $f$ 被称为是凹的当且仅当对任意取值为 0到1的 $p$ ,有
$$ \begin{equation*} f(p x+(1-p) y) \geqslant p f(x)+(1-p) f(y) \tag{11.10} \end{equation*} $$
很容易看出来二值嫡是凹的,也可以通过检查图 11-1 从而在视觉上捕捉到这一性质,容易观察到二元熵的图始终位于任意一条切割图的线条之上。我们对于经典与量子熵的凹性都非常感兴趣。不要被上述直觉式论证的简单所蒙蔽以致陷人虚妄的自满之中:量子信息论中许多最深刻的结果都源自于经典或量子熵的精妙应用。此外,对于量子熵而言,有时候很难证明直观上认为熵应当具有的凹性。 习题 11.3 证明二元熵 $H_{\mathrm{bin}}(p)$ 在 $p=1 / 2$ 时达到其最大值 1 。 习题11.4(二元摘的凹性)从图 11-1 可以看出二元摘是一个凹函数,证明这一观察是正确的,也就是
$$ \begin{equation*} H_{\mathrm{bin}}\left(p x_{1}+(1-p) x_{2}\right) \geqslant p H_{\mathrm{bin}}\left(x_{1}\right)+(1-p) H_{\mathrm{bin}}\left(x_{2}\right) \tag{11.11} \end{equation*} $$
其中 $0 \leqslant p, x_{1}, x_{2} \leqslant 1$ 。另外证明二元嫡是严格凹的,即上述不等式只有在平凡情形 $x_{1}=x_{2}$ 或 $p=0$ 或 $p=1$ 时取等号。
相对嫡是一种非常有用的类似熵的度量,可以用来衡量两个概率分布 $p(x), q(x)$ 在同一指标集 $x$ 下的接近程度。假设 $p(x)$ 与 $q(x)$ 是两个定义在同一指标集 $x$ 上的概率分布,定义 $p(x)$ 对 $q(x)$ 的相对熵为
$$ \begin{equation*} H(p(x) | q(x)) \equiv \sum_{x} p(x) \log \frac{p(x)}{q(x)} \equiv-H(X)-\sum_{x} p(x) \log q(x) \tag{11.12} \end{equation*} $$
我们定义 $-0 \log 0 \equiv 0$ ,并且当 $p(x) > 0$ 时,$-p(x) \log 0 \equiv+\infty$ 。 相对摘可以用来做什么,甚至为什么可以用来度量两个分布之间的距离,这并不显而易见。下面这一定理部分解释了为什么相对熵被认为是一个距离度量。 定理11.1(相对摘的非负性)相对摘是非负的,即 $H(p(x) | q(x)) \geqslant 0$ ,当且仅当对所有 $x$ 的取值 $p(x)=q(x)$ 时取等号。
证明 在信息论中有一个非常有用的不等式是 $\log x \ln 2=\ln x \leqslant x-1$ ,对所有正数 $x$ 都成立,并且当且仅当 $x=1$ 时不等式取等号;这里我们需要稍微调整一下这一结果,得到 $-\log x \geqslant$ $(1-x) / \ln 2$ ,然后注意到
$$ \begin{equation*} H(p(x) | q(x))=-\sum_{x} p(x) \log \frac{q(x)}{p(x)} \tag{11.13} \end{equation*} $$
$$ \begin{align*} & \geqslant \frac{1}{\ln 2} \sum_{x} p(x)\left(1-\frac{q(x)}{p(x)}\right) \tag{11.14}\\ & =\frac{1}{\ln 2} \sum_{x}(p(x)-q(x)) \tag{11.15}\\ & =\frac{1}{\ln 2}(1-1)=0 \tag{11.16} \end{align*} $$
就是我们想要的不等式。相等条件可以很容易推导出来,注意到第 2 行取等号当且仅当 $q(x) / p(x)=$ 1 对所有 $x$ 都成立,即两个分布相同。
相对熵之所以很有用并不在于它本身,而是因为其他的熵量可以表示为相对熵的特殊形式。那么关于相对嫡的结果就可以给出在特殊情况下其他熵量的结果。举个例子来说,我们可以使用相对熵的非负性来证明下列关于熵的基本事实。假设 $p(x)$ 是 $X$ 在 $d$ 个输出上的概率分布,令 $q(x)=1 / d$ 是在这些输出上的均匀概率分布,那么有
$$ \begin{equation*} H(p(x) | q(x))=H(p(x) | 1 / d)=-H(X)-\sum_{x} p(x) \log (1 / d)=\log d-H(X) \tag{11.17} \end{equation*} $$
从定理 11.1 相对嫡的非负性,我们可以知道 $\log d-H(X) \geqslant 0$ ,当且仅当 $X$ 是均匀分布时取等号。这是一个基本事实,但却非常重要,以至于我们要用定理的形式将它重新表述。
定理11.2 假设 $X$ 是一个有 $d$ 个取值的随机变量,那么 $H(X) \leqslant \log d$ ,当且仅当 $X$ 是在这 $d$ 个输出上的均匀分布时取等号。
在研究经典与量子熵时,我们将经常使用这一技术——根据相对摘来找到熵量的表达式。 习题11.5(香农摘的次可加性)证明 $H(p(x, y) | p(x) p(y))=H(p(x))+H(p(y))-H(p(x, y))$ 。由此推导出 $H(X, Y) \leqslant H(X)+H(Y)$ ,当且仅当 $X, Y$ 为独立随机变量时取等号。
假设 $X$ 与 $Y$ 是两个随机变量,那么 $X$ 与 $Y$ 的信息内容的相关程度如何?本节中我们将引入两个概念——条件熵与互信息,来帮助解答这一问题。我们将对这些概念给出相当正式的定义,有时候你可能会感到疑惑,为什么要用我们指示的这种方式来解释某个特定的变量,比方说条件摘。请记住,这些定义的最终理由是它们回答了所谓的资源问题,这些问题我们将在第 12 章中更加详细地研究,同时对这些量的解释也取决于所需要回答的资源问题本身的性质。
在之前的章节,我们已经遇到过一对随机变量的联合摘,但当时没有具体说明。为了使概念清晰,我们现在明确地给出它的定义。 $X$ 与 $Y$ 的联合熵以一种显然的方式定义为
$$ \begin{equation*} H(X, Y) \equiv-\sum_{x, y} p(x, y) \log p(x, y) \tag{11.18} \end{equation*} $$
显然,这一定义可以扩展到任意一对随机变量上。联合熵衡量了我们对于 $(X, Y)$ 的整体不确定程度。假设我们知道了 $Y$ 的值,于是我们就得到 $H(Y)$ 个比特关于 $(X, Y)$ 的信息,那么 $(X, Y)$剩余的不确定度就依赖于我们在得到 $Y$ 的情况下对于 $X$ 仍缺少的知识。因此在已知 $Y$ 的条件下,$X$ 的摘被定义为
$$ \begin{equation*} H(X \mid Y) \equiv H(X, Y)-H(Y) \tag{11.19} \end{equation*} $$
条件摘是对我们在给定 $Y$ 的值的情况下,对 $X$ 的值的平均不确定度的一种度量。 第二个量是 $X$ 与 $Y$ 的互信息,衡量了 $X$ 与 $Y$ 拥有多少共同的信息。假设我们把 $X$ 的信息量 $H(X)$ 与 $Y$ 的信息量 $H(Y)$ 相加,$X$ 与 $Y$ 的相同信息将在求和时被计算两次,而两者的不同信息将只被计算一次,因此从中减去 $(X, Y)$ 的联合嫡 $H(X, Y)$ 之后,我们就得到了 $X$ 与 $Y$ 的共同或者说互信息:
$$ \begin{equation*} H(X: Y) \equiv H(X)+H(Y)-H(X, Y) \tag{11.20} \end{equation*} $$
值得注意的是,根据条件摘与互信息的定义,可以得到一个很有用的等式 $H(X: Y)=H(X)-$ $H(X \mid Y)$ 。
为了探知香农嫡如何起作用,我们现在给出不同熵之间的一些简单关系。
1.$H(X, Y)=H(Y, X), H(X: Y)=H(Y: X)$ 。 2.$H(X \mid Y) \geqslant 0$ ,且有 $H(X: Y) \leqslant H(Y)$ ,当且仅当 $Y$ 是 $X$ 的函数,即 $Y=f(X)$ 时取等号。 3.$H(X) \leqslant H(X, Y)$ ,当且仅当 $Y$ 是 $X$ 的函数时取等号。 4.次可加性:$H(X, Y) \leqslant H(X)+H(Y)$ ,当且仅当 $X$ 与 $Y$ 是独立随机变量时取等号。 5.$H(Y \mid X) \leqslant H(Y)$ 并且有 $H(X: Y) \geqslant 0$ ,两式都当且仅当 $X$ 与 $Y$ 是独立随机变量时取等号。
6.强次可加性:$H(X, Y, Z)+H(Y) \leqslant H(X, Y)+H(Y, Z)$ ,当且仅当 $Z \rightarrow Y \rightarrow X$ 构成马尔可夫链时取等号。
7.条件化降低熵:$H(X \mid Y, Z) \leqslant H(X \mid Y)$ 。 绝大多数的证明都是显然的或者只是简单的练习题,下面将给出一些简单的提示。 证明 1.从相关定义出发证明这一结论是显然的。 2.因为 $p(x, y)=p(x) p(y \mid x)$ ,所以我们有
$$ \begin{align*} H(X, Y) & =-\sum_{x, y} p(x, y) \log p(x) p(y \mid x) \tag{11.21}\\ & =-\sum_{x} p(x) \log p(x)-\sum_{x, y} p(x, y) \log p(y \mid x) \tag{11.22}\\ & =H(X)-\sum_{x, y} p(x, y) \log p(y \mid x) \tag{11.23} \end{align*} $$
因此,$H(Y \mid X)=-\sum_{x, y} p(x, y) \log p(y \mid x)$ ,而 $-\log p(y \mid x) \geqslant 0$ ,因此 $H(Y \mid X) \geqslant 0$ ,等号成立当且仅当 $Y$ 是关于 $X$ 的确定性函数。
3.仿照对上一个结论的证明。 4.为了证明次可加性,以及之后的强次可加性,我们再次利用以下不等式,即 $\log x \leqslant(x-$ 1)$/ \ln 2$ ,其中 $x$ 为任意正数,且当且仅当 $x=1$ 时不等式取等号。我们发现
$$ \begin{align*} \sum_{x, y} p(x, y) \log \frac{p(x) p(y)}{p(x, y)} & \leqslant \frac{1}{\ln 2} \sum_{x, y} p(x, y)\left(\frac{p(x) p(y)}{p(x, y)}-1\right) \tag{11.24}\\ & =\frac{1}{\ln 2} \sum_{x, y} p(x) p(y)-p(x, y)=\frac{1-1}{\ln 2}=0 \tag{11.25} \end{align*} $$
因此,次可加性成立。值得注意的是,当且仅当 $p(x, y)=p(x) p(y)$ 对所有 $x$ 与 $y$ 都成立时取等号。也就是说,当且仅当 $X$ 与 $Y$ 是独立的,次可加不等式取等号。
5.仿照次可加性的证明并结合相关定义就可以证明这一结论。 6.香农嫡的强次可加性同样可以通过证明次可加性的技术得到;但是要比那个证明的难度稍高一些。习题11.6中将要求你给出这一证明。 7.直觉上来说,我们期望在知道 $Y$ 与 $Z$ 的值的情况下对于 $X$ 的不确定度要小于在仅知道 $Y$的值的情况下。更正式地说,通过加人相关的定义,条件化降低嫡的结果等价于
$$ \begin{equation*} H(X, Y, Z)-H(Y, Z) \leqslant H(X, Y)-H(Y) \tag{11.26} \end{equation*} $$
而这只是将强次可加性不等式重新排列。
习题11.6(经典强次可加性的证明)证明 $H(X, Y, Z)+H(Y) \leqslant H(X, Y)+H(Y, Z)$ ,当且仅当 $Z \rightarrow Y \rightarrow X$ 构成马尔可夫链时等号成立。 习题11.7 习题11.5中隐式证明了互信息可以表达为两个概率分布的相对嫡,$H(X: Y)=$ $H(p(x, y) | p(x) p(y))$ 。找到一种方式将条件熵 $H(Y \mid X)$ 表达为两个分布的相对熵。通过这种方式推导出 $H(Y \mid X) \geqslant 0$ ,并找到相等条件。
熵之间的各种关系绝大多数都可以从图 11-2 的"嫡维恩图"中推导出来。作为熵性质的引导,这个图不一定完全可靠,但是它为记住这些不同定义与熵的性质提供了一种有效方法。
图 11-2 不同嫡之间的关系
下面通过一个简单但有用的条件熵链式规则来总结我们关于条件熵与互信息基础性质的研究。
定理11.4(条件摘链式规则)令 $X_{1}, \cdots, X_{n}$ 和 $Y$ 是任意随机变量集合,那么
$$ \begin{equation*} H\left(X_{1}, \cdots, X_{n} \mid Y\right)=\sum_{i=1}^{n} H\left(X_{i} \mid Y, X_{1}, \cdots, X_{i-1}\right) \tag{11.27} \end{equation*} $$
证明 我们证明当 $n=2$ 时结论成立,然后归纳到 $n$ 。仅使用定义与一些简单的代数知识可以得到
$$ \begin{align*} H\left(X_{1}, X_{2} \mid Y\right) & =H\left(X_{1}, X_{2}, Y\right)-H(Y) \tag{11.28}\\ & =H\left(X_{1}, X_{2}, Y\right)-H\left(X_{1}, Y\right)+H\left(X_{1}, Y\right)-H(Y) \tag{11.29}\\ & =H\left(X_{2} \mid Y, X_{1}\right)+H\left(X_{1} \mid Y\right) \tag{11.30} \end{align*} $$
在 $n=2$ 时结论成立。现在我们假设结果对一般的 $n$ 成立,然后表明结论对于 $n+1$ 也成立。利用已经成立的 $n=2$ 的情况,我们有
$$ \begin{equation*} H\left(X_{1}, \cdots, X_{n+1} \mid Y\right)=H\left(X_{2}, \cdots, X_{n+1} \mid Y, X_{1}\right)+H\left(X_{1} \mid Y\right) \tag{11.31} \end{equation*} $$
在等式右边第一项上应用归纳假设给出
$$ \begin{align*} H\left(X_{1}, \cdots, X_{n+1} \mid Y\right) & =\sum_{i=2}^{n+1} H\left(X_{i} \mid Y, X_{1}, \cdots, X_{i-1}\right)+H\left(X_{1} \mid Y\right) \tag{11.32}\\ & =\sum_{i=1}^{n+1} H\left(X_{i} \mid Y, X_{1}, \cdots, X_{i-1}\right) \tag{11.33} \end{align*} $$
归纳完成。
习题11.8(互信息并不总是次可加的)令 $X$ 与 $Y$ 为独立同分布的随机变量,且取值为 0 和 1的概率均为 $1 / 2$ 。令 $Z \equiv X \oplus Y$ ,其中 $\oplus$ 表示模 2 加法。证明在这种情况下互信息不是次可加的:
$$ \begin{equation*} H(X, Y: Z) \notin H(X: Z)+H(Y: Z) \tag{11.34} \end{equation*} $$
习题 11.9 (互信息并不总是超可加的)令 $X_{1}$ 是一个随机变量,取值为 0 和 1 的概率分别为 $1 / 2$ ,并且 $X_{2} \equiv Y_{1} \equiv Y_{2} \equiv X_{1}$ 。证明在这种情况下互信息不是超可加的:
$$ \begin{equation*} H\left(X_{1}: Y_{1}\right)+H\left(X_{2}: Y_{2}\right) \nLeftarrow H\left(X_{1}, X_{2}: Y_{1}, Y_{2}\right) \tag{11.35} \end{equation*} $$
在许多令人感兴趣的应用中,我们对现有的信息进行计算,但是这些信息是不完美的,因为在我们获得这些信息前,它们已经受到了噪声的影响。信息论中的一个基本不等式是数据处理不等式,描述了一个源输出的信息只能随着时间而降低:一旦信息丢失,它就永远消失,更准确地表达这一陈述正是本节的目标。
随机变量马尔可夫链的思想捕捉到了信息处理的直观思想。马尔可夫链是这样一个随机变量序列 $X_{1} \rightarrow X_{2} \rightarrow \cdots$ ,且在给定 $X_{n}$ 的情况下 $X_{n+1}$ 与 $X_{1}, \cdots, X_{n-1}$ 独立,更正式地说
$$ \begin{equation*} p\left(X_{n+1}=x_{n+1} \mid X_{n}=x_{n}, \cdots, X_{1}=x_{1}\right)=p\left(X_{n+1}=x_{n+1} \mid X_{n}=x_{n}\right) \tag{11.36} \end{equation*} $$
随着时间不断推移,马尔可夫链在什么情况下会丢失掉其早期值的信息?对于这一问题,下面的数据处理不等式给出了一个信息论式的解答。
定理 11.5(数据处理不等式)假设 $X \rightarrow Y \rightarrow Z$ 是一个马尔可夫链,那么
$$ \begin{equation*} H(X) \geqslant H(X: Y) \geqslant H(X: Z) \tag{11.37} \end{equation*} $$
并且第一个不等式取等号当且仅当给定 $Y$ 的情况下可以重构 $X$ 。 这一结论从直觉上看起来是很有说服力的:它告诉我们如果一个随机变量 $X$ 在噪声的影响下产生了 $Y$ ,那么在我们这部分上的更进一步的操作("数据处理")不可能用来提高这一过程的输出与原始信息 $X$ 之间的互信息。
证明 第一个不等式在定理 11.3 中已证明。从定义中我们可以看出 $H(X: Z) \leqslant H(X: Y)$ 等价于 $H(X \mid Y) \leqslant H(X \mid Z)$ 。而如果 $X \rightarrow Y \rightarrow Z$ 是马尔可夫链,那么容易证明 $Z \rightarrow Y \rightarrow X$ 也是马尔可夫链(习题 11.10 ),即 $H(X \mid Y)=H(X \mid Y, Z)$ 。因此问题被归约为证明 $H(X, Y, Z)-H(Y, Z)=$ $H(X \mid Y, Z) \leqslant H(X \mid Z)=H(X, Z)-H(Z)$ ,这就是我们已证明的强次可加性不等式。
假设 $H(X: Y) < H(X)$ ,那么我们不可能从 $Y$ 中重构出 $X$ ,这是因为如果仅通过 $Y$ 的知识来构造 $Z, X \rightarrow Y \rightarrow Z$ 一定构成马尔可夫链,那么由数据处理不等式得到 $H(X) > H(X: Z)$ ,即 $Z \neq X$ 。从另一个角度来说,如果 $H(X: Y)=H(X)$ ,那么我们有 $H(X \mid Y)=0$ ,也就是说只要 $p(X=x, Y=y) > 0$ ,我们就可以得到 $p(X=x \mid Y=y)=1$ ;这意味着如果 $Y=y$ ,我们就可以确定地推断出 $X$ 等于 $x$ ,从而能够重构 $X$ 。
正如上文所述,如果 $X \rightarrow Y \rightarrow Z$ 是马尔可夫链,那么 $Z \rightarrow Y \rightarrow X$ 也是马尔可夫链,于是作为数据处理不等式的一个推论,我们发现如果 $X \rightarrow Y \rightarrow Z$ 是马尔可夫链,那么有
$$ \begin{equation*} H(Z: Y) \geqslant H(Z: X) \tag{11.38} \end{equation*} $$
我们将这一结果称为数据管道不等式。直观上来说,它表达的意思是 $Z$ 与 $X$ 共享的任何信息都必须也被 $Z$ 与 $Y$ 共享,信息如流过管道般从 $X$ 开始经过 $Y$ 到达 $Z$ 。 习题 11.10 证明如果 $X \rightarrow Y \rightarrow Z$ 是马尔可夫链,那么 $Z \rightarrow Y \rightarrow X$ 也是马尔可夫链。
香农熵度量了经典概率分布的不确定性,不同的是,量子态一般用密度算子代替概率分布进行描述。这一节我们将推广量子态嫡的定义。
冯 $\cdot$ 诺伊曼将一个量子态 $\rho$ 的熵定义为
$$ \begin{equation*} S(\rho) \equiv-\operatorname{tr}(\rho \log \rho) \tag{11.39} \end{equation*} $$
式中对数以 2 为底。如果 $\lambda_{x}$ 是 $\rho$ 的特征值,则冯•诺伊曼的定义可写为
$$ \begin{equation*} S(\rho)=-\sum_{x} \lambda_{x} \log \lambda_{x} \tag{11.40} \end{equation*} $$
此处像香农嫡一样定义 $0 \log 0 \equiv 0$ 。这个式子对计算非常有用,例如,$d$ 维空间的完全混态 $I / d$的摘为 $\log d$ 。
现在开始,由内容可以判断我们提到的熵是香农嫡还是冯•诺伊曼嫡。 习题 11.11 (摘的计算)计算以下密度矩阵的熵
$$ \begin{align*} \rho & =\left[\begin{array}{ll} 1 & 0 \\ 0 & 0 \end{array}\right] \tag{11.41}\\ \rho & =\frac{1}{2}\left[\begin{array}{ll} 1 & 1 \\ 1 & 1 \end{array}\right] \tag{11.42}\\ \rho & =\frac{1}{3}\left[\begin{array}{ll} 2 & 1 \\ 1 & 1 \end{array}\right] \tag{11.43} \end{align*} $$
习题11.12(量子摘和经典摘的比较)给定 $\rho=p|0\rangle\langle 0|+(1-p) \frac{(|0\rangle+|1\rangle)(\langle 0|+\langle 1|)}{2}$ ,计算 $S(\rho)$ ,比较 $S(\rho)$ 和 $H(p, 1-p)$ 。
假设我们将 $\rho$ 进行很小的变化,$S(\rho)$ 会怎样变化?Fannes 不等式告诉我们答案为"变化不会太大",甚至提供了变化大小的上界。
定理11.6(Fannes 不等式)假设 $\rho$ 和 $\sigma$ 为密度矩阵,其迹距离满足 $T(\rho, \sigma) \leqslant 1 / \mathrm{e}$ ,则
$$ \begin{equation*} |S(\rho)-S(\sigma)| \leqslant T(\rho, \sigma) \log d+\eta(T(\rho, \sigma)) \tag{11.44} \end{equation*} $$
其中 $d$ 为该希尔伯特空间的维度,$\eta(x) \equiv-x \log x$ ,去掉 $T(\rho, \sigma) \leqslant 1 / \mathrm{e}$ 的限制,我们可以证明一个更弱的不等式
$$ \begin{equation*} |S(\rho)-S(\sigma)| \leqslant T(\rho, \sigma) \log d+\frac{1}{\mathrm{e}} \tag{11.45} \end{equation*} $$
证明 为了证明 Fannes 不等式,我们需要一个将两个算子的迹距离与其特征值关联起来的结论。令 $r_{1} \geqslant r_{2} \geqslant \cdots \geqslant r_{d}$ 为 $\rho$ 的特征值,$s_{1} \geqslant s_{2} \geqslant \cdots \geqslant s_{d}$ 为 $\sigma$ 的特征值,均为降序。通过谱分解我们有 $\rho-\sigma=Q-R$ ,其中 $Q$ 和 $R$ 为存在正交支集的正算子,则 $T(\rho, \sigma)=\operatorname{tr}(R)+\operatorname{tr}(Q)$。定义 $V \equiv R+\rho=Q+\sigma$ ,有 $T(\rho, \sigma)=\operatorname{tr}(R)+\operatorname{tr}(Q)=\operatorname{tr}(2 V)-\operatorname{tr}(\rho)-\operatorname{tr}(\sigma)$ ,令 $t_{1} \geqslant t_{2} \geqslant \cdots \geqslant t_{d}$ 为 $T$ 的特征值。注意到 $t_{i} \geqslant \max \left(r_{i}, s_{i}\right)$ ,所以 $2 t_{i} \geqslant r_{i}+s_{i}+\left|r_{i}-s_{i}\right|$ ,进而
$$ \begin{equation*} T(\rho, \sigma) \geqslant \sum_{i}\left|r_{i}-s_{i}\right| \tag{11.46} \end{equation*} $$
通过积分,只要 $|r-s| \leqslant 1 / 2$ ,则有 $|\eta(r)-\eta(s)| \leqslant \eta(|r-s|)$ 。易得对所有 $i,\left|r_{i}-s_{i}\right| \leqslant 1 / 2$ ,则
$$ \begin{equation*} |S(\rho)-S(\sigma)|=\left|\sum_{i}\left(\eta\left(r_{i}\right)-\eta\left(s_{i}\right)\right)\right| \leqslant \sum_{i} \eta\left(\left|r_{i}-s_{i}\right|\right) \tag{11.47} \end{equation*} $$
令 $\Delta \equiv \sum_{i}\left|r_{i}-s_{i}\right|$ ,有 $\eta\left(\left|r_{i}-s_{i}\right|\right)=\Delta \eta\left(\left|r_{i}-s_{i}\right| / \Delta\right)-\left|r_{i}-s_{i}\right| \log (\Delta)$ ,可见
$$ \begin{equation*} |S(\rho)-S(\sigma)| \leqslant \Delta \sum \eta\left(\left|r_{i}-s_{i}\right| / \Delta\right)+\eta(\Delta) \leqslant \Delta \log d+\eta(\Delta) \tag{11.48} \end{equation*} $$
这里我们用定理 11.2 得到第 2 个不等式。根据式(11.46),$\Delta \leqslant T(\rho, \sigma)$ ,由 $\eta(\cdot)$ 函数在区间 $[0,1 / \mathrm{e}]$ 上的单调性可得:当 $T(\rho, \sigma) \leqslant 1 / \mathrm{e}$ 时
$$ |S(\rho)-S(\sigma)| \leqslant T(\rho, \sigma) \log d+\eta(T(\rho, \sigma)) $$
即 Fannes 不等式。Fannes 不等式的弱化形式对所有 $T(\rho, \sigma)$ 成立,但证明需要一些小的修正。
如同香农熵的情况,我们有必要定义量子相对熵。假设 $\rho$ 和 $\sigma$ 为密度算子,$\rho$ 对于 $\sigma$ 的相对摘定义为
$$ \begin{equation*} S(\rho | \sigma) \equiv \operatorname{tr}(\rho \log \rho)-\operatorname{tr}(\rho \log \sigma) \tag{11.50} \end{equation*} $$
与经典的相对摘一样,量子相对摘有时会无穷大。当 $\sigma$ 的核( $\sigma$ 的 0 特征值对应的特征向量张成的特征空间)与 $\rho$ 的支集( $\rho$ 的非 0 特征值对应特征向量张成的向量空间)有非平凡的交集时,交叉熵定义为 $+\infty$ ,否则是有限的。进而可推得克莱因不等式,即量子相对熵总是非负的。 定理11.7(克莱因不等式)量子相对摘是非负的:
$$ \begin{equation*} S(\rho | \sigma) \geqslant 0 \tag{11.51} \end{equation*} $$
当且仅当 $\rho=\sigma$ 时等式成立。
证明 令 $\rho=\sum_{i} p_{i}|i\rangle\langle i|$ 和 $\sigma=\sum_{j} q_{j}|j\rangle\langle j|$ 为 $\rho$ 和 $\sigma$ 的标准正交分解。由相对熵的定义我们有
$$ \begin{equation*} S(\rho | \sigma)=\sum_{i} p_{i} \log p_{i}-\sum_{i}\langle i| \rho \log \sigma|i\rangle \tag{11.52} \end{equation*} $$
将 $\langle i| \rho=p_{i}\langle i|$ 和
$$ \begin{equation*} \langle i| \log \sigma|i\rangle=\langle i|\left(\sum_{j} \log \left(q_{j}\right)|j\rangle\langle j|\right)|i\rangle=\sum_{j} \log \left(q_{j}\right) P_{i j} \tag{11.53} \end{equation*} $$
代人,其中 $P_{i j} \equiv\langle i \mid j\rangle\langle j \mid i\rangle \geqslant 0$ ,得到
$$ \begin{equation*} S(\rho | \sigma)=\sum_{i} p_{i}\left(\log p_{i}-\sum_{j} P_{i j} \log \left(q_{j}\right)\right) \tag{11.54} \end{equation*} $$
注意到 $P_{i j}$ 满足 $P_{i j} \geqslant 0, \sum_{i} P_{i j}=1$ 和 $\sum_{j} P_{i j}=1$ 。(将 $P_{i j}$ 看作矩阵时,这个性质被称为双随机性。)因为 $\log (\cdot)$ 为严格凹函数,满足 $\sum_{j} P_{i j} \log q_{j} \leqslant \log r_{i}$ ,其中 $r_{i} \equiv \sum_{j} P_{i j} q_{j}$ ,当且仅当存在 $j$ 使得 $P_{i j}=1$ 时等号成立。因此
$$ \begin{equation*} S(\rho | \sigma) \geqslant \sum_{i} p_{i} \log \frac{p_{i}}{r_{i}} \tag{11.55} \end{equation*} $$
当且仅当对于每个 $i$ 都存在 $j$ 使得 $P_{i j}=1$ 时等号成立,即当且仅当 $P_{i j}$ 为置换矩阵时等号成立。这个形式和经典相对嫡相同。由经典相对嫡的非负性和定理 11.1,我们推导出
$$ \begin{equation*} S(\rho | \sigma) \geqslant 0 \tag{11.56} \end{equation*} $$
当且仅当对所有 $i, p_{i}=r_{i}$ 且 $P_{i j}$ 为置换矩阵时等式成立。为了简化等式成立条件,通过重新标记 $\sigma$ 的本征态,能够使得 $P_{i j}$ 为单位矩阵,$\rho$ 和 $\sigma$ 为同一组基下的对角矩阵。条件 $p_{i}=r_{i}$ 告诉我们 $\rho$ 和 $\sigma$ 的对应特征值是相同的,因而 $\rho=\sigma$ 为取等条件。
冯 $\cdot$ 诺伊曼嫡有很多有趣并有用的性质:
1.嫡值非负。当且仅当量子态为纯态时嫡为 0 。 2.$d$ 维希尔伯特空间中嫡的上界为 $\log d$ 。当且仅当量子系统为最大混态 $I / d$ 时嫡为 $\log d$ 。 3.假设复合系统 $A B$ 为一个纯态,则 $S(A)=S(B)$ 。 4.假设 $p_{i}$ 为概率,态 $\rho_{i}$ 存在正交子空间上的支集,则
$$ \begin{equation*} S\left(\sum_{i} p_{i} \rho_{i}\right)=H\left(p_{i}\right)+\sum_{i} p_{i} S\left(\rho_{i}\right) \tag{11.57} \end{equation*} $$
5.联合摘定理:假设 $p_{i}$ 为概率,$|i\rangle$ 为系统 $A$ 的正交态,$\rho_{i}$ 为另一个系统 $B$ 上的一组密度算子,则
$$ \begin{equation*} S\left(\sum_{i} p_{i}|i\rangle\langle i| \otimes \rho_{i}\right)=H\left(p_{i}\right)+\sum_{i} p_{i} S\left(\rho_{i}\right) \tag{11.58} \end{equation*} $$
证明 1.由定义易得。 2.由相对摘的非负性得到
$$ 0 \leqslant S(\rho | I / d)=-S(\rho)+\log d $$
3.由施密特分解可知,系统 $A$ 和 $B$ 密度算子特征值相同(回忆定理 2.7 后的讨论)。嫡完全由特征值决定,所以 $S(A)=S(B)$ 。 4.令 $\lambda_{i}^{j}$ 和 $\left|e_{i}^{j}\right\rangle$ 分别为 $\rho_{i}$ 的特征值和对应特征向量。注意到 $p_{i} \lambda_{i}^{j}$ 和 $\left|e_{i}^{j}\right\rangle$ 分别为 $\sum_{i} p_{i} \rho_{i}$ 的特征值和特征向量,因而需要
$$ \begin{align*} S\left(\sum_{i} p_{i} \rho_{i}\right) & =-\sum_{i j} p_{i} \lambda_{i}^{j} \log p_{i} \lambda_{i}^{j} \tag{11.59}\\ & =-\sum_{i} p_{i} \log p_{i}-\sum_{i} p_{i} \sum_{j} \lambda_{i}^{j} \log \lambda_{i}^{j} \tag{11.60}\\ & =H\left(p_{i}\right)+\sum_{i} p_{i} S\left(\rho_{i}\right) \tag{11.61} \end{align*} $$
5.由上一结果可得。
习题 11.13(炉的张量积)用联合摘定理证明 $S(\rho \otimes \sigma)=S(\rho)+S(\sigma)$ 。从嫡的定义直接证明这个结论。
类比香农熵,可以定义复合量子系统的量子联合熵,量子条件熵和量子互信息。含两部分的复合系统的联合摘定义为 $S(A, B) \equiv-\operatorname{tr}\left(\rho^{A B} \log \left(\rho^{A B}\right)\right)$ ,其中 $\rho^{A B}$ 为系统 $A B$ 的密度矩阵。我们如下定义条件熵和互信息:
$$ \begin{align*} S(A \mid B) & \equiv S(A, B)-S(B) \tag{11.62}\\ S(A: B) & \equiv S(A)+S(B)-S(A, B) \tag{11.63}\\ & =S(A)-S(A \mid B)=S(B)-S(B \mid A) \tag{11.64} \end{align*} $$
香农熵的很多性质对冯•诺伊曼嫡不成立,由此衍生出量子信息中的很多有趣结论。例如对于随机变量 $X$ 和 $Y$ ,不等式 $H(X) \leqslant H(X, Y)$ 成立。直观可得:我们对 $X$ 的不确定程度不能超过对 $X$ 和 $Y$ 联合态的不确定程度。这个直觉对量子态不成立。考虑系统 $A B$ 的两量子比特纠缠态 $(|00\rangle+|11\rangle) / \sqrt{2}$ 。这是一个纯态,故 $S(A, B)=0$ 。另一方面,系统 $A$ 有密度算子 $I / 2$ ,因而嫡等于 1 。也可陈述为,对这个系统,$S(B \mid A)=S(A, B)-S(A)$ 是负的。 习题11.14(约缠和负条件摘)假设 $|A B\rangle$ 是一个分属 Alice 和 Bob 的复合系统的纯态。证明 $|A B\rangle$ 是纠缠态当且仅当 $S(B \mid A) < 0$ 。
我们对量子系统进行测量时,嫡会怎样?不出意外的话,这个答案取决于测量方式,但关于熵的变化我们仍有一些笼统的结论。
例如,假设用投影算子 $P_{i}$ 描述投影测量,但我们不知道测量结果。如果测量前系统量子态为 $\rho$ ,则测量后为
$$ \begin{equation*} \rho^{\prime}=\sum_{i} P_{i} \rho P_{i} \tag{11.65} \end{equation*} $$
以下结论将说明这个过程不会熵减,且只有测量不改变量子态时摘不变。 定理 11.9 (投影测量导致摘增)假设 $P_{i}$ 为一组完备正交投影算子,$\rho$ 为密度算子。则测量后量子态 $\rho^{\prime} \equiv \sum_{i} P_{i} \rho P_{i}$ 的熵不小于测量前,
$$ \begin{equation*} S\left(\rho^{\prime}\right) \geqslant S(\rho) \tag{11.66} \end{equation*} $$
当且仅当 $\rho=\rho^{\prime}$ 时取等号。
证明 对 $\rho$ 和 $\rho^{\prime}$ 用克莱因不等式:
$$ \begin{equation*} 0 \leqslant S\left(\rho^{\prime} | \rho\right)=-S(\rho)-\operatorname{tr}\left(\rho \log \rho^{\prime}\right) \tag{11.67} \end{equation*} $$
进一步我们需要证明 $-\operatorname{tr}\left(\rho \log \rho^{\prime}\right)=S\left(\rho^{\prime}\right)$ 。应用完备关系 $\sum_{i} P_{i}=I$ ,关系 $P_{i}^{2}=P_{i}$ 和迹的循环
性质,得到
$$ \begin{align*} -\operatorname{tr}\left(\rho \log \rho^{\prime}\right) & =-\operatorname{tr}\left(\sum_{i} P_{i} \rho \log \rho^{\prime}\right) \tag{11.68}\\ & =-\operatorname{tr}\left(\sum_{i} P_{i} \rho \log \rho^{\prime} P_{i}\right) \tag{11.69} \end{align*} $$
注意到 $\rho^{\prime} P_{i}=P_{i} \rho P_{i}=P_{i} \rho^{\prime}$ 。即 $P_{i}$ 与 $\rho^{\prime}$ ,进而与 $\log \rho^{\prime}$ 对易,故
$$ \begin{align*} -\operatorname{tr}\left(\rho \log \rho^{\prime}\right) & =-\operatorname{tr}\left(\sum_{i} P_{i} \rho P_{i} \log \rho^{\prime}\right) \tag{11.70}\\ & =-\operatorname{tr}\left(\rho^{\prime} \log \rho^{\prime}\right)=S\left(\rho^{\prime}\right) \tag{11.71} \end{align*} $$
完成证明。
习题11.15(广义测量可以减小摘)假设单量子比特的量子态 $\rho$ 用测量算子 $M_{1}=|0\rangle\langle 0|$ 和 $M_{2}=|0\rangle\langle 1|$ 进行测量。测量结果未知,即测量后的态为 $M_{1} \rho M_{1}^{\dagger}+M_{2} \rho M_{2}^{\dagger}$ 。请说明这个过程会导致熵减。
假设不同的量子系统 $A$ 和 $B$ 有联合态 $\rho^{A B}$ ,则两个系统的联合熵满足不等式
$$ \begin{align*} & S(A, B) \leqslant S(A)+S(B) \tag{11.72}\\ & S(A, B) \geqslant|S(A)-S(B)| \tag{11.73} \end{align*} $$
前者是冯•诺伊曼熵的次可加性不等式,当且仅当系统 $A$ 和 $B$ 没有关联时等号成立,即 $\rho^{A B}=$ $\rho^{A} \otimes \rho^{B}$ 。后者被称为三角不等式,或者 Araki-Lieb 不等式,是关于香农嫡的不等式 $H(X, Y) \geqslant$ $H(X)$ 的量子对应。
对次可加性的证明用到克莱因不等式,$S(\rho) \leqslant-\operatorname{tr}(\rho \log \sigma)$ 。令 $\rho \equiv \rho^{A B}, \sigma \equiv \rho^{A} \otimes \rho^{B}$ ,注意到
$$ \begin{align*} -\operatorname{tr}(\rho \log \sigma) & =-\operatorname{tr}\left(\rho^{A B}\left(\log \rho^{A}+\log \rho^{B}\right)\right) \tag{11.74}\\ & =-\operatorname{tr}\left(\rho^{A} \log \rho^{A}\right)-\operatorname{tr}\left(\rho^{B} \log \rho^{B}\right) \tag{11.75}\\ & =S(A)+S(B) \tag{11.76} \end{align*} $$
进而由克莱因不等式得到 $S(A, B) \leqslant S(A)+S(B)$ ,克莱因不等式的取等条件 $\rho=\sigma$ 给出了次可加性的取等条件 $\rho^{A B}=\rho^{A} \otimes \rho^{B}$ 。
为了证明三角不等式,我们类似 2.5 节引人系统 $R$ 纯化系统 $A$ 和 $B$ ,用次可加性得到
$$ \begin{equation*} S(R)+S(A) \geqslant S(A, R) \tag{11.77} \end{equation*} $$
因为 $A B R$ 为纯态,$S(A, R)=S(B), S(R)=S(A, B)$ 。上面的不等式可改写为
$$ \begin{equation*} S(A, B) \geqslant S(B)-S(A) \tag{11.78} \end{equation*} $$
这个不等式的取等条件与次可加性不同,取等条件通常为 $\rho^{A R}=\rho^{A} \otimes \rho^{R}$ 。直观来看,这意味着给定与系统 $B$ 的关联,系统 $A$ 已经尽可能与外部环境进行纠缠。取等条件更具体的数学表达位于习题11.16。
由系统 $A$ 和 $B$ 的对称性有 $S(A, B) \geqslant S(A)-S(B)$ ,与 $S(A, B) \geqslant S(B)-S(A)$ 联立得到三角不等式。 习题11.16 $\left(S(A, B) \geqslant S(B)-S(A)\right.$ 的取等条件)令 $\rho^{A B}=\sum_{i} \lambda_{i}|i\rangle\langle i|$ 为 $\rho^{A B}$ 的谱分解。证明当且仅当算子 $\rho_{i}^{A} \equiv \operatorname{tr}_{B}(|i\rangle\langle i|)$ 有共同的特征基,算子 $\rho_{i}^{B} \equiv \operatorname{tr}_{A}(|i\rangle\langle i|)$ 有正交支集时,$S(A, B) \geqslant$ $S(B)-S(A)$ 。 习题 11.17 找出一个非平凡的具体例子,$A B$ 上的混合态 $\rho$ 满足 $S(A, B)=S(B)-S(A)$ 。
熵是关于输人的凹函数,即给定 $p_{i}$(满足 $\sum_{i} p_{i}=1$ 的非负实数)和对应的密度矩阵 $\rho_{i}$ ,嫡满足不等式
$$ \begin{equation*} S\left(\sum_{i} p_{i} \rho_{i}\right) \geqslant \sum_{i} p_{i} S\left(\rho_{i}\right) \tag{11.79} \end{equation*} $$
直观上 $\sum_{i} p_{i} \rho_{i}$ 表示一个量子系统处于 $\rho_{i}$ 的概率为 $p_{i}$ ,我们对这些态混合的不确定性大于对态 $\rho_{i}$ 的平均不确定性,因为 $\sum_{i} p_{i} \rho_{i}$ 不仅对每个态有不确定信息,对下标 $i$ 也有不确定信息。
假设 $\rho_{i}$ 为系统 $A$ 的量子态,引人辅助系统 $B$ ,系统 $B$ 对密度算子 $\rho_{i}$ 有标准正交基 $|i\rangle$ 。定义 $A B$ 的联合态为
$$ \begin{equation*} \rho^{A B} \equiv \sum_{i} p_{i} \rho_{i} \otimes|i\rangle\langle i| \tag{11.80} \end{equation*} $$
用嫡的次可加性证明凹性,注意到对于密度矩阵 $\rho^{A B}$ 有
$$ \begin{align*} S(A) & =S\left(\sum_{i} p_{i} \rho_{i}\right) \tag{11.81}\\ S(B) & =S\left(\sum_{i} p_{i}|i\rangle\langle i|\right)=H\left(p_{i}\right) \tag{11.82}\\ S(A, B) & =H\left(p_{i}\right)+\sum_{i} p_{i} S\left(\rho_{i}\right) \tag{11.83} \end{align*} $$
代人次可加性 $S(A, B) \leqslant S(A)+S(B)$ 得
$$ \begin{equation*} \sum_{i} p_{i} S\left(\rho_{i}\right) \leqslant S\left(\sum_{i} p_{i} \rho_{i}\right) \tag{11.84} \end{equation*} $$
凹性得证。当且仅当 $p_{i} > 0$ 的 $\rho_{i}$ 都相等时等式成立,因此熵关于输入是严格凹函数。 我们停下来想一想证明凹性的办法,以及证明三角不等式的类似办法:我们引人了辅助系统 $B$ 来证明系统 $A$ 的结论。量子信息里经常引入辅助系统,之后我们会多次见到这个技巧。引人 $B$ 的直观原因如下:我们希望找到一个系统,其中一部分的量子态为 $\sum_{i} p_{i} \rho_{i}, i$ 的值未知。系统 $B$ 存储了 $i$ 实际的值;如果 $A$ 位于态 $\rho_{i}$ 则 $B$ 处于态 $|i\rangle\langle i|$ ,在 $|i\rangle$ 基底下观测即可。用辅助系统严格编码我们的直觉是一门艺术,在量子信息论中的很多证明里它也是必不可少的。
习题 11.18 证明凹性不等式(11.79)等号成立,当且仅当所有的 $\rho_{i}$ 都相等。 习题 11.19 证明存在一系列西矩阵 $U_{j}$ 和概率分布 $p_{j}$ ,对任意矩阵 $A$ 满足
$$ \begin{equation*} \sum_{i} p_{i} U_{i} A U_{i}^{\dagger}=\operatorname{tr}(A) \frac{I}{d} \tag{11.85} \end{equation*} $$
其中 $d$ 为希尔伯特空间 $A$ 的维度。用这个结果和嫡的严格凹性给出一个等价证明:$d$ 维空间的最大混态 $I / d$ 是唯一的嫡最大的态。 习题11.20 令 $P$ 为一个算子,$Q=I-P$ 为其互补算子。证明存在西算子 $U_{1}, U_{2}$ 和概率 $p$ ,对所有 $\rho$ 满足 $P \rho P+Q \rho Q=p U_{1} \rho U_{1}^{\dagger}+(1-p) U_{2} \rho U_{2}^{\dagger}$ 。用这个结论给出定理11.9的基于凹性的另一个证明。 习题 11.21 (香农摘的凹性)用冯•诺伊曼熵的凹性推出香农嫡关于输入的概率分布也是凹的。 习题11.22(凹性的另一个证明)定义 $f(p) \equiv S(p \rho+(1-p) \sigma)$ ,证明了 $f^{\prime \prime}(p) \leqslant 0$ 便能证明凹性。证明 $f^{\prime \prime}(p) \leqslant 0$ 时,先讨论 $\rho$ 和 $\sigma$ 可逆的情况,再讨论不可逆情况。
以下定理是凹性的另一面,提供了量子态混合后熵的上界。对于量子态 $\rho_{i}$ 的混合态 $\sum_{i} p_{i} \rho_{i}$ ,以下不等式成立:
$$ \begin{equation*} \sum_{i} p_{i} S\left(\rho_{i}\right) \leqslant S\left(\sum_{i} p_{i} \rho_{i}\right) \leqslant \sum_{i} p_{i} S\left(\rho_{i}\right)+H\left(p_{i}\right) \tag{11.86} \end{equation*} $$
右侧上界的直观理解为:我们对态 $\sum_{i} p_{i} \rho_{i}$ 的不确定性不会超过对 $\rho_{i}$ 不确定性的平均值,同时需要 $H\left(p_{i}\right)$ 这一项,代表下标 $i$ 对总不确定性可能的最大贡献。现在我们来证明这个上界。 定理 11.10 假设 $\rho=\sum_{i} p_{i} \rho_{i}, p_{i}$ 为一系列概率,$\rho_{i}$ 为密度算子。则
$$ \begin{equation*} S(\rho) \leqslant \sum_{i} p_{i} S\left(\rho_{i}\right)+H\left(p_{i}\right) \tag{11.87} \end{equation*} $$
当且仅当 $\rho_{i}$ 有正交子空间上的支集时等式成立。
证明 我们先考虑纯态的情况,$\rho_{i}=\left|\psi_{i}\right\rangle\left\langle\psi_{i}\right|$ 。假设 $\rho_{i}$ 为系统 $A$ 的态,引人辅助系统 $B$ 和标准正交基 $|i\rangle$ ,下标 $i$ 对应的概率为 $p_{i}$ 。定义
$$ \begin{equation*} |A B\rangle \equiv \sum_{i} \sqrt{p_{i}}\left|\psi_{i}\right\rangle|i\rangle \tag{11.88} \end{equation*} $$
因为 $|A B\rangle$ 为纯态,我们有
$$ \begin{equation*} S(B)=S(A)=S\left(\sum_{i} p_{i}\left|\psi_{i}\right\rangle\left\langle\psi_{i}\right|\right)=S(\rho) \tag{11.89} \end{equation*} $$
假设我们以 $|i\rangle$ 为基底对系统 $B$ 进行投影测量,测量后 $B$ 的态为
$$ \begin{equation*} \rho^{B^{\prime}}=\sum_{i} p_{i}|i\rangle\langle i| \tag{11.90} \end{equation*} $$
但由定理 11.9 投影测量不会减小熵,因而 $S(\rho)=S(B) \leqslant S\left(B^{\prime}\right)=H\left(p_{i}\right)$ 。对纯态的情况 $S\left(\rho_{i}\right)=$ 0 ,我们已经证明了
$$ \begin{equation*} S(\rho) \leqslant H\left(p_{i}\right)+\sum_{i} p_{i} S\left(\rho_{i}\right) \tag{11.91} \end{equation*} $$
进一步,当且仅当 $B=B^{\prime}$ ,即态 $\left|\psi_{i}\right\rangle$ 相互正交时等式成立。 混合态的情况现在也很容易。令 $\rho_{i}=\sum_{j} p_{j}^{i}\left|e_{j}^{i}\right\rangle\left\langle e_{j}^{i}\right|$ 为 $\rho_{i}$ 的标准正交分解,则 $\rho=\sum_{i j} p_{i} p_{j}^{i}\left|e_{j}^{i}\right\rangle\left\langle e_{j}^{i}\right|$ 。应用纯态的结论及 $\sum_{j} p_{j}^{i}=1$ ,我们有
$$ \begin{align*} S(\rho) & \leqslant-\sum_{i j} p_{i} p_{j}^{i} \log \left(p_{i} p_{j}^{i}\right) \tag{11.92}\\ & =-\sum_{i} p_{i} \log p_{i}-\sum_{i} p_{i} \sum_{j} p_{j}^{i} \log p_{j}^{i} \tag{11.93}\\ & =H\left(p_{i}\right)+\sum_{i} p_{i} S\left(\rho_{i}\right) \tag{11.94} \end{align*} $$
即为所求结果。由纯态情况的取等条件可得混合态情况的取等条件。
两体量子系统的次可加性和三角不等式可以延扩到三体系统,结果为强次可加性不等式,为量子信息论中最重要和有用的结论之一。对于三体量子系统 $A, B, C$ ,存在不等式
$$ \begin{equation*} S(A, B, C)+S(B) \leqslant S(A, B)+S(B, C) \tag{11.95} \end{equation*} $$
不幸的是,量子强次可加性的证明比经典情况困难很多。但是因为这个结论太有用了,我们会给出其完整证明。证明的基本结构位于 11.4.1 节,部分细节位于附录 F 。
强次可加性的证明将基于 Lieb 定理的结论,我们先从一个必要的定义开始。假设 $f(A, B)$ 是两个矩阵 $A$ 和 $B$ 的实函数,如果对于所有的 $0 \leqslant \lambda \leqslant 1$ 有
$$ \begin{equation*} f\left(\lambda A_{1}+(1-\lambda) A_{2}, \lambda B_{1}+(1-\lambda) B_{2}\right) \geqslant \lambda f\left(A_{1}, B_{1}\right)+(1-\lambda) f\left(A_{2}, B_{2}\right) \tag{11.96} \end{equation*} $$
我们称 $f$ 对于 $A$ 和 $B$ 是联合凹的。 习题11.23(联合凹性意味着每个输入的凹性)令 $f(A, B)$ 为一个联合凹函数。试证明固定 $B$时,$f(A, B)$ 在 $A$ 上是凹函数。找出这样一个两变量函数,它对于每个输人都是凹的,但不是联合凹的。
定理11.11(Lieb 定理)令 $X$ 为一个矩阵, $0 \leqslant t \leqslant 1$ ,则函数
$$ \begin{equation*} f(A, B) \equiv \operatorname{tr}\left(X^{\dagger} A^{t} X B^{1-t}\right) \tag{11.97} \end{equation*} $$
在正定矩阵 $A$ 和 $B$ 上是联合凹的。 证明 Lieb 定理的证明见附录 F 。
Lieb 定理说明了一系列结论,每一个结论都很有趣,积累起来得到强次可加性的证明。我们从相对熵的凸性开始。 定理11.12(相对摘的凸性)相对摘 $S(\rho | \sigma)$ 对于输入是联合凸的。 证明 对于作用在同一空间上的任意矩阵 $A$ 和 $X$ ,定义
$$ \begin{equation*} I_{t}(A, X) \equiv \operatorname{tr}\left(X^{\dagger} A^{t} X A^{1-t}\right)-\operatorname{tr}\left(X^{\dagger} X A\right) \tag{11.98} \end{equation*} $$
由 Lieb 定理,第一项对于 $A$ 是凹的,第二项对于 $A$ 是线性的。因此,$I_{t}(A, X)$ 对于 $A$ 是凹的。定义
$$ \begin{equation*} \left.I(A, X) \equiv \frac{d}{d t}\right|_{t=0} I_{t}(A, X)=\operatorname{tr}\left(X^{\dagger}(\log A) X A\right)-\operatorname{tr}\left(X^{\dagger} X(\log A) A\right) \tag{11.99} \end{equation*} $$
注意到 $I_{0}(A, X)=0$ ,利用 $I_{t}(A, X)$ 对于 $A$ 的凹性我们有
$$ \begin{align*} I\left(\lambda A_{1}+(1-\lambda) A_{2}, X\right) & =\lim _{\Delta \rightarrow 0} \frac{I_{\Delta}\left(\lambda A_{1}+(1-\lambda) A_{2}, X\right)}{\Delta} \tag{11.100}\\ & \geqslant \lambda \lim _{\Delta \rightarrow 0} \frac{I_{\Delta}\left(A_{1}, X\right)}{\Delta}+(1-\lambda) \lim _{\Delta \rightarrow 0} \frac{I_{\Delta}\left(A_{2}, X\right)}{\Delta} \tag{11.101}\\ & =\lambda I\left(A_{1}, X\right)+(1-\lambda) I\left(A_{2}, X\right) \tag{11.102} \end{align*} $$
即 $I(A, X)$ 是 $A$ 上的凹函数。定义分块矩阵
$$ A \equiv\left[\begin{array}{ll} \rho & 0 \tag{11.103}\\ 0 & \sigma \end{array}\right], \quad X \equiv\left[\begin{array}{ll} 0 & 0 \\ I & 0 \end{array}\right] $$
我们很容易验证 $I(A, X)=-S(\rho | \sigma)$ 。 $S(\rho | \sigma)$ 的联合凸性来自于 $I(A, X)$ 对于 $A$ 的凹性。
推论11.13(量子相对摘的凹性)令 $A B$ 为 $A$ 和 $B$ 的复合量子系统。条件熵 $S(A \mid B)$ 对于 $A B$的态 $\rho^{A B}$ 是凹的。
证明 令 $d$ 为系统 $A$ 的维度。注意到
$$ \begin{align*} S\left(\rho^{A B} | \frac{I}{d} \otimes \rho^{B}\right) & =-S(A, B)-\operatorname{tr}\left(\rho^{A B} \log \left(\frac{I}{d} \otimes \rho^{B}\right)\right) \tag{11.104}\\ & =-S(A, B)-\operatorname{tr}\left(\rho^{B} \log \rho^{B}\right)+\log d \tag{11.105}\\ & =-S(A \mid B)+\log d \tag{11.106} \end{align*} $$
因而 $S(A \mid B)=\log d-S\left(\rho^{A B} | I / d \otimes \rho^{B}\right)$ ,由相对嫡的联合凸性得到 $S(A \mid B)$ 的凹性。
定理11.14(强次可加性)对于三体量子系统 $A, B, C$ ,不等式
$$ \begin{align*} S(A)+S(B) & \leqslant S(A, C)+S(B, C) \tag{11.107}\\ S(A, B, C)+S(B) & \leqslant S(A, B)+S(B, C) \tag{11.108} \end{align*} $$
成立。
证明 这两个不等式实际上是等价的,我们将用相对熵的凹性证明前者,之后证明后者。定义系统 $A B C$ 上密度算子的函数 $T\left(\rho^{A B C}\right)$ :
$$ \begin{equation*} T\left(\rho^{A B C}\right) \equiv S(A)+S(B)-S(A, C)-S(B, C)=-S(C \mid A)-S(C \mid B) \tag{11.109} \end{equation*} $$
我们从条件摘的凹性可以知道 $T\left(\rho^{A B C}\right)$ 是 $\rho^{A B C}$ 的凸函数。对 $\rho^{A B C}$ 进行谱分解,$\rho^{A B C}=$ $\sum_{i} p_{i}|i\rangle\left\langle\left. i\right|_{\circ}\right.$ 由 $T$ 的凸性,$T\left(\rho^{A B C}\right) \leqslant \sum_{i} p_{i} T(|i\rangle\langle i|)$ ,但对于纯态,$T(|i\rangle\langle i|)=0, S(A, C)=S(B)$ , $S(B, C)=S(A)$ ,进而有 $T\left(\rho^{A B C}\right) \leqslant 0$ ,故
$$ \begin{equation*} S(A)+S(B)-S(A, C)-S(B, C) \leqslant 0 \tag{11.110} \end{equation*} $$
即想证明的第一个不等式。 为了证明第二个不等式,我们引人辅助系统 $R$ 来纯化系统 $A B C$ ,利用刚刚证明的不等式我们有
$$ \begin{equation*} S(R)+S(B) \leqslant S(R, C)+S(B, C) \tag{11.111} \end{equation*} $$
因为 $A B C R$ 为纯态,$S(R)=S(A, B, C), S(R, C)=S(A, B)$ ,所以式(11.111)变为
$$ \begin{equation*} S(A, B, C)+S(B) \leqslant S(A, B)+S(B, C) \tag{11.112} \end{equation*} $$
即第二个不等式。
习题11.24 我们从不等式 $S(A)+S(B) \leqslant S(A, C)+S(B, C)$ 得到强次可加性,证明也可以从强次可加性得到这个不等式。 习题 11.25 我们从条件熵 $S(A \mid B)$ 的凹性得到强次可加性。证明也可以从强次可加性推导出条件熵的凹性。(提示:这个问题中也许需要引人辅助系统。)
强次可加性及相关结论在量子信息论中有诸多应用,我们看一些基本结果。 首先,值得强调的是不等式 $S(A)+S(B) \leqslant S(A, C)+S(B, C)$ 成立是很了不起的,对于香农熵对应的不等式也成立,但是原因不同。对于香农嫡,$H(A) \leqslant H(A, C)$ 成立,$H(B) \leqslant H(B, C)$成立,故两个不等式的和一定成立。量子情况下,可能存在 $S(A) > S(A, C)$ 和 $S(B) > S(B, C)$ ,然而为了确保满足条件 $S(A)+S(B) \leqslant S(A, C)+S(B, C)$ ,大自然却不会让两种可能同时存在。也可以用条件熵和互信息改述这个不等式:
$$ \begin{align*} 0 & \leqslant S(C \mid A)+S(C \mid B) \tag{11.113}\\ S(A: B)+S(A: C) & \leqslant 2 S(A) \tag{11.114} \end{align*} $$
基于同样的原因,这两个不等式也很了不起。但值得注意的是,你们也许期望的基于式(11.114)的不等式 $0 \leqslant S(A \mid C)+S(B \mid C)$ 却不成立,例如取 $A B C$ 为纯态 $A$ 和 EPR 态 $B C$ 的张量积。
习题11.26 证明 $S(A: B)+S(A: C) \leqslant 2 S(A)$ ,注意香农嫡对应的不等式成立,因为 $H(A$ : $B) \leqslant H(A)$ 。找出一个 $S(A: B) > S(A)$ 的例子。
为了实际应用,强次可加性往往改写为条件或互信息。以下定理列出了强次可加性的三个简单重组,给出了关于量子摘性质的强大直观指导。
1.限制条件减小摘:假设 $A B C$ 为复合量子系统,则 $S(A \mid B, C) \leqslant S(A \mid B)$ 。 2.丢弃量子系统不会增加互信息:假设 $A B C$ 为复合量子系统,则 $S(A: B) \leqslant S(A: B, C)$ 。 3.量子操作不会增加互信息:假设 $A B$ 为复合量子系统, $\mathcal{E}$ 是一个系统 $B$ 上的保迹量子操作。令 $S(A: B)$ 代表对系统 $B$ 应用 $\mathcal{E}$ 前系统 $A$ 和 $B$ 间的互信息,$S\left(A^{\prime}: B^{\prime}\right)$ 为应用之后的互信息,则 $S\left(A^{\prime}: B^{\prime}\right) \leqslant S(A: B)$ 。
证明 1.与经典证明相同(定理 11.3 的一部分),我们简单重复:$S(A \mid B, C) \leqslant S(A \mid B)$ 等价于 $S(A, B, C)-S(B, C) \leqslant S(A, B)-S(B)$ ,等价于 $S(A, B, C)+S(B) \leqslant S(A, B)+S(B, C)$ ,即强次可加性。
2.$S(A: B) \leqslant S(A: B, C)$ 等价于 $S(A)+S(B)-S(A, B) \leqslant S(A)+S(B, C)-S(A, B, C)$ ,等价于 $S(A, B, C)+S(B) \leqslant S(A, B)+S(B, C)$ ,即强次可加性。
3.由第 8 章的构造, $\mathcal{E}$ 在 $B$ 上的操作可以模拟为,引人初态为 $|0\rangle$ 的第三个系统 $C$ ,以及 $B$ 和 $C$ 间的酉作用 $U \circ B$ 上的作用 $\mathcal{E}$ 等价于先作用 $U$ ,再丢弃系统 $C$ 。小潄代表系统作用 $U$ 后的态,最初 $C$ 与 $A B$ 为直积态,故 $S(A: B)=S(A: B, C)$ ,而 $S(A: B, C)=$ $S\left(A^{\prime}: B^{\prime}, C^{\prime}\right)$ 。丢弃系统不能增加互信息,所以 $S\left(A^{\prime}: B^{\prime}\right) \leqslant S\left(A^{\prime}: B^{\prime}, C^{\prime}\right)$ 。将这些结果并列,得到 $S\left(A^{\prime}: B^{\prime}\right) \leqslant S(A: B)$ 。
有一系列关于量子互信息强次可加性的有趣问题。我们此前知道香农互信息不是次可加的,因而量子互信息也不是次可加的。那么条件摘的次可加性呢?也就是说,
$$ \begin{equation*} S\left(A_{1}, A_{2} \mid B_{1}, B_{2}\right) \leqslant S\left(A_{1} \mid B_{1}\right)+S\left(A_{2} \mid B_{2}\right) \tag{11.115} \end{equation*} $$
是否对任何四量子系统 $A_{1}, A_{2}, B_{1}, B_{2}$ 都成立?答案是确实成立。另外,条件熵对第一项和第二项也是次可加的。用强次可加性证明这些结论是有益的练习。
定理11.16(条件摘的强次可加性)令 $A B C D$ 为复合四量子系统,则条件摘对第一项和第二项是联合次可加的:
$$ \begin{equation*} S(A, B \mid C, D) \leqslant S(A \mid C)+S(B \mid D) \tag{11.116} \end{equation*} $$
令 $A B C$ 为复合三量子系统,则条件嫡对第一项和第二项的每部分都是次可加的:
$$ \begin{align*} & S(A, B \mid C) \leqslant S(A \mid C)+S(B \mid C) \tag{11.117}\\ & S(A \mid B, C) \leqslant S(A \mid B)+S(A \mid C) \tag{11.118} \end{align*} $$
证明 为了证明对两项的联合次可加性,注意到由强次可加性
$$ \begin{equation*} S(A, B, C, D)+S(C) \leqslant S(A, C)+S(B, C, D) \tag{11.119} \end{equation*} $$
不等式两边均加上 $S(D)$ ,得到
$$ \begin{equation*} S(A, B, C, D)+S(C)+S(D) \leqslant S(A, C)+S(B, C, D)+S(D) \tag{11.120} \end{equation*} $$
对右侧最后两项应用强次可加性,得到
$$ \begin{equation*} S(A, B, C, D)+S(C)+S(D) \leqslant S(A, C)+S(B, D)+S(C, D) \tag{11.121} \end{equation*} $$
对不等式重新排列:
$$ \begin{equation*} S(A, B \mid C, D) \leqslant S(A \mid C)+S(B \mid D) \tag{11.122} \end{equation*} $$
即为条件熵的联合次可加性。 条件熵第一项的次可加性,$S(A, B \mid C) \leqslant S(A \mid C)+S(B \mid C)$ ,与强次可加性等价。第二项的次可加性更有挑战,我们希望证明 $S(A \mid B, C) \leqslant S(A \mid B)+S(A \mid C)$ 。注意这等价于证明不等式
$$ \begin{equation*} S(A, B, C)+S(B)+S(C) \leqslant S(A, B)+S(B, C)+S(A, C) \tag{11.123} \end{equation*} $$
为了证明它,注意不等式 $S(C) \leqslant S(A, C)$ 或 $S(B) \leqslant S(A, B)$ 至少有一个成立,因为由定理 11.14的第一个不等式,$S(A \mid B)+S(A \mid C) \geqslant 0$ 。假设 $S(C) \leqslant S(A, C)$ ,在这个不等式两侧加上强次可加性不等式,即得到 $S(A, B, C)+S(B) \leqslant S(A, B)+S(B, C) 。 S(B) \leqslant S(A, B)$ 的情况有类似证明。
当我们引人相对嫡,它像是概率分布或密度算子间距离的测度。想象一个包含两部分的量子
系统 $A$ 和 $B$ ,并且我们有两个密度算子 $\rho^{A B}$ 和 $\sigma^{A B}$ 。 $S(\cdot | \cdot)$ 有一个类似距离的很好的特性,当我们忽略系统的一部分时它会减小:
$$ \begin{equation*} S\left(\rho^{A} | \sigma^{A}\right) \leqslant S\left(\rho^{A B} | \sigma^{A B}\right) \tag{11.124} \end{equation*} $$
这个结果被称为相对嫡的单调性。直观上来看,这是距离测度的一个合理性质;我们如果忽略物理系统的一部分,将更难区分这个系统的两个态(比较 9.2.1节),从而减小了两者间任意一种合理的距离测度。
定理11.17(相对摘的单调性)令 $\rho^{A B}$ 和 $\sigma^{A B}$ 为一个复合系统 $A B$ 的两个密度矩阵,则
$$ \begin{equation*} S\left(\rho^{A} | \sigma^{A}\right) \leqslant S\left(\rho^{A B} | \sigma^{A B}\right) \tag{11.125} \end{equation*} $$
证明 习题 11.19 说明存在空间 $B$ 上的西变换 $U_{j}$ 和概率 $p_{j}$ ,对所有 $\rho^{A B}$ 满足
$$ \begin{equation*} \rho^{A} \otimes \frac{I}{d}=\sum_{j} p_{j} U_{j} \rho^{A B} U_{j}^{\dagger} \tag{11.126} \end{equation*} $$
由相对熵的凸性我们得到
$$ \begin{equation*} S\left(\rho^{A} \otimes \frac{I}{d} | \sigma^{A} \otimes \frac{I}{d}\right) \leqslant \sum_{j} p_{j} S\left(U_{j} \rho^{A B} U_{j}^{\dagger} | U_{j} \sigma^{A B} U_{j}^{\dagger}\right) \tag{11.127} \end{equation*} $$
但相对嫡在西共轭下是不变的,所以
$$ \begin{equation*} S\left(\rho^{A} \otimes \frac{I}{d} | \sigma^{A} \otimes \frac{I}{d}\right) \leqslant \sum_{j} p_{j} S\left(\rho^{A B} | \sigma^{A B}\right)=S\left(\rho^{A B} | \sigma^{A B}\right) \tag{11.128} \end{equation*} $$
将这个式子与显然成立的
$$ \begin{equation*} S\left(\rho^{A} \otimes \frac{I}{d} | \sigma^{A} \otimes \frac{I}{d}\right)=S\left(\rho^{A} | \sigma^{A}\right) \tag{11.129} \end{equation*} $$
联立,便得到相对摘的单调性。
问题11.1(广义克莱因不等式)假设 $f(\cdot)$ 是一个从实数到实数的凸函数,那么正如 2.1.8 节描述的那样,$f$ 将导出一个厄米算子上的自然函数 $f(\cdot)$ 。证明
$$ \begin{equation*} \operatorname{tr}(f(A)-f(B)) \geqslant \operatorname{tr}\left((A-B) f^{\prime}(B)\right) \tag{11.130} \end{equation*} $$
用这个结论证明相对熵是非负的。
问题11.2(广义相对摘)相对熵的定义可以被推广应用到任何两个正定算子 $r$ 和 $s$ 上:
$$ \begin{equation*} S(r | s) \equiv \operatorname{tr}(r \log r)-\operatorname{tr}(r \log s) \tag{11.131} \end{equation*} $$
之前相对嫡联合凸性的证明对这个推广定义也成立: 1.对任意 $\alpha, \beta > 0$ ,证明
$$ \begin{equation*} S(\alpha r | \beta s)=\alpha S(r | s)+\alpha \operatorname{tr}(r) \log (\alpha / \beta) \tag{11.132} \end{equation*} $$
2.证明相对嫡的联合凸性表明了相对嫡的次可加性:
$$ \begin{equation*} S\left(r_{1}+r_{2} | s_{1}+s_{2}\right) \leqslant S\left(r_{1} | s_{1}\right)+S\left(r_{2} | s_{2}\right) \tag{11.133} \end{equation*} $$
3.证明相对熵的次可加性表明了相对嫡的联合凸性。 4.令 $p_{i}$ 和 $q_{i}$ 为同一个指标集的概率分布,证明
$$ \begin{equation*} S\left(\sum_{i} p_{i} r_{i} | \sum_{i} q_{i} s_{i}\right) \leqslant \sum_{i} p_{i} S\left(r_{i} | s_{i}\right)+\sum_{i} p_{i} \operatorname{tr}\left(r_{i}\right) \log \left(p_{i} / q_{i}\right) \tag{11.134} \end{equation*} $$
当 $r_{i}$ 为密度算子时, $\operatorname{tr}\left(r_{i}\right)=1$ ,导出式
$$ \begin{equation*} S\left(\sum_{i} p_{i} r_{i} | \sum_{i} q_{i} s_{i}\right) \leqslant \sum_{i} p_{i} S\left(r_{i} |_{l}\right)+H\left(p_{i} | q_{i}\right) \tag{11.135} \end{equation*} $$
其中 $H(\cdot | \cdot)$ 是香农相对嫡。
问题 11.3 (条件摘与三角不等式的类比)
1.证明 $H(X, Y \mid Z) \geqslant H(X \mid Z)$ 。 2.证明 $S(A, B \mid C) \geqslant S(A \mid C)$ 不总是对的。 3.证明三角不等式的条件版本:
$$ \begin{equation*} S(A, B \mid C) \geqslant S(A \mid C)-S(B \mid C) \tag{11.136} \end{equation*} $$
问题11.4(强次可加性的条件形式) 1.证明 $S(A, B, C \mid D)+S(B \mid D) \leqslant S(A, B \mid D)+S(B, C \mid D)$ 。 2.用明确例子证明 $H(D \mid A, B, C)+H(D \mid B) \leqslant H(D \mid A, B)+H(D \mid B, C)$ 不总是成立的。 问题11.5(强次可加性——研究)找出一个量子熵强次可加性的简单证明。
(熵) | $S(A)=-\operatorname{tr}\left(\rho^{A} \log \rho^{A}\right)$ |
---|---|
(相对熵) | $S(\rho|\sigma) = -S(\rho)-\operatorname{tr}(\rho \log \sigma)$ |
(条件熵) | $S(A \mid B)=S(A, B)-S(B)$ |
(互信息) | $S(A: B)=S(A)+S(B)-S(A, B)$ |
-强次可加性:$S(A, B, C)+S(B) \leqslant S(A, B)+S(B, C)$ 。其他熵不等式都是它或相对熵联合凸性的推论。
历史上,熵的概念来自于热力学和统计力学的研究。但如今熵的信息论基础来自香农关于信息论的论文 ${ }^{[5 h a 48]}$ 。关于香农熵性质(及信息论其他内容)的一个很好的参考资料是 Cover 和 Thomas 的著作 ${ }^{[C T 91]}$ 的第 2 章和第 16 章。关于冯•诺伊曼熵的参考资料有 Wehrl ${ }^{[W e h 78]}$ 的综述, Ohya 和 Pets 的著作 ${ }^{[0 P 93]}$ 。
我们关于摘的不确定性原理的证明来自于 Deutsch ${ }^{[\operatorname{Deu} 83]}$ 。其他很多研究人员都在熵的不确定性关系上做了工作,我们这里只介绍其中两篇文章。Kraus ${ }^{[K \mathrm{Kra} 87]}$ 推测对于一个特定的测量类,存在比 Deutsch 提出的更强的熵不确定性关系,Maassen 和 Uffink ${ }^{[M U 88]}$ 证明了他的猜想。Kullback 和 Leibler ${ }^{[K L 51]}$ 最早引人相对熵,Umegaki ${ }^{[U m e 62]}$ 进行了其量子推广。Fannes 不等式出现在[Fan73],克莱因不等式的证明在[Kle31]。三角不等式来自于 Araki 和 Lieb ${ }^{[A L 70]}$ 。强次可加性的历史很有趣。 Robinson 和 Ruelle ${ }^{[R R 67]}$ 最早注意到经典强次可加性对于统计物理的重要性,Lanford 和 Robinson在1968年猜想出其量子版本,但这个结果的证明却很困难。最终,这个定理于1973年在两篇论文中被证明:Lieb 在[Lie73]中的的同名定理,他还和 Ruskai ${ }^{[L R 73 b]}$ 发展了其与强次可加性的联系;另见 ${ }^{[L R 73 a]}$ 。Lieb 定理是 1963 年 Wigner 和 Yanase ${ }^{[W Y 63]}$ 提出,Dyson 对 Wigner-Yanase-Dyson猜想的一个推广(未发表);1973 年之前人们都不知道 Wigner-Yanase-Dyson 猜想和强次可加性有联系!关于这个猜想的讨论见 Wehrl ${ }^{[\text {Weh } 78]}$ 。我们给出的 Lieb 定理的证明来自于 $\operatorname{Simon}{ }^{[\mathrm{Sim} 79]}$ ,是 Uhlmann ${ }^{[U h 177]}$ 证明的一个变体。此外还存在 Lieb 定理的其他证明,比如 Epstein ${ }^{[E p s 73]}$ ,Ando ${ }^{[A n d 79]}$和 Petz ${ }^{[P e t 86]}$ 。Lieb ${ }^{[L i e 75]}$ 还证明了相对熵第一项和第二项的次可加性。Nielsen ${ }^{[\mathrm{Nie98]}}$ 证明了量子条件熵的联合次可加性。Lindblad ${ }^{[\operatorname{Lin} 75]}$ 最早注意到相对熵的单调性。问题 11.2 来自于 Ruskai ${ }^{[R u s 94]}$ 。