信息论基础第三章阅读笔记-Toy模板网

这篇具有很好参考价值的文章主要介绍了信息论基础第三章阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

在信息论中，与大数定律类似的是渐进均分性(AEP)，它是弱大数定律的直接结果。
大数定理针对独立同分布(i.i.d.)随机变量
………………
因此，当n很大时，一个观察序列出现的概率 $p(X_1,X_2,...,X_n)$ 近似等于 $2^{-nH}$

这个表达式涉及到信息论中的一些概念，让我们一步步来解释：

$p(X_1, X_2, ..., X_n)$ 表示一个包含n个观察值（或事件）的序列出现的概率。这个序列可以是任何类型的数据，例如二进制序列、字母序列、符号序列等等。

$H$ 是香农熵（Shannon entropy），它是信息论中的一个重要概念，用来衡量一个随机变量的不确定性。对于一个离散随机变量X，它的香农熵 $H (X)$ 定义为
$-\sum_{x} p(x) \log_2(p(x))$
这里， $p (x)$ 是随机变量X取值为x的概率，求和是对所有可能的x值进行的。

$2^{-nH}$ 是一个与序列长度n和其不确定性有关的数学表达式。这个表达式可以被解释为：当你有一个长度为n的序列，其各个观察值的分布符合香农熵为H的分布时，这个序列出现的概率约等于 $2^{-nH}$ 。

所以，上述表达式的意思是，当n很大时，一个观察序列出现的概率与序列的不确定性（由香农熵H衡量）呈指数关系。当不确定性较低（H较小）时，概率趋于1，表示序列出现的可能性很高；而当不确定性较高（H较大）时，概率趋于0，表示序列出现的可能性很低。这反映了信息论中的一个重要原理，即不确定性越高，信息的压缩（即用更短的编码表示序列）越困难，因此序列出现的概率越低。反之亦然，不确定性越低，信息的压缩越容易，序列出现的概率越高。这也与信息论中的信息理论和编码理论密切相关。

$2^{-nH}$ 的推导过程：

我们有一个随机变量X，它可以取一组可能的值 $x_1, x_2, \ldots, x_k$ ，每个值发生的概率分别是 $p(x_1), p(x_2), \ldots, p(x_k)$ 。

香农熵（Shannon entropy）是一个衡量随机变量不确定性的概念，定义为：
$-\sum_{i=1}^{k} p(x_i) \log_2(p(x_i))$

考虑一个独立同分布的观察值序列 $(X_1, X_2, \ldots, X_n)$ ，每个 $X_i$ 都是来自随机变量X的独立样本。

这个序列出现的概率可以表示为乘积：
$p(X_1, X_2, \ldots, X_n) = p(X_1) \cdot p(X_2) \cdot \ldots \cdot p(X_n)$

由于每个 $X_i$ 都是来自相同的随机变量X，所以它们的概率都相同，即 $p(X_1) = p(X_2) = \ldots = p(X_n) = p(X)$ 。

将这个概率代入序列概率的表达式，得到：
$p(X_1, X_2, \ldots, X_n) = p(X)^n$

现在，我们想要将这个概率与香农熵联系起来。当n很大时，根据大数定律，我们可以使用香农熵来近似表示序列出现的概率：
$p(X_1, X_2, \ldots, X_n) \approx 2^{-nH(X)}$
这里， $H (X)$ 是随机变量X的香农熵。

所以，当n很大时，一个观察序列出现的概率 $p(X_1, X_2, \ldots, X_n)$ 近似等于 $2^{-nH(X)}$ 。这表示序列出现的概率与随机变量X的香农熵H(X)之间的关系。

这促使我们将全体序列组成的集合划分成两个子集，其一是典型集，其中样本熵近似于真实熵；其二是非典型集，包含其余的序列。我们将主要关注典型集，这是因为任何基于典型序列的性质都是以高概率成立的，并且决定着大样本的平均行为。

这段文字描述了在信息论和概率论中常用的一个概念，即典型集和非典型集，以及它们在研究随机序列时的重要性。让我来解释这些概念以及它们的含义：

典型集（Typical Set）：典型集是一个包含那些在大样本中以高概率出现的序列的集合。这意味着，如果你有一个随机生成的大样本，典型集中的序列将在这个样本中出现的概率非常高，接近于1。典型集中的序列具有与真实概率分布相一致的特性，因此它们的统计行为通常会接近于理论预期。

非典型集（Non-Typical Set）：非典型集包含了那些在大样本中以极低概率出现的序列。这些序列在随机样本中的出现几乎可以忽略不计。非典型集中的序列在统计意义上并不重要，因为它们的出现概率非常低，不会对大样本的平均行为产生显著影响。

重点关注典型集：文中提到，研究者通常更关注典型集，这是因为典型集中的序列具有高概率出现的特性，它们决定了大样本的平均行为。也就是说，如果你想了解大样本的统计性质，那么你主要关心的是那些在大样本中以高概率出现的典型序列。典型序列在大样本中的频率分布会逼近真实的概率分布，因此它们在统计分析和信息传输等领域中具有重要的应用价值。

总的来说，典型集和非典型集的概念有助于研究者理解随机序列的统计性质，特别是在大样本情况下。典型集中的序列可以被视为代表真实分布的样本，因此它们对于分析和预测大规模数据的行为非常有用。