信息论基础第三章阅读笔记

这篇具有很好参考价值的文章主要介绍了信息论基础第三章阅读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

在信息论中,与大数定律类似的是渐进均分性(AEP),它是弱大数定律的直接结果。
大数定理针对独立同分布(i.i.d.)随机变量
………………
因此,当n很大时,一个观察序列出现的概率 p ( X 1 , X 2 , . . . , X n ) p(X_1,X_2,...,X_n) p(X1,X2,...,Xn)近似等于 2 − n H 2^{-nH} 2nH

这个表达式涉及到信息论中的一些概念,让我们一步步来解释:

  1. p ( X 1 , X 2 , . . . , X n ) p(X_1, X_2, ..., X_n) p(X1,X2,...,Xn) 表示一个包含n个观察值(或事件)的序列出现的概率。这个序列可以是任何类型的数据,例如二进制序列、字母序列、符号序列等等。
  2. H H H 是香农熵(Shannon entropy),它是信息论中的一个重要概念,用来衡量一个随机变量的不确定性。对于一个离散随机变量X,它的香农熵 H ( X ) H(X) H(X)定义为
    H ( X ) = − ∑ x p ( x ) log ⁡ 2 ( p ( x ) ) H(X) = -\sum_{x} p(x) \log_2(p(x)) H(X)=xp(x)log2(p(x))
    这里, p ( x ) p(x) p(x) 是随机变量X取值为x的概率,求和是对所有可能的x值进行的。
  3. 2 − n H 2^{-nH} 2nH 是一个与序列长度n和其不确定性有关的数学表达式。这个表达式可以被解释为:当你有一个长度为n的序列,其各个观察值的分布符合香农熵为H的分布时,这个序列出现的概率约等于 2 − n H 2^{-nH} 2nH

所以,上述表达式的意思是,当n很大时,一个观察序列出现的概率与序列的不确定性(由香农熵H衡量)呈指数关系。当不确定性较低(H较小)时,概率趋于1,表示序列出现的可能性很高;而当不确定性较高(H较大)时,概率趋于0,表示序列出现的可能性很低。这反映了信息论中的一个重要原理,即不确定性越高,信息的压缩(即用更短的编码表示序列)越困难,因此序列出现的概率越低。反之亦然,不确定性越低,信息的压缩越容易,序列出现的概率越高。这也与信息论中的信息理论和编码理论密切相关。

2 − n H 2^{-nH} 2nH的推导过程:

  1. 我们有一个随机变量X,它可以取一组可能的值 x 1 , x 2 , … , x k x_1, x_2, \ldots, x_k x1,x2,,xk,每个值发生的概率分别是 p ( x 1 ) , p ( x 2 ) , … , p ( x k ) p(x_1), p(x_2), \ldots, p(x_k) p(x1),p(x2),,p(xk)
  2. 香农熵(Shannon entropy)是一个衡量随机变量不确定性的概念,定义为:
    H ( X ) = − ∑ i = 1 k p ( x i ) log ⁡ 2 ( p ( x i ) ) H(X) = -\sum_{i=1}^{k} p(x_i) \log_2(p(x_i)) H(X)=i=1kp(xi)log2(p(xi))
  3. 考虑一个独立同分布的观察值序列 ( X 1 , X 2 , … , X n ) (X_1, X_2, \ldots, X_n) (X1,X2,,Xn),每个 X i X_i Xi都是来自随机变量X的独立样本。
  4. 这个序列出现的概率可以表示为乘积:
    p ( X 1 , X 2 , … , X n ) = p ( X 1 ) ⋅ p ( X 2 ) ⋅ … ⋅ p ( X n ) p(X_1, X_2, \ldots, X_n) = p(X_1) \cdot p(X_2) \cdot \ldots \cdot p(X_n) p(X1,X2,,Xn)=p(X1)p(X2)p(Xn)
  5. 由于每个 X i X_i Xi都是来自相同的随机变量X,所以它们的概率都相同,即 p ( X 1 ) = p ( X 2 ) = … = p ( X n ) = p ( X ) p(X_1) = p(X_2) = \ldots = p(X_n) = p(X) p(X1)=p(X2)==p(Xn)=p(X)
  6. 将这个概率代入序列概率的表达式,得到:
    p ( X 1 , X 2 , … , X n ) = p ( X ) n p(X_1, X_2, \ldots, X_n) = p(X)^n p(X1,X2,,Xn)=p(X)n
  7. 现在,我们想要将这个概率与香农熵联系起来。当n很大时,根据大数定律,我们可以使用香农熵来近似表示序列出现的概率:
    p ( X 1 , X 2 , … , X n ) ≈ 2 − n H ( X ) p(X_1, X_2, \ldots, X_n) \approx 2^{-nH(X)} p(X1,X2,,Xn)2nH(X)
    这里, H ( X ) H(X) H(X)是随机变量X的香农熵。

所以,当n很大时,一个观察序列出现的概率 p ( X 1 , X 2 , … , X n ) p(X_1, X_2, \ldots, X_n) p(X1,X2,,Xn)近似等于 2 − n H ( X ) 2^{-nH(X)} 2nH(X)。这表示序列出现的概率与随机变量X的香农熵H(X)之间的关系。

这促使我们将全体序列组成的集合划分成两个子集,其一是典型集,其中样本熵近似于真实熵;其二是非典型集,包含其余的序列。我们将主要关注典型集,这是因为任何基于典型序列的性质都是以高概率成立的,并且决定着大样本的平均行为。

这段文字描述了在信息论和概率论中常用的一个概念,即典型集非典型集,以及它们在研究随机序列时的重要性。让我来解释这些概念以及它们的含义:

  1. 典型集(Typical Set):典型集是一个包含那些在大样本中以高概率出现的序列的集合。这意味着,如果你有一个随机生成的大样本,典型集中的序列将在这个样本中出现的概率非常高,接近于1。典型集中的序列具有与真实概率分布相一致的特性,因此它们的统计行为通常会接近于理论预期。
  2. 非典型集(Non-Typical Set):非典型集包含了那些在大样本中以极低概率出现的序列。这些序列在随机样本中的出现几乎可以忽略不计。非典型集中的序列在统计意义上并不重要,因为它们的出现概率非常低,不会对大样本的平均行为产生显著影响。
  3. 重点关注典型集:文中提到,研究者通常更关注典型集,这是因为典型集中的序列具有高概率出现的特性,它们决定了大样本的平均行为。也就是说,如果你想了解大样本的统计性质,那么你主要关心的是那些在大样本中以高概率出现的典型序列。典型序列在大样本中的频率分布会逼近真实的概率分布,因此它们在统计分析和信息传输等领域中具有重要的应用价值。

总的来说,典型集和非典型集的概念有助于研究者理解随机序列的统计性质,特别是在大样本情况下。典型集中的序列可以被视为代表真实分布的样本,因此它们对于分析和预测大规模数据的行为非常有用。

3.1渐进均分性定理

定理3.3.1(AEP)若文章来源地址https://www.toymoban.com/news/detail-726239.html

3.2 AEP的推论:数据压缩

3.3高概率集与典型集

到了这里,关于信息论基础第三章阅读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 信息论与编码

    教材:信息论与编码 第三版 曹雪虹 张宗橙 信息的定义 通信系统中的信息、信号和消息 香农信息的概念 1)点对点通信系统模型 通信的基本问题:在⼀点精确或近似地恢复另⼀点所选择的信息; 通信的⽬的:消除不确定性,获得信息。 2)信息、信号、消息 消息:能被⼈的

    2024年02月11日
    浏览(29)
  • 信息论安全与概率论

    目录 一. Markov不等式 二. 选择引理 三. Chebyshev不等式 四. Chernov上限 4.1 变量大于 4.2 变量小于 信息论安全中会用到很多概率论相关的上界,本文章将梳理几个论文中常用的定理,重点关注如何理解这些定理以及怎么用。 假定X为非负且为实数的随机变量,令为该变量的数学期

    2024年02月03日
    浏览(34)
  • 【AI底层逻辑】——篇章3(上):数据、信息与知识&香农信息论&信息熵

    目录 引入 一、数据、信息、知识 二、“用信息丈量世界” 1、香农信息三定律

    2024年02月11日
    浏览(31)
  • 信息论复习—线性分组码的基本性质

    目录 线性分组码: 非线性码示例: 线性码示例: 许用码字间的距离--码距: 码距与码的检错纠错能力之间的关系: 线性分组码的基本性质: 线性分组码的最小码距与最小码重的关系: 线性分组码的生成矩阵与监督矩阵: 生成矩阵: 系统码的生成矩阵: 监督矩阵: 方程

    2024年02月07日
    浏览(27)
  • 联合基于信息论的安全和隐蔽通信的框架

    Joint Information-Theoretic Secrecy and Covert Communication in the Presence of an Untrusted User and Warden 2021 IOTJ 主要创新点总结: 1 到Bob和到Carol的信号的功率分配或者时隙分配。 2 由于Willie到其他的窃听的信道Willie仅仅知道其分布(假设所有信道都仅仅知道其分布),由于其不确定性带来概率的

    2024年02月04日
    浏览(30)
  • 信息论的精髓与人工智能:探索共同之处

    信息论是一门研究信息的理论学科,它研究信息的性质、量度、传输和处理等问题。信息论的核心概念是熵、互信息、条件熵等,它们在人工智能中发挥着重要作用。随着人工智能技术的发展,信息论在人工智能中的应用越来越广泛。本文将从信息论的精髓与人工智能的共同

    2024年02月21日
    浏览(32)
  • 信息论之从熵、惊奇到交叉熵、KL散度和互信息

    考虑将A地观测的一个随机变量x,编码后传输到B地。 这个随机变量有8种可能的状态,每个状态都是等可能的。为了把x的值传给接收者,需要传输一个3-bits的消息。注意,这个变量的熵由下式给出: ⾮均匀分布⽐均匀分布的熵要⼩。 如果概率分布非均匀,同样使用等长编码,

    2023年04月15日
    浏览(70)
  • 【信息论与编码】【北京航空航天大学】实验一、哈夫曼编码【C语言实现】(上)

    一、运行源代码所需要的依赖: 1、硬件支持 Windows 10,64位系统 2、编译器 DEV-Redpanda IDE,小熊猫C++ 二、算法实现及测试 1、C语言源程序 2、算法性能测试 (1)测试文件1:article1.txt 文件说明:普通 英文文档 ,取自英国小说《哈利·波特》的一个章节 文件截图: 运行时截图

    2024年01月24日
    浏览(37)
  • 第三章-OpenCV基础-4-掩模

    掩模,又称为掩膜,掩码,模板。图像掩模是指,用特定的图像/图形/物体遮挡代处理的图像(全部或局部),从而控制图像处理的区域,在数字图像处理中,掩模就是一个指定的数组,毕竟,图像也是数组。 左边图为原图,中间图为掩模(白色区域为透明区域,黑色区域为黑色遮挡区域),经过控

    2024年02月15日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包