读数据压缩入门笔记01_数据压缩导读

10月前作者：躺柒分类：Toy博客阅读(34) 违法举报

这篇具有很好参考价值的文章主要介绍了读数据压缩入门笔记01_数据压缩导读。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

读数据压缩入门笔记01_数据压缩导读文章来源地址https://www.toymoban.com/news/detail-462881.html

1. 建立在数据压缩上的世界

1.1. 数据压缩技术最让人惊异之处在于，它与过去40年里个人计算的很多重大改变有关，但很少有人知道这一点

1.2. 我们当下生活在其中的这个计算世界，完全建立在数据压缩算法之上

1.3. 图像的压缩

1.3.1. 1978年

1.3.2. 图像语料库

1.3.2.1. 1972年11月《花花公子》杂志中莱娜•瑟德贝里（Lena Söderberg）

1.4. 音乐的压缩

1.4.1. 1996年

1.4.2. WAV

1.4.2.1. MP3

1.4.2.1.1. Napster音乐共享平台

1.4.2.1.2. iPod

1.4.2.1.2.1. iTunes

1.4.2.1.2.2. iPhone

1.5. 视频的压缩

1.5.1. 2001年

1.5.2. YouTube

1.5.2.1. MOV

1.6. 基因图谱

1.6.1. 2008年

1.6.2. 单个基因组序列就包含了大量的数据，仅仅是描述人类基因组成的数据就超过了14GB

1.6.3. BWT是最有效的存储DNA信息的压缩格式，甚至无须解压就能对数据进行操作

1.7. 压缩与经济

1.7.1. 压缩后的文件会变得更小

1.7.1.1. 同样的数据传输所需的时间会变短，相应的费用也会减少

1.7.1.2. 分发者的分发成本会降低，消费者的支出也会减少

2. 克劳德•香农

2.1. 硕士论文题为《继电器与开关电路的符号分析》

2.1.1. 为基于开关的现代电路计算奠定了基础

2.2. 1948年发表了《通信的数学理论》

2.2.1. 论述了发送者怎样对要发送的信息进行编码才能达到最佳效果

2.2.2. 开创了信息论（information theory）这一全新的学术领域

2.3. 发明了一种度量消息所携带信息内容的方法

2.3.1. 信息熵（information entropy）

3. 什么是数据压缩

3.1. 用最紧凑的方式来表示数据

3.2. “在保证信息能恢复的前提下，我们能将消息变得多么紧凑”

3.3. 根据现代信息论的观点，在压缩数据以减少总二进制位数的时候存在一个临界点，如果超过了这个值，我们就不能将压缩后的数据唯一正确地恢复为原来的数据流。

3.3.1. 我们的压缩目标就是尽可能地减少总二进制位数以接近这个临界值，并且不超过这个值

4. 消息编码方式

4.1. 对每一个特定的消息来说，都有一个最佳的编码方式，这里的“最佳”指的是传递消息时用到的字母或者符号（也可以说是二进制位，即信息的单位）最少

4.2. “字母表”与“摩尔斯码”是其中常见的两种

5. 数据压缩思路

5.1. 减少数据中不同符号的数量

5.1.1. 即让“字母表”尽可能小

5.2. 用更少的位数对更常见的符号进行编码

5.2.1. 即最常见的“字母”所用的位数最少

6. 数据压缩考虑因素

6.1. 不同数据的处理方法不同

6.1.1. 压缩一本书中的文字和压缩浮点型的数

6.2. 有些数据必须经过转换才能变得更容易压缩

6.3. 数据可能是偏态的

6.3.1. 夏天的整体气温偏高

6.3.1.1. 高气温出现的频率比接近零度的气温出现的频率高很多

7. 数据压缩算法

7.1. 变长编码(variable-length codes，VLC）

7.2. 统计压缩（statistical compression）

7.3. 字典编码（dictionary encodings）

7.4. 上下文模型（context modeling）

7.5. 多上下文模型（multicontext modeling）

到了这里，关于读数据压缩入门笔记01_数据压缩导读的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

读数据压缩入门笔记03_VLC

14.4.1.1. 不知道最大的整数会是多大 14.4.3.1. 相应的码字就由两部分组成，即与此整数相当的2的次幂再加上余数 14.4.4.1. 找出最大的整数N，使其满足2 N＜n＜2 (N+1)，并且将n表示为n=2^N+L这样的形式 14.4.4.1.1. L=n-2^N 14.4.4.1.2. n=12,2 3=8,2 4=16,2 3＜n＜2 4,N=3 14.4.4.1.3. L=12-2^3=4 14.4.4.2

2024年02月07日
浏览(111)
读数据压缩入门笔记05_字典转换

5.3.1.1. 对数据集越了解，你就越能从中选择出最适合的LZ变换 5.3.2.1. Terry Welch于1984年提出的，它采用了LZ78算法的思想 5.3.2.2. 首个在计算机中广泛采用的通用数据压缩方法

2024年02月09日
浏览(33)
读数据压缩入门笔记04_统计编码

8.1.2.1. ZHuff、LZTurbo、LZA、Oodle和LZNA这些压缩工具已开始使用ANS 8.2.1.1. 它只使用加法、掩码和移位运算，使ANS对开发人员更具吸引力 8.7.1.1. 它使得从符号转换为数值再从数值转换为符号成为可能 8.7.1.2. 表中的每个值都是唯一的（即不存在重复） 8.7.1.3. 每列都按照值从小到

2024年02月08日
浏览(38)
读数据压缩入门笔记07_自适应统计编码

3.3.1.1. 这个符号之前出现过吗？ 3.3.1.2. 如果出现过，那么输出当前分配的码字，并更新其出现的概率 3.3.1.3. 如果没有，则进行一些特殊处理 3.3.1.3.1. 动态概率表 3.3.1.3.2. 重置 3.3.1.3.3. 字面值

2024年02月16日
浏览(37)
读数据压缩入门笔记06_上下文转换

3.3.1.1. 如果这两个符号是相同的，那么行程继续 3.3.1.2. 如果不相同，那么当前行程终止 8.6.1.1. 真实数据中普遍存在 9.3.1.1. 事实上符号之间的顺序很重要 9.3.4.1. lexicographical permutation 9.3.4.2. BWT会打乱数据流中符号的顺序，并试图让相同的符号簇彼此靠近 9.3.4.3. 找出原始数

2024年02月09日
浏览(52)
读数据压缩入门笔记02_二进制和熵

2024年02月06日
浏览(88)
【数据挖掘从入门到实战】——专栏导读

目录 1、专栏大纲 🐋基础部分 🐋实战部分 🐋竞赛部分 2、代码附录数据挖掘专栏，包含基本的数据挖掘算法分析和实战，数据挖掘竞赛干货分享等。数据挖掘是从大规模数据集中发现隐藏模式、关联和知识的过程。它结合了统计学、人工智能和数据库系统等领域的技术和

2024年02月13日
浏览(43)
WPF 入门笔记 - 01 - 入门基础以及常用布局

🥑本篇为学习博客园大佬圣殿骑士的《WPF基础到企业应用系列》以及部分DotNet菜园的《WPF入门教程系列》所作笔记，对应圣殿骑士《WPF基础到企业应用系列》第 1 - 6 章之间内容，包括 WPF 项目结构、程序的启动和关闭、程序的生命周期、继承关系以及常见的布局控件及其应用

2024年02月05日
浏览(42)
【Redis学习笔记01】快速入门（含安装教程）

先来看门见山的给出 Redis 的概念： Redis：是一种基于内存的高性能K-V键值型NoSQL数据库 Redis官网：https://redis.io/ 1.1 初识NoSQL 想必大家都对关系型数据库更为熟悉！如MySQL、Oracle、SQL Server都是比较常见的关系型数据库，所谓关系型数据库主要以二维表作为数据结构进行存储，但

2024年01月22日
浏览(47)
《NLP入门到精通》栏目导读

栏目《NLP入门到精通》本着从简到难得台阶式学习过度。将自然语言处理得知识贯穿过来。本栏目得前导栏目是《深度学习》、《pytorch实践》，因此，读者需要一定得深度学习基础，才能过度到此栏目内容。本博客基地，将建成人工智能领域的参考资

2024年01月23日
浏览(38)