分布式系统的主键生成方案对比

这篇具有很好参考价值的文章主要介绍了分布式系统的主键生成方案对比。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

UUID

​UUID(通用唯一识别码)是由32个十六进制数组成的无序字符串,通过一定的算法计算出来。为了保证其唯一性,UUID规范定义了包括网卡MAC地址、时间戳、名字空间(Namespace)、随机或伪随机数、时序等元素,以及从这些元素生成UUID的算法。一般来说,算法可以保证任何地方产生的任意一个UUID都不会相同,但这个唯一性是有限的,只在特定的范围内才能得到保证。

​ UUID的一个非常明显的特点就是本身较长,格式是这样的:

xxxxxxxx-xxxx-Mxxx-xxxx-xxxxxxxxxxxx
467e8542-2275-4163-95d6-7adc205580a9

其中M位置,代表版本号,由于UUID的标准实现有5个版本,所以只会是1、2、3、4、5;

各版本介绍

UUID现有的5种版本,是根据不同的使用场景划分的,而不是根据精度,所以Version5并不会比Version1精度高,在精度上大家都能保证唯一性,重复的概率近乎于0

总结:

  1. 使用UUID,每个人都可以创建不与其它人冲突的唯一值,在所有空间和时间上都可以被视为唯一的标识。
  2. UUID可单机自行生成,且生成速度快,QPS高,各个语言都有对应的生成供直接调用使用。
  3. 如果只是需要生成一个唯一ID,可以使用V1或V4。v1基于时间戳和Mac地址,这些ID有一定的规律,而且会暴露你的Mac地址。v4是完全随机(伪)的。
  4. 如果对于相同的参数需要输出相同的UUID,你可以使用V3或V5。

Version1: 基于时间戳及MAC地址的实现

​其中包括了48位的MAC地址和60位的时间戳。且v1为了保证唯一性,当时间精度不够时,会使用13~14位的clock sequence来扩展时间戳,比如:当UUID的生产成速率太快,超过了系统时间的精度。时间戳的低位部分会每增加一个UUID就+1的操作来模拟更高精度的时间戳,换句话说,就是当系统时间精度无会区分2个UUID的时间先后时,为了保证唯一性,会在其中一个UUID上+1。所以UUID重复的概率几乎为0,时间戳加扩展的clock sequence一共有74bits,(2的74次方,约为1.8后面加22个零),即在每个节点下,每秒可产生1630亿不重复的UUID。

但由于v1中最后的12位是网卡的MAC地址,会导致隐私问题以及安全问题,这是这个版本UUID受到批评的地方。

Version2: DCE安全的UUID

​ DCE(Distributed Computing Environment)安全的UUID和基于时间的UUID算法相同,但会把时间戳的前4位置换为POSIX的UID或GID。这个版本的UUID在实际中较少用到。

Version3: 5 基于名称空间和名字

​ v3和v5都是通过计算namespace和名称的哈希值生成的。不同的点在于v3使用的hash算法为MD5,v5使用SHA-1。因为算法中没有不确定的部分,所以当namespace与名称确定时,得到的UUID都是确定唯一的。比如:

$ uuid -n 3 -v3 ns:URL www.jd.com
7e963853-8fce-3085-bb2c-8424745d73a2
7e963853-8fce-3085-bb2c-8424745d73a2
7e963853-8fce-3085-bb2c-8424745d73a2

算法实现中会将namespace和输入参数拼接在一起,计算hash结果,再进行截断格式化等操作来保证唯一性。

Version4: 基于随机数

​v4的UUID中4位代表版本,2-3位代表variant。余下的122-121位都是全部随机的。即有2的122次方(5.3后面36个0)个UUID。一个标准实现的UUID库在生成了2.71万亿个UUID会产生重复UUID的可能性也只有50%的概率。这相当于每秒产生10亿的UUID,持续85年,而把这些UUID都存入文件,每个UUID占16bytes,总需要45EB(exabytes),比目前最大的数据库(PB)还要大很多倍。

在java中使用v4:

# java 1.5+ 
# java.util.UUID

for (int i = 0; i < 3; i++) {
	String uuid = UUID.randomUUID().toString();
	System.out.println(uuid);
}

生成的UUID如下:

8bca474b-214d-4ce8-8446-b99f30147f94
c38588cf-a1c4-4758-9d86-b2ee5552ae59
febf5a46-bd1b-43f8-89a8-d5606e5d1ce0

由于这个版本使用非常简单,因此使用最为广泛。

SnowFlake算法

雪花算法,是 Twitter 开源的分布式 ID 生成算法。雪花算法中利用了时间戳,机器ID,以及同毫秒内的不同序列号来保证分布式生成ID的唯一性

雪花算法总结

1.时间戳在高位,自增序列在低位的特征可以保证整个ID的趋势是递增有序的。

2.但由于其依赖机器时钟,如果机器时钟回拨,可能会导致重复ID生成。其在分布式环境下,每台机器上的时钟不可能完全同步,有时候会出现不是全局递增的情况。

SnowFlake算法生成id的结果是一个64bit大小的整数,它的结构如下图:

  • 1bit,不用。二进制中最高位为1的都是负数,但是我们生成的id一般都使用整数,所以这个最高位固定是0
  • 41bit,用来记录时间戳(毫秒)。41位可以表示 2^{41}-1 个数字,如果只用来表示正整数(计算机中正数包含0),可以表示的数值范围是 0 至 2^{41}-1,也就是说41位可以表示 2^{41}-1 个毫秒的值,转化成单位年则是 (2^{41} - 1) / (1000*60*60*24*365) = 69 年。
  • 10bit,用来记录工作机器id。可以部署在 2^{10} = 1024 个节点,包括 5位 datacenterId 和 5位 workerId,5位(bit)可以表示的最大正整数是 2^{5}-1 = 31,即可以用 0、1、2、3、....、31 这 32 个数字,来表示不同的 datecenterId 或 workerId。
  • 12位,序列号,用来记录同毫秒内产生的不同ID;12bit 可以表示的最大正整数是 2^{12}-1 = 4095 ,即可以用 0、1、2、3、....4094 这 4095 个数字,来表示同一机器同一时间截(毫秒)内产生的 4095 个 ID 序号。

有序主键 or 随机主键 ?

​使用UUID这些随机ID生成算法作为MySQL主键的生成方案呢?答案是:不可以!

​众所周知,当MySQL数据表使用InnoDB作为存储引擎时,每一个索引都对应一个B+树,若表定义了主键(没有时,MySQL则会自动生成不可见的自增主键),主键对应的索引就是聚簇索引,表的所有数据都存储在聚簇索引上。索引中键值的逻辑顺序决定了表中相应行的物理顺序(索引中的数据物理存放地址和索引的顺序是一致的)。可以这么理解:只要是索引是连续的,那么数据在存储介质上的存储位置也是连续的。

​基于以上特性,由于自增键的值是有序的,插入数据时,Innodb 会把每一条记录都存储在上一条记录的后面。当达到页面的最大填充因子时候(innodb默认的最大填充因子是页大小的15/16,会留出1/16的空间留作以后的修改),会进行如下操作:下一条记录就会写入新的页中,一旦数据按照这种顺序的方式加载,主键页就会近乎于顺序的记录填满,提升了页面的最大填充率,不会有页的浪费;且由于新插入的行一定会在原有的最大数据行下一行,mysql定位和寻址很快,不会为计算新行的位置而做出额外的消耗。

​而UUID相对于有序的自增ID,它的值是毫无规律可言的,新行的主键不一定要比之前数据主键的值大,所以innodb无法做到总是把新行插入到索引的最后,而是需要为新行寻找新的合适的位置从而来分配新的空间。这个过程需要做很多额外的操作,而且最终分布散乱的数据会导致以下问题:

  1. 写入的目标页很可能已经刷新到磁盘上并且从缓存上移除,或者还没有被加载到缓存中,innodb在插入之前不得不先找到并从磁盘读取目标页到内存中,这将导致大量的随机IO;
  2. 因为写入是乱序的,innodb不得不频繁的做页分裂操作,以便为新的行分配空间,页分裂导致移动大量的数据,一次插入最少需要修改三个页以上,且由于频页分裂,页会变得稀疏并被不规则的填充,最终会导致数据会有碎片;
  3. 在把值载入到聚簇索引(innodb默认的索引类型)以后,有时候会需要做一次OPTIMEIZE TABLE来重建表并优化页的填充,这将又需要一定的时间消耗。

作者:京东零售 金越

来源:京东云开发者社区 转载请注明来源文章来源地址https://www.toymoban.com/news/detail-709870.html

到了这里,关于分布式系统的主键生成方案对比的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 76、分布式id生成方案

    1,当前日期和时间 时间戳 2,时钟序列。 计数器 3,全局唯一的IEEE机器识别号,如果有网卡,从网卡MAC地址获得,没有网卡以其他方式获得。 优点: 代码简单,性能好(本地生成,没有网络消耗),保证唯一(相对而言,重复概率极低可以忽略) 缺点: 每次生成的ID都是无序的,

    2024年02月16日
    浏览(50)
  • 分布式id生成方案及springboot进行集成

    UUID(Universally Unique Identifier) 即通用唯一识别码,是一种由网络软件使用的标识符,它是由IP地址、当前时间戳、随机数、节点等多个部分组成,具有唯一性。但是,UUID方案的缺点是,生成的id较长,不便于存储和使用。 Snowflake算法 它是Twitter公司开源的一个分布式唯一ID生成器

    2023年04月08日
    浏览(41)
  • 常用分布式文件系统(对象存储)对比-SeaweedFS、Minio

    常用分布式文件系统,相对比较热门的有Minio,SeaweedFS,FastDFS,ceph。主要对比一下Minio,SeaweedFS。 什么是SeaweedFS? SeaweedFS是一种简单的、高度可扩展的分布式文件系统。SeaweedFS是一个非常优秀的由 Go语言开发的分布式存储开源项目。它是用来存储文件的系统,并且与使用的语言无

    2024年02月03日
    浏览(55)
  • 京东一面:分布式 ID 生成方案怎么选?写得太好了!

    在分布式系统中,经常需要用到全局唯一ID发生器,标识需要存储的数据。我们需要什么样的ID生成器? ID生成器除了是数据的唯一标识以外,一般需要在系统中承担更多的责任,概括起来有以下几点: 唯一性:“全局唯一” vs “业务唯一”? 分布式系统使用唯一的ID生成器

    2024年02月08日
    浏览(52)
  • 分布式系统第四讲:分布式锁及实现方案

    本文主要介绍分布式锁的概念和分布式锁的设计原则,以及常见的分布式锁的实现方式。

    2024年02月12日
    浏览(90)
  • 【智能排班系统】雪花算法生成分布式ID

    在复杂而庞大的分布式系统中,确保数据实体的唯一标识性是一项至关重要的任务,生成全局唯一且有序的ID生成机制成为必不可少的环节。雪花算法(Snowflake Algorithm)正是为此目的而生,以其简洁的设计、高效的表现与良好的扩展性赢得了业界的广泛认可。 雪花算法最早由

    2024年04月10日
    浏览(85)
  • 在CSDN学Golang场景化解决方案(EFK分布式日志系统方案)

    在 Golang EFK 分布式日志系统方案中,ElasticSearch 是一个分布式搜索引擎和数据存储库,它可以用于存储和搜索大量的日志数据。以下是 ElasticSearch 分布式集群部署的步骤: 下载 ElasticSearch:从 ElasticSearch 官网上下载最新版本的 ElasticSearch。 解压缩并安装 ElasticSearch:将下载下来

    2024年02月14日
    浏览(44)
  • 分布式锁解决方案_Zookeeper实现分布式锁

    提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 分布式锁解决方案_Zookeeper实现分布式锁 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 提示:这里可以添加本文要记录的大概内容: Zookeeper 是一个开源的分布式协调服务,它

    2024年02月03日
    浏览(42)
  • 【分布式事务】Seata 开源的分布式事务解决方案

    Seata 是一款开源的分布式事务解决方案,致力于提供高性能和简单易用的分布式事务服务。Seata 将为用户提供了 AT、TCC、SAGA 和 XA 事务模式,为用户打造一站式的分布式解决方案。 阿里巴巴作为国内最早一批进行应用分布式(微服务化)改造的企业,很早就遇到微服务架构下

    2024年02月02日
    浏览(53)
  • 【分布式】java实现分布式事务的五种方案

    用户支付完成会将支付状态及订单状态保存在订单数据库中,由订单服务去维护订单数据库。由库存服务去维护库存数据库的信息。下图是系统结构图: 如何实现两个分布式服务(订单服务、库存服务)共同完成一件事即订单支付成功自动减库存,这里的关键是如何保证两个

    2024年04月11日
    浏览(49)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包