分布式id那些事儿(建议收藏)-Toy模板网

这篇具有很好参考价值的文章主要介绍了分布式id那些事儿(建议收藏)。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一、分布式系统

1.1 分布式系统的定义和应用场景

分布式系统是由多个独立的计算机节点协同工作，以共同完成一个任务的系统。这些节点通过网络进行通信和协调，共享计算和存储资源，从而实现对更大规模问题的处理和更高系统可用性的要求。

分布式应用场景：

互联网应用：互联网公司的网站、搜索引擎、社交媒体、在线购物等都需要支持大量的并发请求和用户访问，而分布式系统可以通过将请求分发到不同的服务器节点，以提高服务的响应速度和可用性。
云计算：云计算平台需要处理大量的用户请求和数据存储，而分布式系统可以通过将计算和存储资源分配到不同的计算机节点上，以提高资源利用率和系统的可扩展性。
大数据：大数据处理需要处理庞大的数据集和实时性的要求，而分布式系统可以通过将数据处理任务分发到不同的计算机节点上，以加速数据的处理和分析过程。

1.2 分布式系统面临的挑战

通信延迟和网络拥塞
由于节点之间的通信需要通过网络进行，因此可能会面临通信延迟和网络拥塞等问题。这些问题可能导致系统的响应时间变慢，影响系统的性能和可用性。
一致性和可靠性问题
在分布式系统中，数据可能存储在多个节点上，因此需要确保数据的一致性和可靠性。如果数据在某些节点上失效或不一致，可能会导致系统出现错误或数据损坏。
分布式事务处理问题
在分布式系统中，可能需要处理跨多个节点的事务。这可能导致事务处理复杂和困难，特别是在出现部分节点故障或网络中断的情况下。
负载均衡和故障恢复问题
由于系统可能面临大量的并发请求和计算任务，因此需要进行负载均衡，以确保各个节点的负载平衡。另外，在某些节点故障或网络中断的情况下，需要进行故障恢复，以确保系统的可用性。

二、分布式id

2.1 什么是id

id就是一个身份的标识，在日常生活以及软件系统中都是必不可少的存在的。id可以用来唯一标识一个对象或事件，例如我们都有一个身份证号码来标识每一位公民，在软件系统中，为了标识每一个用户，会有对应的user id，在网购时有订单id，发表评论时有评论id等等。

在计算机科学中，ID（Identifier）通常是一个数字或字符串，用于唯一标识某个实体。在软件开发中，ID常常用于识别、定位、查找和管理对象，例如用户、订单、商品等。

在分布式系统中，生成唯一的ID是非常重要的，因为分布式系统可能包含多个节点和多个数据中心，每个节点都需要在处理数据和请求时分配唯一的ID。这样可以帮助在分布式系统中进行诊断、故障排除和性能分析，同时还可以保证数据的一致性和正确性。

2.2 分布式id的定义

分布式ID（Distributed ID）是指在分布式系统中生成全局唯一的ID的方法或算法。分布式ID的生成需要满足以下几个条件：

全局唯一性：在分布式系统中，生成的ID必须是全局唯一的，即任何时候都不会有两个节点生成相同的ID。
可排序性：生成的ID应该是可排序的，以便在分布式系统中进行排序和比较。
低延迟、高可用、高QPS：很多使用id的场景，都强依赖id生成，没有办法降级，例如用户注册中，如果用户id生成失败，注册流程也没办法继续。因此低延迟、高可用是id生成服务的一个必要要求，避免因为id生成服务的问题影响正常业务流程。

常见的分布式ID生成算法包括UUID、Snowflake、Leaf等。这些算法都可以生成唯一的ID，并且在分布式系统中具有可排序性和可读性。

三、 UUID

UUID（通用唯一识别码）是一种用于唯一标识信息的标准格式，通常由32位的16进制数字和4个“-”符号构成，形式为8-4-4-4-12的36个字符，如：123e4567-e89b-12d3-a456-426655440000，在Java中可以通过java.util.UUID#randomUUID来调用。有意思的是uuid是存在极小概率重复可能的，不过由于过低，大部分情况都可以忽略。
特点：

全局唯一性：UUID使用标准算法生成，可以保证全球范围内的唯一性。
高性能：生成UUID的算法比较简单，执行效率很高，在分布式系统中广泛使用。
长度适中：UUID通常为128位，长度适中，在使用时可以有效地减少网络传输的数据量。
无序性：由于UUID是随机生成的，因此它们在存储时是没有任何规律可循的，不会影响数据的查询和排序性能。

UUID的优点：
全局唯一性：UUID可以保证全球范围内的唯一性，即使在分布式系统中也可以使用。
高性能：生成UUID的算法比较简单，执行效率很高，在分布式系统中广泛使用。
不可预测性：由于UUID是随机生成的，因此无法被猜测或推断出来，可以提高系统的安全性。

UUID的缺点：

长度过长无法转换成long，通常用String来表示，例如c3b5ec9a-de62-4325-90a9-0fed060f20bb，一共36个字符，如果去掉-，长度为32个字符。
信息不安全：基于MAC地址生成UUID的算法可能会造成MAC地址泄露，这个漏洞曾被用于寻找梅丽莎病毒的制作者位置。
冲突概率：虽然UUID的冲突概率非常小，但在极端情况下也有可能会发生冲突。

在分布式系统中，由于系统规模的增大和负载的增加，单点自增ID已经不能满足需求。UUID是一种很好的解决方案，可以保证全球范围内的唯一性，并且可以在分布式系统中广泛使用。在一些需要防止ID被猜测或推断的场景下，如密码重置、授权等场景，使用UUID可以提高系统的安全性。但是，UUID的缺点也需要考虑，如可读性差、冲突概率等。为了克服这些缺点，一些方案使用了更加复杂的算法来生成ID，如Twitter的Snowflake算法、美团点评的Leaf算法等。

四、基于数据库的分布式ID

4.1 使用方法

基于数据库的分布式ID生成方法是一种生成全局唯一ID的方法。它的主要原理是利用数据库的特性，如自增主键、事务和锁，保证ID的唯一性和有序性。下面将详细介绍这种方法的实现原理和应用。

基于数据库的分布式ID生成方法的实现原理如下：

在数据库中创建一个表，用于存储ID生成器的状态信息和生成的ID。
在该表中创建一个自增主键列，用于生成ID。
使用事务保证每次生成ID时，都会在该表中插入一条新记录并获取该记录的ID。
使用数据库锁，保证同一时间只有一个线程能够获取ID。

通过上述步骤，我们可以保证在分布式系统中生成的ID是唯一且有序的。

基于数据库的分布式ID生成方法通常适用于以下场景：

数据库中存在业务表需要生成ID。
需要在分布式系统中使用ID进行排序或索引。
数据库中需要使用自增主键来提高性能。

4.2 优缺点

优点：

可以保证生成的ID是有序的，有利于数据库的索引和排序。
基于事务的实现方法，保证了ID的唯一性。
可以很容易地与数据库集群进行集成。

然而，它也存在以下缺点：

生成ID的效率较低，需要使用事务和锁来保证唯一性和有序性。
需要在数据库中创建一个新表，增加了数据库的复杂度。
可能存在分布式事务的问题，需要特殊处理。

五、基于Redis的分布式ID

Redis的优点是单线程、免去了线程间切换的开销，存取速度快。Redis本身提供像 incr 和 increby 这样的自增原子命令，所以能保证生成的 ID 肯定是唯一有序的。

但Redis无法保证在主节点宕机时自动完成数据一致性的同步操作。那么在极端情况下，主节点挂掉后可能产生重复的id。

六、Snowflake雪花算法

6.1 Snowflake 算法介绍

Snowflake 算法是 Twitter 开源的分布式 ID 生成算法，其核心思想是：一个 long 型的 ID 由 64 位组成，其中，第1 个为符号位，41 个为时间戳，5 个为数据中心标识，5 个为机器标识，12 个为序列号。由此，Snowflake 算法可以生成全局唯一的 ID，同时，其按时间有序递增，也便于对数据进行排序。
分布式id使用场景,分布式,分布式,云计算