2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?

这篇具有很好参考价值的文章主要介绍了2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?

答案2023-06-11:

传统数据结构的不足

当然有人会想,我直接将网页URL存入数据库进行查找不就好了,或者建立一个哈希表进行查找不就OK了。

当数据量小的时候,这么思考是对的,

确实,将值映射到 HashMap 的 Key,可以在 O(1) 的时间复杂度内返回结果,具有高效的优点。但是 HashMap 的实现也存在一些不足,例如存储容量占比较高。考虑到负载因子的存在,通常需要预留一定的空间,导致实际空间不能被完全利用。例如,如果有一个1000万大小的 HashMap,以String类型为Key(长度不超过16个字符,且非常少重复),以Integer类型为Value,需要占据多少空间呢?实际上,它将占用1.2GB内存。相比之下,存储1000万个int类型的数据只需要大约40MB空间,占比仅为3%;而存储1000万个Integer类型的数据则需要约161MB空间,占比高达13.3%。因此,一旦数据量增大到数亿级别,HashMap 所占据的内存大小将变得非常可观。

如果整个网页黑名单系统包含100亿个网页URL,则简单的数据库查找操作将非常费时,并且如果每个URL空间为64B,则整个系统需要的内存空间将达到640GB,这对于一般的服务器来说是一个非常大的需求,难以实现。

布隆过滤器

布隆过滤器简介

1970 年布隆提出了一种布隆过滤器的算法,用来判断一个元素是否在一个集合中。
这种算法由一个二进制数组和一个 Hash 算法组成。

本质上布隆过滤器是一种数据结构,比较巧妙的概率型数据结构(probabilistic data structure),特点是高效地插入和查询,可以用来告诉你 “某样东西一定不存在或者可能存在”。

相比于传统的 List、Set、Map 等数据结构,它更高效、占用空间更少,但是缺点是其返回的结果是概率性的,而不是确切的。

实际上,布隆过滤器被广泛应用于网页黑名单系统、垃圾邮件过滤系统、爬虫网址判重系统等领域。Google 著名的分布式数据库 Bigtable 就使用了布隆过滤器来查找不存在的行或列,以减少磁盘查找的IO次数。此外,Google Chrome浏览器也使用布隆过滤器来加速安全浏览服务。

2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?

布隆过滤器的误判问题

Ø通过哈希计算得到的在数组上的位置并不一定代表元素真正存在于集合中

Ø误判问题的本质是哈希冲突,即不同的元素可能哈希到相同的数组位置

Ø如果一个元素的哈希值不在数组中,则一定不存在于集合中,但是如果哈希值在数组中,则存在误判的概率(误判)

2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?

优化方案

增大哈希数组的长度,使其能够容纳更多的元素。需要根据集合大小和误判率等因素,预估合适的数组长度;

增加哈希函数的数量,以减少哈希冲突的概率。多个哈希函数可以让元素哈希到多个位置上,从而降低误判率。

2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?

布隆过滤器重要的三个公式

1.假设数据量为n,预期的失误率为p(布隆过滤器大小和每个样本的大小无关)。

2.根据n和p,算出BloomFilter一共需要多少个bit位,向上取整,记为m。

3.根据m和n,算出BloomFilter需要多少个哈希函数,向上取整,记为k。

4.根据修正公式,算出真实的失误率p_true。

2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?

golang代码如下:

package main

import (
	"fmt"
	"math"
)

func main() {
	p := 0.0001          //预期失误率,万分之一
	n := 100_0000_0000.0 //数据量100亿
	m := -n * math.Log(p) / (math.Ln2 * math.Ln2)
	m = math.Ceil(m)
	k := math.Ln2 * m / n
	k = math.Ceil(k)
	ptrue := math.Pow(1-math.Pow(math.E, -n*k/m), k)
	fmt.Println("比特位m:", int(m))
	fmt.Println("哈希函数个数k:", k)
	fmt.Printf("真实失误率ptrue:%f%%\n", ptrue*100)
	fmt.Printf("占用空间:%fG\n", m/8/1024/1024/1024)
}

2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?文章来源地址https://www.toymoban.com/news/detail-479224.html

到了这里,关于2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 2023-06-13:统计高并发网站每个网页每天的 UV 数据,结合Redis你会如何实现?

    2023-06-13:统计高并发网站每个网页每天的 UV 数据,结合Redis你会如何实现? 答案2023-06-13: 如果统计 PV (页面浏览量)那非常好办,可以考虑为每个网页创建一个独立的 Redis 计数器,并将日期添加为键(key)的后缀。当网页收到请求时,对应的计数器将被递增。对于每天的

    2024年02月08日
    浏览(90)
  • 【linux】linux服务器判断域名、IP、端口、URL是否有效

    活动详情地址:话题挑战赛第2期 参赛话题地址:运维技术分享 在平时运维过程中,经常会遇到需要判断地址是否有效的情况,比如: 1、服务器是否通外网 2、第三方提供的IP、端口是否能够访问 3、对方域名是否能够访问 … 下面列举几种linux服务器常用的检测方式 ▶ 描述

    2024年02月01日
    浏览(74)
  • Android,判断是否快速点击

    在Android控件中,如果快速点击容易造成一些不同的bug,尤其是那种在click事件中方有耗时操作的代码,容易引起anr,并且有些性能低的机器,在用户点击多次控件的时候很容易出现问题,在车机中也会导致回弹的一系列问题(这里面包括get到的信号导致回弹),针对于这种情

    2024年04月28日
    浏览(56)
  • windows11--判断文件夹是否存在

    不想全盘检索,只是想判断当前文件夹下,是否存在名为xxx的子文件夹 打开你要进行搜索的文件夹 点击上面的地址栏,输入cmd,按下回车键,进入cmd 界面 输入 dir /b | find \\\"xxx文件名\\\" (补充:输入 dir /b\\\" 可列出所有子文件的名字) 如果xxx文件存在,则返回xxx 如果xxx文件不存

    2024年01月21日
    浏览(78)
  • C++(11):判断tuple是否含有某个类型

    有的时候需要判断tuple中是否有个某个类型,可以借助变长模板的递归调用方式进行检查: C++(11):变长模板_变长模板参数 c++11-CSDN博客 另外还使用了true_type和false_type:

    2024年02月04日
    浏览(48)
  • redis中使用bloomfilter判断元素是否存在

    由一个初始值为0的bit数组组成,和多个hash函数构成,用来判断集合中是否存在某个元素。 一个很长的二进制数组(00000000)+一系列随机hash算法映射函数。主要用于判断一个元素是否存在集合中。 本质:判断一个数据是否存在一个大的集合中。有,可能有,无则一定没有 一

    2024年02月15日
    浏览(120)
  • H5外部浏览器直接调起微信——通过url协议 weixin:// 判断是否安装微信及启动微信

    h5分享到微信,h5使用微信支付这些功能,都需要先判断是否安装微信客户端,如果已安装就启动微信,如果没有安装微信,就提示用户前去安装。 我们可以通过访问微信提供的URL协议(weixin://)来实现这个功能,代码如下: 示例代码: 扩展: 同样,通过上边的方法,也可

    2024年02月06日
    浏览(60)
  • C语言判断一个数是否是质数的几种常用方法(求100-1000以内的所有质数)

    要用代码判断一个数是否是质数,首先我们需要知道什么什么数称之为质数。质数又称素数。一个大于1的自然数,除了1和它自身外,不能被其他自然数整除的数叫做质数;否则称为合数(规定1既不是质数也不是合数)。 以下有三种方法判定质数: 通过从2到n-1每个数均整除

    2024年02月08日
    浏览(94)
  • Java 快速判断一个 IP 是否在给定的网段内

    要在 Java 中判断一个 IP地址 是否在给定的网段内,可以使用 子网掩码 将 IP地址 和 子网掩码 进行 与操作 来提取网络地址,并将其与给定的子网地址进行比较。 下面的例子 由强大的 ChatGPT 提供 。 代码如下所示(子网掩码的计算可以截取字符串后,借助底部的算法进行获得

    2024年02月02日
    浏览(61)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包