python使用布隆过滤器筛选数据

这篇具有很好参考价值的文章主要介绍了python使用布隆过滤器筛选数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

布隆过滤器

它是一种独特的数据结构,用以判断:一个数据可能存在一定不存在

算法思路:

  1. 开一个指定长度的数组,将所有的元素值设为0
  2. 添加元素时,执行hash,得到多个位置下标,将数组对应位置设置为1
  3. 检查元素是否存在时,执行hash,得到多个位置下标,查看数组中对应下标的值:
    1> 如果值均为1,则可能存在
    2> 如果值有一个是0,则一定不存在

综上所述,布隆过滤器可以用来判断一定不存在的值,且效率较高,但是随着插入的数据不断增加,判断错误的概率也逐渐变大。有一个极端情况就是全部位置都为1,这个时候就什么都判断不出来了。

示例代码

主要使用pybloom_live

github项目主页:https://github.com/joseph-fox/python-bloomfilter

一般有两种使用方法:

  1. 一种是固定容量限制的布隆过滤器,当加入的元素大于容量限制时会报错,这样会保证错误率小于给定的概率
    from pybloom_live import BloomFilter
    
    bf = BloomFilter(1000)  # 固定最大容量1000
    
    bf.add("a")
    
    print("a" in bf)  # True
    print("b" in bf)  # False
    
  2. 另一种是可伸缩的过滤器,当加入的元素大于容量限制时不会报错,但会增加错误率
    from pybloom_live import ScalableBloomFilter
    
    scala_bf = ScalableBloomFilter(1000)
    
    scala_bf.add("a")
    
    print("a" in scala_bf)  # True
    print("b" in scala_bf)  # False
    

参考文章

python-布隆过滤器:https://www.cnblogs.com/yscl/p/12003359.html文章来源地址https://www.toymoban.com/news/detail-400026.html

到了这里,关于python使用布隆过滤器筛选数据的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【数据结构与算法】布隆(Bloom Filter)过滤器

    Redisson系列文章: 【Redisson】Redisson–基础入门 【Redisson】Redisson–布隆(Bloom Filter)过滤器 【Redisson】Redisson–分布式锁的使用(推荐使用) 【分布式锁】Redisson分布式锁底层原理 【Redisson】Redisson–限流器 布隆过滤器(Bloom Filter)是1970年由布隆提出的。它实际上是一个很长的

    2024年02月05日
    浏览(32)
  • 【C++】位图|布隆过滤器|海量数据处理面试题

    所谓位图,就是用每一位来存放某种状态,适用于海量数据,数据无重复的场景。通常是用来判断某个数据存不存在。 首先我们来看一道题目: 给定40亿个不重复的无符号整数,没有进行排序。现在给一个无符号整形,如何快速判断一个数是否存在这40亿个数中。 现在有三种

    2024年02月13日
    浏览(45)
  • 【数据结构与算法】哈希—— 位图 | 布隆过滤器 | 哈希切割

    🐱作者:一只大喵咪1201 🐱专栏:《数据结构与算法》 🔥格言: 你只管努力,剩下的交给时间! 哈希是一种映射思想,这里再讲解两种应用哈希思想的数据结构。 问题: 给40亿个不重复的无符号整数,没排过序。给一个无符号整数,如何快速判断一个数是否在这40亿个数

    2024年02月02日
    浏览(54)
  • 【C++】海量数据处理面试题(位图和布隆过滤器)

    都是大厂面试题哦~ 文章目录 一.位图面试题     1. 给定 100 亿个整数,设计算法找到只出现一次的整数     2.给两个文件,分别有 100 亿个整数,我们只有 1G 内存,如何找到两个文件交集?     3. 1 个文件有 100 亿个 int , 1G 内存,设计算法找到出现次数不超过 2 次的所有整

    2024年02月07日
    浏览(56)
  • Springboot 在 redis 中使用 Guava 布隆过滤器机制

    在 pom.xml 文件中,引入Spring Boot和Redis相关依赖 创建一个布隆过滤器配置类 BloomFilterConfig : 创建一个BloomFilterController。使用布隆过滤器判断数据是否存在,从而避免缓存穿透: 向里面添加元素  获取元素

    2024年02月12日
    浏览(37)
  • Springboot 在 redis 中使用 BloomFilter 布隆过滤器机制

    在 pom.xml 文件中,引入Spring Boot和Redis相关依赖 创建一个布隆过滤器配置类 BloomFilterConfig : 创建一个BloomFilterController。使用布隆过滤器判断数据是否存在,从而避免缓存穿透: 向里面添加元素  获取元素

    2024年02月13日
    浏览(39)
  • 哈希思想应用【C++】(位图,布隆过滤器,海量数据处理面试题)

       目录 一,位图 1. 位图概念 2.实现 3. 测试题 位图的优缺点 二,布隆过滤器 1). 布隆过滤器提出 2). 概念 3). 布隆过滤器的查找 4). 布隆过滤器删除(了解) 5). 布隆过滤器优点 6). 布隆过滤器缺陷 三,海量数据面试题 1)哈希切割 我们首先由一道面试题来理解位图 给40亿个不

    2024年02月04日
    浏览(44)
  • 【数据结构】盘点那些经典的 [哈希面试题]【哈希切割】【位图应用】【布隆过滤器】(10)

    前言 大家好吖,欢迎来到 YY 滴 数据结构 系列 ,热烈欢迎! 本章主要内容面向接触过C++的老铁 主要内容含: 欢迎订阅 YY 滴C++专栏!更多干货持续更新!以下是传送门! YY的《C++》专栏 YY的《C++11》专栏 YY的《Linux》专栏 YY的《数据结构》专栏 YY的《C语言基础》专栏 YY的《

    2024年02月04日
    浏览(53)
  • 【C++练级之路】【Lv.20】位图和布隆过滤器(揭开大数据背后的神秘面纱)

    快乐的流畅:个人主页 个人专栏:《算法神殿》《数据结构世界》《进击的C++》 远方有一堆篝火,在为久候之人燃烧! 哈希映射 的思想,在实际中有许多运用,之前介绍的 哈希表 是一种经典的应用场景,而今天我们将了解其他的哈希数据结构—— 位图和布隆过滤器 ,它

    2024年04月12日
    浏览(47)
  • 布隆过滤器详解

    本文全部代码地址 布隆过滤器是一种高效的数据结构,用于判断一个元素是否存在于一个集合中.它的主要优点是速度快,空间占用少,因此在需要快速判断某个元素是否在集合中的场合得到广泛引用. 布隆过滤器就是 一个大型的位数组和几个不一样的无偏hash函数. 所谓无偏就是

    2023年04月22日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包