使用 Redis 统计网站 UV 的方法-Toy模板网

这篇具有很好参考价值的文章主要介绍了使用 Redis 统计网站 UV 的方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

使用 Redis 统计网站 UV 的方法(概率算法)

文章目录

- 前言
- 思路
- HyperLogLog
- - 使用 Redis 命令操作
  - 使用 Java 代码操作
- HyperLogLog 实现原理及特点
- 使用 Java 实现 HyperLogLog
- 小结

前言

网站 UV 就是指网站的独立用户访问量Unique Visitor，即相同用户的多次访问需要去重。

思路

提到 UV 去重，猜大家都会想到Set集合类。

使用Set集合是一个不错的办法，Set里面存储用户的id。每一个用户访问页面的时候，我们直接把id存入Set，最终获取Set的size即可。问题就是Set的容量需要设置多大呢？如果应用是分布式的，是否需要合并操作？第一个问题其实可以通过计算来估计，如果用户量上亿的话，存储空间也是需要非常大的；第二个问题其实可以通过 Redis、DB 等存储，如 Redis 的Set结构，DB 的唯一键。
我们上面提到的 DB 也是一种解决方案，不过写入量很大时，数据库压力会比较大。用户如果很多，则row也相应的多，且可能需要对每天的数据进行分表。在用户访问量小的情况下，可以采用该处理方式。

上面两种方式虽然可以实现统计网站 UV 的功能，但是一个比较占用内存，一个比较占用数据库资源。那我们该如何规避这两个问题呢？在这里，我们就介绍另外一种实现方法，即使用 Redis 里面的HyperLogLog结构，且仅占用12k的空间。

HyperLogLog

HyperLogLog的使用比较简单，实现略复杂。我们先看一下如何利用HyperLogLog来进行页面 UV 的统计。

使用 Redis 命令操作

# 添加元素
127.0.0.1:6379> pfadd user zhangsan lisi wangwu
# 添加成功返回1，添加失败返回0
(integer) 1
# 统计数量
127.0.0.1:6379> pfcount user
# 返回现在数量
(integer) 3
# 再生成一个pfkey
127.0.0.1:6379> pfadd user2 zhangsan2 lisi2 wangwu
(integer) 1
127.0.0.1:6379> pfcount user2
(integer) 3
# pfmerge会将后面pfkey中的值合并到前面的pfkey中
127.0.0.1:6379> pfmerge user2 user
OK
# 查看merge后的user2
127.0.0.1:6379> pfcount user2
(integer) 5

使用 Java 代码操作

import org.springframework.data.redis.core.HyperLogLogOperations;
import org.springframework.data.redis.core.RedisTemplate;
import org.springframework.stereotype.Service;
import javax.annotation.Resource;
@Service
public class RedisService {
    @Resource
    private RedisTemplate < String, String > redisTemplate;
    /*** 记录用户访问** @param user*/
    public long statistic(String Key, String user) {
          HyperLogLogOperations<String,String>hyperLogLog=redisTemplate.opsForHyperLogLog();
            return hyperLogLog.add(Key, user);
        }
        /*** 统计当前 UV** @return*/
    public long size(String Key) {
          HyperLogLogOperations<String,String>hyperLogLog=redisTemplate.opsForHyperLogLog();
            return hyperLogLog.size(Key);
        }
        /*** 删除当前 key*/
    public void clear(String Key) {
        HyperLogLogOperations < String,String>hyperLogLog=redisTemplate.opsForHyperLogLog();
        hyperLogLog.delete(Key);
    }
}

HyperLogLog 实现原理及特点

原理：其实这是个概率问题。举个 Java 的例子，我们每次将一个字符串放入HyperLogLog，其实是把字符串转换成了一个值，可以把它当成hash值，将这个值转换成 2 进制，从后向前看第一个 1 出现的位置。那么 1 出现在第三个位置的时候（xxxx x100），概率是多少呢？(1/2)^3=1/8，也就是大概有八个数字进到这个数据结构时，第一个 1 曾出现在第三个的位置的可能会比较大，所以我们只需要维护一个 1 出现位置的最大值（暂且称之为max position），我们就可以知道整个HyperLogLog数量是多少了。
去重：我们上面讲到hash值，其实整个算法就是将一个固定的value固定的映射成一个数字就可以解决重复的问题了。如zhangsan对应8，那么max position=4，再来一个zhangsan，还是对应8，则max position不变。
特点：因为是概率问题，总会出现不准确的情况，所以你在使用HyperLogLog时，可以将user数量设置大一些，如 100W。但是其结果，有可能你看到的是不到 100W，也有可能计算出来的 UV 还比 100W 大。

使用 Java 实现 HyperLogLog

public class HyperLogLogSelf {
    static class BitKeeper {
        private int maxBits;

        public void random() {// 这里的随机数可以当成一个对象的hashCode。
            // long value = new Object().hashCode() ^ (2 << 32);
            long value = ThreadLocalRandom.current().nextLong(2L << 32);
            int bits = lowZeros(value);
            if (bits > this.maxBits) {
                this.maxBits = bits;
            }
        }

        /*** 低位有多少个连续0* 思路上 ≈ 倒数第一个1的位置** @param value* @return*/
        private int lowZeros(long value) {
            int i = 1;
            for (; i < 32; i++) {
                if (value >> i << i != value) {
                    break;
                }
            }
            return i - 1;
        }
    }

    static class Experiment {
        private int n;
        private BitKeeper keeper;

        public Experiment(int n) {
            this.n = n;
            this.keeper = new BitKeeper();
        }

        public void work() {
            for (int i = 0; i < n; i++) {
                this.keeper.random();
            }
        }

        public void debug() {
            double v = Math.log(this.n) / Math.log(2);
            System.out.printf("%d %.2f %d\n", this.n, v, this.keeper.maxBits);
        }
    }

    public static void main(String[] args) {
        for (int i = 10000; i < 1000000; i += 10000) {
            Experiment exp = new Experiment(i);
            exp.work();
            exp.debug();
        }
    }
}

如上述代码所示，如果只有一个BitKeeper，那么精度很难控制，BitKeeper越多，则越精确，所以 Redis 在设置HyperLogLog的时候，设置了16384个桶，也就是2^14，每个桶的maxbits需要 6 个bit来存储，最大可以表示maxbits=63，于是总共占用内存就是2^14 * 6 / 8 = 12k字节。