3.6.8 Calculating Visits Per Day
首先要说明以下几个函数
bit_count:
就是计算二进制里有多少个1
10的二进制是1010
bit_count(10) = 2
100的二进制是1100100
bit_count(123) = 3
bit_or:
按位或,就是如果两边一个位置上存在1,那这个位置就为1
拿上面10和100举例
10 | 100 转换为二进制就是 1010|1100100
1010
1100100
1101110
1<<day:
向左位移,向左位移几位,然后用0填补
比如day=2
1<<2 = 100
day=4
1<<4 = 10000
回到主题,现在要计算出图中每天的访问量,可以看到day列中是存在重复记录的,所以要去除,一般思路应该会写出以下SQL:
这个的确可以得到正确值,但是官方参考文档里使用了更巧妙的算法
为了演示,现在将day设定为1,2,2,3好了,那就等于
bit_or(1<<1, 1<<2, 1<<2, 1<<3)
10 | 100 | 100 | 1000 =>110 | 100 | 1000 =>110 | 1000 =>1110
当110 | 100的时候,相同的值就不会发生变化,所以最后bit_count的结果就为3
插入2w条数据后,看下执行计划,第一种SQL执行两遍全表扫描
为了明确看到查询性能,我们启用profiling并关闭query cache:
MySQL 原生并不支持 bitmap 类型,所以就只能存字符串,然后就根据你的 bitmap 长度以及转换方式来选择是用什么类型来存储,处理的过程在代码层面完成。
我简单说下我们做同样的事情的做法,不一定是好方法,可以一起探讨。
首先,我们 *** 作数据库的语言是 PHP。使用的是 ASCII 表里的 0 ~ 127位的字符,所以每一个字符可以存 8bits,然后用一个 char(125) 来存 bitmap 的一个片段,每个片段可以存 1000bits。
通过 PHP 计算某一位在那一个片段的第几位,例如 2345,就在第三个片段的第345位(从1开始的话),然后通过 PHP 进行更新。当然,也可以直接用 SQL 更新,SQL 语句写起来比较麻烦,我写了半天才写出来:
unhex( conv( bin( conv( hex( STR1 ), 16, 10 ) | conv( hex( STR2 ), 16, 10 ) ), 2, 16 ) )不过我们用 MySQL 存储也就是为了确保数据的安全性,大部分的查询 *** 作都在 redis 里面完成,redis 原生支持 bitmap 用起来又高效又方便。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)