正常MySQL底层存储索引默认使用的是B+树,但是如果设立了分区表的情况下,他的底层是如何进行存储的呢?
查看MySQL对应的自己电脑上面的安装目录下,是有一个ibd文件,用innblock和bcview两个小工具,(github上可以搜到),便可以实现对ibd文件的查看,通过对比着没有设立分区的表的ibd文件,就可以看出来
分区表会将索引分成分区个个数的索引树来存储索引,也就是分开存储。
对底层表的封装,意味着索引也是按照分区的子表定义的,而没有全局索引。(所以即使有唯一性索引,在不同子表中可能会有重复数据)
单表数据量超大时索引失效
将单表分区成数个区域,通过分区函数,可以快速地定位到数据的区域。而且相比于索引,分区不需要额外的数据结构记录每个分区的数据,代价更低。只需要一个简单的表达式就可以指向正确的分区
可以只是用简单的分区方式存放表,不要任何索引,只要将查询定位到需要的大致数据位置,通过where条件,将需要的数据限制在少数分区中,则效率是很高的。WARNNING:查询需要扫描的分区个数限制在一个很小的数量。
如果数据有明显的“热点”,可以将热点数据单独放在一个分区,让这个分区的数据能够有机会都缓存在内存中。
如果分区表达式的值可以是NULL:第一个分区会使一个特殊分区。以partition by range year(order_date)为例,所有在order_date列为NULL或者非法值的数据都会被放到第一个分区。那么所有的查询在定位分区后都会增加扫描第一个分区。而且如果第一个分区很大的时候,查询的成本会被这个“拖油瓶”分区无情的增加。
创建一个无用的第一分区可以解决这个问题,partition p_nulls values less than (0)
对于分区列和索引列不匹配的查询,虽然查询能够使用索引,但是无法通过分区定位到目标数据的分区(也就是数据分布相对更加分散),需要遍历每个分区内的索引,除非查询中的条件同时也包含分区条件。所以期望分区条件范围被热门查询索引所包含。
对于 范围分区 技术,需要适当限制分区的数量,否则对于大量数据批量导入的场景,选择分区的成本过高。对于大多数系统,100个左右的分区是没有问题的。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)