hbase时间范围分页查询优化实践_随笔

hbase时间范围分页查询优化实践

生产情况

生产情况介绍

汽车故障码明细数据量大（PB级），明细数据存储在hbase中，早期产品的需求主要是根据查询某车某天的故障情况，所以rowkey的设计规则是：tuid+日期+控制器+故障码编号+时间戳，这样，相安无事。现在需求是，查指定TUID的某段时间的明细数据，时间跨度不超过7天，查询条件精确到秒，接口返回时间不超过1秒。

方案设计

初始方案是，由于无法保障数据在同一个resion中，所以不能用Hbase原生的PageFilter进行过滤scan,考虑构建FilterList, 采用startRow和endRow方式过滤，scan出起始时间当天到截止时间当天的所有的数据，再进行过滤即可，但是该方案有个非常耗时的 *** 作，不是扫描，是扫描后数据的提取

scan.setFilter(filterList);
List list = new ArrayList<>();
ResultScanner scanner = tableInterface.getScanner(scan);
for (Result r : scanner) {
                list.add(r.getRow());
}

优化方案

抛弃新建Arrraylist对象然后数据搬运的耗时 *** 作，原地对scanner进行转换list *** 作,并进行过滤出需要的时间段的数据

final List filteredList = StreamSupport.stream(
                        resultScanner.spliterator(), Boolean.FALSE)
                        .filter(a -> a.listCells().get(0).getTimestamp() >=beginTimeL && a.listCells().get(0).getTimestamp()<= endTimeL)
                        .collect(Collectors.toList());

根据分页请求，封装pageResponse的分页信息，根据startpage和pagesize找到对应的数据，对pageResponse进行setList，返回给前端，即可，接口响应时间少于1秒。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zaji/5711430.html

hbase时间范围分页查询优化实践

发表评论

评论列表（0条）