- 前言
- 一、Sqoop增量接入
- 二、Sqoop全量接入
- 总结
前言
当我们将关系型数据库数据接入到集群时,一般会考虑选择增量接入还是全量接入,这两种接入方式会影响数据源在数仓ods层结构。
一、Sqoop增量接入
增量接入一般可以根据数据更新时间字段或者主键id来筛选数据库表新增的数据,只将部分数据接入到集群,对于历史数据则直接一次性接入放在第一个分区(ini数据初始化分区)。
这种方式更加节省资源,但需要仔细确认好数据源的更新规则,避免出现数据缺漏的情况。
全量接入是直接将数据库的数据全部接入到集群,相当于复制粘贴。
这种方式简单易 *** 作,但当表数据量巨大,或者每天只更新少量数据的情况下,这样会造成很大的资源浪费。
总结
当数据库表数据量很大,每天更新的数据占比很少时,推荐使用增量接入。
需要注意的是,如果数据库表增删改查不规范,用户系统不确定性太强,用户 *** 作可以引发直接删除表数据且没有删除标记时,使用增量接入会比较麻烦,容易产生已删除数据仍存在历史分区中的情况。
Sqoop接入参考:Hadoop学习&实战笔记
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)