Sqoop数据接入的经验分享和思考

Sqoop数据接入的经验分享和思考,第1张

Sqoop数据接入的经验分享和思考

文章目录
  • 前言
  • 一、Sqoop增量接入
  • 二、Sqoop全量接入
  • 总结


前言

当我们将关系型数据库数据接入到集群时,一般会考虑选择增量接入还是全量接入,这两种接入方式会影响数据源在数仓ods层结构。


一、Sqoop增量接入

增量接入一般可以根据数据更新时间字段或者主键id来筛选数据库表新增的数据,只将部分数据接入到集群,对于历史数据则直接一次性接入放在第一个分区(ini数据初始化分区)。
这种方式更加节省资源,但需要仔细确认好数据源的更新规则,避免出现数据缺漏的情况。

二、Sqoop全量接入

全量接入是直接将数据库的数据全部接入到集群,相当于复制粘贴。
这种方式简单易 *** 作,但当表数据量巨大,或者每天只更新少量数据的情况下,这样会造成很大的资源浪费。


总结

当数据库表数据量很大,每天更新的数据占比很少时,推荐使用增量接入。
需要注意的是,如果数据库表增删改查不规范,用户系统不确定性太强,用户 *** 作可以引发直接删除表数据且没有删除标记时,使用增量接入会比较麻烦,容易产生已删除数据仍存在历史分区中的情况。
Sqoop接入参考:Hadoop学习&实战笔记

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5688283.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存