搭建大数据体系?
1.日增数据量有多少? 300g
2.数据存储周期? 半年/1年
3.购置物理服务器、云主机 小公司/创业公司/不是靠大数据赚钱 云主机
4.项目周期? 小项目1~2个月,大项目3~6个月不等
5.团队人数? 离线 1~2个,实时 看需求
6.首批指标 20个
7.平台架构 支持流批一体的 kappa 架构,大多数 lambda 架构
服务器选型:
物理机
内存 128G
CPU 20核 40线程
硬盘 8THDD 2TSSD
品牌 DELL HP IBM
报价 4w+
寿命 5年
云主机
内存 128G
CPU 20核 40线程
硬盘 8THDD 2TSSD
品牌 阿里云
报价 5w
数据量
1. 用户数据 点击流日志
日活 100w, 80条/人天 80*100w=8000W
1.1 数据量
80 000 000 * 1kb /1024 / 1024 = 76G
1.2 数据仓库存储
ODS层采用 SNappy/Zlib 压缩, 8.5G
DWD层采用 Parquet/Orc + SNappy 存储,8G
DWS层采用拉宽、轻度聚合 42G
ADS层数据量 面向应用数据 几百兆~1G
保存三个副本
(8.5 + 8 + 42 + 1)*3 = 178.5G
数据存储6个月的预留容量
178.5 * 180天 = 31.4T
预留20% ~ 25%的缓冲大小 31.4T/0.75 = 42T
2. kafka 保存的数据
76G/天 * 2副本 = 150G
生产环境一般存储3天的数据
150G * 3 = 450G
预留出25%存储大小
450G / 0.75 = 600G
3. 业务数据库数据
12w / 天 * 1kb = 120M
数据仓库 :120M * 3 = 360M
三副本 : 360M * 3 = 1.1G
半年存储 : 1.1G * 180天 = 200G
预留 25% 缓冲存储 = 200G / 0.75 = 266G
集群总规模
42T + 600G + 266G = 43T
服务器台数 43T / 8T = 5台服务器
部署环境:
分为三套环境:
开发测试环境
2~3 周,基准测试、压力测试
生产环境
2~4 周搞定
组织架构人员配置
开发组长:1名
离线:2~3 名
测试人员:1 名
指标开发时长:
常见指标:PV UV 用户留存 订单量统计
每个指标:1 ~ 1.5天
实时指标:1 ~ 2 天
活动促销指标: 1 ~ 7天
分析指标(潜在用户,用户喜好): 2 ~ 14天
二周一个版本,部署上线
日常版本(功能优化和调优)
1. 系统 bug
7天~ 14天 人员 1~3
2. 业务指标 bug
紧急:1天内
不紧急: 1 ~ 3天
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)