0-1搭建大数据体系

0-1搭建大数据体系,第1张

0-1搭建大数据体系

搭建大数据体系?

    1.日增数据量有多少?      300g
    2.数据存储周期?          半年/1年
    3.购置物理服务器、云主机   小公司/创业公司/不是靠大数据赚钱 云主机
    4.项目周期?              小项目1~2个月,大项目3~6个月不等
    5.团队人数?              离线 1~2个,实时 看需求
    6.首批指标                20个
    7.平台架构                支持流批一体的 kappa 架构,大多数 lambda 架构

服务器选型:
    物理机
        内存  128G
        CPU     20核 40线程
        硬盘    8THDD 2TSSD
        品牌    DELL HP IBM
        报价    4w+
        寿命    5年
    云主机
        内存    128G
        CPU     20核  40线程
        硬盘    8THDD 2TSSD
        品牌    阿里云
        报价    5w

数据量
    1. 用户数据 点击流日志
        日活 100w, 80条/人天 80*100w=8000W
    1.1 数据量
        80 000 000 * 1kb /1024 / 1024 = 76G
    1.2 数据仓库存储
        ODS层采用 SNappy/Zlib 压缩, 8.5G
        DWD层采用 Parquet/Orc + SNappy 存储,8G
        DWS层采用拉宽、轻度聚合 42G
        ADS层数据量 面向应用数据 几百兆~1G 

        保存三个副本
        (8.5 + 8 + 42 + 1)*3 = 178.5G
        数据存储6个月的预留容量
        178.5 * 180天 = 31.4T

        预留20% ~ 25%的缓冲大小     31.4T/0.75 = 42T
    2. kafka 保存的数据
            76G/天 * 2副本 = 150G
        生产环境一般存储3天的数据
            150G * 3 = 450G
        预留出25%存储大小
            450G / 0.75 = 600G

    3. 业务数据库数据
        12w / 天 * 1kb = 120M
        数据仓库 :120M * 3 = 360M
        三副本 : 360M   * 3 = 1.1G
        半年存储 : 1.1G * 180天 = 200G
        预留 25% 缓冲存储 = 200G / 0.75 = 266G
    
    集群总规模
    42T + 600G + 266G = 43T

    服务器台数  43T / 8T = 5台服务器

部署环境:
    分为三套环境:
    开发测试环境
    2~3 周,基准测试、压力测试
    生产环境
    2~4 周搞定


组织架构人员配置
    开发组长:1名
    离线:2~3 名
    测试人员:1 名

指标开发时长:
    常见指标:PV UV 用户留存 订单量统计
    每个指标:1 ~ 1.5天
    实时指标:1 ~ 2 天
    活动促销指标: 1 ~ 7天
    分析指标(潜在用户,用户喜好): 2 ~ 14天
    二周一个版本,部署上线

日常版本(功能优化和调优)
    1. 系统 bug
    7天~ 14天  人员 1~3
    2. 业务指标 bug 
    紧急:1天内
    不紧急: 1 ~ 3天

欢迎分享,转载请注明来源:内存溢出

原文地址: https://outofmemory.cn/zaji/5710650.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-17
下一篇 2022-12-17

发表评论

登录后才能评论

评论列表(0条)

保存