【大数据学习-hadoop1】大数据如何处理

【大数据学习-hadoop1】大数据如何处理,第1张

【大数据学习-hadoop1】大数据如何处理

文章目录

1. 大数据启蒙

1.1 意义

1.1.1 查找元素1.1.2 单机处理大数据问题 1.2 历史1.3 hadoop

1. 大数据启蒙

学习视频
大数据多,复杂度很重要,

内存不够,分治处理IO仍成为瓶颈,多机器并行多机器间通信也可以并行,但仍是个问题

分发上传,累计计算的话,多台同时跑+通信也比一台快

总结(大数据的重点)

分而治之并行计算计算向数据移动:数据移动化成本高数据本地化读取 1.1 意义 1.1.1 查找元素

1w个元素中查找X?
线性查找:O(N)
想要O(4)呢?hash

1.1.2 单机处理大数据问题

    大文本,仅两行一样,想要找出。
    单机,内存小(几十兆)

    2. 如果文件中全是数字,做排序呢?
    桶排序:外部有序,内部无序
    先分到不同桶里,再给桶内排序

    归并:一次读50M排序,第二次在读50M对这个50M排序–外部无序,内部无序

    单机IO瓶颈,所以多机器并行

    多台机器并行 *** 作,处理速度快,但不同机器间网络通信?

    1.2 历史

    Hadoop
    NDFS(一开始的文件系统)
    hadoop.apache.org:顶级项目

    1.3 hadoop

    hadoop项目包含:
    1.x:
    hadoop common
    hdfs(hadoop distributed file system
    hadoop mapreduce
    2.x:
    新增yarn:job管理、资源分配

    其他相关项目(生态圈):
    Hbase:
    Hive:sql、数仓
    Spark:用内存,更快,是hadoop的十倍
    Zookeeper:协调服务


    网站:www.cloudera.com
    ducumentation:选择版本
    目前企业版本:5.16.X–可靠,hadoop2.6
    原来:batch批量计算
    flink/spark:全栈的

    flink:阿里用的多:流式计算,来一个搞一个/5min跑一次

    可以实时 spark:伪实时

    欢迎分享,转载请注明来源:内存溢出

    原文地址: http://outofmemory.cn/zaji/5716064.html

    (0)
    打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
    上一篇 2022-12-17
    下一篇 2022-12-17

    发表评论

    登录后才能评论

    评论列表(0条)

    保存