大数据 学习笔记1

大数据 学习笔记1,第1张

数据 学习笔记1 路线
  1. hadoop 高效计算
  2. spark 内存级引擎 数据挖掘与机器学习利器
  3. flink 大数据计算引擎
特点
  1. 大量 TB
  2. 快速
  3. 低价值密度 提纯
  4. 多样 结构化、非结构化
hadoop

分布式系统基础架构

解决

海量数据存储
海量数据分析计算

优势
  1. 高可靠性 维护多个副本
  2. 高扩展性 动态扩展节点
  3. 高效性 并行工作
  4. 高容错性 将失败的任务重新分配

Hadoop Distributed file System HDFS 分布式文件系统

解决海量数据存储问题,适合一次写入多次多出的场景

组成
  1. nameNode(nn)存储文件的元数据
  2. dataNode 本地文件系统系统文件块数据
  3. Secondary NameNode 每隔一段时间对nameNode元数据备份,分担nameNode工作量如:定期合并Fsimage和Edits
  4. mapReduce 计算 分为map reduce ,map阶段并行输入数据,reduce对map结果汇总
  5. client 文件切分、与NameNode交互、与DataNode交互、管理HDFS
HDFS文件块大小block

配置dfs.block控制大小 默认128M。
寻址时间为纯属时间的1%为最佳状态

读写流程 写数据

读数据流程

nameNode工作机制

Fsimage 和Edits

Fsimage文件:一个永久性的检查点

checkPoint时间机制 掉线时限参数设置 网络拓扑 节点距离

节点距离:两个节点到达共同祖先的距离和

机架感知

副本节点的选择

mapReduce 序列化 输入数据 inputFormat Shuffle OutFormat Join ETL 压缩

p68

扩展

GFS-》HDFS
Map-Reduce->MR
BigTable->Hbase

欢迎分享,转载请注明来源:内存溢出

原文地址: http://outofmemory.cn/zaji/5636134.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存