- hadoop 高效计算
- spark 内存级引擎 数据挖掘与机器学习利器
- flink 大数据计算引擎
- 大量 TB
- 快速
- 低价值密度 提纯
- 多样 结构化、非结构化
分布式系统基础架构
解决海量数据存储
海量数据分析计算
- 高可靠性 维护多个副本
- 高扩展性 动态扩展节点
- 高效性 并行工作
- 高容错性 将失败的任务重新分配
解决海量数据存储问题,适合一次写入多次多出的场景
组成- nameNode(nn)存储文件的元数据
- dataNode 本地文件系统系统文件块数据
- Secondary NameNode 每隔一段时间对nameNode元数据备份,分担nameNode工作量如:定期合并Fsimage和Edits
- mapReduce 计算 分为map reduce ,map阶段并行输入数据,reduce对map结果汇总
- client 文件切分、与NameNode交互、与DataNode交互、管理HDFS
配置dfs.block控制大小 默认128M。
寻址时间为纯属时间的1%为最佳状态
Fsimage文件:一个永久性的检查点
checkPoint时间机制 掉线时限参数设置 网络拓扑 节点距离节点距离:两个节点到达共同祖先的距离和
副本节点的选择
mapReduce 序列化 输入数据 inputFormat Shuffle OutFormat Join ETL 压缩p68
扩展GFS-》HDFS
Map-Reduce->MR
BigTable->Hbase
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)