思维特点(
数据量大
类型繁多
价值密度低
处理速度快
)
HDFS技术原理
存储
查询
处理
采集
分布式文件系统 (多个袋子装)
拆分数据 分到不同结点存储
client DataNode多实例部暑
NameNode单实例部署 不允许出现多个
主备进行部署(解决单点故障) 集群运行时只有主在工作 备什么也不做
NameNode选举 一主一备
当集群运行 向ZooKeeper 写自己的信息 谁先写完谁主
主备倒换:主实时的Zookeeper之间进行心跳 当一段时间没有心跳 将备提升为主
主备之间进行数据同步的条件
1 .每做一个 *** 作写一个 *** 作 edltlog.new文件
当文件到64M 就会将文件传到JN 上 备NameNode 到JN下载
2 .当时间间隔达到一小时
edltlog.new 日志文件 记录所做过的 *** 作
fsimage快照文件 当前文件系统的状态
当两个条件都不满足 没有同步时 会进行慢慢恢复
访问入口 切分 client
把数据写到硬盘 DataNode(数据结点) DataNode写元数据
一共12T 两个只能存储10T |
切分 数据会被切分成多个128mb的数据块|-----最小化磁盘寻址时间
记录数据存储位置 和 块之间的关系 每个数据块都会产生一个150K的元数据 用来记录
|
由DataNode管理
NameNode如果想知道元数据 由DataNode汇报
数据在存储的时候会进行备份 默认备份3份
ZooKeeper为什么有三个 互相进行投票
存活条件 是半数以上的结点存活时 集群才能正常使用 3个存活两个
四个存活三个 都容灾一个
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)