搭建Hadoop集群，一个月6T的数量需要几台服务器？_服务器

最好是两个做成HA。

6T的数据容量,看你副本数量设置是多少,一般默认为3,那么仅这些就需要18T硬盘,稍微大一点20T吧;这仅仅是HDFS存储，(这里我说的是一个月的,你数据保存几个月,就乘几倍)。

如果你集群上面要跑计算,MR计算出来的数据要保存HDFS的,所以,还是要根据你的结果数据来做判断,大小就看你计算任务了。

一般是这样计算硬盘大小：

(原始数据+中间数据+结果数据)副本数量=总硬盘大小

简单说，分布式是以缩短单个任务的执行时间来提升效率的，而集群则是通过提高单位时间内执行的任务数来提升效率。
例如：
如果一个任务由10个子任务组成，每个子任务单独执行需1小时，则在一台服务器上执行改任务需10小时。
采用分布式方案，提供10台服务器，每台服务器只负责处理一个子任务，不考虑子任务间的依赖关系，执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Reduce分布式计算模型）
而采用集群方案，同样提供10台服务器，每台服务器都能独立处理这个任务。假设有10个任务同时到达，10个服务器将同时工作，10小后，10个任务同时完成，这样，整身来看，还是1小时内完成一个任务！
以下是摘抄自网络文章：
一、集群概念
1 两大关键特性
集群是一组协同工作的服务实体，用以提供比单一服务实体更具扩展性与可用性的服务平台。在客户端看来，一个集群就象是一个服务实体，但事实上集群由一组服务实体组成。与单一服务实体相比较，集群提供了以下两个关键特性：
· 可扩展性－－集群的性能不限于单一的服务实体，新的服务实体可以动态地加入到集群，从而增强集群的性能。
· 高可用性－－集群通过服务实体冗余使客户端免于轻易遇到out of service的警告。在集群中，同样的服务可以由多个服务实体提供。如果一个服务实体失败了，另一个服务实体会接管失败的服务实体。集群提供的从一个出错的服务实体恢复到另一个服务实体的功能增强了应用的可用性。
2 两大能力
为了具有可扩展性和高可用性特点，集群的必须具备以下两大能力：
· 负载均衡－－负载均衡能把任务比较均衡地分布到集群环境下的计算和网络资源。
· 错误恢复－－由于某种原因，执行某个任务的资源出现故障，另一服务实体中执行同一任务的资源接着完成任务。这种由于一个实体中的资源不能工作，另一个实体中的资源透明的继续完成任务的过程叫错误恢复。
负载均衡和错误恢复都要求各服务实体中有执行同一任务的资源存在，而且对于同一任务的各个资源来说，执行任务所需的信息视图（信息上下文）必须是一样的。
3 两大技术
实现集群务必要有以下两大技术：
· 集群地址－－集群由多个服务实体组成，集群客户端通过访问集群的集群地址获取集群内部各服务实体的功能。具有单一集群地址（也叫单一影像）是集群的一个基本特征。维护集群地址的设置被称为负载均衡器。负载均衡器内部负责管理各个服务实体的加入和退出，外部负责集群地址向内部服务实体地址的转换。有的负载均衡器实现真正的负载均衡算法，有的只支持任务的转换。只实现任务转换的负载均衡器适用于支持ACTIVE-STANDBY的集群环境，在那里，集群中只有一个服务实体工作，当正在工作的服务实体发生故障时，负载均衡器把后来的任务转向另外一个服务实体。
· 内部通信－－为了能协同工作、实现负载均衡和错误恢复，集群各实体间必须时常通信，比如负载均衡器对服务实体心跳测试信息、服务实体间任务执行上下文信息的通信。
具有同一个集群地址使得客户端能访问集群提供的计算服务，一个集群地址下隐藏了各个服务实体的内部地址，使得客户要求的计算服务能在各个服务实体之间分布。内部通信是集群能正常运转的基础，它使得集群具有均衡负载和错误恢复的能力。
二、集群分类
Linux集群主要分成三大类(高可用集群，负载均衡集群，科学计算集群)
高可用集群(High Availability Cluster)
负载均衡集群(Load Balance Cluster)
科学计算集群(High Performance Computing Cluster)
具体包括：
Linux High Availability 高可用集群
(普通两节点双机热备，多节点HA集群，RAC, shared, share-nothing集群等)
Linux Load Balance 负载均衡集群
(LVS等)
Linux High Performance Computing 高性能科学计算集群
(Beowulf 类集群)
三、详细介绍
1 高可用集群(High Availability Cluster)
常见的就是2个节点做成的HA集群，有很多通俗的不科学的名称，比如"双机热备"，"双机互备"，"双机"。
高可用集群解决的是保障用户的应用程序持续对外提供服务的能力。 (请注意高可用集群既不是用来保护业务数据的，保护的是用户的业务程序对外不间断提供服务，把因软件/硬件/人为造成的故障对业务的影响降低到最小程度)。
2 负载均衡集群(Load Balance Cluster)
负载均衡系统：集群中所有的节点都处于活动状态，它们分摊系统的工作负载。一般Web服务器集群、数据库集群和应用服务器集群都属于这种类型。
负载均衡集群一般用于相应网络请求的网页服务器，数据库服务器。这种集群可以在接到请求时，检查接受请求较少，不繁忙的服务器，并把请求转到这些服务器上。从检查其他服务器状态这一点上看，负载均衡和容错集群很接近，不同之处是数量上更多。
3 科学计算集群(High Performance Computing Cluster)
高性能计算(High Perfermance Computing)集群，简称HPC集群。这类集群致力于提供单个计算机所不能提供的强大的计算能力。
31 高性能计算分类　
311 高吞吐计算(High-throughput Computing)
有一类高性能计算，可以把它分成若干可以并行的子任务，而且各个子任务彼此间没有什么关联。象在家搜寻外星人（ SETI@HOME -- Search for Extraterrestrial Intelligence at Home ）就是这一类型应用。这一项目是利用Internet上的闲置的计算资源来搜寻外星人。SETI项目的服务器将一组数据和数据模式发给Internet上参加SETI的计算节点，计算节点在给定的数据上用给定的模式进行搜索，然后将搜索的结果发给服务器。服务器负责将从各个计算节点返回的数据汇集成完整的数据。因为这种类型应用的一个共同特征是在海量数据上搜索某些模式，所以把这类计算称为高吞吐计算。所谓的Internet计算都属于这一类。按照 Flynn的分类，高吞吐计算属于SIMD（Single Instruction/Multiple Data）的范畴。
312 分布计算(Distributed Computing)
另一类计算刚好和高吞吐计算相反，它们虽然可以给分成若干并行的子任务，但是子任务间联系很紧密，需要大量的数据交换。按照Flynn的分类，分布式的高性能计算属于MIMD（Multiple Instruction/Multiple Data）的范畴。
四、分布式（集群）与集群的联系与区别
分布式是指将不同的业务分布在不同的地方；而集群指的是将几台服务器集中在一起，实现同一业务。
分布式中的每一个节点，都可以做集群。而集群并不一定就是分布式的。
举例：就比如新浪网，访问的人多了，他可以做一个群集，前面放一个响应服务器，后面几台服务器完成同一业务，如果有业务访问的时候，响应服务器看哪台服务器的负载不是很重，就将给哪一台去完成。
而分布式，从窄意上理解，也跟集群差不多，但是它的组织比较松散，不像集群，有一个组织性，一台服务器垮了，其它的服务器可以顶上来。
分布式的每一个节点，都完成不同的业务，一个节点垮了，那这个业务就不可访问了。

面试题-关于大数据量的分布式处理
题目：生产系统每天会产生一个日志文件F，数据量在5000W行的级别。文件F保存了两列数据，一列是来源渠道，一列是来源渠道上的用户标识。文件F用来记录当日各渠道上的所有访问用户，每访问一次，记录一条。
请问如何快速计算出各渠道上新增的用户？
问题分析：首先本次面试的是有关于分布式数据处理以及数据分析的职位，所以相关的面试题目可能会偏向于使用分布式的思想去解决。但无奈本人当时反应太慢，实在没向分布式处理方向思考。
方案一：
本题最直观的一个处理方法就是，直接拿着当日新增的5000W条访问记录一条一条的去匹配历史访问用户。若存在历史访问记录，则忽略；若不存在访问记录，则保存为新增记录。很明显，假若历史访问用户有2亿条记录，则需要和2亿条数据比较5000W次。比较次数可想而知。
由于本人一直在做基于数据库的数据处理工作，很容易就想到将历史数据保存在数据库的一张表中，并对来源渠道和用户标识这两个字段建立索引，然后遍历日志文件F（5000W次）。根据日志文件F中的每一行去匹配数据库中的历史访问记录。由于历史数据表有索引，单次查询的速度也非常快。但是需要5000W次的数据库查询，很明显效率低下。
方案二：
既然多次单一查询无法满足要求，于是可以先通过一种数据导入技术将当日新增数据导入到数据库的另一张表中，并和历史数据做左外关联。若能关联成功，则表示此用户已存在；若关联失败，则表示此用户不存在。
此方案暂且不说5000W条记录的大表与2亿条记录的大表关联效率有多高以及使用到的数据库缓冲区的资源有多少，单就5000W条访问记录导入数据库表，都是一个不小的时间花费。
方案三：
很明显，面试时方案二的回答并未达到面试官的预期，最初被遗憾的PASS掉。一家很有潜力，自己很看好的公司，并计划做为自己未来发展方向的职位，就这样丢下我，扬长而去了。
这几天又看了下分布式相关的介绍，突然想到这道题。一下子醒悟过来，其实还是因为对题目要考察的点分析得不够透彻。当时以为只是仅仅考数据处理效率的一个题目，其实考的是一种将复杂问题拆分为简单问题的拆分思想。了解到这一层，一种新的方式立马在脑海中浮现出来。具体如下：
假如现在有N（N>=2）个存储块，并存在一个函数f（来源渠道，用户标识），对于给定的一组（来源渠道，用户标识），总能将其分发到一个固定的存储块内。那么可以使用此函数将5000W行访问记录尽量均匀的分发至N个存储块上，并同时使用此函数将历史访问记录也分发至这些存储块上。由于相同的一组记录，肯定会被分配至同一个存储块，所以比较时，只需要分别比较各个存储块上当日新增记录与历史访问用户，然后将N个存储块上比较的结果汇总，即可得到最终结果。
假设历史访问用户数据已通过函数f（来源渠道，用户标识）被分发至了N个历史文件H1、H2、…、HN。则详细处理步骤如下：
1、将F中的内容使用函数f（来源渠道，用户标识），分发至文件F1、F2、…、FN内。（可开M（M>=2）个并行，且若N-M越大，同时向同一文件写入数据的概率越小）
2、将文件F1、F2、…、FN内的访问记录去重。（可开N个并行分别处理对应的N个文件）。
3、将文件Fn（1=<n<=N）去重后的结果与对应的历史文件Hn比较得出新增用户结果Rn。（可开N个并行分别处理对应的N个文件且当N足够大时，实际要处理数据的量级就会相当小）。
4、合并第3步得到的结果R1、R2、…、RN即可得到当日新增用户。（可并行）
5、为使历史数据文件H1、H2、…、HN中的数据最全，将结果R1、R2、…、RN分别写入对应的历史文件中。（可并行）
本方案主要有以下优点：
1、数据的分发、处理、合并都可并行处理，明显提高了处理效率。
2、由于每个存储块上的新增数据，只需要与它对应存储块上的历史数据比较即可，大大减少了比较次数。（对于当日每一条记录来说，都只需要与大约历史的N分之一条数据去比较）
3、基本不需要考虑历史全量数据的保存及获取问题。
本方案缺点：
1、处理方案明显变的复杂许多，不仅需要处理数据的分发，处理，还需要一个并行的快速收集方法。
2、可能需要多台服务器并行处理。
本方案难点：
1、一个稳定（对于相同的一组来源渠道和用户标识，必定会被分发至同一存储块）、快速（根据一条来源渠道和用户标识数据，可以快速的计算出它将要被分发至的存储块）、均匀（当日新增数据及历史数据都能尽量均匀的被分发至N个存储块，最理想的情况是每个存储块上分发到的数据都是总数据的N分之一）的分发函数至关重要。
2、如何分发、并行处理及汇总数据。

一、主从服务器

1、两台服务器。主服务器Master复制数据的更新、插入、删除等 *** 作；从服务器Slave负责查询（读写分离，减缓服务器压力）

2、主服务器更新数据的同时更新从服务器的数据（数据备份）

3、当主服务器出现文件时，可用从服务器代替主服务器，保证网站的正常运行，同时检测主服务器存在的问题。注意：从服务器仍然只有查询功能，如银行系统更新时只能查询余额，不能存取款。（服务器可用性）

4、当把从服务器真正设置为主服务器时（即主从服务器设置调换），拥有更新数据的功能。

5、MyISAM不支持事务，但查询性能比InnoDB强；InnoDB支持事务，更新 *** 作性能比MyISAM强。因此，主服务器可以设置成MyISAM存储引擎，从服务器可以设置成InnoDB存储引擎（灵活设置存储引擎）

二、负载均衡

1、多台服务器。一个域名映射到多台服务器IP。

2、用户发出请求，提交到负载均衡服务器，由负载均衡服务器发送请求到不同的服务器。

3、负载均衡服务器选取服务器方法（负载均衡算法）：

1、轮询：每台服务器轮换

2、加权轮询：为了应对某些服务器性能好，可以让他们的权重高一点，被选中的几率大一些。

3、最少连接：哪台服务器处理的连接少，就发给哪台服务器。

4、随机

4、存在的问题：客户端存在缓存，如果服务器出现故障，客户端报错。

5、分类：DNS负载均衡、>

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/13387739.html

搭建Hadoop集群，一个月6T的数量需要几台服务器？

发表评论

评论列表（0条）