前置采集服务器跟大数据平台集群服务器是一个东西吗_服务器

前置采集服务器跟大数据平台集群服务器是一个东西。项目前置服务器其实就是数据采集服务器，因为核心业务服务器承担对外提供服务和计算的作用，数据采集来之后比较多比较快，IO会吃不住，而造成服务器死机或者网络堵塞，因此诞生了这么个东西，配置足够强大，内存很大，多核CPU，或者多网口接入，这个前置服务器不要。

1 云计算经历了这样一个过程

v10 --- 以计算为核心，kvm，hyper-v，xen， vmware exi，提高资源利用率

v20 --- 以资源为核心，openstack，vmware， aws，基础设施云化，资源服务标准化、自动化

v30 --- 以应用为核心，Docker，CoreOS，Cloud Foundry，应用云化，敏捷应用开发与生命周期管理

2 云计算类型：

---IaaS - 基础设施

---PaaS - 平台

---SaaS - 软件
3云计算关键技术：

---虚拟化

---分布式存储

---数据中心联网

---体系结构：用户界面，服务目录，管理系统，部署工具，监控，服务器集群

4云计算部署：

---存储云

---医疗云

---教育云

---交流云

---金融云

5虚拟化

云计算：一种服务

虚拟化：一种计算机资源管理技术，将各种IT实体资源抽象、转换成另一种形式的技术都是虚拟化

1）虚拟化类型

---寄居虚拟化， virtualbox， vmvare workstation

---裸金属虚拟化， VMware ESX， Xen， FusionSphere，虚拟化层内核需要开发

---混合虚拟化， KVM

2）虚拟化层架构：

---全虚拟化， kvm

---半虚拟化，Xen

---硬件辅助虚拟化

容器：实现APP与 *** 作系统的解耦

6计算虚拟化

---CPU虚拟化

------cpu QoS：份额、预留、限额

------NUMA

---内存虚拟化

------全虚拟化，影子页表技术：每个VM维护一个页表，记录虚拟内存到物理内存的映射，由VMM提交给MMU进行转换，VM不需要改变。但是这种方式是固定好的区域分配给虚拟机的

-------半虚拟化，页表写入法：每个VM创建一个页表并向虚拟化层注册，VM运行过程中不断管理、维护该页表

-------硬件辅助虚拟化， Intel的EPT, AMD的NPT

-------内存复用：内存气泡、内存共享、内存交换

---IO虚拟化

------全虚拟化，性能不高

------由Hypervisor提供接口，需要修改内核

------硬件辅助虚拟化，IO直通技术，SR-IOV 单根IO虚拟化

------IO环，用来提升大块多队列类型的IO密集型业务的IO性能

---策略

------虚拟机HA

------DRS，动态资源调度

------DPM，分布式电源管理，低负载是迁移到一个主机，节能

------IMC，集成存储控制器，在不同类型CPU类型主机之间切换

7存储虚拟化

把多个存储介质通过一定技术将它们集中起来，组成一个存储池，并进行统一管理。这种将多种、多个存储设备统一管理起来，为用户提供大容量、高数据传输性能的存储系统，称为虚拟存储。

作用：

-----提高硬件资源使用效率，异构的管理

-----简化系统管理

-----增强云存储平台的可靠性
存储资源：

---DAS

---NAS

---SAN

存储设备：

---本地磁盘

---LUN

---Storage存储池

---NAS共享目录

数据存储

---表示虚拟化平台中科管理的存储逻辑单元，承载虚拟机业务，创建磁盘

存储模式：

---非虚拟化存储

---虚拟化存储

---裸设备映射

虚拟化实现方法：

---基于主机的存储虚拟化，单主机访问多存储， das, san

---基于存储设备的虚拟化，多主机访问同一磁盘阵列, SAN

---基于网络的存储虚拟化，多对多，异构整合

存储虚拟化功能：

---精简磁盘和空间回收

---快照

------ROW写时重定向，原磁盘+差分卷共同挂载，读时读原元磁盘，写时写差分卷（个人觉得这里有问题）

------COW写时拷贝，写时写元磁盘（元磁盘已经更新过了），读时同时同时读原磁盘和差分卷

------WA随机写

------快照链

------链接克隆

虚拟机磁盘文件迁移

8 网络虚拟化

目的：

---节省物理主机的网卡资源，并且可以提供应用的虚拟网络所需要的L2-L7层网络服务

---网络虚拟化软件提供逻辑上的交换机和路由器（L2-L3），逻辑负载均衡器，逻辑防火墙（L4-L7）等，且可以以任何形式进行组装，为虚拟机提供一个完整的L2-L7层的虚拟网络拓扑。

特点：

---与物理层解耦合

---网络服务抽象化

---网络按需自动化

---多租户网络安全隔离

网卡虚拟化：

---软件网卡虚拟化

---硬件网卡虚拟化，SR-IOV

虚拟化化软件交换机

---OVS，Open vSwitch

---虚拟机之间的通信

---虚拟机和外界网络的通信

网络虚拟化：

---链路虚拟化：虚链路聚合，二层虚拟化

-------VPC，Virtual Port Channel，虚链路聚合

-------隧道协议， GRE，通用路由封装；IPsec，internet协议安全

---虚拟网络，由虚拟链路组成的网络

------层叠网络（虚拟二层延伸网络）

-----------Overlay Network, 在现有网络基础上搭建另外一种网络

-----------允许对没有IP地址标识的目的主机路由信息虚拟扩展局域网，大二层的虚拟网络技术

-----------vxlan，

------

简单说，分布式是以缩短单个任务的执行时间来提升效率的，而集群则是通过提高单位时间内执行的任务数来提升效率。
例如：
如果一个任务由10个子任务组成，每个子任务单独执行需1小时，则在一台服务器上执行改任务需10小时。
采用分布式方案，提供10台服务器，每台服务器只负责处理一个子任务，不考虑子任务间的依赖关系，执行完这个任务只需一个小时。(这种工作模式的一个典型代表就是Hadoop的Map/Reduce分布式计算模型）
而采用集群方案，同样提供10台服务器，每台服务器都能独立处理这个任务。假设有10个任务同时到达，10个服务器将同时工作，10小后，10个任务同时完成，这样，整身来看，还是1小时内完成一个任务！
以下是摘抄自网络文章：
一、集群概念
1 两大关键特性
集群是一组协同工作的服务实体，用以提供比单一服务实体更具扩展性与可用性的服务平台。在客户端看来，一个集群就象是一个服务实体，但事实上集群由一组服务实体组成。与单一服务实体相比较，集群提供了以下两个关键特性：
· 可扩展性－－集群的性能不限于单一的服务实体，新的服务实体可以动态地加入到集群，从而增强集群的性能。
· 高可用性－－集群通过服务实体冗余使客户端免于轻易遇到out of service的警告。在集群中，同样的服务可以由多个服务实体提供。如果一个服务实体失败了，另一个服务实体会接管失败的服务实体。集群提供的从一个出错的服务实体恢复到另一个服务实体的功能增强了应用的可用性。
2 两大能力
为了具有可扩展性和高可用性特点，集群的必须具备以下两大能力：
· 负载均衡－－负载均衡能把任务比较均衡地分布到集群环境下的计算和网络资源。
· 错误恢复－－由于某种原因，执行某个任务的资源出现故障，另一服务实体中执行同一任务的资源接着完成任务。这种由于一个实体中的资源不能工作，另一个实体中的资源透明的继续完成任务的过程叫错误恢复。
负载均衡和错误恢复都要求各服务实体中有执行同一任务的资源存在，而且对于同一任务的各个资源来说，执行任务所需的信息视图（信息上下文）必须是一样的。
3 两大技术
实现集群务必要有以下两大技术：
· 集群地址－－集群由多个服务实体组成，集群客户端通过访问集群的集群地址获取集群内部各服务实体的功能。具有单一集群地址（也叫单一影像）是集群的一个基本特征。维护集群地址的设置被称为负载均衡器。负载均衡器内部负责管理各个服务实体的加入和退出，外部负责集群地址向内部服务实体地址的转换。有的负载均衡器实现真正的负载均衡算法，有的只支持任务的转换。只实现任务转换的负载均衡器适用于支持ACTIVE-STANDBY的集群环境，在那里，集群中只有一个服务实体工作，当正在工作的服务实体发生故障时，负载均衡器把后来的任务转向另外一个服务实体。
· 内部通信－－为了能协同工作、实现负载均衡和错误恢复，集群各实体间必须时常通信，比如负载均衡器对服务实体心跳测试信息、服务实体间任务执行上下文信息的通信。
具有同一个集群地址使得客户端能访问集群提供的计算服务，一个集群地址下隐藏了各个服务实体的内部地址，使得客户要求的计算服务能在各个服务实体之间分布。内部通信是集群能正常运转的基础，它使得集群具有均衡负载和错误恢复的能力。
二、集群分类
Linux集群主要分成三大类(高可用集群，负载均衡集群，科学计算集群)
高可用集群(High Availability Cluster)
负载均衡集群(Load Balance Cluster)
科学计算集群(High Performance Computing Cluster)
具体包括：
Linux High Availability 高可用集群
(普通两节点双机热备，多节点HA集群，RAC, shared, share-nothing集群等)
Linux Load Balance 负载均衡集群
(LVS等)
Linux High Performance Computing 高性能科学计算集群
(Beowulf 类集群)
三、详细介绍
1 高可用集群(High Availability Cluster)
常见的就是2个节点做成的HA集群，有很多通俗的不科学的名称，比如"双机热备"，"双机互备"，"双机"。
高可用集群解决的是保障用户的应用程序持续对外提供服务的能力。 (请注意高可用集群既不是用来保护业务数据的，保护的是用户的业务程序对外不间断提供服务，把因软件/硬件/人为造成的故障对业务的影响降低到最小程度)。
2 负载均衡集群(Load Balance Cluster)
负载均衡系统：集群中所有的节点都处于活动状态，它们分摊系统的工作负载。一般Web服务器集群、数据库集群和应用服务器集群都属于这种类型。
负载均衡集群一般用于相应网络请求的网页服务器，数据库服务器。这种集群可以在接到请求时，检查接受请求较少，不繁忙的服务器，并把请求转到这些服务器上。从检查其他服务器状态这一点上看，负载均衡和容错集群很接近，不同之处是数量上更多。
3 科学计算集群(High Performance Computing Cluster)
高性能计算(High Perfermance Computing)集群，简称HPC集群。这类集群致力于提供单个计算机所不能提供的强大的计算能力。
31 高性能计算分类　
311 高吞吐计算(High-throughput Computing)
有一类高性能计算，可以把它分成若干可以并行的子任务，而且各个子任务彼此间没有什么关联。象在家搜寻外星人（ SETI@HOME -- Search for Extraterrestrial Intelligence at Home ）就是这一类型应用。这一项目是利用Internet上的闲置的计算资源来搜寻外星人。SETI项目的服务器将一组数据和数据模式发给Internet上参加SETI的计算节点，计算节点在给定的数据上用给定的模式进行搜索，然后将搜索的结果发给服务器。服务器负责将从各个计算节点返回的数据汇集成完整的数据。因为这种类型应用的一个共同特征是在海量数据上搜索某些模式，所以把这类计算称为高吞吐计算。所谓的Internet计算都属于这一类。按照 Flynn的分类，高吞吐计算属于SIMD（Single Instruction/Multiple Data）的范畴。
312 分布计算(Distributed Computing)
另一类计算刚好和高吞吐计算相反，它们虽然可以给分成若干并行的子任务，但是子任务间联系很紧密，需要大量的数据交换。按照Flynn的分类，分布式的高性能计算属于MIMD（Multiple Instruction/Multiple Data）的范畴。
四、分布式（集群）与集群的联系与区别
分布式是指将不同的业务分布在不同的地方；而集群指的是将几台服务器集中在一起，实现同一业务。
分布式中的每一个节点，都可以做集群。而集群并不一定就是分布式的。
举例：就比如新浪网，访问的人多了，他可以做一个群集，前面放一个响应服务器，后面几台服务器完成同一业务，如果有业务访问的时候，响应服务器看哪台服务器的负载不是很重，就将给哪一台去完成。
而分布式，从窄意上理解，也跟集群差不多，但是它的组织比较松散，不像集群，有一个组织性，一台服务器垮了，其它的服务器可以顶上来。
分布式的每一个节点，都完成不同的业务，一个节点垮了，那这个业务就不可访问了。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/13514904.html

前置采集服务器跟大数据平台集群服务器是一个东西吗

发表评论

评论列表（0条）