两台服务器手动部署大数据平台_服务器

spark和hadoop的区别：诞生的先后顺序、计算不同、平台不同。
诞生的先后顺序，hadoop属于第一代开源大数据处理平台，而spark属于第二代。属于下一代的spark肯定在综合评价上要优于第一代的hadoop。
计算不同spark和hadoop在分布式计算的底层思路上，其实是极为相似的，即mapreduce分布式运算模型：将运算分成两个阶段，阶段1-map，负责从上游拉取数据后各自运算，然后将运算结果shuffle给下游的reduce，reduce再各自对通过shuffle读取来的数据进行聚合运算spark和hadoop在分布式计算的具体实现上，又有区别；hadoop中的mapreduce运算框架，一个运算job，进行一次map-reduce的过程；而spark的一个job中，可以将多个map-reduce过程级联进行。
平台不同spark和hadoop区别是，spark是一个运算平台，而hadoop是一个复合平台（包含运算引擎，还包含分布式文件存储系统，还包含分布式运算的资源调度系统），所以，spark跟hadoop来比较的话，主要是比运算这一块大数据技术发展到目前这个阶段，hadoop主要是它的运算部分日渐式微，而spark目前如日中天，相关技术需求量大，offer好拿。

您好，代号spark服务器维护中的意思是，服务器正在进行维护和更新，以提升服务器的性能和稳定性。维护期间，服务器将暂时关闭，以便进行必要的维护和更新。维护期间，用户将无法访问服务器，但是维护完成后，服务器将恢复正常，性能和稳定性也将得到提升。因此，维护期间的关闭是为了更好地为用户提供更优质的服务。

本文主要介绍服务器的概念、常见的服务器技术和架构组成，此外将详细介绍磁盘、RAID知识，网卡概念、分类和主流厂商和产品，内容大致分为3部分。

第1章、服务器通用基础知识

简单来说，服务器就是在网络中为其他客户机提供服务的计算机；具有高性能、高可靠、高IO数据传输能力等特点，企业从基础的邮件、打印到核心应用如ERP、数据库等业务，再到我们所熟悉的互联网业务，创新大数据服务、天气预报HPC高性能计算等都离不开大规模服务器的支持。

服务器主要由CPU、内存、硬盘、模组、RAID卡组成，配合电源、主板、机箱等基础硬件组成。

CISC ：主要是两家，包括IntelCPU（非安腾系列）、AMD CPU。

RISC： 服务器领域主要是IBM Power系列、Sun Spark系列，消费级的代表是ARM架构的CPU。

2017年7月，Intel正式发布了代号为Purley的新一代服务器平台，包括代号为Skylake的新一代Xeon CPU，命名为英特尔至强可扩展处理器(Intel Xeon Scalable Processor，SP)，也宣告了延续4代的至强E5/E7系列命名方式的终结。

Xeon至强可扩展处理器不再以E7、E5的方式来划分定位，而代之以铂金(Platinum)、金(Gold)、银(Silver)、铜(Bronze)的方式。Skylake是新命名方式的第一代产品，Cascade Lake是是二代，共用Purley平台。

大型机 ：普通人很少接触，用于大规模计算的计算机系统大型机通常用于政府、银行、交通、保险公司和大型制造企业。特点是处理数据能力强大、稳定性和安全性又非常高

小型机 ：往往应用于金融、电力、电信等行业，这些用户看重的是Unix *** 作系统和专用服务器RAS特性、纵向扩展性和高并发访问下的出色处理能力。这些特性是普通的X86服务器很难达到的，所以在数据库等关键应用一般都采用“高大贵”的小型机方案。

x86服务器 ：采用CISC架构处理器。1978年6月8日，Intel发布了一款新型的微处理器8086，意味着x86架构的诞生，而x86作为特定微处理器执行计算机语言的指令集，定义了芯片的基本使用规则。

ARM服务器 ：ARM全称为Advanced RISC Machine，即进阶精简指令集机器。ARM是RISC微处理器的代表作之一，最大的特点在于节能。

C/S是Client/Server的缩写，服务器通常采用高性能的PC、工作站或小型机，并采用大型数据库系统，如Oracle、Sybase、Informix或 SQLServer，客户端需要安装专用的客户端软件。

B/S是Browser/Server的缩写，客户机只要安装浏览器(Browser)，如Netscape Navigator或Internet Explorer，服务器安装Oracle、Sybase、Informix或 SQLServer等数据库。在这种结构下，用户界面完全通过浏览器实现，一部分事务逻辑在前端实现，但是主要事务逻辑在服务器端实现。浏览器通过Web Server 同数据库进行数据交互。

网卡在TCP/IP的模型中，工作在物理层和数据链路层，用来接收和发送数据。除了数据的收发，网卡还有一些其他功能：

1、代表固定的地址： 数据发送出去，发给谁，又从哪里接收。这都是通过IP区分的

2、数据的封装、解封： 比如寄一封信，信封里的信纸是data，信封是帧头和帧尾。

3、链路管理 ：因为以太网是共享链路的，在使用时候可能会有其他人也在发送数据。如果同时发送，就会产生冲突，这就要求在发送的时候，检测链路的状态是否空闲；

4、数据的编码和译码 ：在物理介质中，传送的是电平或光信号。这时就需要将二进制数据转换成电平信号或光信号。

5、发送和接收数据

我们再来说说网卡的分类。随着计算机网络技术的飞速发展，为了满足各种环境和层次的应用，出现了不同类型的网卡。

总线分类 ：PCIe、USB、ISA、PCI，ISA/PCI等总线是比较早期的网络总线，现在已很少用了，USB接口的网卡主要用在消费级电子中。

结构形态：集成网卡（LOM）、PCIe标卡网卡、Mezz卡。

应用类型 ：按网卡所应用的的计算机类型来区分，可以将网卡分为应用于工作站的网卡和应用于服务器的网卡。

电口，PC上常见到的那种网口接口，这种接口叫RJ45，使用的是普通的网线

光口，用于连接光模块，网卡上用于插光模块的接口，我们叫光笼子。

光模块按封装形式，可以分为SFP+、SFP28、QSFP+，其中SFP+和SFP28在结构外观上是一致的，可以相互兼容，只是SFP28支持的速率更高，可以达到25G，而SFP+一般只到10G。QSFP+在外观形态上与SFP+差异很大，两者不兼容。QSFP+应用在40G以上速率上。

DAC线缆是直连铜缆，这种铜缆的模块头是和线缆一体的，不需要再配置光模块。电缆的衰减大，一般只有1m，3m，5m长度的，但价格便宜，是短距离传输的最佳解决方案。

AOC叫做有源光缆，一根AOC线缆相当于两个光模块+光纤，也是一体的，这种线缆数据传输可靠性高，但价格贵。

网易在Spark多租户方面的工作，这个项目叫做Kyuubi(该项目的开源地址： >通过前面的介绍我们知道，Spark的客户端（Driver）有两种：Spark Submit和Spark Shell。这两种客户端相同点都是维护一个Spark Context对象，来向Spark集群提交任务；不同点是Spark Submit只能提交任务，不能交互，而Spark Shell是一个命令行工具，即可以提交任务，还可以人机交互。本节先来介绍Spark Submit客户端的使用。

例子：使用蒙特卡罗方法计算圆周率。

如图所示，蒙特卡罗方法求圆周率，使用的是概率的思想：往正方形区域随机撒点，总点数记为P2，落在单位圆区域内的点数记为P1，单位圆的面积为π，正方形的面子为4，π = P1 / P2 4。这里的P1和P2均由随机实验中得到，实验的次数（P2）越多，得到的结果就越精确。

Spark提供的测试用例$SPARK_HOME/examples/jars/spark-examples_211-210jar中就有蒙特卡罗求圆周率的例子SparkPI，我们就使用它来介绍Spark Submit的使用。

(1)如果配置了基于Zookeeper的Spark HA，需要先启动Zookeeper服务器

(2)启动Spark集群

使用Spark Submit的命令格式如下：

(1)提交SparkPI任务，随机实验次数为100：

(2)提交SparkPI任务，随机实验次数为1000：

(3)提交SparkPI任务，随机实验次数为10000：

可以看到上面三次实验的结果分别是：

一般对于随机实验来说，试验次数越多结果越精确。但是不免存在误差。如果想要获取更精确的圆周率，你可以输入更多的次数进行测试。但这不是本文介绍的重点。

至此，使用Spark Submit客户端提交Spark任务的方法已经介绍完毕，祝你玩的愉快！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/zz/12731450.html

两台服务器手动部署大数据平台

发表评论

评论列表（0条）