如何在windows7下安装spark_教程

其实，我想说，起初学习Hadoop的一些经验对现在学习和理解spark有了很大的帮助，尤其反反复复几次Hadoop的配置，现在linux基础指令和spark安装，比较顺手了，出错了也知道哪里遗漏了。

肯定第一步是配置spark环境：包括linux系统的安装，java，ssh，Hadoop，Scala，spark的安装与环境变量设置。虽说简单，但对于初学者说，尤其是没有使用过linux系统的，还是有些挑战。其中遗漏一些细节问题，都会出错。

第二步：java学习。会java的可以忽略，不会的建议还是学习下java，虽说可以跳过java直接学习Scala，但是Scala毕竟和java联系密切，教材中也经常拿Scala和Java做比较。掌握Java基础就行，最差就是能看懂吧。。

第三步：Hadoop学习。HDFS，MR计算框架，必须得知道吧。spark也是需要在HDFS上进行数据获取的，学习Hadoop才能知道其不足，明白spark的优势，为什么Hadoop必死。在hdfs的 *** 作指令也必须掌握。能会写MapReduce程序就再好不过了。（我还不会。。。）

第四步：Scala学习。函数式编程，重点明白这个吧。一些trait什么的使用，会java了这些都是小菜，本质一样，表达方式不同而已。所以。再次强调要学习JAVA。对我来说，不需要深入学习Scala编程，只需能看懂，而且会使用Scala *** 作RDD就行。后面的复杂高级编程我没学，以后用到再看。

第五步：就是spark学习。当然，最好学习spark的方式就是看官方文档，读源码，看博客（博客写的都太简单，没有特别深入的），看RDD的论文，作业如何调度，什么什么的。对于英语水平不高，阅读官方文档略困难的童鞋，推荐某研究院的spark官方文档中文翻译，还是很全的。不推荐买国内的书看，想看度娘参考下就行了，所以。英语也得提升啊。

2.1.2　在Windows上安装与配置Spark

本节介绍在Windows系统上安装Spark的过程。在Windows环境下需要安装Cygwin模拟Linux的命令行环境来安装Spark。

（1）安装JDK

相对于Linux、Windows的JDK安装更加自动化，用户可以下载安装Oracle JDK或者OpenJDK。只安装JRE是不够的，用户应该下载整个JDK。

安装过程十分简单，运行二进制可执行文件即可，程序会自动配置环境变量。

（2）安装Cygwin

Cygwin是在Windows平台下模拟Linux环境的一个非常有用的工具，只有通过它才可以在Windows环境下安装Hadoop和Spark。具体安装步骤如下。

1）运行安装程序，选择install from internet。

2）选择网络最好的下载源进行下载。

3）进入Select Packages界面（见图2-2），然后进入Net，选择openssl及openssh。因为之后还是会用到ssh无密钥登录的。

另外应该安装“Editors Category”下面的“vim”。这样就可以在Cygwin上方便地修改配置文件。

最后需要配置环境变量，依次选择“我的电脑”→“属性”→“高级系统设置”→“环境变量”命令，更新环境变量中的path设置，在其后添加Cygwin的bin目录和Cygwin的usr\bin两个目录。

（3）安装sshd并配置免密码登录

1）双击桌面上的Cygwin图标，启动Cygwin，执行ssh-host-config -y命令，出现如图2-3所示的界面。

2）执行后，提示输入密码，否则会退出该配置，此时输入密码和确认密码，按回车键。最后出现Host configuration finished.Have fun!表示安装成功。

3）输入net start sshd，启动服务。或者在系统的服务中找到并启动Cygwin sshd服务。

注意，如果是Windows 8 *** 作系统，启动Cygwin时，需要以管理员身份运行（右击图标，选择以管理员身份运行），否则会因为权限问题，提示“发生系统错误5”。

（4）配置SSH免密码登录

1）执行ssh-keygen命令生成密钥文件，如图2-4所示。

2）执行此命令后，在你的Cygwin\home\用户名路径下面会生成.ssh文件夹，可以通过命令ls -a /home/用户名查看，通过ssh -version命令查看版本。

3）执行完ssh-keygen命令后，再执行下面命令，生成authorized_keys文件。

cd ~/.ssh/

cp id_dsa.pub authorized_keys

这样就配置好了sshd服务。

（5）配置Hadoop

修改和配置相关文件与Linux的配置一致，读者可以参照上文Linux中的配置方式，这里不再赘述。

（6）配置Spark

修改和配置相关文件与Linux的配置一致，读者可以参照上文Linux中的配置方式，这里不再赘述。

（7）运行Spark

1）Spark的启动与关闭

①在Spark根目录启动Spark。

./sbin/start-all.sh

②关闭Spark。

./sbin/stop-all.sh

2）Hadoop的启动与关闭

①在Hadoop根目录启动Hadoop。

./sbin/start-all.sh

②关闭Hadoop。

./sbin/stop-all.sh

3）检测是否安装成功

正常状态下会出现如下内容。

-bash-4.1# jps

23526 Jps

2127 Master

7396 NameNode

7594 SecondaryNameNode

7681 ResourceManager

1053 DataNode

31935 NodeManager

1405 Worker

如缺少进程请到logs文件夹下查看相应日志，针对具体问题进行解决。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/8069164.html

如何在windows7下安装spark

发表评论

评论列表（0条）