肯定第一步是配置spark环境:包括linux系统的安装,java,ssh,Hadoop,Scala,spark的安装与环境变量设置。虽说简单,但对于初学者说,尤其是没有使用过linux系统的,还是有些挑战。其中遗漏一些细节问题,都会出错。
第二步:java学习。会java的可以忽略,不会的建议还是学习下java,虽说可以跳过java直接学习Scala,但是Scala毕竟和java联系密切,教材中也经常拿Scala和Java做比较。掌握Java基础就行,最差就是能看懂吧。。
第三步:Hadoop学习。HDFS,MR计算框架,必须得知道吧。spark也是需要在HDFS上进行数据获取的,学习Hadoop才能知道其不足,明白spark的优势,为什么Hadoop必死。在hdfs的 *** 作指令也必须掌握。能会写MapReduce程序就再好不过了。(我还不会。。。)
第四步:Scala学习。函数式编程,重点明白这个吧。一些trait什么的使用,会java了这些都是小菜,本质一样,表达方式不同而已。所以。再次强调要学习JAVA。对我来说,不需要深入学习Scala编程,只需能看懂,而且会使用Scala *** 作RDD就行。后面的复杂高级编程我没学,以后用到再看。
第五步:就是spark学习。当然,最好学习spark的方式就是看官方文档,读源码,看博客(博客写的都太简单,没有特别深入的),看RDD的论文,作业如何调度,什么什么的。对于英语水平不高,阅读官方文档略困难的童鞋,推荐某研究院的spark官方文档中文翻译,还是很全的。不推荐买国内的书看,想看度娘参考下就行了,所以。英语也得提升啊。
2.1.2 在Windows上安装与配置Spark本节介绍在Windows系统上安装Spark的过程。在Windows环境下需要安装Cygwin模拟Linux的命令行环境来安装Spark。
(1)安装JDK
相对于Linux、Windows的JDK安装更加自动化,用户可以下载安装Oracle JDK或者OpenJDK。只安装JRE是不够的,用户应该下载整个JDK。
安装过程十分简单,运行二进制可执行文件即可,程序会自动配置环境变量。
(2)安装Cygwin
Cygwin是在Windows平台下模拟Linux环境的一个非常有用的工具,只有通过它才可以在Windows环境下安装Hadoop和Spark。具体安装步骤如下。
1)运行安装程序,选择install from internet。
2)选择网络最好的下载源进行下载。
3)进入Select Packages界面(见图2-2),然后进入Net,选择openssl及openssh。因为之后还是会用到ssh无密钥登录的。
另外应该安装“Editors Category”下面的“vim”。这样就可以在Cygwin上方便地修改配置文件。
最后需要配置环境变量,依次选择“我的电脑”→“属性”→“高级系统设置”→“环境变量”命令,更新环境变量中的path设置,在其后添加Cygwin的bin目录和Cygwin的usr\bin两个目录。
(3)安装sshd并配置免密码登录
1)双击桌面上的Cygwin图标,启动Cygwin,执行ssh-host-config -y命令,出现如图2-3所示的界面。
2)执行后,提示输入密码,否则会退出该配置,此时输入密码和确认密码,按回车键。最后出现Host configuration finished.Have fun!表示安装成功。
3)输入net start sshd,启动服务。或者在系统的服务中找到并启动Cygwin sshd服务。
注意,如果是Windows 8 *** 作系统,启动Cygwin时,需要以管理员身份运行(右击图标,选择以管理员身份运行),否则会因为权限问题,提示“发生系统错误5”。
(4)配置SSH免密码登录
1)执行ssh-keygen命令生成密钥文件,如图2-4所示。
2)执行此命令后,在你的Cygwin\home\用户名路径下面会生成.ssh文件夹,可以通过命令ls -a /home/用户名 查看,通过ssh -version命令查看版本。
3)执行完ssh-keygen命令后,再执行下面命令,生成authorized_keys文件。
cd ~/.ssh/
cp id_dsa.pub authorized_keys
这样就配置好了sshd服务。
(5)配置Hadoop
修改和配置相关文件与Linux的配置一致,读者可以参照上文Linux中的配置方式,这里不再赘述。
(6)配置Spark
修改和配置相关文件与Linux的配置一致,读者可以参照上文Linux中的配置方式,这里不再赘述。
(7)运行Spark
1)Spark的启动与关闭
①在Spark根目录启动Spark。
./sbin/start-all.sh
②关闭Spark。
./sbin/stop-all.sh
2)Hadoop的启动与关闭
①在Hadoop根目录启动Hadoop。
./sbin/start-all.sh
②关闭Hadoop。
./sbin/stop-all.sh
3)检测是否安装成功
正常状态下会出现如下内容。
-bash-4.1# jps
23526 Jps
2127 Master
7396 NameNode
7594 SecondaryNameNode
7681 ResourceManager
1053 DataNode
31935 NodeManager
1405 Worker
如缺少进程请到logs文件夹下查看相应日志,针对具体问题进行解决。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)