怎样最好的在win7的环境下学习spark 知乎_教程

其实，我想说，起初学习Hadoop的一些经验对现在学习和理解spark有了很大的帮助，尤其反反复复几次Hadoop的配置，现在linux基础指令和spark安装，比较顺手了，出错了也知道哪里遗漏了。

肯定第一步是配置spark环境：包括linux系统的安装，java，ssh，Hadoop，Scala，spark的安装与环境变量设置。虽说简单，但对于初学者说，尤其是没有使用过linux系统的，还是有些挑战。其中遗漏一些细节问题，都会出错。

第二步：java学习。会java的可以忽略，不会的建议还是学习下java，虽说可以跳过java直接学习Scala，但是Scala毕竟和java联系密切，教材中也经常拿Scala和Java做比较。掌握Java基础就行，最差就是能看懂吧。。

第三步：Hadoop学习。HDFS，MR计算框架，必须得知道吧。spark也是需要在HDFS上进行数据获取的，学习Hadoop才能知道其不足，明白spark的优势，为什么Hadoop必死。在hdfs的 *** 作指令也必须掌握。能会写MapReduce程序就再好不过了。（我还不会。。。）

第四步：Scala学习。函数式编程，重点明白这个吧。一些trait什么的使用，会java了这些都是小菜，本质一样，表达方式不同而已。所以。再次强调要学习JAVA。对我来说，不需要深入学习Scala编程，只需能看懂，而且会使用Scala *** 作RDD就行。后面的复杂高级编程我没学，以后用到再看。

第五步：就是spark学习。当然，最好学习spark的方式就是看官方文档，读源码，看博客（博客写的都太简单，没有特别深入的），看RDD的论文，作业如何调度，什么什么的。对于英语水平不高，阅读官方文档略困难的童鞋，推荐某研究院的spark官方文档中文翻译，还是很全的。不推荐买国内的书看，想看度娘参考下就行了，所以。英语也得提升啊。

1、下载spark解压到D盘，现在的版本是1.2.1

2、下载scala安装到d:\ProgramFiles(x86)\scala\

安装好scala后需要配置环境变量

修改path这个变量，把Scala的bin目录也放进去D:\ProgramFiles(x86)\scala\bin（现在版本的scala会自动修改系统的环境变量，提示的时候选择不阻止）测试是否配置成功，在命令行中输入scala-version！

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/tougao/7849604.html

怎样最好的在win7的环境下学习spark 知乎

发表评论

评论列表（0条）